OpenAI introduziu uma versão beta pública da API Realtime, uma API que permite que desenvolvedores pagos criem experiências multimodais de baixa latência, incluindo texto e fala em aplicativos.
Introduzida em 1º de outubro, a API Realtime, semelhante ao OpenAI ChatGPT Advanced Voice Mode, oferece suporte a conversas naturais de fala para fala usando vozes predefinidas que a API já suporta. A OpenAI também está introduzindo entrada e saída de áudio na API Chat Completions para oferecer suporte a casos de uso que não precisam dos benefícios de baixa latência da API Realtime. Os desenvolvedores podem passar entradas de texto ou áudio para o GPT-4o e fazer com que o modelo responda com texto, áudio ou ambos.
Com a API Realtime e o suporte de áudio na API Chat Completions, os desenvolvedores não precisam vincular vários modelos para potencializar experiências de voz. Eles podem construir experiências de conversação naturais com apenas uma chamada de API, disse OpenAI. Anteriormente, a criação de uma experiência de voz semelhante fazia com que os desenvolvedores transcrevessem um modelo de reconhecimento automático de fala, como o Whisper, passando texto para um modelo de texto para inferência ou raciocínio e reproduzindo a saída do modelo usando um modelo de conversão de texto em fala. Essa abordagem muitas vezes resultava em perda de emoção, ênfase e sotaque, além de latência.