GPT-4o API em tempo real para fala e áudio (Pré-visualização)
Nota
Esta funcionalidade está atualmente em pré-visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não a recomendamos para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.
A API em tempo real do Azure OpenAI GPT-4o para fala e áudio faz parte da família de modelos GPT-4o que oferece suporte a interações conversacionais de baixa latência, "speech in, speech out". A API de áudio realtime
GPT-4o foi projetada para lidar com interações conversacionais em tempo real e de baixa latência, tornando-se uma ótima opção para casos de uso envolvendo interações ao vivo entre um usuário e um modelo, como agentes de suporte ao cliente, assistentes de voz e tradutores em tempo real.
A maioria dos usuários da API em tempo real precisa entregar e receber áudio de um usuário final em tempo real, incluindo aplicativos que usam WebRTC ou um sistema de telefonia. A API em tempo real não foi projetada para se conectar diretamente aos dispositivos do usuário final e depende de integrações de cliente para encerrar fluxos de áudio do usuário final.
Modelos suportados
Atualmente apenas gpt-4o-realtime-preview
versão: 2024-10-01-preview
suporta áudio em tempo real.
O gpt-4o-realtime-preview
modelo está disponível para implantações globais nas regiões Leste dos EUA 2 e Suécia Central.
Importante
O sistema armazena seus prompts e conclusões conforme descrito na seção "Uso e acesso de dados para monitoramento de abuso" dos Termos de Produto específicos do serviço para o Serviço OpenAI do Azure, exceto que a Exceção Limitada não se aplica. O monitoramento de abuso será ativado para uso da API, gpt-4o-realtime-preview
mesmo para clientes que, de outra forma, são aprovados para monitoramento de abuso modificado.
Suporte de API
O suporte para a API em tempo real foi adicionado pela primeira vez na versão 2024-10-01-preview
da API.
Nota
Para obter mais informações sobre a API e a arquitetura, consulte o repositório de áudio em tempo real do Azure OpenAI GPT-4o no GitHub.
Pré-requisitos
- Uma assinatura do Azure - Crie uma gratuitamente.
- Um recurso OpenAI do Azure criado em uma região com suporte. Para obter mais informações, consulte Criar um recurso e implantar um modelo com o Azure OpenAI.
Implante um modelo para áudio em tempo real
Antes de poder usar o áudio em tempo real GPT-4o, você precisa de uma implantação do gpt-4o-realtime-preview
modelo em uma região suportada, conforme descrito na seção de modelos suportados.
- Vá para a home page do AI Foundry e verifique se você está conectado com a assinatura do Azure que tem seu recurso do Serviço OpenAI do Azure (com ou sem implantações de modelo).
- Selecione o playground de áudio em tempo real em Playground de recursos no painel esquerdo.
- Selecione + Criar uma implantação para abrir a janela de implantação.
- Procure e selecione o
gpt-4o-realtime-preview
modelo e, em seguida, selecione Confirmar. - No assistente de implantação, certifique-se de selecionar a versão do
2024-10-01
modelo. - Siga o assistente para implantar o modelo.
Agora que você tem uma implantação do gpt-4o-realtime-preview
modelo, você pode interagir com ele em tempo real no portal AI Foundry Real-time audio playground ou Realtime API.
Use o áudio GPT-4o em tempo real
Gorjeta
No momento, a maneira mais rápida de começar o desenvolvimento com a API GPT-4o Realtime é baixar o código de exemplo do repositório de áudio em tempo real do Azure OpenAI GPT-4o no GitHub.
Para conversar com seu modelo implantado gpt-4o-realtime-preview
no playground de áudio em tempo real do Azure AI Foundry, siga estas etapas:
a página do Serviço OpenAI do Azure no portal do AI Foundry. Certifique-se de que tem sessão iniciada com a subscrição do Azure que tem o seu recurso do Serviço OpenAI do Azure e o modelo implementado
gpt-4o-realtime-preview
.Selecione o playground de áudio em tempo real em Playground de recursos no painel esquerdo.
Selecione seu modelo implantado
gpt-4o-realtime-preview
na lista suspensa Implantação .Selecione Ativar microfone para permitir que o navegador acesse seu microfone. Se já tiver concedido permissão, pode ignorar este passo.
Opcionalmente, você pode editar o conteúdo na caixa de texto Dar instruções e contexto ao modelo. Dê instruções ao modelo sobre como ele deve se comportar e qualquer contexto que ele deve referenciar ao gerar uma resposta. Pode descrever a personalidade do assistente, dizer-lhe o que deve ou não responder e indicar-lhe como formatar as respostas.
Opcionalmente, altere configurações como limite, preenchimento de prefixo e duração do silêncio.
Selecione Começar a ouvir para iniciar a sessão. Você pode falar no microfone para iniciar um bate-papo.
Você pode interromper o bate-papo a qualquer momento falando. Você pode encerrar o bate-papo selecionando o botão Parar de ouvir .
O exemplo da Web JavaScript demonstra como usar a API GPT-4o Realtime para interagir com o modelo em tempo real. O código de exemplo inclui uma interface web simples que captura o áudio do microfone do usuário e o envia para o modelo para processamento. O modelo responde com texto e áudio, que o código de exemplo renderiza na interface web.
Você pode executar o código de exemplo localmente em sua máquina seguindo estas etapas. Consulte o repositório no GitHub para obter as instruções mais atualizadas.
Se você não tiver Node.js instalado, baixe e instale a versão LTS do Node.js.
Clone o repositório em sua máquina local:
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
Vá para a
javascript/samples/web
pasta no seu editor de código preferido.cd ./javascript/samples
Execute
download-pkg.ps1
oudownload-pkg.sh
faça o download dos pacotes necessários.Vá para a
web
pasta a./javascript/samples
partir da pasta.cd ./web
Execute
npm install
para instalar dependências de pacote.Execute
npm run dev
para iniciar o servidor Web, navegando em todos os prompts de permissões de firewall conforme necessário.Vá para qualquer um dos URIs fornecidos a partir da saída do console (como
http://localhost:5173/
) em um navegador.Insira as seguintes informações na interface web:
- Ponto de extremidade: O ponto de extremidade do recurso de um recurso do Azure OpenAI. Não é necessário acrescentar o
/realtime
caminho. Um exemplo de estrutura pode serhttps://my-azure-openai-resource-from-portal.openai.azure.com
. - Chave de API: uma chave de API correspondente para o recurso OpenAI do Azure.
- Implantação: o
gpt-4o-realtime-preview
nome do modelo que você implantou na seção anterior. - Mensagem do sistema: Opcionalmente, você pode fornecer uma mensagem do sistema como "Você sempre fala como um pirata amigável".
- Temperatura: Opcionalmente, você pode fornecer uma temperatura personalizada.
- Voz: Opcionalmente, você pode selecionar uma voz.
- Ponto de extremidade: O ponto de extremidade do recurso de um recurso do Azure OpenAI. Não é necessário acrescentar o
Selecione o botão Gravar para iniciar a sessão. Aceite permissões para usar o microfone, se solicitado.
Você deve ver uma
<< Session Started >>
mensagem na saída principal. Então você pode falar no microfone para iniciar um bate-papo.Você pode interromper o bate-papo a qualquer momento falando. Você pode encerrar o bate-papo selecionando o botão Parar .
Conteúdos relacionados
- Saiba mais sobre como usar a API em tempo real
- Veja a referência da API em tempo real
- Saiba mais sobre as cotas e limites do Azure OpenAI