GPT-4o Realtime API para voz y audio (versión preliminar)
GPT-4o Realtime API de Azure OpenAI para voz y audio forma parte de la familia de modelos GPT-4o que admite interacciones conversacionales de baja latencia, "voz en voz, voz fuera". La API de audio GPT-4o realtime
está diseñada para controlar interacciones de conversación en tiempo real y de baja latencia, lo que la convierte en una excelente opción para los casos de uso que implican interacciones en vivo entre un usuario y un modelo, como agentes de asistencia al cliente, asistentes de voz y traductores en tiempo real.
La mayoría de los usuarios de Realtime API necesitan entregar y recibir audio de un usuario final en tiempo real, incluidas las aplicaciones que usan WebRTC o un sistema de telefonía. Realtime API no está diseñada para conectarse directamente a los dispositivos de usuario final y se basa en integraciones de cliente para finalizar las secuencias de audio del usuario final.
Modelos admitidos
Actualmente solo la versión gpt-4o-realtime-preview
: 2024-10-01-preview
admite audio en tiempo real.
El modelo gpt-4o-realtime-preview
está disponible para implementaciones globales en las regiones Este de EE. UU. 2 y Centro de Suecia.
Importante
El sistema almacena las solicitudes y finalizaciones como se describe en la sección "Uso de datos y acceso a la supervisión de abuso" de los términos de producto específicos del servicio para Azure OpenAI Service, excepto que no se aplica la excepción limitada. La supervisión de abusos se activará para el uso de la API gpt-4o-realtime-preview
incluso para los clientes que de otro modo están aprobados para la supervisión de abusos modificados.
Compatibilidad con API
La compatibilidad con la API en tiempo real se agregó por primera vez en la versión 2024-10-01-preview
de la API.
Nota:
Para más información sobre la API y la arquitectura, consulte el repositorio de audio en tiempo real de GPT-4o de Azure OpenAI en GitHub.
Requisitos previos
- Una suscripción a Azure (cree una cuenta gratuita).
- Un recurso de Azure OpenAI creado en una región admitida. Para obtener más información, consulte Creación de un recurso e implementación de un modelo con Azure OpenAI.
Implementación de un modelo para audio en tiempo real
Para poder usar el audio en tiempo real de GPT-4o, necesita una implementación del modelo gpt-4o-realtime-preview
en una región compatible, tal como se describe en la sección modelos admitidos.
Puede implementar el modelo desde el catálogo de modelos de Estudio de IA de Azure o desde el proyecto en AI Studio. Siga estos pasos para implementar un modelo gpt-4o-realtime-preview
desde el catálogo de modelos:
- Inicie sesión en Inteligencia artificial de Azure Studio y vaya a la página Inicio.
- Seleccione Catálogo de modelos en la barra lateral izquierda.
- Busque y seleccione el modelo
gpt-4o-realtime-preview
de la colección Azure OpenAI. - Seleccione Implementar para abrir la ventana de implementación.
- Escriba un nombre de implementación y seleccione un recurso de Azure OpenAI.
- Seleccione
2024-10-01
en la lista desplegable Versión del modelo. - Modifique otras configuraciones predeterminadas en función de sus requisitos.
- Seleccione Implementar. Llegará a la página de detalles de la implementación.
Ahora que tiene una implementación del modelo gpt-4o-realtime-preview
, puedes usar el área de juegos de audio en tiempo real de AI Studio o la API en tiempo real para interactuar con él en tiempo real.
Usar el audio en tiempo real de GPT-4o
Sugerencia
En este momento, la forma más rápida de comenzar a desarrollar con la API en tiempo real GPT-4o es descargar el código de muestra del repositorio de audio en tiempo real GPT-4o de Azure OpenAI en GitHub.
Para chatear con su modelo gpt-4o-realtime-preview
implementado en el área de juegos de audio en tiempo real de Azure AI Studio, siga estos pasos:
Vaya al proyecto en Azure AI Studio.
Seleccione Área de juegos>Audio en tiempo real del panel izquierdo.
Seleccione el modelo de
gpt-4o-realtime-preview
implementado en la lista desplegable Implementación.Seleccione Habilitar micrófono para permitir que el explorador acceda al micrófono. Si ya ha concedido permiso, puede omitir este paso.
Opcionalmente, puede editar el contenido en el cuadro de texto Dar instrucciones y contexto al modelo. Proporcione instrucciones al modelo sobre cómo debe comportarse y cualquier contexto al que debe hacer referencia al generar una respuesta. Puede describir la personalidad del asistente, indicarle lo que debe y lo que no debe responder y cómo formatear las respuestas.
Opcionalmente, cambie la configuración, como umbral, relleno de prefijo y duración del silencio.
Seleccione Iniciar escucha para iniciar la sesión. Puede hablar en el micrófono para iniciar un chat.
Puede interrumpir el chat en cualquier momento hablando. Para finalizar el chat, seleccione el botón Detener escucha.
En el ejemplo web de JavaScript se muestra cómo usar la API GPT-4o Realtime para interactuar con el modelo en tiempo real. El código de ejemplo incluye una interfaz web sencilla que captura el audio del micrófono del usuario y lo envía al modelo para su procesamiento. El modelo responde con texto y audio, que el código de ejemplo se representa en la interfaz web.
Puede ejecutar el código de ejemplo localmente en el equipo siguiendo estos pasos. Consulte el repositorio en GitHub para obtener las instrucciones más actualizadas.
Si no tiene instalado Node.js, descargue e instale la versión LTS de Node.js.
Clone el repositorio en la máquina local:
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
Vaya a la carpeta
javascript/samples/web
en el editor de código que prefiera.cd ./javascript/samples
Ejecute
download-pkg.ps1
odownload-pkg.sh
para descargar los paquetes necesarios.Vaya a la carpeta
web
desde la carpeta./javascript/samples
.cd ./web
Ejecute
npm install
para instalar las dependencias del paquete.Ejecute
npm run dev
para iniciar el servidor web y vaya a las solicitudes de permisos de firewall según sea necesario.Vaya a cualquiera de los URI proporcionados desde la salida de la consola (como
http://localhost:5173/
) en un explorador.Escriba la siguiente información en la interfaz web:
- Punto de conexión: punto de conexión de recurso de un recurso de Azure OpenAI. No es necesario anexar la ruta de acceso
/realtime
. Una estructura de ejemplo podría serhttps://my-azure-openai-resource-from-portal.openai.azure.com
. - Clave de API: clave de API correspondiente para el recurso de Azure OpenAI.
- Implementación: el nombre del modelo
gpt-4o-realtime-preview
que implementó en la sección anterior. - Mensaje del sistema: opcionalmente, puede proporcionar un mensaje del sistema como "Siempre habla como un pirata amable".
- Temperatura: opcionalmente, puede proporcionar una temperatura personalizada.
- Voz: opcionalmente, puede seleccionar una voz.
- Punto de conexión: punto de conexión de recurso de un recurso de Azure OpenAI. No es necesario anexar la ruta de acceso
Seleccione el botón Grabar para iniciar la sesión. Acepte permisos para usar el micrófono si se le solicita.
Debería ver un mensaje
<< Session Started >>
en la salida principal. A continuación, puede hablar en el micrófono para iniciar un chat.Puede interrumpir el chat en cualquier momento hablando. Para finalizar el chat, seleccione el botón Detener.
Contenido relacionado
- Más información sobre los tipos de implementación de Azure OpenAI
- Más información sobre las cuotas y límites de Azure OpenAI