Introducción al avatar de texto a voz

Artículo
01/13/2025

El avatar de texto a voz convierte el texto en un vídeo digital de un ser humano fotorrealista (ya sea un avatar precompilado o un avatar de texto a voz personalizado) que habla con una voz de sonido natural. El vídeo del avatar de texto a voz se puede sintetizar de forma asincrónica o en tiempo real. Los desarrolladores pueden compilar aplicaciones integradas con el avatar de texto a voz a través de una API o usar una herramienta de creación de contenido en Speech Studio para crear contenido de vídeo sin codificar.

Con los modelos avanzados de redes neuronales del avatar de texto a voz, la característica permite a los usuarios producir vídeos de conversación sintética del avatar de alta calidad y realistas para diversas aplicaciones, a la vez que se adhieren a prácticas de IA responsable.

Sugerencia

Para convertir texto a voz con un enfoque sin código, pruebe la herramienta de avatar de texto a voz en Speech Studio.

Funcionalidades del avatar

Las funcionalidades del avatar de texto a voz incluyen:

Convierte texto en un vídeo digital de una persona fotorrealista que habla con voces con sonido natural con tecnología de texto a voz de Azure AI.
Proporciona una colección de avatares creados previamente.
La voz del avatar se genera mediante texto a voz de Azure AI. Para obtener más información, consulte Voz y lenguaje del avatar.
Sintetiza el vídeo del avatar de texto a voz de forma asincrónica con la API de síntesis por lotes o en tiempo real.
Proporciona una herramienta de creación de contenido en Speech Studio para crear contenido de vídeo sin codificar.
Habilita conversaciones de avatar en tiempo real a través de la herramienta de avatar de chat en directo en Speech Studio.

Con los modelos avanzados de redes neuronales del avatar de texto a voz, la característica le permite producir vídeos de conversación sintética del avatar de alta calidad y realistas para diversas aplicaciones, a la vez que se adhiere a prácticas de IA responsable.

Voz e idioma del avatar

Puede elegir entre una variedad de voces precompiladas para el avatar. La compatibilidad de idiomas del avatar de texto a voz es la misma que la compatibilidad de idiomas de la conversión de texto en voz. Para obtener más información, consulte Compatibilidad con idiomas y voces del servicio de Voz. Se puede acceder a los avatares de texto a voz precompilados a través del portal de Speech Studio o a través de la API.

La voz del vídeo sintético podría ser una voz neuronal precompilada disponible en Voz de Azure AI o la voz neuronal personalizada del actor de voz seleccionado por usted.

Salida de vídeo del avatar

Tanto la síntesis por lotes como la resolución de síntesis en tiempo real son 1920 x 1080 y los fotogramas por segundo (FPS) son 25. El códec de síntesis por lotes puede ser h264, hevc o av1 si el formato es mp4 y puede establecer el códec como vp9 o av1 si el formato es webm; solo vp9 puede contener un canal alfa. El códec de síntesis en tiempo real es h264. La velocidad de bits del vídeo se puede configurar tanto para la síntesis por lotes como para la síntesis en tiempo real en la solicitud; el valor predeterminado es 2000000. Puede encontrar configuraciones más detalladas en el código de ejemplo.

	Síntesis por lotes	Síntesis en tiempo real
Resolución	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

Avatar de texto a voz personalizado

Puede crear avatares de texto a voz personalizados que sean exclusivos de su producto o marca. Todo lo que se necesita para empezar es tomar 10 minutos de grabaciones de vídeo. Si también está creando una voz neuronal personalizada para el actor, el avatar puede ser muy realista. Para obtener más información, consulte Qué es el avatar de texto a voz personalizado.

La voz neuronal personalizada y el avatar de texto a voz personalizado son características independientes. Se pueden utilizar por separado o conjuntamente. Si planea usar también voz neuronal personalizada con un avatar de texto a voz, debe implementar o copiar el modelo de voz neuronal personalizado en una de las regiones compatibles con el avatar.

Código de ejemplo

El código de ejemplo para texto a voz está disponible en GitHub. En estos ejemplos se tratan los escenarios más populares:

Síntesis por lotes (REST)
Síntesis en tiempo real (SDK)
Chat en vivo con Azure OpenAI en segundo plano (SDK)
Para crear una aplicación de chat en directo con Azure OpenAI en los datos, puede consultar este código de ejemplo (busque "En los datos")

Precios

A lo largo de una sesión de avatar en tiempo real o de creación de contenido por lotes, los servicios de texto a voz, conversión de voz en texto, Azure OpenAI u otros servicios de Azure se cobran por separado.
Consulte la nota de precios del avatar de voz a texto para obtener información sobre cómo funciona la facturación para la característica de avatar de texto a voz.
Para obtener los precios detallados, consulte Precios del servicio voz. Tenga en cuenta que los precios del avatar solo serán visibles para las regiones de servicio en las que la característica está disponible, como Sudeste de Asia, Norte de Europa, Oeste de Europa, Centro de Suecia, Centro-sur de EE. UU., Este de EE. UU. 2 y Oeste de EE. UU. 2.

Ubicaciones disponibles

La característica de avatar de texto a voz solo está disponible en las siguientes regiones de servicio: Sudeste de Asia, Norte de Europa, Oeste de Europa, Centro de Suecia, Centro-sur de EE. UU., Este de EE. UU. 2 y Oeste de EE. UU. 2.

IA responsable

Nos preocupamos por las personas que usan inteligencia artificial y las personas que se verán afectadas por ella tanto como nos preocupamos por la tecnología. Para más información, consulte las notas sobre transparencia y las divulgación del talento de voz y avatar de la inteligencia artificial responsable.

Compartir vía