¿Qué es el avatar personalizado de texto a voz?

Artículo
01/15/2025

El avatar personalizado de texto a voz permite crear un avatar de conversación sintético personalizado y único para la aplicación. Con el avatar personalizado de texto a voz, puede crear un avatar único y natural para su producto o marca proporcionando datos de grabación de vídeo de los actores seleccionados. Si también crea una voz neuronal personalizada para el mismo actor y la usa como voz del avatar, este será aún más realista.

Importante

El acceso de avatar personalizado de texto a voz es limitado en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.

¿Cómo funciona?

La creación de un avatar personalizado de texto a voz requiere al menos 10 minutos de grabación de vídeo del actor de avatar como datos de entrenamiento, y primero debe obtener el consentimiento del actor.

El modelo de avatar personalizado puede admitir:

Generación de vídeo a través de la API de síntesis por lotes.
Chat en directo a través de la API de síntesis de streaming.

Antes de empezar a trabajar, estas son algunas consideraciones que debe tener en cuenta:

Su caso de uso: ¿usará el avatar para crear contenido de vídeo como material de entrenamiento, introducción al producto o usar el avatar como vendedor virtual en una conversación en tiempo real con sus clientes? Hay algunos requisitos de grabación para distintos casos de uso.

La apariencia del avatar: El texto personalizado para el avatar de texto a voz tiene el mismo aspecto que el talento del avatar en los datos de entrenamiento, y no se admite la personalización de la apariencia del modelo de avatar, como ropa, peinado, etc. Por lo tanto, si la aplicación requiere varios estilos del mismo avatar, debe preparar los datos de entrenamiento para cada estilo, ya que cada estilo de un avatar se considerará como un modelo de avatar único.

La voz del avatar: el texto personalizado para el avatar de texto a voz puede funcionar tanto con voces neuronales precompiladas como con voces neuronales personalizadas. La creación de una voz neuronal personalizada para el actor del avatar y su uso con el avatar aumentará significativamente la naturalidad de la experiencia del avatar.

Esta es una introducción a los pasos para crear un avatar personalizado de texto a voz:

Obtener el vídeo de consentimiento. Obtenga una grabación de vídeo de la declaración de consentimiento. La declaración de consentimiento es una grabación de vídeo del actor del avatar que lee una declaración, dando su consentimiento al uso de sus datos de imagen y voz para entrenar un texto personalizado para el modelo de avatar personalizado de texto a voz.
Prepare los datos de entrenamiento. Asegúrese de que la grabación de vídeo esté en el formato correcto. Es una buena idea grabar la grabación de vídeo en un estudio de grabación de vídeo de calidad profesional para obtener una imagen de fondo limpia. La calidad del avatar resultante depende en gran medida del vídeo grabado usado para el entrenamiento. Factores como la velocidad de habla, la posición corporal, la expresión facial, los gestos de mano, la coherencia en la posición del actor y la iluminación de la grabación de vídeo son esenciales para crear un texto a voz personalizado atractivo para el avatar de voz. Consulte cómo preparar los datos de entrenamiento para obtener más detalles.
Entrene el modelo de avatar. Una vez que los datos estén listos, cargue los datos en el portal de avatar personalizado y empiece a entrenar el modelo. La comprobación del consentimiento se realiza durante el entrenamiento. Asegúrese de que tiene acceso a la característica de avatar de texto personalizado a voz para poder crear un proyecto.
Implementar y usar el modelo de avatar en las aplicaciones.

Secuencia de componentes

El modelo de avatar de texto personalizado a voz contiene tres componentes: el analizador de texto, el sintetizador de audio de voz y el representador de vídeo del avatar de texto a voz.

Para generar un archivo o flujo de vídeo de avatar con el modelo de avatar, primero se introduce el texto en el analizador de texto, que proporciona la salida en forma de secuencia de fonemas.
El sintetizador de audio sintetiza el audio de voz para el texto de entrada y estos dos elementos se proporcionan por texto a voz o modelos neuronales de voz personalizados.
Por último, el modelo de avatar de texto a voz neuronal a voz predice la imagen de sincronización de labios con el audio de voz, de modo que se genere el vídeo sintético.

Los modelos de avatar de texto neuronal de texto a voz se entrenan mediante redes neuronales profundas basadas en las muestras de grabación de vídeos humanos en diferentes idiomas. Se pueden admitir todos los lenguajes de voces precompiladas y voces neuronales personalizadas.

Ubicaciones disponibles

El entrenamiento de avatar personalizado solo está disponible en las siguientes regiones de servicio: Sudeste asiático, Oeste de Europa y Oeste de EE. UU. 2. Puede usar un modelo de avatar personalizado en las siguientes regiones de servicio: Sudeste asiático, Norte de Europa, Oeste de Europa, Centro de Suecia, Centro-sur de EE. UU., Este de EE. UU. 2 y Oeste de EE. UU. 2.

Voz personalizada y texto a voz personalizado para el avatar de voz

El avatar personalizado de texto a voz puede funcionar con una voz neuronal precompilada o una voz neuronal personalizada como voz del avatar. Para obtener más información, consulte Voz y lenguaje del avatar.

La voz neuronal personalizada y el avatar personalizado de texto a voz son características independientes. Se pueden utilizar por separado o conjuntamente. Si decide usarlos juntos, debe solicitar voz neuronal personalizada y el avatar de texto a voz personalizado por separado, y se le cobrará por separado por voz neuronal personalizada y por el avatar de texto a voz personalizado. Consulte la página de preciospara obtener más información. Además, si planea usar también voz neuronal personalizada con un avatar de texto a voz, debe implementar o copiar el modelo de voz neuronal personalizado en una de las regiones compatibles con el avatar.

Compartir vía

¿Qué es el avatar personalizado de texto a voz?

¿Cómo funciona?

Secuencia de componentes

Ubicaciones disponibles

Voz personalizada y texto a voz personalizado para el avatar de voz

Comentarios

Recursos adicionales

Compartir vía

¿Qué es el avatar personalizado de texto a voz?

¿Cómo funciona?

Secuencia de componentes

Ubicaciones disponibles

Voz personalizada y texto a voz personalizado para el avatar de voz

Contenido relacionado

Comentarios

Recursos adicionales