Cómo crear un avatar personalizado de texto a voz

Artículo
01/16/2025

La introducción a un avatar de texto a voz personalizado es un proceso sencillo. Todo lo que se necesita son algunos videoclips de su actor. Si quiere entrenar una voz personalizada para el mismo actor, puede hacerlo por separado.

Nota:

El acceso al avatar personalizado se limita en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.

Requisitos previos

Necesita un recurso de servicios de IA para Voz en una de las regiones que admiten el entrenamiento personalizado de avatares. El avatar personalizado solo admite recursos de voz estándar (S0).

Necesita una grabación de vídeo del actor leyendo una declaración de consentimiento que reconozca el uso de su imagen y voz. Carga este vídeo al configurar el actor del avatar. Para obtener más información, consulte Agregar consentimiento del actor de avatar.

Necesita grabaciones de vídeo de su actor de avatar como datos de entrenamiento. Estos vídeos se cargan al preparar los datos de entrenamiento. Para obtener más información, consulte Agregar datos de entrenamiento.

Paso 1: Crear un proyecto de avatar personalizado

Para crear un proyecto de avatar personalizado, siga estos pasos:

Inicie sesión en el Speech Studio y seleccione la suscripción y el recurso de Voz.
Seleccione Avatar personalizado (versión preliminar).
Seleccione +Crear un proyecto.
Siga las instrucciones del asistente para crear el proyecto.

Sugerencia

No mezcle datos para diferentes avatares en un proyecto. Cree siempre un nuevo proyecto para un nuevo avatar.
Seleccione el nuevo proyecto por nombre. A continuación, verá estos elementos de menú en el panel izquierdo: Configurar actor de avatar, Preparar datos de entrenamiento, Entrenar modelo, e Implementar modelo.

Un talento de avatar es un actor individual o de destino cuyo vídeo de habla se graba y se usa para crear modelos de avatar neuronal. Debe obtener el consentimiento suficiente en todas las leyes y regulaciones pertinentes del talento del avatar para usar su vídeo para crear el avatar personalizado de texto a voz.

Debe proporcionar un archivo de vídeo con una declaración grabada del talento del avatar, confirmando el uso de su imagen y voz. Microsoft comprueba que el contenido de la grabación coincide con el script predefinido proporcionado por Microsoft. Microsoft compara la cara del talento del avatar en el archivo de vídeo de confirmación grabado con vídeos aleatorios de los conjuntos de datos de entrenamiento para asegurarse de que el talento del avatar en grabaciones de vídeo y el talento de avatar en el archivo de vídeo de confirmación proceden de la misma persona.

Puede encontrar la instrucción de consentimiento verbal en varios idiomas en el repositorio Azure-Samples/cognitive-services-speech-sdk de GitHub. El idioma de la frase verbal debe ser el mismo que el de la grabación. Vea también la Divulgación del actor de voz.

Para obtener más información sobre cómo grabar el vídeo de consentimiento, consulte Cómo grabar ejemplos de vídeo.

Para agregar un perfil de talento de avatar y cargar su declaración de consentimiento en el proyecto, siga estos pasos:

Inicie sesión en Speech Studio.
Seleccione Avatar personalizado> El nombre del proyecto >Configurar actor de avatar>Cargar vídeo de consentimiento.
En la página Cargar vídeo de consentimiento, siga las instrucciones para cargar el vídeo de consentimiento del actor de avatar que grabó de antemano.
- Seleccione el idioma de habla de la declaración de consentimiento verbal registrada por el actor del avatar.
- Escriba el nombre del actor del avatar y el nombre de la compañía en el mismo idioma que la instrucción grabada.
  - El nombre del actor del avatar debe ser el nombre de la persona que registró la declaración de consentimiento.
  - El nombre de la empresa debe coincidir con el nombre de la compañía que se ha hablado en la instrucción grabada.
- Puede optar por cargar los datos desde archivos locales o desde un almacenamiento compartido con Azure Blob.
Selecciona Cargar.

Una vez que la carga del consentimiento del actor del avatar se haya realizado correctamente, puede continuar con el entrenamiento del modelo de avatar personalizado.

Paso 3: Agregar datos de entrenamiento

El servicio voz usa los datos de entrenamiento para crear un avatar único optimizado para que coincida con la apariencia de la persona en las grabaciones. Después de entrenar el modelo de avatar, puede empezar a sintetizar vídeos de avatar o usarlos para chats en directo en las aplicaciones.

Todos los datos que cargue deben cumplir los requisitos del tipo de datos elegido. Para asegurarse de que el servicio de voz procesa los datos con precisión, es importante dar formato a los datos correctamente antes de cargarlos. Para confirmar que los datos tienen el formato correcto, consulte Requisitos de datos.

Creación del código

Cuando esté listo para cargar los datos, vaya a la pestaña Preparar datos de entrenamiento para agregar los datos.

Para cargar datos de entrenamiento, siga estos pasos:

Inicie sesión en Speech Studio.
Seleccione Avatar personalizado> El nombre del proyecto >Preparar los datos de entrenamiento>Cargar los datos.
En el asistente de Carga de datos, elija un tipo de datos y, a continuación, seleccione Siguiente. Para obtener más información sobre los tipos de datos (incluyendo Habla natural, Silencio, Gesto, y Estado de habla 0), consulte qué clips de vídeo grabar.
Seleccione los archivos locales del equipo o escriba la dirección URL de Azure Blob Storage donde se almacenan los datos.
Seleccione Siguiente.
Revise los detalles de carga y seleccione Enviar.

Los archivos de datos se validan automáticamente al seleccionar Enviar. La validación de datos incluye una serie de comprobaciones en los archivos de vídeo para comprobar su formato de archivo, tamaño y volumen total. Si hay algún error, corríjalo y vuelva a realizar el envío.

Después de cargar los datos, puede comprobar la información general de los datos que indica si proporcionó suficientes datos para iniciar el entrenamiento. En este recorte de pantalla se muestra un ejemplo de suficientes datos agregados para entrenar un avatar sin otros gestos.

Paso 4: Entrenamiento del modelo de avatar

Importante

Todos los datos de entrenamiento del proyecto se incluyen en el entrenamiento. La calidad del modelo depende de los datos proporcionados y es responsable de la calidad del vídeo. Asegúrese de grabar los vídeos de entrenamiento según cómo grabar ejemplos de vídeo.

Para crear un avatar personalizado en Speech Studio, siga estos pasos para uno de los métodos siguientes:

Inicie sesión en Speech Studio.
Seleccione Avatar personalizado> Nombre del proyecto >Entrenar modelo>Entrenar modelo.
Escriba un Nombre que le permitan identificar el modelo. Elija un nombre con cuidado. El nombre del modelo se usa como nombre de avatar en la solicitud de síntesis por el SDK y la entrada SSML. Solo se permiten letras, números, guiones y caracteres de subrayado. Use un nombre único para cada modelo.

Importante

El nombre del modelo de avatar debe ser único dentro del mismo recurso de Voz o Servicios de inteligencia artificial.
Seleccione Entrenar para comenzar a entrenar el modelo.

La duración del entrenamiento varía en función de la cantidad de datos que use. Normalmente se tarda una media de 20-40 horas de proceso en entrenar un avatar personalizado. Consulte la nota de precios sobre cómo se cobra el entrenamiento.

Copia del modelo de avatar personalizado en otro proyecto (opcional)

El entrenamiento de avatar personalizado solo está disponible actualmente en algunas regiones. Una vez entrenado el modelo del avatar en una región compatible, puede copiarlo en un recurso de servicios de IA para Voz que se encuentre en otra región, según sea necesario. Para obtener más información consulte las notas al pie en la tabla de regiones.

Para copiar el modelo de avatar personalizado en otro proyecto:

En la pestaña Entrenar modelo, seleccione un modelo de avatar que quiera copiar y, a continuación, seleccione Copiar en el proyecto.
Seleccione la suscripción, la región, el recurso de voz y el proyecto en el que desea copiar el modelo. Debe tener un recurso de voz y un proyecto en la región de destino; de lo contrario, debe crearlos antes.
Seleccione Enviar para copiar el modelo.

Una vez copiado el modelo, verá una notificación en Speech Studio.

Vaya al proyecto donde ha copiado el modelo para implementar la copia del modelo.

Paso 5: Implementar y usar el modelo de avatar

Después de crear y entrenar correctamente el modelo de avatar, se implementa en el punto de conexión.

Para implementar el avatar:

Inicie sesión en Speech Studio.
Seleccione Avatar personalizado> El nombre del proyecto >Implementar modelo.
Seleccione Implementar modelo y seleccione un modelo que quiera implementar.
Seleccione Implementar para iniciar la implementación.

Importante

Cuando se implementa un modelo, se paga por el tiempo de inactividad continuo del punto de conexión, independientemente de la interacción con ese punto de conexión. Consulte la nota de precios sobre cómo se cobra la implementación del modelo. Puede eliminar una implementación cuando el modelo no esté en uso para reducir el gasto y conservar los recursos.

Después de implementar el avatar personalizado, estará disponible para que lo use en Speech Studio o a través de la API:

El avatar aparece en la lista de avatares de texto a voz en Speech Studio.
El avatar aparece en la lista de avatares de avatares de chat en directo a través de Speech Studio.
Puede llamar al avatar desde el SDK y la entrada SSML especificando el nombre del modelo de avatar. Para obtener más información, consulte las propiedades del avatar.

Eliminación de una implementación

Para quitar la implementación, siga estos pasos:

Inicie sesión en Speech Studio.
Vaya a Avatar personalizado> Nombre del proyecto >Implementar modelo.
Seleccione la implementación en la página Implementación del modelo. El modelo se hospeda activamente si el estado es "Correcto".
Puede seleccionar el botón Eliminar implementación y confirmar la eliminación para quitar el hosting.

Sugerencia

Una vez que se quita una implementación, ya no paga por su hosting. La eliminación de una implementación no provoca ninguna eliminación del modelo. Si desea volver a usar el modelo, cree una nueva implementación.

Usar una voz personalizada (opcional)

Si también está creando una voz neuronal personalizada (CNV) para el actor, el avatar puede ser muy realista. Para obtener más información, consulte Qué es el avatar de texto a voz personalizado.

Voz personalizada y Avatar personalizado de texto a voz son funciones independientes. Se pueden utilizar por separado o conjuntamente.

Si creó una voz personalizada y quiere usarla junto con el avatar personalizado, preste atención a los siguientes puntos:

Asegúrese de que el punto de conexión de voz personalizado se crea en el mismo recurso de voz que el punto de conexión de avatar personalizado. Según sea necesario, consulte Entrenamiento del modelo de voz profesional para copiar el modelo de voz personalizado en el mismo recurso de voz que el punto de conexión de avatar personalizado.
Puede ver la opción de voz personalizada en la lista de voces de la página de generación de contenido de avatar y configuración de voz de chat en directo.
Si usa la síntesis por lotes para la API de avatar, agregue la propiedad "customVoices" para asociar el identificador de implementación del modelo de voz personalizado con el nombre de voz en la solicitud. Para obtener más información, consulte las propiedades de texto a voz.
Si usa la síntesis en tiempo real para la API de avatar, consulte nuestro código de ejemplo en GitHub para establecer la voz personalizada.

Compartir vía

Cómo crear un avatar personalizado de texto a voz

Requisitos previos

Paso 1: Crear un proyecto de avatar personalizado

Paso 3: Agregar datos de entrenamiento

Creación del código

Paso 4: Entrenamiento del modelo de avatar

Copia del modelo de avatar personalizado en otro proyecto (opcional)

Paso 5: Implementar y usar el modelo de avatar

Eliminación de una implementación

Usar una voz personalizada (opcional)

Pasos siguientes

Comentarios

Recursos adicionales

Compartir vía

Cómo crear un avatar personalizado de texto a voz

Requisitos previos

Paso 1: Crear un proyecto de avatar personalizado

Paso 2: Agregar consentimiento del actor de avatar

Paso 3: Agregar datos de entrenamiento

Creación del código

Paso 4: Entrenamiento del modelo de avatar

Copia del modelo de avatar personalizado en otro proyecto (opcional)

Paso 5: Implementar y usar el modelo de avatar

Eliminación de una implementación

Usar una voz personalizada (opcional)

Pasos siguientes

Comentarios

Recursos adicionales