Compartir vía


¿Qué es la voz personal para el texto a voz?

Con la voz personal, puede permitir que los usuarios obtengan la replicación generada por IA de sus propias voces en unos segundos. Con una declaración verbal y una breve muestra de voz como aviso de audio, puede crear una voz personal para los usuarios y permitirles generar voz en cualquiera de los más de 90 idiomas admitidos en más de 100 configuraciones regionales.

Nota:

La voz personal está disponible en estas regiones: Oeste de Europa, Este de EE. UU. y Sudeste de Asia. Para conocer las configuraciones regionales admitidas, consulte Compatibilidad con idiomas de voz personales.

En la tabla siguiente se resume la diferencia entre la voz personal y la voz neuronal personalizada profesional.

De comparación Voz personal Voz profesional
Escenarios de destino Los clientes empresariales crean una aplicación para permitir a sus usuarios crear y usar su propia voz personal en la aplicación. Escenarios profesionales como voces de marca y caracteres para bots de chat o lectura de contenido de audio.
Casos de uso Restringido a casos de uso limitados. Vea la nota de transparencia . Los clientes aprobados deben tener un plan para admitir más de 1000 voces personales. Restringido a casos de uso limitados. Vea la nota de transparencia.
Datos de aprendizaje. Asegúrese de seguir el código de conducta. Traiga sus propios datos. Se recomienda grabar en un estudio profesional.
Tamaño de datos requerido Un minuto de discurso humano. 300-2000 expresiones (aproximadamente de 30 minutos a 3 horas de voz humana).
Tiempo de entrenamiento Menos de 5 segundos Aproximadamente 20-40 horas de proceso.
Calidad de voz Natural Altamente natural
Compatibilidad con varios idiomas Sí. La voz puede hablar unos 100 idiomas, con la detección automática de idioma habilitada. Sí. Debe seleccionar la característica "Neuronal – entre idiomas" para entrenar un modelo que habla un idioma diferente de los datos de entrenamiento.
Disponibilidad La demostración de Speech Studio está disponible al registrarse. El acceso a la API está restringido a los clientes aptos y a los casos de uso aprobados. Solicitar acceso a través del formulario de admisión. Puede entrenar e implementar un modelo de CNV Pro después de que se apruebe el acceso. El acceso CNV Pro está limitado en función de los criterios de idoneidad y uso. Solicitar acceso a través del formulario de admisión.
Precios Consulte aquí los detalles de precios1. Consulte aquí los detalles de precios.
Requisitos de inteligencia artificial responsable Se requiere la declaración verbal del orador. No se permite ningún caso de uso no aprobado. Se requiere la declaración verbal del orador. No se permite ningún caso de uso no aprobado.

1 Tenga en cuenta que los precios de Voz personal solo serán visibles para las regiones de servicio en las que la característica está disponible, incluidos Oeste de Europa, Oeste de EE  UU. y Sudeste Asiático.

Prueba de la demostración

Si tiene un recurso S0, puede acceder a la demostración de voz personal en Speech Studio. Para usar la API de voz personal, puede solicitar acceso aquí.

  1. Vaya a Speech Studio

  2. Seleccione la tarjeta voz personal.

  3. Puede grabar su propia voz y probar los ejemplos de salida de voz en diferentes idiomas. La demostración incluye un subconjunto de los idiomas admitidos por voz personal.

    Captura de pantalla de la experiencia de demostración de voz personal en Speech Studio.

Cómo crear una voz personal

Para empezar, este es un resumen de los pasos para crear una voz personal:

  1. Cree un proyecto.
  2. Cargue el archivo de consentimiento. Con la característica de voz personal, es necesario que cada voz se cree con consentimiento explícito del usuario. Se requiere una instrucción grabada del usuario que reconozca que el cliente (propietario del recurso de Voz de Azure AI) creará y usará su voz.
  3. Obtener un identificador de perfil de hablante para la voz personal. Obtiene un identificador de perfil de hablante en función de la declaración de consentimiento verbal del hablante y un aviso de audio. Las características de voz del usuario se codifican en la propiedad speakerProfileId que se usa para el texto a voz.

Una vez que tenga una voz personal, puede usarla para sintetizar la voz en cualquiera de los 91 idiomas admitidos en más de 100 configuraciones regionales. No se requiere una etiqueta de configuración regional. La voz personal usa la detección automática de idioma en el nivel de oración. Para obtener más información, vea usar voz personal en la aplicación.

Sugerencia

Modifique los ejemplos de código del repositorio del SDK de Voz en GitHub para ver cómo usar la voz personal en la aplicación.

Documentación de referencia

IA responsable

Nos preocupamos por las personas que usan inteligencia artificial y las personas que se verán afectadas por ella tanto como nos preocupamos por la tecnología. Para más información, consulte las notas sobre transparencia de la IA responsable.

Pasos siguientes