¿Qué son las voces de alta definición? (Versión preliminar)

Artículo
10/24/2024

Nota:

Esta característica actualmente está en su versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

Voz de Azure AI continúa avanzando en el campo de la tecnología de texto a voz con la introducción de voces neuronales de conversión de texto a voz de alta definición (HD). Las voces HD pueden comprender el contenido, detectar automáticamente las emociones en el texto de entrada y ajustar el tono de habla en tiempo real para que coincida con la opinión. Las voces HD mantienen un rol de voz coherente a partir de sus homólogos neuronales (y no HD), y ofrecen aún más valor mediante características mejoradas.

Características clave de las voces HD neurales de texto a voz

A continuación se muestran las características clave de las voces HD de Voz de Azure AI:

Características clave	Descripción
Generación de voz similar a la humana	Las voces HD neuronales de texto a voz pueden generar una voz muy natural y parecida a la humana. El modelo se entrena en millones de horas de datos multilingües, lo que le permite interpretar con precisión el texto de entrada y generar voz con la emoción, el ritmo y la cadencia adecuados sin necesidad de ajustes manuales.
Conversacional	Las voces HD neuronales de texto a voz pueden reproducir patrones de voz naturales, incluidas las pausas y los énfasis espontáneos. Cuando se le da un texto conversacional, el modelo puede reproducir fonemas comunes como pausas y palabras de relleno. La voz generada suena como si alguien estuviera conversando directamente con usted.
Variaciones de prosodia	Las voces HD neuronales de texto a voz introducen ligeras variaciones en cada salida para aumentar el realismo. Estas variaciones hacen que la voz suene más natural, ya que las voces humanas presentan variaciones de forma natural.
Alta fidelidad	El objetivo principal de las voces HD neurales de texto a voz es generar audio de alta fidelidad. La voz sintética producida por nuestro sistema puede imitar fielmente el habla humana tanto en calidad como en naturalidad.
Control de versiones	Con las voces HD neurales de texto a voz, lanzamos diferentes versiones de la misma voz, cada una con un tamaño de modelo base y una receta únicos. Esto le permite experimentar nuevas variaciones de voz o seguir utilizando una versión específica de una voz.

Comparación de las voces HD de Voz de Azure AI con otras voces de texto a voz de Azure

¿Cómo se comparan las voces HD de Voz de Azure AI con otras voces de texto a voz de Azure? ¿Cómo difieren en términos de características y funcionalidades?

Esta es una comparación de las características entre las voces HD de Voz de Azure AI, las voces HD de Azure OpenAI y las voces de Voz de Azure AI:

Característica	Voces HD de Voz de Azure AI	Voces HD de Azure OpenAI	Voces de Voz de Azure AI (no HD)
Región	- Este de EE. UU., Sudeste de Asia, Oeste de Europa	Centro-norte de EE. UU., Centro de Suecia	Disponible en docenas de regiones. Consulte la lista de regiones.
Número de voces	12	6	Más de 500
Multilingüe	No (solo en el idioma principal)	Sí	Sí (aplicable solo a voces multilingües)
Compatibilidad con SSML	Compatibilidad con un subconjunto de elementos SSML.	Compatibilidad con un subconjunto de elementos SSML.	Compatibilidad con el conjunto completo de SSML en Voz de Azure AI.
Opciones de desarrollo	SDK de Voz, CLI de Voz, API de REST	SDK de Voz, CLI de Voz, API de REST	SDK de Voz, CLI de Voz, API de REST
Opciones de implementación	Solo en la nube	Solo en la nube	Nube, insertada, híbrida y contenedores.
Síntesis por lotes o en tiempo real	Solo en tiempo real	Síntesis por lotes y en tiempo real	Síntesis por lotes y en tiempo real
Latency	Menos de 300 ms	Más de 500 ms	Menos de 300 ms
Frecuencia de muestreo de audio sintetizado	8, 16, 24 y 48 kHz	8, 16, 24 y 48 kHz	8, 16, 24 y 48 kHz
Formato de audio de salida de voz	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Voces HD de Voz de Azure AI admitidas

Los valores de voz HD de Voz de Azure AI tienen el formato voicename:basemodel:version. El nombre delante de los dos puntos, como en-US-Ava, es el nombre del rol de voz y su configuración regional original. Las versiones de las actualizaciones posteriores realizan un seguimiento del modelo base.

Actualmente, DragonHD es el único modelo base disponible para las voces HD de Voz de Azure AI. Para asegurarse de que usa la versión más reciente del modelo base que proporcionamos sin tener que realizar un cambio de código, use la versión LatestNeural.

Por ejemplo, para el rol en-US-Ava puede especificar los siguientes valores de voz HD:

en-US-Ava:DragonHDLatestNeural: siempre usa la versión más reciente del modelo base que proporcionamos más adelante.

En la tabla siguiente se enumeran las voces HD de Voz de Azure AI que están disponibles actualmente.

Rol de voz neuronal	Voces HD
de-DE-Seraphina	de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew	en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2	en-US-Andrew2:DragonHDLatestNeural
en-US-Aria	en-US-Aria:DragonHDLatestNeural
en-US-Ava	en-US-Ava:DragonHDLatestNeural
en-US-Brian	en-US-Brian:DragonHDLatestNeural
en-US-Davis	en-US-Davis:DragonHDLatestNeural
en-US-Emma	en-US-Emma:DragonHDLatestNeural
en-US-Emma2	en-US-Emma2:DragonHDLatestNeural
en-US-Jenny	en-US-Jenny:DragonHDLatestNeural
en-US-Steffan	en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru	ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen	zh-CN-Xiaochen:DragonHDLatestNeural

Uso de voces hd de Voz de Azure AI

Puede usar voces HD con el mismo SDK de voz y las API de REST que las voces que no son HD.

Estos son algunos puntos clave que se deben tener en cuenta al usar voces HD de Voz de Azure AI:

Configuración regional de voz: la configuración regional del nombre de voz indica su idioma y región originales.
Modelos base:
- Las voces HD incluyen un modelo base que entiende el texto de entrada y predice el patrón de habla en consecuencia. Puede especificar el modelo deseado (como DragonHDLatestNeural) según la disponibilidad de cada voz.
Uso de SSML: para hacer referencia a una voz en SSML, use el formato voicename:basemodel:version. El nombre delante de los dos puntos, como de-DE-Seraphina, es el nombre del rol de voz y su configuración regional original. Las versiones de las actualizaciones posteriores realizan un seguimiento del modelo base.
Parámetro de temperatura:
- El valor de temperatura es un valor flotante comprendido entre 0 y 1, lo que influye en la aleatoriedad de la salida. También puede ajustar el parámetro de temperatura para controlar la variación de las salidas. Menos aleatoriedad produce resultados más estables, mientras que la aleatoriedad ofrece variedad pero menos coherencia.
- Una temperatura más baja da como resultado una menor aleatoriedad, lo que conduce a salidas más predecibles. Una temperatura más alta aumenta la aleatoriedad, lo que permite salidas más diversas. La temperatura predeterminada está establecida en 1,0.

Este es un ejemplo de cómo usar voces HD de Voz de Azure AI en SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Elementos SSML admitidos y no admitidos para voces HD de Voz de Azure AI

El lenguaje de marcado de síntesis de voz (SSML) con texto de entrada determina la estructura, el contenido y otras características de la salida de texto a voz. Por ejemplo, puede usar SSML para definir un párrafo, una oración, una interrupción o pausa, o un silencio. Puede encapsular texto con etiquetas de evento como marcador o visema que la aplicación procesa más adelante.

Las voces HD de Voz de Azure AI no admiten todos los elementos o eventos SSML que admiten otras voces de Voz de Azure AI. Tenga en cuenta que las voces HD de Voz de Azure AI no admiten eventos de límite de palabras.

Para obtener información detallada sobre los elementos SSML admitidos y no admitidos para las voces HD de Voz de Azure AI, consulte la tabla siguiente. Para obtener instrucciones sobre cómo usar elementos SSML, consulte la documentación del lenguaje de marcado de síntesis de voz (SSML).

Elemento SSML	Descripción	Compatible con las voces HD de Voz de Azure AI
`<voice>`	Especifica la voz y los efectos opcionales (`eq_car` y `eq_telecomhp8k`).	Sí
`<mstts:express-as>`	Especifica los estilos de habla y los roles.	No
`<mstts:ttsembedding>`	Especifica la propiedad `speakerProfileId` para una voz personal.	No
`<lang xml:lang>`	Especifica el idioma de habla.	Sí
`<prosody>`	Ajusta el tono, el contorno, el intervalo, la velocidad y el volumen.	No
`<emphasis>`	Agrega o suprime el acento en las palabras del texto.	No
`<audio>`	Inserta audio pregrabado en un documento SSML.	No
`<mstts:audioduration>`	Especifica la duración del audio de salida.	No
`<mstts:backgroundaudio>`	Agrega audio en segundo plano a los documentos SSML o combina un archivo de audio con texto a voz.	No
`<phoneme>`	Especifica la pronunciación fonética en documentos SSML.	No
`<lexicon>`	Define cómo se leen varias entidades en SSML.	Sí (solo admite alias)
`<say-as>`	Indica el tipo de contenido (por ejemplo, un número o una fecha) del texto del elemento.	Sí
`<sub>`	Indica que el valor de texto del atributo del alias debe pronunciarse en lugar del texto incluido del elemento.	Sí
`<math>`	Usa MathML como texto de entrada para pronunciar correctamente notaciones matemáticas en el audio de salida.	No
`<bookmark>`	Obtiene el desplazamiento de cada marcador de la secuencia de audio.	No
`<break>`	Invalida el comportamiento predeterminado de saltos o pausas entre palabras.	No
`<mstts:silence>`	Las inserciones se pausan antes o después del texto, o entre dos oraciones adyacentes.	No
`<mstts:viseme>`	Define la posición de la cara y la boca cuando una persona habla.	No
`<p>`	Denota párrafos en documentos SSML.	Sí
`<s>`	Denota oraciones en documentos SSML.	Sí

Nota:

Aunque en una sección anterior de esta guía también se comparan las voces HD de Voz de Azure AI con las voces HD de Azure OpenAI, los elementos SSML que admite Voz de Azure AI no son aplicables a las voces de Azure OpenAI.

Compartir vía

¿Qué son las voces de alta definición? (Versión preliminar)

Características clave de las voces HD neurales de texto a voz

Comparación de las voces HD de Voz de Azure AI con otras voces de texto a voz de Azure

Voces HD de Voz de Azure AI admitidas

Uso de voces hd de Voz de Azure AI

Elementos SSML admitidos y no admitidos para voces HD de Voz de Azure AI

Comentarios

Recursos adicionales

Compartir vía

¿Qué son las voces de alta definición? (Versión preliminar)

Características clave de las voces HD neurales de texto a voz

Comparación de las voces HD de Voz de Azure AI con otras voces de texto a voz de Azure

Voces HD de Voz de Azure AI admitidas

Uso de voces hd de Voz de Azure AI

Elementos SSML admitidos y no admitidos para voces HD de Voz de Azure AI

Contenido relacionado

Comentarios

Recursos adicionales