Partager via


Que sont les voix haute définition ? (Préversion)

Remarque

Cette fonctionnalité est actuellement disponible en préversion publique. Cette préversion est fournie sans contrat de niveau de service, nous la déconseillons dans des charges de travail de production. Certaines fonctionnalités peuvent être limitées ou non prises en charge. Pour plus d’informations, consultez Conditions d’Utilisation Supplémentaires relatives aux Évaluations Microsoft Azure.

Azure AI Speech continue de faire des progrès dans le domaine de la technologie de synthèse vocale avec l’introduction de voix neuronales haute définition (HD). Les voix haute définition peuvent comprendre le contenu, automatiquement détecter des émotions dans le texte d’entrée et ajuster le ton d’élocution en temps réel pour le faire correspondre au sentiment. Les voix haute définition maintiennent un personnage vocal cohérent à partir de leurs contreparties neuronales (et non HD) et fournissent davantage de valeur via les fonctionnalités améliorées.

Fonctionnalités phares des voix neuronales HD de synthèse vocale

Voici les fonctionnalités phares des voix HD Azure AI Speech :

Fonctionnalités clés Description
Génération de paroles de type humain Les voix neuronales HD de synthèse vocale peuvent générer des paroles très naturelles de type humain. Le modèle est entraîné sur des millions d’heures de données multilingues, ce qui lui permet d’interpréter avec précision le texte d’entrée et de générer des paroles avec l’émotion, la vitesse et le rythme appropriés sans ajustement manuel.
Conversationnel Les voix neuronales HD de synthèse vocale peuvent répliquer des modèles de paroles naturelles, notamment les pauses spontanées et l’accentuation. S’il s’agit de texte conversationnel, le modèle peut reproduire des phonèmes courants tels que des pauses et des mots de remplissage. La voix générée donne l’impression qu’une personne converse directement avec vous.
Variations prosodiques Les voix neuronales HD de synthèse vocale introduisent de légères variations dans chaque sortie pour paraître encore plus réalistes. Ces variations rendent la parole plus naturelle, car les voix humaines présentent naturellement des variations.
Haute-fidélité L’objectif principal des voix neuronales HD de synthèse vocale est de générer un contenu audio haute-fidélité. La parole synthétique produit par notre système se rapproche de très près de la parole humaine tant au niveau de la qualité qu’au niveau de l’aspect naturel.
Gestion de version Avec les voix neuronales HD de synthèse vocale, nous publions différentes versions de la même voix, chacune avec une taille et une recette de modèle de base uniques. Cela vous offre la possibilité d’expérimenter de nouvelles variations vocales ou de continuer à utiliser une version spécifique d’une voix.

Comparaison des voix HD Azure AI Speech à d’autres voix de synthèse vocale Azure

Les voix HD Azure AI Speech sont-elles comparables à d’autres voix de synthèse vocale Azure ? En quoi sont-elles différentes en termes de fonctionnalités et de capacités ?

Voici une comparaison des fonctionnalités entre les voix HD Azure AI Speech, les voix HD Azure OpenAI et les voix Azure AI Speech :

Fonctionnalité Voix Azure AI Speech Voix HD Azure OpenAI Voix Azure AI Speech (non-HD)
Région USA Est, Asie Sud-Est, Europe Ouest USA Centre Nord, Suède Centre Disponible dans des dizaines de régions. Consultez la liste des régions.
Nombre de voix 12 6 Plus de 500
Multilingues Non (uniquement avec la langue principale) Oui Oui (applicables uniquement aux voix multilingues)
Prise en charge de SSML Prise en charge d’un sous-ensemble d’éléments SSML. Prise en charge d’un sous-ensemble d’éléments SSML. Prise en charge de l’ensemble complet de SSML dans Azure AI Speech.
Options de développement SDK Speech, Interface CLI Speech, API REST SDK Speech, Interface CLI Speech, API REST SDK Speech, Interface CLI Speech, API REST
Options de déploiement Cloud uniquement Cloud uniquement Cloud, incorporé, hybride et conteneurs.
Synthèse en temps réel ou par lot En temps réel uniquement Synthèse en temps réel et par lot Synthèse en temps réel et par lot
Latence Moins de 300 ms Plus de 500 ms Moins de 300 ms
Échantillonnage de l’audio synthétisé 8, 16, 24 et 48 kHz 8, 16, 24 et 48 kHz 8, 16, 24 et 48 kHz
Format audio de sortie vocale opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Voix HD Azure AI Speech prises en charge

Les valeurs des voix HD Azure AI Speech sont au format voicename:basemodel:version. Le nom avant le signe deux-points, tel que en-US-Ava, est le nom du personnage vocal et ses paramètres régionaux d’origine. Le modèle de base est tracé par les versions des mises à jour ultérieures.

Actuellement, DragonHD est le seul modèle de base disponible pour les voix HD Azure AI Speech. Pour veiller à utiliser la dernière version du modèle de base que nous fournissons sans avoir à modifier le code, utilisez la version LatestNeural.

Par exemple, pour le personnage en-US-Ava, vous pouvez spécifier les valeurs de voix HD suivantes :

  • en-US-Ava:DragonHDLatestNeural : utilise toujours la dernière version du modèle de base que nous fournissons par la suite.

Le tableau suivant répertorie les voix HD Azure AI Speech qui sont actuellement disponibles.

Personnage vocal neuronal Voix HD
de-DE-Seraphina de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2 en-US-Andrew2:DragonHDLatestNeural
en-US-Aria en-US-Aria:DragonHDLatestNeural
en-US-Ava en-US-Ava:DragonHDLatestNeural
en-US-Brian en-US-Brian:DragonHDLatestNeural
en-US-Davis en-US-Davis:DragonHDLatestNeural
en-US-Emma en-US-Emma:DragonHDLatestNeural
en-US-Emma2 en-US-Emma2:DragonHDLatestNeural
en-US-Jenny en-US-Jenny:DragonHDLatestNeural
en-US-Steffan en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen zh-CN-Xiaochen:DragonHDLatestNeural

Comment utiliser les voix HD Azure AI Speech

Vous pouvez utiliser les voix HD avec le même SDK Speech et les mêmes API REST que les voix non-HD.

Voici quelques points clés à prendre en compte lors de l’utilisation des voix HD Azure AI Speech :

  • Paramètres régionaux de la voix : Les paramètres régionaux dans le nom de la voix indiquent la langue et la région d’origine de celle-ci.
  • Modèles de base :
    • Les voix HD sont fournies avec un modèle de base qui comprend le texte d’entrée et prédit la façon de parler en conséquence. Vous pouvez spécifier le modèle souhaité (tel que DragonHDLatestNeural) en fonction de la disponibilité de chaque voix.
  • Utilisation de SSML : pour référencer une voix dans SSML, utilisez le format voicename:basemodel:version. Le nom avant le signe deux-points, tel que de-DE-Seraphina, est le nom du personnage vocal et ses paramètres régionaux d’origine. Le modèle de base est tracé par les versions des mises à jour ultérieures.
  • Paramètre de température :
    • La valeur de température est une valeur flottante comprise entre 0 et 1, ce qui influence l’aspect aléatoire de la sortie. Vous pouvez également ajuster le paramètre de température pour contrôler la variation des sorties. Moins de caractère aléatoire donne des résultats plus stables, tandis que plus de caractère aléatoire offre de la variété mais moins de cohérence.
    • Une température plus basse aboutit à un caractère moins aléatoire, ce qui entraîne des sorties plus prévisibles. Une température plus élevée augmente le caractère aléatoire, ce qui permet d’obtenir des sorties plus diverses. La température par défaut est définie sur 1.0.

Voici un exemple d’utilisation de voix HD Azure AI Speech dans SSML :

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Éléments SSML pris en charge et non pris en charge pour les voix HD Azure AI Speech

Le langage SSML (Speech Synthesis Markup Language) avec texte d’entrée détermine la structure, le contenu et d’autres caractéristiques de la sortie de synthèse vocale. Par exemple, vous pouvez utiliser SSML pour définir un paragraphe, une phrase, une pause ou un silence. Vous pouvez entourer du texte à l’aide de balises d’événement, comme un signet ou un visème, que votre application traite ultérieurement.

Les voix HD Azure AI Speech ne prennent pas en charge tous les éléments ou événements SSML pris en charge par d’autres voix Azure AI Speech. En particulier, les voix HD Azure AI Speech ne prennent pas en charge les événements de limite de mots.

Pour plus d’informations sur les éléments SSML pris en charge et non pris en charge pour les voix HD Azure AI Speech, reportez-vous au tableau suivant. Pour obtenir des instructions d’utilisation des éléments SSML, reportez-vous à la documentation de SSML (Speech Synthetis Markup Language).

Élément SSML Description Pris en charge dans les voix HD Azure AI Speech
<voice> Spécifie les effets vocaux et facultatifs (eq_car et eq_telecomhp8k). Oui
<mstts:express-as> Spécifie des styles d’élocution et des rôles. Non
<mstts:ttsembedding> Spécifie la propriété speakerProfileId pour une voix personnelle. Non
<lang xml:lang> Spécifie la langue parlée. Oui
<prosody> Ajuste la tonalité, le contour, la plage, la vitesse et le volume. Non
<emphasis> Ajoute ou supprime l’accent tonique au niveau du mot pour le texte. Non
<audio> Incorpore du contenu audio préenregistré dans un document SSML. Non
<mstts:audioduration> Spécifie la durée de l’audio de sortie. Non
<mstts:backgroundaudio> Ajoute de l’audio en arrière-plan à vos documents SSML ou combine un fichier audio avec la synthèse vocale. Non
<phoneme> Spécifie la prononciation phonétique dans des documents SSML. Non
<lexicon> Définit comment plusieurs entités sont lues dans SSML. Oui (prend en charge l’alias uniquement)
<say-as> Indique le type de contenu, par exemple un nombre ou une date, du texte de l’élément. Oui
<sub> Indique que la valeur de texte de l’attribut alias doit être prononcée au lieu du texte joint de l’élément. Oui
<math> Utilise MathML en texte d’entrée pour prononcer correctement les notations mathématiques dans l’audio de sortie. Non
<bookmark> Obtient le décalage de chaque marqueur dans le flux audio. Non
<break> Remplace le comportement par défaut des interruptions ou pauses entre les mots. Non
<mstts:silence> Insère une pause avant ou après le texte, ou entre deux phrases adjacentes. Non
<mstts:viseme> Définit la position du visage et de la bouche pendant qu’une personne parle. Non
<p> Désigne les paragraphes dans des documents SSML. Oui
<s> Désigne les phrases dans des documents SSML. Oui

Remarque

Même si une section précédente de ce guide a également comparé les voix HD Azure AI Speech aux voix HD Azure OpenAI, les éléments SSML pris en charge par Azure AI Speech ne s’appliquent pas aux voix Azure OpenAI.