Vue d’ensemble de l’avatar de synthèse vocale

Article
09/11/2024

L’avatar de synthèse vocale convertit du texte en vidéo numérique d’un humain photoréaliste (soit un avatar préconçu, soit un avatar de synthèse vocale personnalisé) qui parle avec une voix naturelle. La vidéo de l’avatar de synthèse vocale peut être synthétisée de manière asynchrone ou en temps réel. Les développeurs peuvent créer des applications intégrées à l’avatar de synthèse vocale via une API ou utiliser un outil de création de contenu sur Speech Studio pour créer du contenu vidéo sans coder.

Avec les modèles de réseau neuronal avancés de l’avatar de synthèse vocale, la fonctionnalité permet aux utilisateurs de fournir des vidéos d’avatar avec des voix synthétiques haute qualité très réalistes pour diverses applications, tout en respectant les pratiques de l’IA responsable.

Conseil

Pour convertir du texte par synthèse vocale avec une approche sans code, essayez l’outil d’avatar de synthèse vocale dans Speech Studio.

Fonctionnalités d’avatar

Les fonctionnalités d’avatar de synthèse vocale inclut capacités suivantes :

Convertit du texte en vidéo numérique d’un humain photoréaliste qui parle avec des voix naturelles via la synthèse vocale Azure AI.
Fournit une collection d’avatars préconçus.
La voix de l’avatar est générée par la synthèse vocale Azure AI. Pour plus d’informations, consultez Voix et langue de l’avatar.
Synthétise la vidéo d’avatar de synthèse vocale de manière asynchrone avec l’API de synthèse par lots ou en temps réel.
Fournit un outil de création de contenu dans Speech Studio pour créer du contenu vidéo sans coder.
Active les conversations d’avatar en temps réel via l’outil d’avatar de conversation en direct dans Speech Studio.

Avec les modèles de réseau neuronal avancés de l’avatar de synthèse vocale, la fonctionnalité vous permet de fournir des vidéos d’avatar avec des voix synthétiques très qualitatives et très réalistes pour différentes applications tout en respectant les pratiques de l’IA responsable.

Voix et langue de l’avatar

Vous pouvez choisir entre plusieurs voix prédéfinies pour l’avatar. La prise en charge de langue pour l’avatar de synthèse vocale est la même que la prise en charge de langue pour la synthèse vocale. Pour plus de détails, consultez Prise en charge des langues et des voix pour le service Speech. Vous pouvez accéder à des avatars de synthèse vocale préconçus via le portail Speech Studio ou via l’API.

La voix dans la vidéo synthétique peut être une voix neuronale prédéfinie disponible sur Azure AI Speech ou la voix neuronale personnalisée d’un artiste vocal sélectionné par vous.

Sortie de la vidéo de l’avatar

La résolution de la synthèse par lots et de la synthèse en temps réel est de 1920 x 1080, et les images par seconde (FPS) sont de 25. Le codec de synthèse par lot peut être h264, hevc ou av1 si le format est mp4 et peut définir le codec comme vp9 ou av1 si le format est webm ; seul vp9 peut contenir un canal alpha. Le codec de la synthèse en temps réel est h264. La vitesse de transmission de la vidéo peut être configurée pour la synthèse par lots et la synthèse en temps réel dans la requête. La valeur par défaut est 2000000. Vous trouverez des configurations plus détaillées dans l’exemple de code.

	Synthèse par lots	Synthèse en temps réel
Résolution	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

Avatar de synthèse vocale personnalisé

Vous pouvez créer des avatars de synthèse vocale personnalisés propres à votre produit ou marque. Pour commencer, il vous suffit d’avoir 10 minutes d’enregistrements vidéo. Si vous créez également une voix neuronale personnalisée pour l’acteur, l’avatar peut être extrêmement réaliste. Pour plus d’informations, consultez Qu’est-ce qu’un avatar de synthèse vocale personnalisé.

La voix neuronale personnalisée et l’avatar de synthèse vocale personnalisé sont deux fonctionnalités distinctes. Vous pouvez les utiliser indépendamment ou ensemble. Si vous envisagez également d’utiliser une voix neuronale personnalisée avec un avatar de synthèse vocale, vous devez déployer ou copier votre modèle vocal neuronal personnalisé dans l’une des régions prises en charge par l’avatar.

Exemple de code

Vous trouverez un exemple de code pour l’avatar de synthèse vocale sur GitHub. Ces exemples couvrent les scénarios les plus répandus :

Synthèse par lots (REST)
Synthèse en temps réel (SDK)
Conversation en direct avec Azure OpenAI en arrière-plan (SDK)
Pour créer une application de conversation en direct avec Azure OpenAI Sur votrede données, vous pouvez vous référer à cet exemple de code (recherchez « Sur vos données »)

Tarification

Tout au long d’une session en temps réel ou d’une création de contenu par lots, la synthèse vocale, la reconnaissance vocale, Azure OpenAI ou d’autres services Azure sont facturés séparément.
Reportez-vous à note de tarification de l’avatar de synthèse vocale pour découvrir comment la facturation fonctionne pour la fonctionnalité d’avatar de synthèse vocale.
Pour les prix en détails, consultez les tarifs du service Speech. Notez que la tarification des avatars est visible uniquement pour les régions de service où la fonctionnalité est disponible, notamment : Asie Sud-Est, Europe Nord, Europe Ouest, Suède Centre, USA Centre Sud, USA Est 2 et USA Ouest 2.

Localisations disponibles

La fonctionnalité d’avatar de synthèse vocale est disponible uniquement dans les régions de service suivantes : Asie Sud-Est, Europe Nord, Europe Ouest, Suède Centre, USA Centre Sud, USA Est 2 et USA Ouest 2.

IA responsable

Nous nous soucions des personnes qui utilisent l’IA et qui en sont affectées autant que nous nous soucions de la technologie. Pour plus d’informations, consultez les notes de transparence et les conditions de divulgation des talents de voix et d’avatar de l’IA responsable.

Partager via