Partager via


Choisissez une technologie de reconnaissance et de génération de la parole Azure AI

Les services Azure AI aident les concepteurs et les développeurs de charges de travail à créer des applications intelligentes, de pointe, prêtes pour le marché et responsables, sans API et modèles prêts à l’emploi, prédéfinis et personnalisables.

Cet article traite des services Azure AI qui offrent des fonctionnalités de reconnaissance vocale et de génération telles que les conversions de reconnaissance vocale et de synthèse vocale, la traduction audio, la reconnaissance de l’orateur, ainsi que la prise en charge de la lecture pour les personnes qui ont des différences d’apprentissage.

Remarque

Pour collecter des informations sur des termes ou des phrases, ou obtenir une analyse contextuelle détaillée de la langue parlée ou écrite, consultez Choisissez une technologie de traitement du langage ciblé Azure AI.

Services

Les services Azure AI suivants peuvent fournir des fonctionnalités de reconnaissance vocale et de génération pour votre charge de travail.

  • Azure AI Speech fournit un traitement du langage naturel pour l’analyse de texte.

    • Utilisez le service Speech pour transcrire ou traduire la langue parlée, identifier les interlocuteurs dans une conversation. Vous pouvez également utiliser le service comme solution moins onéreuse pour la génération de voix naturelles d’une qualité supérieure à celle de Whisper dans les modèles OpenAI.
    • N’utilisez pas le service Speech pour la conversation, le résumé de contenu, la modération ou pour guider les utilisateurs par le biais de scripts. Utilisez plutôt d’autres modèles pour ces opérations.
  • Immersive Reader est un outil qui permet d’implémenter des techniques éprouvées pour améliorer la compréhension dans le cadre de l’apprentissage de la lecture, l’apprentissage d’une langue et pour les personnes avec des difficultés d’apprentissage.

    • Utilisez Immersive Reader pour offrir une expérience de lisibilité améliorée adaptée aux apprenants d’une langue ou aux personnes ayant des différences d’apprentissage.
    • N’utilisez pas Immersive Reader pour les cas d’usage traditionnels de synthèse vocale.

Azure AI Speech

Azure AI Speech fournit des fonctionnalités de reconnaissance vocale et de synthèse vocale avec une ressource Speech. Vous pouvez transcrire la parole en texte avec une grande précision, produire des voix de synthèse vocale à la tonalité naturelle, traduire du contenu audio parlé et utiliser la reconnaissance de l’orateur pendant les conversations. Créez des voix personnalisées, ajoutez des mots spécifiques à votre vocabulaire de base ou créez vos propres modèles. Exécutez Speech n’importe où, dans le cloud ou en périphérie dans des conteneurs.

Speech est disponible dans diverses langues et régions.

Fonctionnalités

Le tableau suivant fournit la liste des fonctionnalités disponibles dans le service Azure AI Speech.

Fonctionnalité Description
Transcription par lot Transcrivez une grande quantité de données audio dans le stockage. L’API REST Speech-to-text et l’interface CLI Speech prennent en charge la transcription par lots.
Reconnaissance de l’intention Une intention est quelque chose que l’utilisateur souhaite faire : réserver un vol, vérifier la météo ou effectuer un appel. Avec la reconnaissance de l’intention, vos applications, outils et appareils peuvent déterminer ce que l’utilisateur souhaite lancer ou faire en fonction de certaines options. Vous définissez l’intention de l’utilisateur dans le module de reconnaissance de l’intention ou le modèle de compréhension du langage courant (CLU).
Évaluation de la prononciation Elle évalue la prononciation évalue la prononciation des entrées vocales et fournit des commentaires aux orateurs sur la justesse et l’aisance des paroles prononcées.
Reconnaissance de l’orateur La Reconnaissance de l’orateur est utilisée pour déterminer qui parle dans un clip audio. Le service peut vérifier et identifier les intervenants par leurs caractéristiques vocales uniques à l’aide de la biométrie vocale.
Reconnaissance vocale Convertit les flux audio en texte en temps réel ou par lots.
Synthèse vocale Permet la conversion de texte par synthèse vocale permet à vos applications, outils ou appareils de convertir du texte en langage humain synthétisé.
Traduction vocale Fournit une reconnaissance vocale multilingue et une traduction de parole en texte de flux audio.
Traduction vidéo Traduire et générer automatiquement des vidéos dans plusieurs langues.

Cas d’utilisation

Le tableau suivant décrit quelques-unes des méthodes possibles pour utiliser Azure AI Speech.

Cas d’usage Fonctionnalité à utiliser Description
Création de contenu audio Reconnaissance vocale Vous pouvez utiliser des voix neurales pour rendre les interactions avec les chatbots et des assistants vocaux plus naturelles et agréables, convertir des textes numériques comme les livres électroniques en livres audio et améliorer les systèmes de navigation embarqués.
Transcription de centre d’appel Reconnaissance vocale Transcrivez les appels en temps réel ou traitez-les par lots, supprimez les informations d’identification personnelle et extrayez des insights comme le sentiment pour faciliter votre cas d’usage de centre d’appels.
Sous-titrage Reconnaissance vocale Synchronisez les sous-titres avec les entrées audio, appliquer des filtres de vulgarité, obtenir des résultats partiels, appliquer des personnalisations et identifier les langues parlées pour les scénarios multilingues.
Apprentissage d’une langue Reconnaissance vocale Fournir des commentaires d’évaluation de la prononciation aux apprenants de langue, prendre en charge la transcription en temps réel pour les conversations d’apprentissage à distance, et lire à voix haute des supports d’enseignement avec des voix neuronales.
Assistants vocaux Synthèse vocale Créez des interfaces conversationnelles naturelles pour leurs applications et leurs expériences. La fonctionnalité d’assistant vocal permet une interaction rapide et fiable entre un appareil et une implémentation d’assistant.

Immersive Reader

Immersive Reader, qui fait partie des services Azure AI, est un outil qui permet d’implémenter des techniques éprouvées pour améliorer la compréhension dans le cadre de l’apprentissage de la lecture, l’apprentissage d’une langue et pour les personnes avec des difficultés d’apprentissage, comme la dyslexie. Avec la bibliothèque cliente d’Immersive Reader, vous pouvez utiliser la même technologie que celle employée dans Microsoft Word et Microsoft OneNote pour offrir une expérience de qualité aux utilisateurs de votre charge de travail.

Fonctionnalités

Voici une liste des fonctionnalités que votre charge de travail peut utiliser pour aider les utilisateurs à atteindre leurs objectifs de compréhension de lecture.

  • Isoler du contenu pour améliorer la lisibilité
  • Afficher des images pour des mots et des termes courants
  • Aider à comprendre les parties du discours et la grammaire en mettant en évidence des verbes, des substantifs, des pronoms, etc.
  • Lire le contenu à haute voix, comme le texte sélectionné par l’utilisateur dans l’interface utilisateur de votre charge de travail.
  • Traduire le contenu dans de nombreuses langues en temps réel, pour améliorer la compréhension des lecteurs apprenant une nouvelle langue
  • Décomposer les mots en syllabes pour améliorer la lisibilité ou permettre prononciation syllabe par syllabe des nouveaux mots.

Étapes suivantes