Intégrer et utiliser la reconnaissance vocale et la transcription

Effectué

Les services Speech regroupent la reconnaissance vocale, la synthèse vocale et la traduction vocale dans un seul abonnement Azure. Il est facile d’activer des fonctions vocales dans vos applications, outils et appareils avec l’interface CLI Speech, le kit de développement logiciel (SDK) Speech, le kit de développement logiciel (SDK) Speech Devices, Speech Studio ou des API REST.

Reconnaissance vocale

Le service Reconnaissance de l’orateur fournit des algorithmes qui vérifient et identifient les orateurs d’après leurs caractéristiques vocales propres en utilisant la biométrie vocale. Elle est utilisée pour répondre à la question « qui parle ? » Tout d’abord, vous fournissez les données d’entraînement audio d’un seul orateur, ce qui crée un profil d’inscription basé sur les caractéristiques uniques de la voix de l’orateur. Vous pouvez ensuite recouper les exemples de voix audio avec ce profil pour vérifier que l’orateur est la même personne (vérification de l’orateur) ou vous pouvez recouper les exemples de voix audio avec un groupe de profils d’orateurs inscrits pour voir s’ils correspondent à l’un des profils du groupe (identification de l’orateur). En revanche, la diarisation des orateurs utilise une opération de traitement par lot pour regrouper les flux audio par identité d’orateur, ce qui signifie que différents orateurs ont chacun leurs propres segments audio.

Transcription

La transcription est un ensemble d’opérations de l’API REST qui vous permettent de transcrire de l’audio dans le stockage. Vous pouvez pointer vers des fichiers audio avec un URI de signature d’accès partagé (SAS) et recevoir de manière asynchrone les résultats de la transcription.

Commandes vocales MRTK

Tout comme les entrées vocales Windows, les fournisseurs d’entrées vocales ne créent pas de contrôleurs, mais vous permettent de définir des mots clés qui déclencheront des événements d’entrée vocale lorsqu’ils seront reconnus. Vous allez configurer les mots clés à reconnaître dans le profil de commandes vocales du profil du système d’entrée. Pour chaque commande, vous pouvez également :

  • Sélectionnez une action d’entrée à mapper à la commande. De cette façon, vous pouvez par exemple utiliser le mot clé Sélectionner pour avoir le même effet qu’un clic gauche de souris, en associant les deux à la même action.
  • Spécifier un code de touche qui produit le même événement de messagerie lorsqu’elle est enfoncée.
  • Ajouter une clé de localisation utilisée dans les applications UWP pour obtenir le mot clé localisé à partir des ressources de l’application.

Kit de développement logiciel (SDK) de reconnaissance vocale

Le kit de développement logiciel (SDK) Speech expose de nombreuses fonctionnalités de service vocal pour vous permettre de développer des applications vocales. Le kit de développement logiciel (SDK) Speech est disponible dans de nombreux langages de programmation et sur toutes les plateformes. Le kit de développement logiciel (SDK) Speech expose de nombreuses fonctionnalités du service Speech (mais pas toutes). Les fonctionnalités du Speech SDK sont souvent associées à des scénarios. Le kit de développement logiciel (SDK) Speech est idéal pour les scénarios, en temps réel ou non, qui utilisent des appareils locaux, des fichiers, le stockage Blob Azure et même des flux d’entrée et de sortie. Lorsqu'un scénario n'est pas réalisable avec le SDK Speech, recherchez une alternative avec l'API REST.

Perception spatiale

La perception spatiale fournit un accès programmatique aux données de cartes spatiales, en donnant aux applications de réalité mixte des informations sur les surfaces des régions de l’espace spécifiées par l’application près de l’utilisateur. Déclarez la fonction de perception spatiale seulement si votre application utilise explicitement ces maillages de surface. La capacité n’est pas requise pour permettre aux applications de réalité mixte d’effectuer un rendu holographique basé sur la position de la tête de l’utilisateur.

Serveur client Internet

Le serveur client Internet permet aussi des scénarios P2P (pair-à-pair) où l’application doit écouter les connexions réseau entrantes.

Serveur client de réseau privé

Le serveur client de réseau privé fournit un accès entrant et sortant aux réseaux privés et professionnels via le pare-feu. Cette fonction est généralement utilisée pour les jeux qui communiquent sur le réseau local (LAN) et pour les applications qui partagent des données entre plusieurs appareils locaux.