API REST de reconnaissance vocale

Article
03/10/2025

L’API REST de reconnaissance vocale est utilisée pour la transcription par lots et pour Custom Speech.

Important

La version 2024-11-15 de l’API REST de reconnaissance vocale est la dernière version en disponibilité générale.

La version 2024-05-15-preview de l’API REST de reconnaissance vocale sera supprimée à une date qui sera annoncée ultérieurement.
L’API REST de reconnaissance vocale v3.0, v3.1, v3.2, 3.2-preview.1, et 3.2-preview.2 sera retirée le 1er avril 2026.

Pour plus d’informations sur la mise à niveau, consultez les guides de migration de l’API REST de reconnaissance vocale v3.0 vers v3.1, v3.1 vers v3.2 et v3.2 to 2024-11-15.

Consultez la documentation de référence de l’API REST de reconnaissance vocale 2024-11-15

Utilisez l’API REST de reconnaissance vocale pour ce qui suit :

Transcription rapide : transcrivez des fichiers audio en renvoyant les résultats de manière synchronisée et beaucoup plus rapidement que l’audio en temps réel. Utilisez l’API de transcription rapide (/speechtotext/transcriptions:transcribe) dans les scénarios où vous avez besoin de la transcription d’un enregistrement audio le plus rapidement possible avec une latence prévisible, comme la transcription rapide audio ou vidéo, ou la traduction vidéo.
Custom Speech : chargez vos propres données, testez et entraînez un modèle personnalisé, comparez l’exactitude entre les modèles, et déployez un modèle sur un point de terminaison personnalisé. Copier des modèles vers d’autres abonnements si vous voulez que les collègues aient accès à un modèle que vous avez créé, ou si vous voulez déployer un modèle dans plusieurs régions.
Transcription par lots : transcrivez des fichiers audio par lots à partir de plusieurs URL ou d’un conteneur Azure.

L’API REST de reconnaissance vocale inclut notamment les fonctionnalités suivantes :

Obtenez des journaux par point de terminaison si les journaux ont été demandés pour un point de terminaison particulier.
Demander le manifeste des modèles que vous créez pour configurer des conteneurs locaux.
Charger des données à partir de comptes de stockage Azure à l’aide d’un URI de signature d’accès partagé (SAS).
Apportez votre propre stockage. Utilisez vos propres comptes de stockage pour les journaux, les fichiers de transcription et d’autres données.
Certaines opérations prennent en charge les notifications webhook. Vous pouvez inscrire vos webhooks là où les notifications sont envoyées.

Transcription Batch

Les groupes d’opérations suivants s’appliquent à la transcription par lots.

Groupe d’opérations	Description
Modèles	Utilisez des modèles de base ou des modèles personnalisés pour transcrire des fichiers audio. Vous pouvez utiliser des modèles avec Custom Speech et la transcription par lots. Par exemple, vous pouvez utiliser un modèle entraîné à l’aide d’un jeu de données spécifique pour transcrire des fichiers audio. Consultez Entraîner un modèle et Cycle de vie du modèle Custom Speech pour voir des exemples d’entraînement et de gestion des modèles Custom Speech.
Transcriptions	Utilisez les transcriptions pour transcrire une grande quantité d’audio dans le stockage. Quand vous utilisez la transcription par lots, vous envoyez plusieurs fichiers par demande, ou pointez vers un conteneur de stockage Blob Azure avec les fichiers audio à transcrire. Pour voir des exemples de création de transcriptions à partir de plusieurs fichiers audio, consultez Créer une transcription.
Webhooks	Utilisez des webhooks pour recevoir des notifications sur les événements de création, de traitement, d’achèvement et de suppression. Vous pouvez utiliser des webhooks avec Custom Speech et la transcription par lots. Les webhooks s’appliquent aux jeux de données, points de terminaison, évaluations, modèles et transcriptions.

Parole personnalisée

Les groupes d’opérations suivants s’appliquent à Custom Speech.

Groupe d’opérations	Description
Jeux de données	Utilisez des jeux de données pour entraîner et tester des modèles Custom Speech. Par exemple, vous pouvez comparer les performances d’un modèle Custom Speech entraîné avec un jeu de données spécifique à celles d’un modèle de base ou d’un modèle Custom Speech entraîné avec un autre jeu de données. Pour voir des exemples de chargement de jeux de données, consultez Charger des jeux de données d’entraînement et de test.
Points de terminaison	Déployez des modèles Custom Speech sur des points de terminaison. Vous devez déployer un point de terminaison personnalisé pour utiliser un modèle Custom Speech. Pour voir des exemples de gestion des points de terminaison de déploiement, consultez Déployer un modèle.
Évaluations	Utilisez des évaluations pour comparer les performances de différents modèles. Par exemple, vous pouvez comparer les performances d’un modèle Custom Speech entraîné avec un jeu de données spécifique à celles d’un modèle de base ou d’un modèle personnalisé entraîné avec un autre jeu de données. Consultez Tester la qualité de la reconnaissance et Tester l’exactitude pour voir des exemples de tests et d’évaluations des modèles Custom Speech.
Modèles	Utilisez des modèles de base ou des modèles personnalisés pour transcrire des fichiers audio. Vous pouvez utiliser des modèles avec Custom Speech et la transcription par lots. Par exemple, vous pouvez utiliser un modèle entraîné à l’aide d’un jeu de données spécifique pour transcrire des fichiers audio. Consultez Entraîner un modèle et Cycle de vie du modèle Custom Speech pour voir des exemples d’entraînement et de gestion des modèles Custom Speech.
Projets	Utilisez des projets pour gérer des modèles Custom Speech, des jeux de données d’entraînement et de test, et des points de terminaison de déploiement. Les projets Custom Speech contiennent des modèles, des jeux de données d’entraînement et de test, et des points de terminaison de déploiement. Chaque projet est spécifique à un paramètre régional. Par exemple, vous pourriez créer un projet utilisant l’anglais aux États-Unis. Pour voir des exemples de création de projets, consultez Créer un projet.
Webhooks	Utilisez des webhooks pour recevoir des notifications sur les événements de création, de traitement, d’achèvement et de suppression. Vous pouvez utiliser des webhooks avec Custom Speech et la transcription par lots. Les webhooks s’appliquent aux jeux de données, points de terminaison, évaluations, modèles et transcriptions.

Service de contrôle d’intégrité

L’intégrité des services fournit des insights sur l’intégrité générale du service et des sous-composants. Consultez Intégrité des services pour plus d’informations.

Partage via

API REST de reconnaissance vocale

Transcription Batch

Parole personnalisée

Service de contrôle d’intégrité

Étapes suivantes

Commentaires

Ressources supplémentaires