Migrer du code de l’API Audio long vers l’API Synthèse par lots

Article
03/10/2025

L’API Synthèse par lots fournit une synthèse asynchrone de la conversion de texte long par synthèse vocale. Cet article décrit les avantages de la mise à niveau de l’API Audio long vers l’API Synthèse par lots, ainsi que des détails sur la façon de procéder.

Important

L’API Synthèse par lots est en disponibilité générale. l’API Long Audio sera mise hors service le 1er avril 2027.

Chemin d’accès de base et version

Mettez à jour le point de terminaison de https://YourSpeechRegion.customvoice.api.speech.microsoft.com vers https://YourSpeechRegion.api.cognitive.microsoft.com ou utilisez éventuellement un domaine personnalisé à la place : https://{customDomainName}.cognitiveservices.azure.com/.

Mettez à jour le chemin d’accès de base dans votre code en le faisant passer de /texttospeech/v3.0/longaudiosynthesis à /texttospeech/batchsyntheses.

Mettez à jour la version du chemin d’accès de base à la chaîne de requête /texttospeech/v3.0/longaudiosynthesis en choisissant ?api-version=2024-04-01.

Par exemple, pour lister les travaux de synthèse de votre ressource Speech dans la région eastus, utilisez https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 au lieu de https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Régions et points de terminaison

L’API Synthèse par lots est disponible dans davantage de régions Speech.

L’API Audio long est limitée aux régions suivantes :

Région	Point de terminaison
Australie Est	`https://australiaeast.customvoice.api.speech.microsoft.com`
USA Est	`https://eastus.customvoice.api.speech.microsoft.com`
Inde Centre	`https://centralindia.customvoice.api.speech.microsoft.com`
États-Unis - partie centrale méridionale	`https://southcentralus.customvoice.api.speech.microsoft.com`
Asie Sud-Est	`https://southeastasia.customvoice.api.speech.microsoft.com`
Sud du Royaume-Uni	`https://uksouth.customvoice.api.speech.microsoft.com`
Europe Ouest	`https://westeurope.customvoice.api.speech.microsoft.com`

Liste de voix

L’API de synthèse par lots prend en charge tous les styles et voix de synthèse vocale.

L’API Audio long est limitée à l’ensemble des voix retournées par une requête GET vers https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Entrées de texte

Les entrées de texte de la synthèse par lots sont envoyées dans une charge utile JSON dont la taille peut atteindre 2 mégaoctets.

Les entrées de texte de l’API Audio longue sont chargées à partir d’un fichier qui remplit les exigences suivantes :

Un fichier de texte brut (.txt) ou de texte SSML (.txt) encodé en UTF-8 avec marque d’ordre d’octet (BOM). N’utilisez pas de fichiers compressés tels que ZIP. Si vous avez plusieurs fichiers d’entrée, vous devez envoyer plusieurs requêtes.
Il contient plus de 400 caractères pour le texte brut ou 400 caractères facturables pour du texte SSML, et moins de 10 000 paragraphes. Pour du texte brut, chaque paragraphe est séparé par une nouvelle ligne. Pour du texte SSML, chaque élément SSML est considéré comme un paragraphe. Séparez les éléments SSML par des paragraphes différents.

Avec l’API Synthèse par lots, vous pouvez utiliser n’importe lequel des éléments SSML pris en charge, y compris les éléments audio, mstts:backgroundaudio et lexicon. L’API Long Audio ne prend pas en charge les éléments audio, mstts:backgroundaudio et lexicon.

Formats de sortie aduio

L’API de synthèse par lots prend en charge tous les formats de sortie audio de la synthèse vocale.

L’API Audio long est limitée à l’ensemble suivant de formats de sortie audio. Le taux d’échantillonnage pour les voix audio longues est de 24 kHz, et pas de 48 kHz. D’autres taux d’échantillonnage peuvent être obtenus par le biais d’une mise à l’épreuve ou d’un basculement lors de la synthèse.

riff-8 khz-16 bits-mono-pcm
riff-16 khz-16 bits-mono-pcm
riff-24 khz-16 bits-mono-pcm
riff-48 khz-16 bits-mono-pcm
audio-16 khz-32 kbitrate-mono-mp3
audio-16 khz-64 kbitrate-mono-mp3
audio-16 khz-128 kbitrate-mono-mp3
audio-24 khz-48 kbitrate-mono-mp3
audio-24 khz-96 kbitrate-mono-mp3
audio-24 khz-160 kbitrate-mono-mp3

Obtention des résultats

Avec l’API Synthèse par lots, utilisez l’URL figurant dans la propriété outputs.result de la réponse à la requête de synthèse par lots HTTP GET. Les résultats sont fournis dans un fichier ZIP qui contient l’audio (0001.wav par exemple), un résumé et des détails de débogage.

Les entrées de texte et les résultats de l’API Audio long sont retournés via deux URL de contenu distinctes, comme le montre l’exemple suivant. Celui avec "kind": "LongAudioSynthesisScript" est le script d’entrée envoyé. L’autre avec "kind": "LongAudioSynthesisResult" est le résultat de cette requête. Les deux fichiers ZIP peuvent être téléchargés à partir de l’URL dans leur propriété links.contentUrl.

Nettoyage des ressources

L’API Synthèse par lots prend en charge jusqu’à 300 travaux de synthèse par lots qui n’ont pas l’état « Réussite » ou « Échec ». Le service Speech conserve chaque historique de synthèse jusqu’à 31 jours, ou pendant la durée spécifiée par la propriété timeToLiveInHours de la requête, selon la première de ces éventualités. La date et l’heure de la suppression automatique (pour les travaux de synthèse ayant l’état « Réussite » ou « Échec ») sont celles définies par les propriétés lastActionDateTime + timeToLiveInHours.

L’API Audio long est limitée à 20 000 requêtes par compte d’abonnement Azure. Le service Speech ne supprime pas automatiquement l’historique des travaux. Vous devez supprimer vous-même l’historique des exécutions de travaux précédents avant d’effectuer de nouvelles requêtes qui entraîneraient un dépassement de la limite.

Partager via