Migrieren von Code von der API für lange Audioinhalte zur Batchsynthese-API

Artikel
03/10/2025

Die Batchsynthese-API bietet asynchrone Synthese von Text in Langform in Sprache. Dieser Artikel beschreibt die Vorteile des Upgrades von der API für lange Audioinhalte zur Batchsynthese-API sowie Details zur Vorgehensweise.

Wichtig

Die API für die Batchsynthese ist allgemein verfügbar. Die API für lange Audioinhalte wird am 1. April 2027 eingestellt.

Basispfad und -version

Aktualisieren Sie den Endpunkt von https://YourSpeechRegion.customvoice.api.speech.microsoft.com auf https://YourSpeechRegion.api.cognitive.microsoft.com, oder verwenden Sie stattdessen die benutzerdefinierte Domäne: https://{customDomainName}.cognitiveservices.azure.com/.

Aktualisieren Sie den Basispfad in Ihrem Code von /texttospeech/v3.0/longaudiosynthesis auf /texttospeech/batchsyntheses.

Aktualisieren Sie die Version vom Basispfad zur Abfragezeichenfolge /texttospeech/v3.0/longaudiosynthesis auf ?api-version=2024-04-01.

Wenn Sie beispielsweise Syntheseaufträge für Ihre Speech-Ressource in der Region eastus auflisten möchten, verwenden Sie https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 anstelle von https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Regionen und Endpunkte

Die Batchsynthese-API ist in mehr Speech-Regionen verfügbar.

Die API für lange Audioinhalte ist auf die folgenden Regionen beschränkt:

Region	Endpunkt
Australien (Osten)	`https://australiaeast.customvoice.api.speech.microsoft.com`
East US	`https://eastus.customvoice.api.speech.microsoft.com`
Indien, Mitte	`https://centralindia.customvoice.api.speech.microsoft.com`
USA Süd Mitte	`https://southcentralus.customvoice.api.speech.microsoft.com`
Asien, Südosten	`https://southeastasia.customvoice.api.speech.microsoft.com`
UK, Süden	`https://uksouth.customvoice.api.speech.microsoft.com`
Europa, Westen	`https://westeurope.customvoice.api.speech.microsoft.com`

Stimmliste

Die Batchsynthese-API unterstützt alle Stimmen und Sprechweisen der Sprachsynthese.

Die API für lange Audioinhalte ist auf den Satz von Stimmen beschränkt, die von einer GET-Anforderung an https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voiceszurückgegeben werden.

Texteingaben

Texteingaben für die Batchsynthese werden in Form einer JSON-Nutzlast von bis zu 2 MB gesendet.

Texteingaben für die API für lange Audioinhalte werden aus einer Datei hochgeladen, die die folgenden Anforderungen erfüllt:

Eine Datei mit unformatiertem Text (TXT) oder SSML-Text (TXT), die als UTF-8 mit BOM (Byte Order Mark) codiert ist. Verwenden Sie keine komprimierten Dateien wie ZIP. Wenn Sie über mehr als eine Eingabedatei verfügen, müssen Sie mehrere Anforderungen einreichen.
Sie enthält mehr als 400 Zeichen für Nur-Text oder 400 abrechenbare Zeichen für SSML-Text und weniger als 10.000 Absätze. Bei unformatiertem Text wird jeder Absatz durch eine neue Zeile getrennt. Bei SSML-Text wird jede SSML-Komponente als Absatz betrachtet. Trennen Sie SSML-Teile durch verschiedene Absätze.

Bei der Batchsynthese-API können Sie jedes der unterstützten SSML-Elemente verwenden, einschließlich der Elemente audio, mstts:backgroundaudio und lexicon. Die Elemente audio, mstts:backgroundaudio und lexicon werden von der API für lange Audioinhalte nicht unterstützt.

Audioausgabeformate

Die Batchsynthese-API unterstützt alle Audioausgabeformate für Sprachsynthese.

Die API für lange Audioinhalte ist auf die folgenden Audioausgabeformate beschränkt. Die Abtastrate für lange Audiostimmen beträgt 24 kHz, nicht 48 kHz. Andere Abtastraten können durch Upsampling oder Downsampling beim Synthetisieren erreicht werden.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Abrufen von Ergebnissen

Verwenden Sie für die Batchsynthese-API die URL aus der Eigenschaft outputs.result der Antwort auf die HTTP-GET-Batchsynthese. Die Ergebnisse befinden sich in einer ZIP-Datei, die die Audiodaten (z. B. 0001.wav), die Zusammenfassung und die Debugdetails enthält.

Texteingaben und Ergebnisse der API für lange Audioinhalte werden über zwei separate Inhalts-URLs zurückgegeben, wie im folgenden Beispiel gezeigt. Die Ausgabe mit "kind": "LongAudioSynthesisScript" ist das übermittelte Eingabeskript. Die andere Ausgabe mit "kind": "LongAudioSynthesisResult" ist das Ergebnis dieser Anforderung. Beide ZIP-Dateien können über die URL in ihrer links.contentUrl-Eigenschaft heruntergeladen werden.

Bereinigen von Ressourcen

Die Batchsynthese-API unterstützt bis zu 300 Batchsyntheseaufträge, die nicht den Status „Erfolgreich“ oder „Fehler“ aufweisen. Der Speech-Dienst bewahrt jeden Syntheseverlauf bis zu 31 Tage lang oder für die in der Anforderungseigenschaft timeToLiveInHours angegebene Dauer auf, je nachdem, was früher eintritt. Datum und Uhrzeit der automatischen Löschung (bei Syntheseaufträgen mit dem Status „Erfolgreich“ oder „Fehler“) entsprechen den Eigenschaften lastActionDateTime + timeToLiveInHours.

Die API für lange Audioinhalte ist auf 20.000 Anforderungen für jedes Azure-Abonnementkonto beschränkt. Der Speech-Dienst entfernt den Auftragsverlauf nicht automatisch. Sie müssen den Verlauf vorheriger Auftragsausführungen entfernen, bevor Sie neue Anforderungen ausführen, die andernfalls den Grenzwert überschreiten würden.

Freigeben über