Migrieren von Code von der API für lange Audioinhalte zur Batchsynthese-API
Die Batchsynthese-API bietet asynchrone Synthese von Text in Langform in Sprache. Dieser Artikel beschreibt die Vorteile des Upgrades von der API für lange Audioinhalte zur Batchsynthese-API sowie Details zur Vorgehensweise.
Wichtig
Die API für die Batchsynthese ist allgemein verfügbar. Die API für lange Audioinhalte wird am 1. April 2027 eingestellt.
Basispfad und -version
Aktualisieren Sie den Endpunkt von https://YourSpeechRegion.customvoice.api.speech.microsoft.com
auf https://YourSpeechRegion.api.cognitive.microsoft.com
, oder verwenden Sie stattdessen die benutzerdefinierte Domäne: https://{customDomainName}.cognitiveservices.azure.com/
.
Aktualisieren Sie den Basispfad in Ihrem Code von /texttospeech/v3.0/longaudiosynthesis
auf /texttospeech/batchsyntheses
.
Aktualisieren Sie die Version vom Basispfad zur Abfragezeichenfolge /texttospeech/v3.0/longaudiosynthesis
auf ?api-version=2024-04-01
.
Wenn Sie beispielsweise Syntheseaufträge für Ihre Speech-Ressource in der Region eastus
auflisten möchten, verwenden Sie https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
anstelle von https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
.
Regionen und Endpunkte
Die Batchsynthese-API ist in mehr Speech-Regionen verfügbar.
Die API für lange Audioinhalte ist auf die folgenden Regionen beschränkt:
Region | Endpunkt |
---|---|
Australien (Osten) | https://australiaeast.customvoice.api.speech.microsoft.com |
East US | https://eastus.customvoice.api.speech.microsoft.com |
Indien, Mitte | https://centralindia.customvoice.api.speech.microsoft.com |
USA Süd Mitte | https://southcentralus.customvoice.api.speech.microsoft.com |
Asien, Südosten | https://southeastasia.customvoice.api.speech.microsoft.com |
UK, Süden | https://uksouth.customvoice.api.speech.microsoft.com |
Europa, Westen | https://westeurope.customvoice.api.speech.microsoft.com |
Stimmliste
Die Batchsynthese-API unterstützt alle Stimmen und Sprechweisen der Sprachsynthese.
Die API für lange Audioinhalte ist auf den Satz von Stimmen beschränkt, die von einer GET-Anforderung an https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
zurückgegeben werden.
Texteingaben
Texteingaben für die Batchsynthese werden in Form einer JSON-Nutzlast von bis zu 2 MB gesendet.
Texteingaben für die API für lange Audioinhalte werden aus einer Datei hochgeladen, die die folgenden Anforderungen erfüllt:
- Eine Datei mit unformatiertem Text (TXT) oder SSML-Text (TXT), die als UTF-8 mit BOM (Byte Order Mark) codiert ist. Verwenden Sie keine komprimierten Dateien wie ZIP. Wenn Sie über mehr als eine Eingabedatei verfügen, müssen Sie mehrere Anforderungen einreichen.
- Sie enthält mehr als 400 Zeichen für Nur-Text oder 400 abrechenbare Zeichen für SSML-Text und weniger als 10.000 Absätze. Bei unformatiertem Text wird jeder Absatz durch eine neue Zeile getrennt. Bei SSML-Text wird jede SSML-Komponente als Absatz betrachtet. Trennen Sie SSML-Teile durch verschiedene Absätze.
Bei der Batchsynthese-API können Sie jedes der unterstützten SSML-Elemente verwenden, einschließlich der Elemente audio
, mstts:backgroundaudio
und lexicon
. Die Elemente audio
, mstts:backgroundaudio
und lexicon
werden von der API für lange Audioinhalte nicht unterstützt.
Audioausgabeformate
Die Batchsynthese-API unterstützt alle Audioausgabeformate für Sprachsynthese.
Die API für lange Audioinhalte ist auf die folgenden Audioausgabeformate beschränkt. Die Abtastrate für lange Audiostimmen beträgt 24 kHz, nicht 48 kHz. Andere Abtastraten können durch Upsampling oder Downsampling beim Synthetisieren erreicht werden.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- audio-16khz-32kbitrate-mono-mp3
- audio-16khz-64kbitrate-mono-mp3
- audio-16khz-128kbitrate-mono-mp3
- audio-24khz-48kbitrate-mono-mp3
- audio-24khz-96kbitrate-mono-mp3
- audio-24khz-160kbitrate-mono-mp3
Abrufen von Ergebnissen
Verwenden Sie für die Batchsynthese-API die URL aus der Eigenschaft outputs.result
der Antwort auf die HTTP-GET-Batchsynthese. Die Ergebnisse befinden sich in einer ZIP-Datei, die die Audiodaten (z. B. 0001.wav
), die Zusammenfassung und die Debugdetails enthält.
Texteingaben und Ergebnisse der API für lange Audioinhalte werden über zwei separate Inhalts-URLs zurückgegeben, wie im folgenden Beispiel gezeigt. Die Ausgabe mit "kind": "LongAudioSynthesisScript"
ist das übermittelte Eingabeskript. Die andere Ausgabe mit "kind": "LongAudioSynthesisResult"
ist das Ergebnis dieser Anforderung. Beide ZIP-Dateien können über die URL in ihrer links.contentUrl
-Eigenschaft heruntergeladen werden.
Bereinigen von Ressourcen
Die Batchsynthese-API unterstützt bis zu 300 Batchsyntheseaufträge, die nicht den Status „Erfolgreich“ oder „Fehler“ aufweisen. Der Speech-Dienst bewahrt jeden Syntheseverlauf bis zu 31 Tage lang oder für die in der Anforderungseigenschaft timeToLiveInHours
angegebene Dauer auf, je nachdem, was früher eintritt. Datum und Uhrzeit der automatischen Löschung (bei Syntheseaufträgen mit dem Status „Erfolgreich“ oder „Fehler“) entsprechen den Eigenschaften lastActionDateTime
+ timeToLiveInHours
.
Die API für lange Audioinhalte ist auf 20.000 Anforderungen für jedes Azure-Abonnementkonto beschränkt. Der Speech-Dienst entfernt den Auftragsverlauf nicht automatisch. Sie müssen den Verlauf vorheriger Auftragsausführungen entfernen, bevor Sie neue Anforderungen ausführen, die andernfalls den Grenzwert überschreiten würden.