Migrera kod från API för långt ljud till Batch-syntes-API
Batch-syntes-API:et tillhandahåller asynkron syntes av långformatstext till tal. Den här artikeln beskriver fördelarna med att uppgradera från Long Audio API till Batch synthesis API och information om hur du gör det.
Viktigt!
Batchsyntes-API är allmänt tillgängligt. Long Audio-API:et går i pension den 1 april 2027.
Grundläggande sökväg och version
Uppdatera slutpunkten från https://YourSpeechRegion.customvoice.api.speech.microsoft.com
till https://YourSpeechRegion.api.cognitive.microsoft.com
eller så kan du använda anpassad domän i stället: https://{customDomainName}.cognitiveservices.azure.com/
.
Uppdatera bassökvägen i koden från /texttospeech/v3.0/longaudiosynthesis
till /texttospeech/batchsyntheses
.
Uppdatera versionen från bassökvägen till frågesträngen /texttospeech/v3.0/longaudiosynthesis
till ?api-version=2024-04-01
.
Om du till exempel vill visa en lista över syntesjobb för din Speech-resurs i eastus
regionen använder du https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
i stället https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
för .
Regioner och slutpunkter
Batchsyntes-API är tillgängligt i fler Talregioner.
API:et för långt ljud är begränsat till följande regioner:
Region | Slutpunkt |
---|---|
Australien, östra | https://australiaeast.customvoice.api.speech.microsoft.com |
USA, östra | https://eastus.customvoice.api.speech.microsoft.com |
Indien, centrala | https://centralindia.customvoice.api.speech.microsoft.com |
USA, södra centrala | https://southcentralus.customvoice.api.speech.microsoft.com |
Sydostasien | https://southeastasia.customvoice.api.speech.microsoft.com |
Storbritannien, södra | https://uksouth.customvoice.api.speech.microsoft.com |
Europa, västra | https://westeurope.customvoice.api.speech.microsoft.com |
Röstlista
Batch-syntes-API:et stöder alla text till talröster och formatmallar.
Api:et för långt ljud är begränsat till den uppsättning röster som returneras av en GET-begäran till https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
.
Textindata
Textindata för batchsyntes skickas i en JSON-nyttolast på upp till 2 megabyte.
Textindata för Long Audio API laddas upp från en fil som uppfyller följande krav:
- En oformaterad textfil (.txt) eller SSML-textfil (.txt) som kodas som UTF-8 med Byte Order Mark (BOM). Använd inte komprimerade filer som ZIP. Om du har fler än en indatafil måste du skicka flera begäranden.
- Innehåller mer än 400 tecken för oformaterad text eller 400 fakturerbara tecken för SSML-text och mindre än 10 000 stycken. För oformaterad text avgränsas varje stycke med en ny rad. För SSML-text betraktas varje SSML-del som ett stycke. Avgränsa SSML-bitar med olika stycken.
Med Batch-syntes-API:et kan du använda något av de SSML-element som stöds, inklusive elementen audio
, mstts:backgroundaudio
och lexicon
. Det långa ljud-API:et stöder inte elementen audio
, mstts:backgroundaudio
och lexicon
.
Ljudutdataformat
Batch-syntes-API:et stöder alla text-till-tal-ljudutdataformat.
API:et för långt ljud är begränsat till följande uppsättning ljudutdataformat. Exempelfrekvensen för långa ljudröster är 24 kHz, inte 48 kHz. Andra exempelfrekvenser kan erhållas genom uppsampling eller nedsampling vid syntetiserande.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- audio-16khz-32kbitrate-mono-mp3
- audio-16khz-64kbitrate-mono-mp3
- audio-16khz-128kbitrate-mono-mp3
- audio-24khz-48kbitrate-mono-mp3
- audio-24khz-96kbitrate-mono-mp3
- audio-24khz-160kbitrate-mono-mp3
Få resultat
Med batchsyntes-API använder du URL:en från outputs.result
egenskapen för HTTP GET-batchsyntessvaret. Resultatet finns i en ZIP-fil som innehåller ljud (till exempel 0001.wav
), sammanfattning och felsökningsinformation.
Textindata och resultat för Long Audio API returneras via två separata innehålls-URL:er enligt följande exempel. Den med "kind": "LongAudioSynthesisScript"
är indataskriptet som skickats. Den andra med "kind": "LongAudioSynthesisResult"
är resultatet av den här begäran. Båda ZIP-filerna kan laddas ned från URL:en i deras links.contentUrl
egenskap.
Rensa resurser
Batch synthesis API stöder upp till 300 batchsyntesjobb som inte har statusen "Lyckades" eller "Misslyckades". Speech-tjänsten behåller varje synteshistorik i upp till 31 dagar, eller varaktigheten för begärandeegenskapen timeToLiveInHours
, beroende på vilket som inträffar tidigare. Datum och tid för automatisk borttagning (för syntesjobb med statusen "Lyckades" eller "Misslyckades") är lika lastActionDateTime
+ timeToLiveInHours
med egenskaperna.
Api:et för långt ljud är begränsat till 20 000 begäranden för varje Azure-prenumerationskonto. Speech-tjänsten tar inte bort jobbhistoriken automatiskt. Du måste ta bort den tidigare jobbkörningshistoriken innan du gör nya begäranden som annars skulle överskrida gränsen.