Code migreren van Long Audio-API naar Batch-synthese-API

Artikel
09/20/2024

De Batch-synthese-API biedt asynchrone synthese van lange tekst naar spraak. In dit artikel worden de voordelen beschreven van het upgraden van long audio-API naar batchsynthese-API en informatie over hoe u dit doet.

Belangrijk

Batchsynthese-API is algemeen beschikbaar. de Long Audio-API wordt op 1 april 2027 buiten gebruik gesteld.

Basispad en -versie

Werk het eindpunt bij van https://YourSpeechRegion.customvoice.api.speech.microsoft.com naar https://YourSpeechRegion.api.cognitive.microsoft.com of u kunt in plaats daarvan aangepast domein gebruiken: https://{customDomainName}.cognitiveservices.azure.com/.

Werk het basispad in uw code bij van /texttospeech/v3.0/longaudiosynthesis naar /texttospeech/batchsyntheses.

Werk de versie bij van het basispad naar de querytekenreeks /texttospeech/v3.0/longaudiosynthesis naar ?api-version=2024-04-01.

Als u bijvoorbeeld synthesetaken voor uw Spraak-resource in de eastus regio wilt weergeven, gebruikt https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 u in plaats van https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Regio's en eindpunten

Batchsynthese-API is beschikbaar in meer Spraakregio's.

De Long Audio-API is beperkt tot de volgende regio's:

Regio	Eindpunt
Australië - oost	`https://australiaeast.customvoice.api.speech.microsoft.com`
VS - oost	`https://eastus.customvoice.api.speech.microsoft.com`
India - centraal	`https://centralindia.customvoice.api.speech.microsoft.com`
VS - zuid-centraal	`https://southcentralus.customvoice.api.speech.microsoft.com`
Azië - zuidoost	`https://southeastasia.customvoice.api.speech.microsoft.com`
Verenigd Koninkrijk Zuid	`https://uksouth.customvoice.api.speech.microsoft.com`
Europa -west	`https://westeurope.customvoice.api.speech.microsoft.com`

Stemmenlijst

Batchsynthese-API ondersteunt alle tekst-naar-spraakstemmen en -stijlen.

De Long Audio-API is beperkt tot de set stemmen die door een GET-aanvraag worden geretourneerd.https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices

Tekstinvoer

Batchsynthesetekstinvoer wordt verzonden in een JSON-nettolading van maximaal 2 megabytes.

Tekstinvoer van de Lange Audio-API wordt geüpload vanuit een bestand dat voldoet aan de volgende vereisten:

Eén bestand met tekst zonder opmaak (.txt) of SSML-tekst (.txt) dat is gecodeerd als UTF-8 met Byte Order Mark (BOM). Gebruik geen gecomprimeerde bestanden zoals ZIP. Als u meer dan één invoerbestand hebt, moet u meerdere aanvragen indienen.
Bevat meer dan 400 tekens voor tekst zonder opmaak of 400 factureerbare tekens voor SSML-tekst en minder dan 10.000 alinea's. Voor tekst zonder opmaak wordt elke alinea gescheiden door een nieuwe regel. Voor SSML-tekst wordt elk SSML-stuk beschouwd als een alinea. SSML-stukken scheiden door verschillende alinea's.

Met batchsynthese-API kunt u een van de ondersteunde SSML-elementen, inclusief de audio, mstts:backgroundaudioen lexicon elementen, gebruiken. De lange audio-API biedt geen ondersteuning voor de audio, mstts:backgroundaudioen lexicon elementen.

Audio-uitvoerindelingen

Batchsynthese-API ondersteunt alle tekst-naar-spraak-audio-uitvoerindelingen.

De Long Audio-API is beperkt tot de volgende set audio-uitvoerindelingen. De samplefrequentie voor lange audiostemmen is 24kHz, niet 48kHz. Andere steekproefsnelheden kunnen worden verkregen via upsampling of downsampling bij het synthetiseren.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Resultaten ophalen

Gebruik met batchsynthese-API de URL van de outputs.result eigenschap van het ANTWOORD van de HTTP GET-batchsynthese. De resultaten bevinden zich in een ZIP-bestand dat de audio (zoals 0001.wav), samenvatting en foutopsporingsgegevens bevat.

Tekstinvoer en resultaten van de Long Audio-API worden geretourneerd via twee afzonderlijke inhouds-URL's, zoals wordt weergegeven in het volgende voorbeeld. Het script waarmee "kind": "LongAudioSynthesisScript" het invoerscript is verzonden. De andere met "kind": "LongAudioSynthesisResult" is het resultaat van deze aanvraag. Beide ZIP-bestanden kunnen worden gedownload van de URL in hun links.contentUrl eigenschap.

Resources opschonen

Batchsynthese-API ondersteunt maximaal 300 batchsynthesetaken die geen status 'Geslaagd' of 'Mislukt' hebben. De Speech-service bewaart elke synthesegeschiedenis tot 31 dagen, of de duur van de aanvraageigenschap timeToLiveInHours , afhankelijk van wat er eerder komt. De datum en tijd van automatische verwijdering (voor synthesetaken met de status Geslaagd of Mislukt) is gelijk aan de lastActionDateTime + timeToLiveInHours eigenschappen.

De Long Audio-API is beperkt tot 20.000 aanvragen voor elk Azure-abonnementsaccount. De Speech-service verwijdert de taakgeschiedenis niet automatisch. U moet de vorige uitvoeringsgeschiedenis van de taak verwijderen voordat u nieuwe aanvragen maakt die anders de limiet overschrijden.

Delen via