Code migreren van Long Audio-API naar Batch-synthese-API
De Batch-synthese-API biedt asynchrone synthese van lange tekst naar spraak. In dit artikel worden de voordelen beschreven van het upgraden van long audio-API naar batchsynthese-API en informatie over hoe u dit doet.
Belangrijk
Batchsynthese-API is algemeen beschikbaar. de Long Audio-API wordt op 1 april 2027 buiten gebruik gesteld.
Basispad en -versie
Werk het eindpunt bij van https://YourSpeechRegion.customvoice.api.speech.microsoft.com
naar https://YourSpeechRegion.api.cognitive.microsoft.com
of u kunt in plaats daarvan aangepast domein gebruiken: https://{customDomainName}.cognitiveservices.azure.com/
.
Werk het basispad in uw code bij van /texttospeech/v3.0/longaudiosynthesis
naar /texttospeech/batchsyntheses
.
Werk de versie bij van het basispad naar de querytekenreeks /texttospeech/v3.0/longaudiosynthesis
naar ?api-version=2024-04-01
.
Als u bijvoorbeeld synthesetaken voor uw Spraak-resource in de eastus
regio wilt weergeven, gebruikt https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
u in plaats van https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
.
Regio's en eindpunten
Batchsynthese-API is beschikbaar in meer Spraakregio's.
De Long Audio-API is beperkt tot de volgende regio's:
Regio | Eindpunt |
---|---|
Australië - oost | https://australiaeast.customvoice.api.speech.microsoft.com |
VS - oost | https://eastus.customvoice.api.speech.microsoft.com |
India - centraal | https://centralindia.customvoice.api.speech.microsoft.com |
VS - zuid-centraal | https://southcentralus.customvoice.api.speech.microsoft.com |
Azië - zuidoost | https://southeastasia.customvoice.api.speech.microsoft.com |
Verenigd Koninkrijk Zuid | https://uksouth.customvoice.api.speech.microsoft.com |
Europa -west | https://westeurope.customvoice.api.speech.microsoft.com |
Stemmenlijst
Batchsynthese-API ondersteunt alle tekst-naar-spraakstemmen en -stijlen.
De Long Audio-API is beperkt tot de set stemmen die door een GET-aanvraag worden geretourneerd.https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
Tekstinvoer
Batchsynthesetekstinvoer wordt verzonden in een JSON-nettolading van maximaal 2 megabytes.
Tekstinvoer van de Lange Audio-API wordt geüpload vanuit een bestand dat voldoet aan de volgende vereisten:
- Eén bestand met tekst zonder opmaak (.txt) of SSML-tekst (.txt) dat is gecodeerd als UTF-8 met Byte Order Mark (BOM). Gebruik geen gecomprimeerde bestanden zoals ZIP. Als u meer dan één invoerbestand hebt, moet u meerdere aanvragen indienen.
- Bevat meer dan 400 tekens voor tekst zonder opmaak of 400 factureerbare tekens voor SSML-tekst en minder dan 10.000 alinea's. Voor tekst zonder opmaak wordt elke alinea gescheiden door een nieuwe regel. Voor SSML-tekst wordt elk SSML-stuk beschouwd als een alinea. SSML-stukken scheiden door verschillende alinea's.
Met batchsynthese-API kunt u een van de ondersteunde SSML-elementen, inclusief de audio
, mstts:backgroundaudio
en lexicon
elementen, gebruiken. De lange audio-API biedt geen ondersteuning voor de audio
, mstts:backgroundaudio
en lexicon
elementen.
Audio-uitvoerindelingen
Batchsynthese-API ondersteunt alle tekst-naar-spraak-audio-uitvoerindelingen.
De Long Audio-API is beperkt tot de volgende set audio-uitvoerindelingen. De samplefrequentie voor lange audiostemmen is 24kHz, niet 48kHz. Andere steekproefsnelheden kunnen worden verkregen via upsampling of downsampling bij het synthetiseren.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- audio-16khz-32kbitrate-mono-mp3
- audio-16khz-64kbitrate-mono-mp3
- audio-16khz-128kbitrate-mono-mp3
- audio-24khz-48kbitrate-mono-mp3
- audio-24khz-96kbitrate-mono-mp3
- audio-24khz-160kbitrate-mono-mp3
Resultaten ophalen
Gebruik met batchsynthese-API de URL van de outputs.result
eigenschap van het ANTWOORD van de HTTP GET-batchsynthese. De resultaten bevinden zich in een ZIP-bestand dat de audio (zoals 0001.wav
), samenvatting en foutopsporingsgegevens bevat.
Tekstinvoer en resultaten van de Long Audio-API worden geretourneerd via twee afzonderlijke inhouds-URL's, zoals wordt weergegeven in het volgende voorbeeld. Het script waarmee "kind": "LongAudioSynthesisScript"
het invoerscript is verzonden. De andere met "kind": "LongAudioSynthesisResult"
is het resultaat van deze aanvraag. Beide ZIP-bestanden kunnen worden gedownload van de URL in hun links.contentUrl
eigenschap.
Resources opschonen
Batchsynthese-API ondersteunt maximaal 300 batchsynthesetaken die geen status 'Geslaagd' of 'Mislukt' hebben. De Speech-service bewaart elke synthesegeschiedenis tot 31 dagen, of de duur van de aanvraageigenschap timeToLiveInHours
, afhankelijk van wat er eerder komt. De datum en tijd van automatische verwijdering (voor synthesetaken met de status Geslaagd of Mislukt) is gelijk aan de lastActionDateTime
+ timeToLiveInHours
eigenschappen.
De Long Audio-API is beperkt tot 20.000 aanvragen voor elk Azure-abonnementsaccount. De Speech-service verwijdert de taakgeschiedenis niet automatisch. U moet de vorige uitvoeringsgeschiedenis van de taak verwijderen voordat u nieuwe aanvragen maakt die anders de limiet overschrijden.