Migrace kódu z dlouhého zvukového rozhraní API do rozhraní API pro syntézu služby Batch
Rozhraní API pro syntézu služby Batch poskytuje asynchronní syntézu dlouhého textu na řeč. Tento článek popisuje výhody upgradu z rozhraní Long Audio API na rozhraní API pro syntézu služby Batch a podrobnosti o tom, jak to provést.
Důležité
Rozhraní API pro syntézu dávek je obecně dostupné. Rozhraní LONG Audio API se 1. dubna 2027 vyřazuje z provozu.
Základní cesta a verze
Aktualizujte koncový bod z https://YourSpeechRegion.customvoice.api.speech.microsoft.com
https://YourSpeechRegion.api.cognitive.microsoft.com
nebo můžete místo toho použít vlastní doménu: https://{customDomainName}.cognitiveservices.azure.com/
.
Aktualizujte základní cestu v kódu z /texttospeech/v3.0/longaudiosynthesis
do /texttospeech/batchsyntheses
.
Aktualizujte verzi ze základní cesty na řetězec /texttospeech/v3.0/longaudiosynthesis
dotazu na ?api-version=2024-04-01
.
Chcete-li například vypsat úlohy syntézy pro prostředek služby Speech v eastus
oblasti, použijte https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01
místo https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis
.
Oblasti a koncové body
Rozhraní API pro batch syntézu je k dispozici ve více oblastech služby Speech.
Rozhraní API Long Audio je omezené na následující oblasti:
Oblast | Koncový bod |
---|---|
Austrálie – východ | https://australiaeast.customvoice.api.speech.microsoft.com |
USA – východ | https://eastus.customvoice.api.speech.microsoft.com |
Střední Indie | https://centralindia.customvoice.api.speech.microsoft.com |
Středojižní USA | https://southcentralus.customvoice.api.speech.microsoft.com |
Southeast Asia | https://southeastasia.customvoice.api.speech.microsoft.com |
Velká Británie – jih | https://uksouth.customvoice.api.speech.microsoft.com |
Západní Evropa | https://westeurope.customvoice.api.speech.microsoft.com |
Seznam hlasových hovorů
Rozhraní API pro syntézu služby Batch podporuje veškerý text na hlasy a styly řeči.
Rozhraní API Long Audio je omezené na sadu hlasů vrácených požadavkem GET na https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices
.
Textové vstupy
Vstupy dávkového syntézy textu se odesílají do datové části JSON o velikosti až 2 megabajty.
Dlouhé textové vstupy rozhraní API pro zvuk se nahrají ze souboru, který splňuje následující požadavky:
- Jeden prostý text (.txt) nebo soubor s textem SSML (.txt) kódovaný jako UTF-8 s znakem pořadí bajtů (BOM). Nepoužívejte komprimované soubory, například ZIP. Pokud máte více než jeden vstupní soubor, musíte odeslat více požadavků.
- Obsahuje více než 400 znaků pro prostý text nebo 400 fakturovatelných znaků pro text SSML a méně než 10 000 odstavců. Pro prostý text je každý odstavec oddělený novým řádkem. U textu SSML se každý kus SSML považuje za odstavec. Jednotlivé části SSML oddělte různými odstavci.
Pomocí rozhraní API pro syntézu služby Batch můžete použít libovolný z podporovaných elementů SSML, včetně audio
prvků , mstts:backgroundaudio
a lexicon
prvků. Dlouhé zvukové rozhraní API nepodporuje audio
rozhraní , mstts:backgroundaudio
a lexicon
elementy.
Formáty výstupu zvuku
Rozhraní API pro syntézu služby Batch podporuje všechny formáty zvukového výstupu převodu textu na řeč.
Rozhraní API Long Audio je omezené na následující sadu formátů zvukového výstupu. Vzorkovací frekvence pro dlouhé zvukové hlasy je 24kHz, ne 48kHz. Další vzorkovací frekvence lze získat pomocí převzorkování nebo převzorkování při synchronizaci.
- riff-8khz-16bit-mono-pcm
- riff-16khz-16bit-mono-pcm
- riff-24khz-16bit-mono-pcm
- riff-48khz-16bit-mono-pcm
- audio-16khz-32kbitrate-mono-mp3
- audio-16khz-64kbitrate-mono-mp3
- audio-16khz-128kbitrate-mono-mp3
- audio-24khz-48kbitrate-mono-mp3
- audio-24khz-96kbitrate-mono-mp3
- audio-24khz-160kbitrate-mono-mp3
Získání výsledků
S rozhraním API pro dávkovou syntézu použijte adresu URL z outputs.result
vlastnosti odpovědi http GET pro syntézu dávek. Výsledky jsou v souboru ZIP, který obsahuje zvuk (například 0001.wav
), souhrn a podrobnosti ladění.
Dlouhé textové vstupy a výsledky rozhraní API pro zvuk se vrátí prostřednictvím dvou samostatných adres URL obsahu, jak je znázorněno v následujícím příkladu. "kind": "LongAudioSynthesisScript"
Je to vstupní skript odeslaný. Druhým výsledkem "kind": "LongAudioSynthesisResult"
tohoto požadavku je druhý výsledek tohoto požadavku. Oba soubory ZIP lze stáhnout z adresy URL ve své links.contentUrl
vlastnosti.
Vyčištění prostředků
Rozhraní API pro syntézu služby Batch podporuje až 300 dávkových úloh syntézy, které nemají stav Úspěch nebo Selhání. Služba Speech uchovává každou historii syntézy po dobu až 31 dnů nebo dobu trvání vlastnosti požadavku timeToLiveInHours
, podle toho, co nastane dříve. Datum a čas automatického odstranění (pro úlohy syntézy se stavem Úspěch nebo Selhání) se rovná vlastnostem lastActionDateTime
+ timeToLiveInHours
.
Rozhraní API Long Audio je omezené na 20 000 požadavků na každý účet předplatného Azure. Služba Speech neodebere historii úloh automaticky. Před vytvořením nových požadavků, které by jinak překročily limit, je nutné odebrat předchozí historii spuštění úlohy.