Migrace kódu z dlouhého zvukového rozhraní API do rozhraní API pro syntézu služby Batch

Článek
09/20/2024

Rozhraní API pro syntézu služby Batch poskytuje asynchronní syntézu dlouhého textu na řeč. Tento článek popisuje výhody upgradu z rozhraní Long Audio API na rozhraní API pro syntézu služby Batch a podrobnosti o tom, jak to provést.

Důležité

Rozhraní API pro syntézu dávek je obecně dostupné. Rozhraní LONG Audio API se 1. dubna 2027 vyřazuje z provozu.

Základní cesta a verze

Aktualizujte koncový bod z https://YourSpeechRegion.customvoice.api.speech.microsoft.com https://YourSpeechRegion.api.cognitive.microsoft.com nebo můžete místo toho použít vlastní doménu: https://{customDomainName}.cognitiveservices.azure.com/.

Aktualizujte základní cestu v kódu z /texttospeech/v3.0/longaudiosynthesis do /texttospeech/batchsyntheses.

Aktualizujte verzi ze základní cesty na řetězec /texttospeech/v3.0/longaudiosynthesis dotazu na ?api-version=2024-04-01.

Chcete-li například vypsat úlohy syntézy pro prostředek služby Speech v eastus oblasti, použijte https://eastus.api.cognitive.microsoft.com/texttospeech/batchsyntheses?api-version=2024-04-01 místo https://eastus.customvoice.api.speech.microsoft.com/api/texttospeech/v3.0/longaudiosynthesis.

Oblasti a koncové body

Rozhraní API pro batch syntézu je k dispozici ve více oblastech služby Speech.

Rozhraní API Long Audio je omezené na následující oblasti:

Oblast	Koncový bod
Austrálie – východ	`https://australiaeast.customvoice.api.speech.microsoft.com`
USA – východ	`https://eastus.customvoice.api.speech.microsoft.com`
Střední Indie	`https://centralindia.customvoice.api.speech.microsoft.com`
Středojižní USA	`https://southcentralus.customvoice.api.speech.microsoft.com`
Southeast Asia	`https://southeastasia.customvoice.api.speech.microsoft.com`
Velká Británie – jih	`https://uksouth.customvoice.api.speech.microsoft.com`
Západní Evropa	`https://westeurope.customvoice.api.speech.microsoft.com`

Seznam hlasových hovorů

Rozhraní API pro syntézu služby Batch podporuje veškerý text na hlasy a styly řeči.

Rozhraní API Long Audio je omezené na sadu hlasů vrácených požadavkem GET na https://<endpoint>/api/texttospeech/v3.0/longaudiosynthesis/voices.

Textové vstupy

Vstupy dávkového syntézy textu se odesílají do datové části JSON o velikosti až 2 megabajty.

Dlouhé textové vstupy rozhraní API pro zvuk se nahrají ze souboru, který splňuje následující požadavky:

Jeden prostý text (.txt) nebo soubor s textem SSML (.txt) kódovaný jako UTF-8 s znakem pořadí bajtů (BOM). Nepoužívejte komprimované soubory, například ZIP. Pokud máte více než jeden vstupní soubor, musíte odeslat více požadavků.
Obsahuje více než 400 znaků pro prostý text nebo 400 fakturovatelných znaků pro text SSML a méně než 10 000 odstavců. Pro prostý text je každý odstavec oddělený novým řádkem. U textu SSML se každý kus SSML považuje za odstavec. Jednotlivé části SSML oddělte různými odstavci.

Pomocí rozhraní API pro syntézu služby Batch můžete použít libovolný z podporovaných elementů SSML, včetně audioprvků , mstts:backgroundaudioa lexicon prvků. Dlouhé zvukové rozhraní API nepodporuje audiorozhraní , mstts:backgroundaudioa lexicon elementy.

Formáty výstupu zvuku

Rozhraní API pro syntézu služby Batch podporuje všechny formáty zvukového výstupu převodu textu na řeč.

Rozhraní API Long Audio je omezené na následující sadu formátů zvukového výstupu. Vzorkovací frekvence pro dlouhé zvukové hlasy je 24kHz, ne 48kHz. Další vzorkovací frekvence lze získat pomocí převzorkování nebo převzorkování při synchronizaci.

riff-8khz-16bit-mono-pcm
riff-16khz-16bit-mono-pcm
riff-24khz-16bit-mono-pcm
riff-48khz-16bit-mono-pcm
audio-16khz-32kbitrate-mono-mp3
audio-16khz-64kbitrate-mono-mp3
audio-16khz-128kbitrate-mono-mp3
audio-24khz-48kbitrate-mono-mp3
audio-24khz-96kbitrate-mono-mp3
audio-24khz-160kbitrate-mono-mp3

Získání výsledků

S rozhraním API pro dávkovou syntézu použijte adresu URL z outputs.result vlastnosti odpovědi http GET pro syntézu dávek. Výsledky jsou v souboru ZIP, který obsahuje zvuk (například 0001.wav), souhrn a podrobnosti ladění.

Dlouhé textové vstupy a výsledky rozhraní API pro zvuk se vrátí prostřednictvím dvou samostatných adres URL obsahu, jak je znázorněno v následujícím příkladu. "kind": "LongAudioSynthesisScript" Je to vstupní skript odeslaný. Druhým výsledkem "kind": "LongAudioSynthesisResult" tohoto požadavku je druhý výsledek tohoto požadavku. Oba soubory ZIP lze stáhnout z adresy URL ve své links.contentUrl vlastnosti.

Vyčištění prostředků

Rozhraní API pro syntézu služby Batch podporuje až 300 dávkových úloh syntézy, které nemají stav Úspěch nebo Selhání. Služba Speech uchovává každou historii syntézy po dobu až 31 dnů nebo dobu trvání vlastnosti požadavku timeToLiveInHours , podle toho, co nastane dříve. Datum a čas automatického odstranění (pro úlohy syntézy se stavem Úspěch nebo Selhání) se rovná vlastnostem lastActionDateTime + timeToLiveInHours .

Rozhraní API Long Audio je omezené na 20 000 požadavků na každý účet předplatného Azure. Služba Speech neodebere historii úloh automaticky. Před vytvořením nových požadavků, které by jinak překročily limit, je nutné odebrat předchozí historii spuštění úlohy.

Sdílet prostřednictvím