Co je služba Speech?

Článek
03/10/2025

Služba Speech poskytuje funkce převodu řeči na text a text na řeč pomocí prostředku služby Speech. Převod řeči na text s vysokou přesností, vytváření přirozeného zvuku na hlasy řeči, překlad mluveného zvuku a rozpoznávání mluvčího během konverzací.

Obrázek dlaždic, které zvýrazňují některé funkce služby Speech

Můžete vytvořit vlastní hlasy, přidat konkrétní slova do základního slovníku nebo sestavit vlastní modely. Službu Speech můžete provozovat kdekoli – v cloudu nebo v kontejnerech na hraničních zařízeních. Díky rozhraní Speech CLI, sadě Speech SDK a rozhraním REST API můžete snadno používat vaše aplikace, nástroje a zařízení.

Řeč je dostupná pro mnoho jazyků, oblastí a cenových bodů.

Scénáře pro službu Speech

Mezi běžné scénáře pro řeč patří:

Titulky: Zjistěte, jak synchronizovat titulky se vstupním zvukem, použít filtry vulgárních výrazů, získat částečné výsledky, použít vlastní nastavení a identifikovat mluvené jazyky pro vícejazyčné scénáře.
Vytváření zvukového obsahu: Pomocí neurálních hlasů můžete vytvářet interakce s chatovacími roboty a hlasovými asistenty přirozeněji a poutavějšími, převádět digitální texty, jako jsou elektronické knihy, na audioknihy a vylepšit navigační systémy v autě.
Call Center: Přepis volání v reálném čase nebo zpracování dávky volání, redakce osobních identifikačních informací a extrakce přehledů, jako je mínění, které vám pomůžou s případem použití call centra.
Jazykové učení: Poskytovat zpětnou vazbu k hodnocení výslovnosti pro jazykové učení, podporovat přepis v reálném čase pro konverzace na dálku a číst nahlas výukové materiály s neurálními hlasy.
Hlasoví asistenti: Vytvářejte přirozené, lidské, jako jsou konverzační rozhraní pro své aplikace a prostředí. Funkce hlasového asistenta poskytuje rychlou a spolehlivou interakci mezi zařízením a implementací asistenta.

Microsoft používá službu Speech pro mnoho scénářů, jako jsou titulky v Teams, diktování v Office 365 a čtení nahlas v prohlížeči Microsoft Edge.

Obrázek s logy produktů Microsoftu, ve kterých se používá služba Speech

Funkce řeči

Tyto části shrnují funkce služby Speech s odkazy na další informace.

Převod řeči na text

Pomocí řeči můžete přepsat zvuk na text, a to buď v reálném čase , nebo asynchronně pomocí dávkového přepisu.

Tip

Převod řeči v reálném čase na text v sadě Speech Studio můžete vyzkoušet bez registrace nebo psaní jakéhokoli kódu.

Na text můžete převádět zvuk z nejrůznějších zdrojů, včetně mikrofonů, zvukových souborů a úložiště objektů blob. Pomocí diarizace mluvčího určete, kdo co a kdy řekl. Automatické formátování a interpunkce umožňuje získat čitelné přepisy.

Základní model nemusí být dostatečný, pokud zvuk obsahuje okolní šum nebo zahrnuje mnoho oborových a doménových žargonů. V těchto případech můžete vytvářet a trénovat vlastní modely řeči pomocí akustických dat, jazyka a výslovnosti. Vlastní modely řeči jsou soukromé a můžou nabídnout konkurenční výhodu.

Převod řeči na text v reálném čase

Při převodu řeči na text v reálném čase se zvuk přepíše, protože řeč se rozpozná z mikrofonu nebo souboru. Použití řeči v reálném čase k textu pro aplikace, které potřebují přepis zvuku v reálném čase, například:

Přepisy, titulky nebo titulky pro živé schůzky
Diarizace
Posouzení výslovnosti
Pomoc agentům kontaktního centra
Diktování
Hlasová agenti

Rozhraní API pro rychlý přepis

Rozhraní API pro rychlý přepis se používá k přepisu zvukových souborů s synchronními a mnohem rychlejšími výsledky než zvuk v reálném čase. Používejte rychlý přepis ve scénářích, kdy potřebujete co nejrychleji přepis zvukového záznamu s předvídatelnou latencí, například:

Rychlý přepis zvuku nebo videa, titulky a úpravy
Překlad videa

Pokud chcete začít s rychlým přepisem, podívejte se na rychlé rozhraní API pro přepis.

Dávkový přepis

Dávkový přepis se používá k přepisu velkého množství zvuku v úložišti. Na zvukové soubory můžete odkazovat pomocí identifikátoru URI sdíleného přístupového podpisu (SAS) a asynchronně přijímat výsledky přepisu. Dávkový přepis použijte pro aplikace, které potřebují hromadně přepisovat zvuk, například:

Přepisy, titulky nebo titulky pro předem zaznamenaný zvuk
Analýza po volání v kontaktním centru
Diarizace

Text na řeč

Při převodu textu na řeč můžete vstupní text převést na člověka, jako je syntetizovaná řeč. Používejte neurální hlasy, které jsou lidské jako hlasy založené na hlubokých neurálních sítích. Pomocí jazyka SSML (Speech Synthesis Markup Language) můžete doladit tón, výslovnost, rychlost mluvení, hlasitost a další funkce.

Předem sestavený neurální hlas: Vysoce přirozené předem připravené hlasy. Projděte si předem připravené ukázky neurálních hlasů v Galerii hlasových hovorů a určete správný hlas pro vaše obchodní potřeby.
Vlastní neurální hlas: Kromě předem připravených neurálních hlasů, které přicházejí z krabice, můžete také vytvořit vlastní neurální hlas , který je rozpoznatelný a jedinečný pro vaši značku nebo produkt. Vlastní neurální hlasy jsou soukromé a můžou nabídnout konkurenční výhodu. Podívejte se na vlastní ukázky neurálních hlasových hovorů.

Překlad řeči

Překlad řeči umožňuje překlad řeči v reálném čase, vícejazyčný překlad řeči do vašich aplikací, nástrojů a zařízení. Tato funkce slouží k převodu řeči na řeč a převod řeči na text.

Identifikace jazyka

Identifikace jazyka se používá k identifikaci jazyků mluvených ve zvuku v porovnání se seznamem podporovaných jazyků. Používejte identifikaci jazyka samostatně, s rozpoznáváním textu nebo překladem řeči.

Rozpoznávání mluvčího

Rozpoznávání mluvčího poskytuje algoritmy, které ověřují a identifikují mluvčí podle jejich jedinečných charakteristik hlasu. Rozpoznávání mluvčího se používá k zodpovězení otázky "Kdo mluví?".

Posouzení výslovnosti

Hodnocení výslovnosti vyhodnocuje výslovnost řeči a dává mluvčím zpětnou vazbu o přesnosti a plynulosti mluveného zvuku. Posouzení výslovnosti můžou využít studenti jazyků k procvičování, přičemž budou dostávat okamžitou zpětnou vazbu, takže můžou zlepšovat svou výslovnost, aby dokázali hovořit a prezentovat s jistotou.

Rozpoznávání záměru

Rozpoznávání záměru: Použití řeči k textu s porozuměním konverzačnímu jazyku k odvození záměrů uživatele z přepisované řeči a zpracování hlasových příkazů.

Doručení a přítomnost

Funkce Azure AI Speech můžete nasadit v cloudu nebo místně.

S kontejnery můžete službu přiblížit k datům z důvodu dodržování předpisů, zabezpečení nebo jiných provozních důvodů.

Nasazení služby Speech v suverénních cloudech je k dispozici pro některé entity státní správy a jejich partnery. Cloud Azure Government je například dostupný pro entity státní správy USA a jejich partnery. Microsoft Azure provozovaný cloudem 21Vianet je k dispozici organizacím, které mají obchodní přítomnost v Číně. Další informace najdete v tématu Suverénní cloudy.

Diagram znázorňující, kde je možné službu Speech nasadit a získat k němu přístup

Použití služby Speech ve vaší aplikaci

Speech Studio je sada nástrojů založených na uživatelském rozhraní pro vytváření a integraci funkcí ze služby Azure AI Speech ve vašich aplikacích. Projekty v sadě Speech Studio vytvoříte pomocí přístupu bez kódu a pak na tyto prostředky ve svých aplikacích odkazujete pomocí sady Speech SDK, rozhraní příkazového řádku služby Speech nebo rozhraní REST API.

Speech CLI je nástroj příkazového řádku pro použití služby Speech, aniž byste museli psát kód. Ve Speech CLI je dostupná většina funkcí sady Speech SDK a některé pokročilé funkce a možnosti přizpůsobení jsou ve Speech CLI zjednodušené.

Sada Speech SDK zveřejňuje řadu funkcí služby Speech, které můžete použít k vývoji aplikací s podporou řeči. Sada Speech SDK je dostupná v mnoha programovacích jazycích a na všech platformách.

V některých případech nemůžete nebo neměli používat sadu Speech SDK. V takových případech můžete pro přístup ke službě Speech použít rozhraní REST API. K dávkovému přepisu a rozhraní REST API pro rozpoznávání mluvčího použijte například rozhraní REST API rest.

Začínáme

Nabízíme rychlé starty v mnoha oblíbených programovacích jazycích. Každý rychlý start je navržený tak, aby vás naučil základní vzory návrhu a spouštět kód za méně než 10 minut. V následujícím seznamu najdete rychlý start pro každou funkci:

Ukázky kódu

Ukázkový kód pro službu Speech je k dispozici na GitHubu. Tyto ukázky pokrývají běžné scénáře, jako je čtení zvuku ze souboru nebo datového proudu, nepřetržité a jednostřelové rozpoznávání a práce s vlastními modely. Pomocí těchto odkazů můžete zobrazit ukázky sady SDK a REST:

Zodpovědná AI

Systém AI zahrnuje nejen technologii, ale také uživatele, kteří ho používají, osoby, kterých se to týká, a prostředí, ve kterém je nasazené. Přečtěte si poznámky k transparentnosti a seznamte se s zodpovědným používáním a nasazením umělé inteligence ve vašich systémech.

Sdílet prostřednictvím

Co je služba Speech?

Scénáře pro službu Speech

Funkce řeči

Převod řeči na text

Převod řeči na text v reálném čase

Rozhraní API pro rychlý přepis

Dávkový přepis

Text na řeč

Překlad řeči

Identifikace jazyka

Rozpoznávání mluvčího

Posouzení výslovnosti

Rozpoznávání záměru

Doručení a přítomnost

Použití služby Speech ve vaší aplikaci

Začínáme

Ukázky kódu

Zodpovědná AI

Převod řeči na text

Posouzení výslovnosti

Vlastní neurální hlas

Rozpoznávání mluvčího

Další kroky

Váš názor

Další materiály