Přehled streamování zvuku – zvukové předplatné

Článek
01/03/2025

Důležité

Funkce popsané v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Služba Azure Communication Services poskytuje možnosti obousměrného streamování zvuku a nabízí vývojářům výkonné nástroje pro zachycení, analýzu a zpracování zvukového obsahu během aktivních volání. Tento vývoj zpevňuje cestu k novým možnostem komunikace v reálném čase pro vývojáře a firmy.

Díky integraci obousměrného streamování zvuku se službami, jako je Azure OpenAI a další rozhraní API pro hlasové hovory v reálném čase, můžou firmy dosáhnout bezproblémové komunikace s nízkou latencí. To výrazně zlepšuje vývoj a nasazení konverzačních řešení umělé inteligence, což umožňuje poutavější a efektivnější interakce.

Díky obousměrným streamováním teď můžou firmy zvýšit hlasová řešení na nízko latenci, jako jsou lidé, interaktivní konverzační agenti AI. Naše obousměrná rozhraní API pro streamování umožňují vývojářům streamovat zvuk z probíhajícího volání služeb Azure Communication Services na jejich webové servery v reálném čase a streamovat zvuk zpět do hovoru. I když je počátečním cílem těchto funkcí pomoct firmám vytvářet konverzační agenty AI, mezi další případy použití patří zpracování přirozeného jazyka pro analýzu konverzací nebo poskytování přehledů a návrhů agentům v reálném čase, když jsou aktivní interakce s koncovými uživateli.

Tato verze Public Preview podporuje vývojářům přístup ke zvukovým streamům v reálném čase přes WebSocket ze služeb Azure Communication Services a streamovat zvuk zpět do hovoru.

Pomoc s voláním v reálném čase

Využití konverzačních řešení umělé inteligence: Vývoj sofistikovaných virtuálních agentů podpory zákazníků, kteří můžou komunikovat se zákazníky v reálném čase, poskytují okamžité odpovědi a řešení.
Přizpůsobená prostředí zákazníků: Díky využívání dat v reálném čase můžou firmy nabízet v reálném čase přizpůsobenější a dynamičtější interakce zákazníků v reálném čase, což vede ke zvýšení spokojenosti a věrnosti.
Zkrátit dobu čekání pro zákazníky: Použití obousměrných zvukových proudů s velkými jazykovými modely (LLM) můžete vytvořit virtuální agenty, které slouží jako první kontaktní bod pro zákazníky, což zkracuje dobu čekání na lidské agenty.

Ověřování

Biometrické ověřování – pomocí zvukových proudů můžete provádět hlasové ověřování spuštěním zvuku z hovoru prostřednictvím vašeho nástroje pro rozpoznávání hlasu/ odpovídající modul nebo nástroj.

Ukázková architektura znázorňující použití obousměrného streamování zvuku pro konverzační agenty AI

Podporované formáty

Smíšené

Obsahuje smíšený zvuk všech účastníků hovoru. Veškerý zvuk je zploštěný do jednoho datového proudu.

Čistý

Obsahuje zvuk na účastníka na kanál s podporou až čtyř kanálů pro čtyři nejvíce dominantní reproduktory v jakémkoli okamžiku hovoru. Získáte také účastníkaRawID, který můžete použít k určení mluvčího.

Další informace

Vývojáři můžou použít následující informace o zvuku odeslaném ze služeb Azure Communication Services k převodu zvukových paketů na zvukový obsah pro své aplikace.

Framerate: 50 snímků za sekundu
Rychlost datových proudů paketů: 20 ms rate
Velikost datového paketu: 640 bajtů pro 16 000 hz a 960 bajtů pro 24 000 hz
Zvuková metrika: 16bitový PCM mono při 16 000 hz a 24 000 hz
Data veřejného řetězce jsou řetězec base64, který by se měl převést na bajtové pole pro vytvoření nezpracovaného souboru PCM.

Fakturace

Informace o fakturaci zvukového streamování najdete na stránce s cenami služeb Azure Communication Services. Ceny najdete v kategorii volání v rámci streamování zvuku.

Další kroky

Další informace najdete v rychlém startu pro streamování zvuku.

Sdílet prostřednictvím