Přehled streamování zvuku – zvukové předplatné
Důležité
Funkce popsané v tomto článku jsou aktuálně ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.
Služba Azure Communication Services poskytuje možnosti obousměrného streamování zvuku a nabízí vývojářům výkonné nástroje pro zachycení, analýzu a zpracování zvukového obsahu během aktivních volání. Tento vývoj zpevňuje cestu k novým možnostem komunikace v reálném čase pro vývojáře a firmy.
Díky integraci obousměrného streamování zvuku se službami, jako je Azure OpenAI a další rozhraní API pro hlasové hovory v reálném čase, můžou firmy dosáhnout bezproblémové komunikace s nízkou latencí. To výrazně zlepšuje vývoj a nasazení konverzačních řešení umělé inteligence, což umožňuje poutavější a efektivnější interakce.
Díky obousměrným streamováním teď můžou firmy zvýšit hlasová řešení na nízko latenci, jako jsou lidé, interaktivní konverzační agenti AI. Naše obousměrná rozhraní API pro streamování umožňují vývojářům streamovat zvuk z probíhajícího volání služeb Azure Communication Services na jejich webové servery v reálném čase a streamovat zvuk zpět do hovoru. I když je počátečním cílem těchto funkcí pomoct firmám vytvářet konverzační agenty AI, mezi další případy použití patří zpracování přirozeného jazyka pro analýzu konverzací nebo poskytování přehledů a návrhů agentům v reálném čase, když jsou aktivní interakce s koncovými uživateli.
Tato verze Public Preview podporuje vývojářům přístup ke zvukovým streamům v reálném čase přes WebSocket ze služeb Azure Communication Services a streamovat zvuk zpět do hovoru.
Pomoc s voláním v reálném čase
Využití konverzačních řešení umělé inteligence: Vývoj sofistikovaných virtuálních agentů podpory zákazníků, kteří můžou komunikovat se zákazníky v reálném čase, poskytují okamžité odpovědi a řešení.
Přizpůsobená prostředí zákazníků: Díky využívání dat v reálném čase můžou firmy nabízet v reálném čase přizpůsobenější a dynamičtější interakce zákazníků v reálném čase, což vede ke zvýšení spokojenosti a věrnosti.
Zkrátit dobu čekání pro zákazníky: Použití obousměrných zvukových proudů s velkými jazykovými modely (LLM) můžete vytvořit virtuální agenty, které slouží jako první kontaktní bod pro zákazníky, což zkracuje dobu čekání na lidské agenty.
Ověřování
- Biometrické ověřování – pomocí zvukových proudů můžete provádět hlasové ověřování spuštěním zvuku z hovoru prostřednictvím vašeho nástroje pro rozpoznávání hlasu/ odpovídající modul nebo nástroj.
Ukázková architektura znázorňující použití obousměrného streamování zvuku pro konverzační agenty AI
Podporované formáty
Smíšené
Obsahuje smíšený zvuk všech účastníků hovoru. Veškerý zvuk je zploštěný do jednoho datového proudu.
Čistý
Obsahuje zvuk na účastníka na kanál s podporou až čtyř kanálů pro čtyři nejvíce dominantní reproduktory v jakémkoli okamžiku hovoru. Získáte také účastníkaRawID, který můžete použít k určení mluvčího.
Další informace
Vývojáři můžou použít následující informace o zvuku odeslaném ze služeb Azure Communication Services k převodu zvukových paketů na zvukový obsah pro své aplikace.
- Framerate: 50 snímků za sekundu
- Rychlost datových proudů paketů: 20 ms rate
- Velikost datového paketu: 640 bajtů pro 16 000 hz a 960 bajtů pro 24 000 hz
- Zvuková metrika: 16bitový PCM mono při 16 000 hz a 24 000 hz
- Data veřejného řetězce jsou řetězec base64, který by se měl převést na bajtové pole pro vytvoření nezpracovaného souboru PCM.
Fakturace
Informace o fakturaci zvukového streamování najdete na stránce s cenami služeb Azure Communication Services. Ceny najdete v kategorii volání v rámci streamování zvuku.
Další kroky
Další informace najdete v rychlém startu pro streamování zvuku.