Omówienie przesyłania strumieniowego audio — subskrypcja audio

Artykuł
01/03/2025

Ważne

Funkcje opisane w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Usługi Azure Communication Services udostępniają dwukierunkowe możliwości przesyłania strumieniowego audio, oferując deweloperom zaawansowane narzędzia do przechwytywania, analizowania i przetwarzania zawartości audio podczas aktywnych wywołań. Ten rozwój toruje drogę do nowych możliwości komunikacji w czasie rzeczywistym dla deweloperów i firm.

Dzięki integracji dwukierunkowego przesyłania strumieniowego audio z usługami, takimi jak Azure OpenAI i inne interfejsy API głosu w czasie rzeczywistym, firmy mogą zapewnić bezproblemową komunikację o małych opóźnieniach. Znacznie zwiększa to rozwój i wdrażanie konwersacyjnych rozwiązań sztucznej inteligencji, co pozwala na bardziej angażujące i wydajne interakcje.

Dzięki dwukierunkowym przesyłaniu strumieniowemu firmy mogą teraz podnieść swoje rozwiązania głosowe do małych opóźnień, takich jak interakcyjni agenci sztucznej inteligencji, tacy jak ludzie. Nasze dwukierunkowe interfejsy API przesyłania strumieniowego umożliwiają deweloperom przesyłanie strumieniowe dźwięku z trwającego wywołania usług Azure Communication Services do serwerów internetowych w czasie rzeczywistym i przesyłanie strumieniowe dźwięku z powrotem do wywołania. Chociaż początkowe celem tych funkcji jest pomoc firmom w tworzeniu konwersacyjnych agentów sztucznej inteligencji, inne przypadki użycia obejmują przetwarzanie języka naturalnego na potrzeby analizy konwersacji lub udostępnianie informacji w czasie rzeczywistym i sugestii agentom podczas aktywnej interakcji z użytkownikami końcowymi.

Ta publiczna wersja zapoznawcza umożliwia deweloperom uzyskiwanie dostępu do strumieni audio w czasie rzeczywistym za pośrednictwem protokołu WebSocket z usług Azure Communication Services i strumieniowego przesyłania dźwięku z powrotem do wywołania.

Pomoc dotycząca połączeń w czasie rzeczywistym

Korzystaj z konwersacyjnych rozwiązań sztucznej inteligencji: twórz zaawansowanych agentów wirtualnych pomocy technicznej dla klientów, którzy mogą wchodzić w interakcje z klientami w czasie rzeczywistym, zapewniając natychmiastowe odpowiedzi i rozwiązania.
Spersonalizowane środowiska klientów: dzięki wykorzystaniu danych w czasie rzeczywistym firmy mogą oferować bardziej spersonalizowane i dynamiczne interakcje klientów w czasie rzeczywistym, co prowadzi do zwiększenia zadowolenia i lojalności.
Skrócenie czasu oczekiwania dla klientów: używanie dwukierunkowych strumieni audio z dużymi modelami językowymi (LLMs) umożliwia tworzenie agentów wirtualnych, którzy służą jako pierwszy punkt kontaktu dla klientów, skracając czas oczekiwania na agenta ludzkiego.

Uwierzytelnianie

Uwierzytelnianie biometryczne — używaj strumieni audio do przeprowadzania uwierzytelniania głosowego, uruchamiając dźwięk z wywołania za pośrednictwem rozpoznawania głosu/dopasowywania aparatu/narzędzia.

Przykładowa architektura przedstawiająca sposób użycia dwukierunkowego przesyłania strumieniowego audio dla agentów konwersacyjnej sztucznej inteligencji

Obsługiwane formaty

Mieszana

Zawiera mieszany dźwięk wszystkich uczestników połączenia. Cały dźwięk jest spłaszczone w jednym strumieniu.

Niezmieszane

Zawiera dźwięk dla każdego uczestnika na kanał, z obsługą maksymalnie czterech kanałów dla czterech najbardziej dominujących głośników w dowolnym momencie wywołania. Otrzymasz również uczestnikaRawID, którego można użyć do określenia osoby mówiącej.

Dodatkowe informacje

Deweloperzy mogą użyć poniższych informacji na temat dźwięku wysyłanego z usług Azure Communication Services, aby przekonwertować pakiety audio na zawartość słyszalną dla swoich aplikacji.

Szybkość klatek: 50 ramek na sekundę
Szybkość strumienia pakietów: szybkość 20 ms
Rozmiar pakietu danych: 640 bajtów dla 16 000 hz i 960 bajtów dla 24 000 hz
Metryka audio: 16-bitowy procesor PCM z prędkością 16 000hz i 24 000 hz
Dane ciągów publicznych to ciąg base64, który powinien zostać przekonwertowany na tablicę bajtów w celu utworzenia nieprzetworzonego pliku PCM.

Rozliczenia

Zobacz stronę cennika usług Azure Communication Services, aby uzyskać informacje na temat sposobu naliczania opłat za przesyłanie strumieniowe audio. Ceny można znaleźć w kategorii połączeń w obszarze przesyłanie strumieniowe audio.

Następne kroki

Zapoznaj się z przewodnikiem Szybki start dotyczący przesyłania strumieniowego audio, aby dowiedzieć się więcej.

Udostępnij za pośrednictwem