Omówienie przesyłania strumieniowego audio — subskrypcja audio
Ważne
Funkcje opisane w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.
Usługi Azure Communication Services udostępniają deweloperom funkcje przesyłania strumieniowego audio w celu uzyskania dostępu w czasie rzeczywistym do strumieni audio w celu przechwytywania, analizowania i przetwarzania zawartości audio podczas aktywnych wywołań. W dzisiejszym świecie zużycie audio i wideo na żywo jest powszechne, ta zawartość może znajdować się w postaci spotkań online, konferencji online, obsługi klienta itp. Dzięki dostępowi do przesyłania strumieniowego audio deweloperzy mogą teraz tworzyć aplikacje serwera do przechwytywania i analizowania strumieni audio dla każdego z uczestników połączenia w czasie rzeczywistym. Deweloperzy mogą również łączyć przesyłanie strumieniowe audio z innymi akcjami automatyzacji wywołań lub używać własnych modeli sztucznej inteligencji do analizowania strumieni audio. Przypadki użycia obejmują nlp na potrzeby analizy konwersacji lub udostępnianie informacji w czasie rzeczywistym i sugestii agentom podczas aktywnej interakcji z użytkownikami końcowymi.
Ta publiczna wersja zapoznawcza umożliwia deweloperom uzyskiwanie dostępu do strumieni audio w czasie rzeczywistym za pośrednictwem protokołu WebSocket w celu analizowania dźwięku wywołania w formatach mieszanych i niemiesianych.
Typowe przypadki użycia
Strumienie audio mogą być używane na wiele sposobów. Oto kilka przykładów sposobu, w jaki deweloperzy mogą chcieć używać strumieni audio w swoich aplikacjach:
Pomoc dotycząca połączeń w czasie rzeczywistym
Ulepszone sugestie oparte na sztucznej inteligencji — używaj strumieni dźwięku w czasie rzeczywistym aktywnych interakcji między agentami a klientami, aby ocenić intencję wywołania oraz jak agenci mogą zapewnić klientom lepsze środowisko za pośrednictwem aktywnych sugestii przy użyciu własnego modelu sztucznej inteligencji w celu przeanalizowania połączenia.
Uwierzytelnianie
Uwierzytelnianie biometryczne — używaj strumieni audio do przeprowadzania uwierzytelniania głosowego, uruchamiając dźwięk z wywołania za pośrednictwem rozpoznawania głosu/dopasowywania aparatu/narzędzia.
Przykładowa architektura subskrybowania strumieni audio z trwającego wywołania — scenariusz agenta na żywo
Obsługiwane formaty
Format mieszany
Zawiera mieszany dźwięk wszystkich uczestników połączenia. Cały dźwięk jest spłaszczone w jednym strumieniu.
Niezmieszane
Zawiera dźwięk dla każdego uczestnika na kanał, z obsługą maksymalnie czterech kanałów dla czterech najbardziej dominujących głośników w dowolnym momencie wywołania. Otrzymasz również uczestnikaRawID, którego możesz użyć do określenia osoby mówiącej.
Dodatkowe informacje
W poniższej tabeli opisano informacje, które pomogą deweloperom przekonwertować pakiety audio na słyszalną zawartość, która może być używana przez ich aplikacje.
- Szybkość klatek: 50 ramek na sekundę
- Szybkość transmisji pakietów: szybkość 20 ms
- Pakiet danych: 64 Kbytes
- Metryka audio: 16-bitowy procesor PCM z prędkością 16000 hz
- Dane ciągów publicznych to ciąg base64, który powinien zostać przekonwertowany na tablicę bajtów w celu utworzenia nieprzetworzonego pliku PCM.\
Rozliczenia
Zobacz stronę cennika usług Azure Communication Services, aby uzyskać informacje na temat sposobu naliczania opłat za przesyłanie strumieniowe audio. Ceny można znaleźć w kategorii połączeń w obszarze przesyłanie strumieniowe audio.
Następne kroki
Zapoznaj się z przewodnikiem Szybki start dotyczący przesyłania strumieniowego audio, aby dowiedzieć się więcej.