Udostępnij za pośrednictwem


Omówienie przesyłania strumieniowego audio — subskrypcja audio

Ważne

Funkcje opisane w tym artykule są obecnie dostępne w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Usługi Azure Communication Services udostępniają deweloperom funkcje przesyłania strumieniowego audio w celu uzyskania dostępu w czasie rzeczywistym do strumieni audio w celu przechwytywania, analizowania i przetwarzania zawartości audio podczas aktywnych wywołań. W dzisiejszym świecie zużycie audio i wideo na żywo jest powszechne, ta zawartość może znajdować się w postaci spotkań online, konferencji online, obsługi klienta itp. Dzięki dostępowi do przesyłania strumieniowego audio deweloperzy mogą teraz tworzyć aplikacje serwera do przechwytywania i analizowania strumieni audio dla każdego z uczestników połączenia w czasie rzeczywistym. Deweloperzy mogą również łączyć przesyłanie strumieniowe audio z innymi akcjami automatyzacji wywołań lub używać własnych modeli sztucznej inteligencji do analizowania strumieni audio. Przypadki użycia obejmują nlp na potrzeby analizy konwersacji lub udostępnianie informacji w czasie rzeczywistym i sugestii agentom podczas aktywnej interakcji z użytkownikami końcowymi.

Ta publiczna wersja zapoznawcza umożliwia deweloperom uzyskiwanie dostępu do strumieni audio w czasie rzeczywistym za pośrednictwem protokołu WebSocket w celu analizowania dźwięku wywołania w formatach mieszanych i niemiesianych.

Typowe przypadki użycia

Strumienie audio mogą być używane na wiele sposobów. Oto kilka przykładów sposobu, w jaki deweloperzy mogą chcieć używać strumieni audio w swoich aplikacjach:

Pomoc dotycząca połączeń w czasie rzeczywistym

Ulepszone sugestie oparte na sztucznej inteligencji — używaj strumieni dźwięku w czasie rzeczywistym aktywnych interakcji między agentami a klientami, aby ocenić intencję wywołania oraz jak agenci mogą zapewnić klientom lepsze środowisko za pośrednictwem aktywnych sugestii przy użyciu własnego modelu sztucznej inteligencji w celu przeanalizowania połączenia.

Uwierzytelnianie

Uwierzytelnianie biometryczne — używaj strumieni audio do przeprowadzania uwierzytelniania głosowego, uruchamiając dźwięk z wywołania za pośrednictwem rozpoznawania głosu/dopasowywania aparatu/narzędzia.

Przykładowa architektura subskrybowania strumieni audio z trwającego wywołania — scenariusz agenta na żywo

Zrzut ekranu przedstawiający diagram architektury przesyłania strumieniowego audio.

Obsługiwane formaty

Format mieszany

Zawiera mieszany dźwięk wszystkich uczestników połączenia. Cały dźwięk jest spłaszczone w jednym strumieniu.

Niezmieszane

Zawiera dźwięk dla każdego uczestnika na kanał, z obsługą maksymalnie czterech kanałów dla czterech najbardziej dominujących głośników w dowolnym momencie wywołania. Otrzymasz również uczestnikaRawID, którego możesz użyć do określenia osoby mówiącej.

Dodatkowe informacje

W poniższej tabeli opisano informacje, które pomogą deweloperom przekonwertować pakiety audio na słyszalną zawartość, która może być używana przez ich aplikacje.

  • Szybkość klatek: 50 ramek na sekundę
  • Szybkość transmisji pakietów: szybkość 20 ms
  • Pakiet danych: 64 Kbytes
  • Metryka audio: 16-bitowy procesor PCM z prędkością 16000 hz
  • Dane ciągów publicznych to ciąg base64, który powinien zostać przekonwertowany na tablicę bajtów w celu utworzenia nieprzetworzonego pliku PCM.\

Rozliczenia

Zobacz stronę cennika usług Azure Communication Services, aby uzyskać informacje na temat sposobu naliczania opłat za przesyłanie strumieniowe audio. Ceny można znaleźć w kategorii połączeń w obszarze przesyłanie strumieniowe audio.

Następne kroki

Zapoznaj się z przewodnikiem Szybki start dotyczący przesyłania strumieniowego audio, aby dowiedzieć się więcej.