Freigeben über


Übersicht über Audiostreaming: Audioabonnement

Wichtig

Die in diesem Artikel beschriebenen Funktionen befinden sich derzeit in der öffentlichen Vorschauphase. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und ist nicht für Produktionsworkloads vorgesehen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Azure Communication Services bietet Entwicklern Audiostreamingfunktionen, um Echtzeitzugriff auf Audiodatenströme zu erhalten und Audioinhalte während aktiver Anrufe zu erfassen, zu analysieren und zu verarbeiten. Heutzutage ist der Konsum von Live-Audio und -Video weit verbreitet. Solche Inhalte können beispielsweise Onlinebesprechungen, Onlinekonferenzen, Kundensupport usw. sein. Dank Audiostreamingzugriff können Entwickler jetzt Serveranwendungen erstellen, um Audiodatenströme für jeden Teilnehmer eines Anrufs in Echtzeit zu erfassen und zu analysieren. Entwickler können Audiostreaming auch mit anderen Anrufautomatisierungsaktionen kombinieren oder eigene KI-Modelle verwenden, um Audiostreams zu analysieren. Anwendungsfälle umfassen NLP zur Analyse von Unterhaltungen oder das Bereitstellen von Erkenntnissen und Vorschlägen für Agents in Echtzeit, während sie sich in einer aktiven Interaktion mit Endbenutzern befinden.

Diese öffentliche Vorschauversion ermöglicht es Entwicklern, über ein Websocket auf Echtzeit-Audiodatenströme zuzugreifen, um die Audiodaten des Anrufs in gemischten und ungemischten Formaten zu analysieren.

Gängige Anwendungsfälle

Audiodatenströme können auf zahlreiche Arten verwendet werden. Entwickler können die Audiodatenströme in ihren Anwendungen beispielsweise für Folgendes nutzen:

Echtzeitunterstützung bei Anrufen

Verbesserte KI-gestützte Vorschläge: Nutzen Sie Echtzeit-Audiodatenströme aktiver Interaktionen zwischen Mitarbeitern und Kunden, um zu ermitteln, was die Absicht des Anrufs ist und wie die Mitarbeiter dem Kunden durch aktive Vorschläge Ihres eigenen KI-Modells für die Anrufanalyse eine bessere Erfahrung bieten können.

Authentifizierung

Biometrische Authentifizierung: Verwenden Sie die Audiodatenströme, um eine Sprachauthentifizierung durchzuführen, indem Sie die Audiodaten aus dem Anruf mithilfe Ihres Spracherkennungstools oder ihrer Abgleichs-Engine überprüfen.

Beispielarchitektur für das Abonnieren von Audiodatenströmen aus einem aktiven Anruf: Live-Agent-Szenario

Screenshot des Architekturdiagramms für Audiostreaming.

Unterstützte Formate

Gemischtes Format

Enthält gemischte Audiodaten aller Anrufteilnehmer. Alle Audiodaten werden zu einem Datenstrom vereinfacht.

Nicht gemischt

Enthält Audiodaten pro Teilnehmer und Kanal. Es werden bis zu vier Kanäle für die vier dominantesten Sprecher zu jedem beliebigen Zeitpunkt des Anrufs unterstützt. Darüber hinaus erhalten Sie einen participantRawID-Wert, den Sie verwenden können, um den Sprecher zu ermitteln.

Weitere Informationen

In der folgenden Tabelle werden Informationen beschrieben, die Entwicklern dabei helfen, die Audiopakete in hörbare Inhalte zu konvertieren, die von ihren Anwendungen verwendet werden können.

  • Framerate: 50 Frames pro Sekunde
  • Paketstreamingrate: 20 ms
  • Datenpaket: 64 KB
  • Audiometrik: 16-Bit-PCM (Mono) mit 16.000 Hz
  • Bei den öffentlichen Zeichenfolgendaten handelt es sich um eine Base64-Zeichenfolge, die in ein Bytearray konvertiert werden muss, um eine unformatierte PCM-Datei zu erstellen.\

Abrechnung

Weitere Informationen zur Abrechnung von Audio-Streaming finden Sie auf der Azure Communication Services-Preisseite. Die Preise finden Sie in der Anrufkategorie unter Audio-Streaming.

Nächste Schritte

Weitere Informationen finden Sie in der Schnellstartanleitung zum Audiostreaming.