Freigeben über


Bots für Anrufe und Onlinebesprechungen

Bots können per Sprach-, Video- und Bildschirmfreigabe in Echtzeit mit Teams-Anrufen und Besprechungen interagieren. Mit Microsoft Graph-APIs für Anrufe und Onlinebesprechungen können Teams-Apps jetzt per Sprache und Video mit Benutzern interagieren und so die Erfahrung verbessern. Mit diesen APIs können Sie die folgenden neuen Features hinzufügen:

  • Interactive Voice Response (IVR).
  • Anrufsteuerung.
  • Zugriff auf Audio- und Videostreams in Echtzeit, einschließlich Desktop- und App-Freigabe.

Wenn Sie diese Graph-APIs in einer Teams-App verwenden möchten, erstellen Sie einen Bot und geben Sie einige zusätzliche Informationen und Berechtigungen an.

Darüber hinaus können Bots über die Echtzeitmedienplattform per Sprach-, Video- und Bildschirmfreigabe mit Teams-Anrufen und Besprechungen interagieren. Ein Bot, der an Audio- oder Videoanrufen und Onlinebesprechungen teilnimmt, ist ein regulärer Microsoft Teams-Bot mit wenigen zusätzlichen Funktionen, die zum Registrieren des Bots verwendet werden.

Mit dem Teams-App-Manifest mit zwei weiteren Einstellungen supportsCalling und supportsVideo, Graph-Berechtigungen für die Microsoft App-ID Ihres Bots und der Zustimmung des Mandantenadministrators können Sie den Bot registrieren. Bei der Registrierung eines Bots für Anrufe und Besprechungen für Teams wird die Webhook-URL erwähnt, die der Webhook-Endpunkt für alle eingehenden Anrufe an Ihren Bot ist. Für einen in der Anwendung gehosteten Medienbot ist die .NET-Bibliothek Microsoft.Graph.Communications.Calls.Media erforderlich, um auf die Audio- und Videomedienstreams zuzugreifen. Zudem muss der Bot auf einem Windows Server-Computer oder Windows Server-Gastbetriebssystem in Azure bereitgestellt werden. Bots in Teams unterstützen nur bestimmte Medienformate für Audio- und Videoinhalte.

Funktionen von Anrufen und Onlinebesprechungs-Bots

Bots können die folgenden Funktionen ausführen, indem sie Microsoft Graph-APIs für Anrufe und Onlinebesprechungen aufrufen:

Funktionen Funktionen
Kernfunktionen • Initiieren Sie einen 1:1-Anruf zwischen zwei Benutzern.
• Initiieren eines Gruppenanrufs mit mehr als zwei Benutzern (bis zu 350 Benutzer).
• Upgrade eines 1:1-Anrufs mit zwei Benutzern in einen Gruppenanruf mit mehr als zwei Benutzern.
• Nehmen Sie an einem Gruppenanruf teil, nachdem er gestartet wurde.
• Laden Sie einen VoIP-Teilnehmer (Voice over Internet Protocol) ein, an einem laufenden Gruppenanruf teilzunehmen.
Steuerung während des Anrufs • Aktivieren oder deaktivieren Sie das Video.
• Stummschalten oder Aufheben der Stummschaltung des Mikrofons.
• Wechseln zwischen Kameras.
• Setzen Sie den Anruf in die Warteschleife oder setzen Sie ihn lokal fort.
• Aktiver Sprecher.
• Wählen Sie sprecher für Anrufe aus.
• Wählen Sie mikrofon für Anrufe aus.
• Anzeigen des Status eines Teilnehmers, z. B. Leerlauf, frühe Medien, Verbinden, Verbunden, Im Wartebereich oder getrennt.
• Zeigen Sie den Status eines Anrufs an, z. B. frühe Medien, eingehende, verbindende, klingelnde, verbunden, im Haltezustand, getrennt oder getrennt.
• Anzeigen, ob ein Teilnehmer stummgeschaltet ist.
• Zeigen Sie den Grund an, warum ein Teilnehmer einen Anruf verlassen hat.
Bildschirmübertragung • Teilen Sie den gesamten Bildschirm innerhalb der App.
• Freigeben einer bestimmten App (aus der Liste der ausgeführten Apps)
• Freigeben einer Webbrowserregisterkarte aus der Liste der geöffneten Registerkarten.
• Freigeben von Systemaudio während der Bildschirmfreigabe.
• Der Teilnehmer kann die Remote-Bildschirmfreigabe anzeigen.
Liste • Listen Sie die Teilnehmer an einem Anruf auf.
• Entfernen eines Teilnehmers aus einem Anruf.
PstN (Public Switched Telephone Network) • Tätigen Sie einen 1:1-Anruf mit einem PSTN-Teilnehmer.
• Tätigen eines Gruppenanrufs mit PSTN-Teilnehmern.
• Upgrade eines 1:1-Anrufs mit einem PSTN-Teilnehmer in einen Gruppenanruf.
• Ausgehende Telefonverbindung aus einem Gruppenanruf als PSTN-Teilnehmer.
• Unterstützung für frühe Medien.

Nun müssen Sie einige Kernkonzepte, Terminologien und Konventionen verstehen.

Terminologien

Die folgenden grundlegenden Konzepte, Terminologie und Konventionen leiten Sie durch die Verwendung von Bots für Anrufe und Onlinebesprechungen:

  • Audio- oder Videoanrufe
  • Anruftypen
  • Signale
  • Anrufe und Onlinebesprechungen
  • Echtzeitmedien

Audio- oder Videoanrufe

Anrufe in Teams können reine Audio- oder Audio- und Videoanrufe sein. Anstelle von Audio- oder Videoanrufen wird der Begriff „Anruf“ verwendet.

Anruftypen

Anrufe erfolgen entweder zwischen einer Person und Ihrem Bot (Peer-to-Peer) oder zwischen Ihrem Bot und mindestens zwei Personen in einem Gruppenanruf (mehrere Teilnehmer).

Anruftypen

Im Folgenden sind die verschiedenen Anruftypen und -berechtigungen aufgeführt, die für den Anruf erforderlich sind:

  • Ein Benutzer kann einen Peer-to-Peer-Anruf mit Ihrem Bot starten oder den Bot zu einem bestehenden Anruf mit mehreren Teilnehmern einladen. Der Anruf mit mehreren Teilnehmern ist auf der Microsoft Teams-Benutzeroberfläche noch nicht aktiviert.

    Hinweis

    Vom Benutzer initiierte Aufrufe an einen Bot werden auf dem mobilen Teams-Client nicht unterstützt.

  • Graph-Berechtigungen sind nicht erforderlich, damit ein Benutzer einen Peer-to-Peer-Aufruf mit Ihrem Bot initiieren kann. Zusätzliche Berechtigungen sind erforderlich, damit Ihr Bot an einem Anruf mit mehreren Teilnehmern teilnimmt oder damit der Bot einen Peer-to-Peer-Anruf mit einem Benutzer initiiert.

  • Ein Anruf kann als Peer-to-Peer-Anruf beginnen und schließlich zu einem Anruf mit mehreren Teilnehmern werden. Ihr Bot kann Anrufe mit mehreren Teilnehmern initiieren, indem er andere Teilnehmer einlädt, sofern der Bot die richtigen Berechtigungen besitzt. Wenn Ihr Bot nicht über die Berechtigung zur Teilnahme an Gruppenanrufen verfügt und ein Teilnehmer dem Anruf einen anderen Teilnehmer hinzufügt, wird Ihr Bot aus dem Anruf gelöscht.

Signale

Es gibt zwei Arten von Signalen, eingehender Anruf und im Gespräch. Im Folgenden sind die verschiedenen Merkmale der Signale aufgeführt:

  • Um einen eingehenden Anruf zu erhalten, geben Sie einen Endpunkt in Ihren Boteinstellungen ein. Dieser Endpunkt erhält eine Benachrichtigung, wenn ein eingehender Anruf initiiert wird. Sie können den Anruf annehmen, ablehnen oder an eine andere Person umleiten.

    Anrufverarbeitung

  • Wenn sich ein Bot in einem Anruf befindet, gibt es APIs zum Stummschalten und Aufheben der Stummschaltung des Bots und zum Starten oder Beenden der Freigabe von Video- oder Desktopinhalten für andere Teilnehmer.

  • Der Bot kann auch auf die Liste der Teilnehmer zugreifen, neue Teilnehmer einladen und sie stummschalten.

Anrufe und Onlinebesprechungen

Aus der Perspektive eines Teams-Benutzers gibt es zwei Arten von Onlinebesprechungen: ungeplante und geplante Onlinebesprechungen. Aus Sicht eines Bots sind beide Arten von Onlinebesprechungen identisch. Für einen Bot ist eine Onlinebesprechung ein Anruf mit mehreren Teilnehmern und umfasst Besprechungskoordinaten. Besprechungskoordinaten sind die Metadaten für die Besprechung, einschließlich botId, chatId, die der Besprechung zugeordnet ist, joinUrl, startTime oder endTime usw.

Echtzeitmedien

Wenn ein Bot an einem Anruf oder einer Onlinebesprechung teilnimmt, muss er Audio- und Videostreams handhaben. Wenn Benutzer bei einem Anruf sprechen, sich auf einer Webcam zeigen oder ihre Bildschirme in einer Besprechung präsentieren, wird dies einem Bot als Audio- und Videostreams angezeigt. Wenn ein Bot etwas so Einfaches wie Drücken Sie 0, um den Operator zu erreichen in einem IVR-Szenario (Interactive Voice Response) sagen möchte, muss eine .WAV-Datei abgespielt werden. Zusammenfassend wird dies als Medien oder Echtzeitmedien bezeichnet.

Echtzeitmedien beziehen sich auf Szenarien, in denen Medien im Gegensatz zur Wiedergabe zuvor aufgezeichneter Audio- oder Videodaten in Echtzeit verarbeitet werden müssen. Der Umgang mit Medienstreams in Echtzeit ist komplex. Microsoft hat die Echtzeitmedienplattform erstellt, um diese Szenarien zu handhaben und so viel wie möglich von der herkömmlichen umfangreichen Verarbeitung von Echtzeitmedien auszulagern. Wenn der Bot auf einen eingehenden Anruf antwortet oder einem neuen oder bestehenden Anruf beitritt, muss er der Echtzeitmedienplattform mitteilen, wie Medien gehandhabt werden. Wenn Sie eine IVR-Anwendung erstellen, können Sie die teure Audioverarbeitung an Microsoft auslagern. Benötigt Ihr Bot direkten Zugriff auf Medienstreams, wird auch dieses Szenario unterstützt. Es gibt zwei Arten der Medienverarbeitung:

  • Vom Dienst gehostete Medien: Bots konzentrieren sich auf die Verwaltung von Anwendungsworkflows, z. B. das Routing von Anrufen und das Auslagern der Audioverarbeitung an die Microsoft Echtzeitmedienplattform. Mit vom Dienst gehosteten Medien haben Sie mehrere Optionen zum Implementieren und Hosten Ihres Bots. Ein vom Dienst gehosteter Medienbot kann als zustandsloser Dienst implementiert werden, da er Medien nicht lokal verarbeitet. Vom Dienst gehostete Medienbots können die folgenden APIs verwenden:

    • PlayPrompt zum Wiedergeben eines Audioclips.

    • Record zum Aufzeichnen von Audioclips.

    • SubscribeToTone zum Abonnieren von DTMF-Tönen (Dual Tone Multiple Frequency).

      Beispielsweise um zu wissen, wann ein Benutzer 0 gedrückt hat, um den Operator zu erreichen.

  • Von der Anwendung gehostete Medien: Damit ein Bot direkten Zugriff auf die Medien erhält, benötigt er eine bestimmte Graph-Berechtigung. Sobald Ihr Bot die Berechtigung besitzt, helfen Ihnen die Echtzeitmedienbibliothek und das Graph-aufrufende SDK beim Erstellen umfangreicher Echtzeitmedien und beim Anrufen von Bots. Ein in der Anwendung gehosteter Bot muss in einer Windows-Umgebung gehostet werden. Weitere Informationen finden Sie unter Von der Anwendung gehostete Medienbots.

Codebeispiel

Beispielname Beschreibung Graph
Graph-Kommunikation Graph-Kommunikation für die Interaktion mit der Kommunikationsplattform von Microsoft. Anzeigen

Nächster Schritt

Siehe auch