GPT-4o Echtzeit-API für Sprache und Audio (Vorschau)
Die Azure OpenAI GPT-4o Echtzeit-API für Sprache und Audio ist Teil der GPT-4o-Modellfamilie, die latenzarme Unterhaltungsinteraktionen mit Sprachein- und ausgabe unterstützt. Die GPT-4o audio-realtime
-API wurde entwickelt, um Unterhaltungsinteraktionen latenzarm in Echtzeit zu verarbeiten, wodurch sie sich hervorragend für Anwendungsfälle eignet, die Liveinteraktionen zwischen einem Benutzer und einem Modell umfassen, z. B. Kundendienstmitarbeiter, Sprachassistenten und Echtzeitübersetzer.
Die meisten Benutzer der Echtzeit-API müssen Ton von einem Endbenutzer in Echtzeit bereitstellen und empfangen, einschließlich Anwendungen, die WebRTC oder ein Telefoniesystem verwenden. Die Echtzeit-API ist nicht für die direkte Verbindung mit Endbenutzergeräten konzipiert und basiert auf Clientintegrationen zum Beenden von Endbenutzer-Audiodatenströmen.
Unterstützte Modelle
Derzeit unterstützt nur die Version gpt-4o-realtime-preview
: 2024-10-01-preview
unterstützt Echtzeitaudio.
Das gpt-4o-realtime-preview
-Modell ist für globale Bereitstellungen in den Regionen USA, Osten 2 und Schweden, Mitte verfügbar.
Wichtig
Das System speichert Ihre Prompts und Vervollständigungen, wie im Abschnitt „Datennutzung und Zugriff auf Missbrauchsüberwachung der dienstspezifischen Produktbedingungen für Azure OpenAI Service beschrieben wird, es sei denn, die eingeschränkte Ausnahme gilt nicht. Die Missbrauchsüberwachung wird für die Verwendung der gpt-4o-realtime-preview
-API auch für Kunden aktiviert, die ansonsten zur modifizierten Missbrauchsüberwachung zugelassen sind.
API-Unterstützung
Die Unterstützung für die Echtzeit-API wurde erstmals in der API-Version 2024-10-01-preview
hinzugefügt.
Hinweis
Weitere Informationen zur API und Architektur finden Sie im „Azure OpenAI GPT-4o real-time audio“-Repository auf GitHub.
Voraussetzungen
- Azure-Abonnement – kostenloses Abonnement erstellen.
- Eine Azure OpenAI-Ressource, die in einer unterstützten Region erstellt wurde. Weitere Informationen finden Sie unter Erstellen einer Ressource und Bereitstellen eines Modells mit Azure OpenAI.
Bereitstellen eines Modells für Echtzeitaudio
Bevor Sie GPT-4o real-time audio verwenden können, benötigen Sie eine Bereitstellung des gpt-4o-realtime-preview
-Modells in einer unterstützten Region, wie im Abschnitt Unterstützten Modelle beschrieben wird.
- Wechseln Sie zur KI Studio-Startseite, und stellen Sie sicher, dass Sie mit dem Azure-Abonnement angemeldet sind, das Ihre Azure OpenAI Service-Ressource enthält (mit oder ohne Modellbereitstellungen.)
- Wählen Sie im linken Bereich den Playground Echtzeit-Audio unter Ressourcen-Playground aus.
- Wählen Sie + Erstellen einer Bereitstellung aus, um das Bereitstellungsfenster zu öffnen.
- Suchen Sie nach dem Modell
gpt-4o-realtime-preview
, wählen Sie es aus, und wählen Sie dann Bestätigen aus. - Stellen Sie im Bereitstellungsassistenten sicher, dass Sie die Modellversion
2024-10-01
auswählen. - Folgen Sie dem Assistenten, um das Modell bereitzustellen.
Nachdem Sie nun über eine Bereitstellung des Modells gpt-4o-realtime-preview
verfügen, können Sie mit ihm im Playground Echtzeit-Audio oder der Echtzeit-API in KI Studio in Echtzeit interagieren.
Verwenden von GPT-4o-Echtzeitaudio
Tipp
Derzeit besteht die schnellste Möglichkeit, mit der Entwicklung mit der GPT-4o-Echtzeit-API zu beginnen, darin, den Beispielcode aus dem GitHub-Repository Azure OpenAI GPT-4o real-time audio herunterzuladen.
Führen Sie die folgenden Schritte aus, um mit Ihrem bereitgestellten gpt-4o-realtime-preview
-Modell im Playground Echtzeitaudio in Azure KI Studio zu chatten:
die Azure OpenAI Service-Seite in KI Studio. Stellen Sie sicher, dass Sie mit dem Azure-Abonnement angemeldet sind, das Ihre Azure OpenAI Service-Ressource und das bereitgestellte Modell
gpt-4o-realtime-preview
enthält.Wählen Sie im linken Bereich den Playground Echtzeit-Audio unter Ressourcen-Playground aus.
Wählen Sie ihr bereitgestelltes
gpt-4o-realtime-preview
-Modell aus der Dropdownliste Bereitstellung aus.Wählen Sie Mikrofon aktivieren aus, damit der Browser auf Ihr Mikrofon zugreifen kann. Wenn Sie bereits die Berechtigung erteilt haben, können Sie diesen Schritt überspringen.
Optional können Sie Inhalte im Textfeld Anweisungen und Kontext für das Modell geben bearbeiten. Gibt dem Modell Anweisungen dazu, wie es sich verhalten soll und auf welchen Kontext es beim Generieren einer Antwort verweisen soll. Sie können die Persönlichkeit des Assistenten beschreiben, ihm sagen, was er beantworten soll und was nicht, und ihm sagen, wie Antworten formatiert werden sollen.
Ändern Sie optional Einstellungen wie Schwellenwert, Präfixauffüllung und Stilledauer.
Wählen Sie Zuhören starten aus, um die Sitzung zu starten. Sie können in das Mikrofon sprechen, um einen Chat zu starten.
Sie können den Chat jederzeit unterbrechen, indem Sie sprechen. Sie können den Chat beenden, indem Sie die Schaltfläche Zuhören beenden auswählen.
Das JavaScript-Webbeispiel veranschaulicht die Verwendung der GPT-4o Echtzeit-API für Interaktionen mit dem Modell in Echtzeit. Der Beispielcode enthält eine einfache Weboberfläche, die Audiodaten aus dem Mikrofon des Benutzers erfasst und zur Verarbeitung an das Modell sendet. Das Modell antwortet mit Text und Audio, der vom Beispielcode in der Weboberfläche gerendert wird.
Sie können den Beispielcode lokal auf Ihrem Computer ausführen, indem Sie die folgenden Schritte ausführen. Die aktuellsten Anweisungen finden Sie im Repository auf GitHub.
Wenn Sie Node.js noch nicht installiert haben, laden Sie die neueste LTS-Version von Node.js herunter, und installieren Sie sie.
Klonen Sie das Repository auf Ihren lokalen Computer:
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
Öffnen Sie den Ordner
javascript/samples/web
in Ihrem bevorzugten Code-Editor.cd ./javascript/samples
Führen Sie
download-pkg.ps1
oderdownload-pkg.sh
aus, um die erforderlichen Pakete herunterzuladen.Wechseln Sie zum Ordner
web
aus dem Ordner./javascript/samples
.cd ./web
Führen Sie
npm install
aus, um alle Paketabhängigkeiten zu installieren.Führen Sie
npm run dev
aus, um den Webserver zu starten. Navigieren Sie bei Bedarf zu allen Firewallberechtigungsaufforderungen.Wechseln Sie in einem Browser zu einer der bereitgestellten URIs aus der Konsolenausgabe (z. B.
http://localhost:5173/
).Geben Sie in der Weboberfläche die folgenden Informationen ein:
- Endpoint: Der Ressourcenendpunkt einer Azure OpenAI-Ressource. Sie müssen den
/realtime
-Pfad nicht anfügen. Eine Beispielstruktur kannhttps://my-azure-openai-resource-from-portal.openai.azure.com
sein. - API-Schlüssel: Ein entsprechender API-Schlüssel für die Azure OpenAI-Ressource.
- Bereitstellung: Der Name des
gpt-4o-realtime-preview
-Modells, das Sie im vorherigen Abschnitt bereitgestellt haben. - Systemnachricht: Optional können Sie eine Systemnachricht wie „Sie sprechen immer wie ein freundlicher Pirat“ bereitstellen.
- Temperatur: Wenn Sie möchten, können Sie eine benutzerdefinierte Temperatur bereitstellen.
- Stimme: Wenn Sie möchten, können Sie eine Stimme auswählen.
- Endpoint: Der Ressourcenendpunkt einer Azure OpenAI-Ressource. Sie müssen den
Wählen Sie die Schaltfläche Aufzeichnen aus, um die Sitzung zu starten. Akzeptieren Sie die Berechtigungen zum Verwenden Ihres Mikrofons, wenn Sie dazu aufgefordert werden.
In der Hauptausgabe sollte eine
<< Session Started >>
-Nachricht angezeigt werden. Dann können Sie in das Mikrofon sprechen, um einen Chat zu starten.Sie können den Chat jederzeit unterbrechen, indem Sie sprechen. Sie können den Chat beenden, indem Sie die Schaltfläche Beenden auswählen.
Zugehöriger Inhalt
- Erfahren Sie mehr über die Bereitstellungstypen für Azure OpenAI
- Erfahren Sie mehr über Kontingente und Grenzwerte in Azure OpenAI