Interfejs API GPT-4o Realtime dla mowy i dźwięku (wersja zapoznawcza)
Uwaga
Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.
Interfejs API usługi Azure OpenAI GPT-4o Realtime dla mowy i dźwięku jest częścią rodziny modeli GPT-4o, która obsługuje interakcje konwersacyjne "mowa w, wypowiedź". Interfejs API audio realtime
GPT-4o jest przeznaczony do obsługi interakcji konwersacyjnych w czasie rzeczywistym, małych opóźnień, dzięki czemu doskonale nadaje się do przypadków użycia obejmujących interakcje na żywo między użytkownikiem a modelem, takie jak agenci pomocy technicznej klienta, asystentzy głosowi i tłumacze w czasie rzeczywistym.
Większość użytkowników interfejsu API czasu rzeczywistego musi dostarczać i odbierać dźwięk od użytkownika końcowego w czasie rzeczywistym, w tym aplikacje korzystające z usługi WebRTC lub systemu telefonii. Interfejs API czasu rzeczywistego nie jest przeznaczony do łączenia się bezpośrednio z urządzeniami użytkowników końcowych i opiera się na integracji klientów w celu zakończenia strumieni audio użytkownika końcowego.
Obsługiwane modele
Obecnie tylko gpt-4o-realtime-preview
wersja: 2024-10-01-preview
obsługuje dźwięk w czasie rzeczywistym.
Model gpt-4o-realtime-preview
jest dostępny dla wdrożeń globalnych w regionach Wschodnie stany USA 2 i Szwecja Środkowa.
Ważne
System przechowuje monity i zakończenia zgodnie z opisem w sekcji "Korzystanie z danych i dostęp do monitorowania nadużyć" warunków produktu specyficznych dla usługi dla usługi Azure OpenAI Service, z wyjątkiem tego, że ograniczony wyjątek nie ma zastosowania. Monitorowanie nadużyć zostanie włączone do korzystania z interfejsu gpt-4o-realtime-preview
API nawet dla klientów, którzy w przeciwnym razie są zatwierdzani w celu monitorowania zmodyfikowanych nadużyć.
Obsługa interfejsu API
Obsługa interfejsu API czasu rzeczywistego została po raz pierwszy dodana w wersji 2024-10-01-preview
interfejsu API .
Uwaga
Aby uzyskać więcej informacji na temat interfejsu API i architektury, zobacz repozytorium audio GPT-4o usługi Azure OpenAI GPT-4o w czasie rzeczywistym w usłudze GitHub.
Wymagania wstępne
- Subskrypcja platformy Azure — utwórz bezpłatnie.
- Zasób usługi Azure OpenAI utworzony w obsługiwanym regionie. Aby uzyskać więcej informacji, zobacz Tworzenie zasobu i wdrażanie modelu za pomocą usługi Azure OpenAI.
Wdrażanie modelu na potrzeby dźwięku w czasie rzeczywistym
Przed użyciem dźwięku gpt-4o-realtime-preview
GPT-4o w czasie rzeczywistym potrzebne jest wdrożenie modelu w obsługiwanym regionie zgodnie z opisem w sekcji obsługiwanych modeli .
- Przejdź do strony głównej usługi Azure AI Foundry i upewnij się, że zalogowano się przy użyciu subskrypcji platformy Azure, która ma zasób usługi Azure OpenAI Service (z wdrożeniami modelu lub bez tych wdrożeń).
- Wybierz plac zabaw audio w czasie rzeczywistym w obszarze Zasób plac zabaw w okienku po lewej stronie.
- Wybierz pozycję + Utwórz wdrożenie , aby otworzyć okno wdrażania.
- Wyszukaj i wybierz
gpt-4o-realtime-preview
model, a następnie wybierz pozycję Potwierdź. - W kreatorze wdrażania upewnij się, że wybrano
2024-10-01
wersję modelu. - Postępuj zgodnie z instrukcjami kreatora, aby wdrożyć model.
Teraz, gdy masz wdrożenie gpt-4o-realtime-preview
modelu, możesz wchodzić z nim w interakcje w czasie rzeczywistym w portalu Azure AI Foundry w czasie rzeczywistym — plac zabaw audio lub interfejs API czasu rzeczywistego.
Używanie dźwięku GPT-4o w czasie rzeczywistym
Napiwek
W tej chwili najszybszym sposobem rozpoczęcia programowania za pomocą interfejsu API GPT-4o Realtime jest pobranie przykładowego kodu z repozytorium audio GPT-4o usługi Azure OpenAI GPT-4o w czasie rzeczywistym w usłudze GitHub.
Aby porozmawiać z wdrożonym gpt-4o-realtime-preview
modelem na placu zabaw audio w czasie rzeczywistym rozwiązania Azure AI Foundry, wykonaj następujące kroki:
strona Azure OpenAI Service w portalu azure AI Foundry. Upewnij się, że zalogowano się przy użyciu subskrypcji platformy Azure, która ma zasób usługi Azure OpenAI Service i wdrożony
gpt-4o-realtime-preview
model.Wybierz plac zabaw audio w czasie rzeczywistym w obszarze Zasób plac zabaw w okienku po lewej stronie.
Wybierz wdrożony
gpt-4o-realtime-preview
model z listy rozwijanej Wdrażanie .Wybierz pozycję Włącz mikrofon , aby zezwolić przeglądarce na dostęp do mikrofonu. Jeśli udzielono już uprawnień, możesz pominąć ten krok.
Opcjonalnie możesz edytować zawartość w polu tekstowym Nadaj modelowi instrukcje i kontekst . Przekaż instrukcje dotyczące sposobu działania modelu i dowolnego kontekstu, do którego powinien się odwoływać podczas generowania odpowiedzi. Możesz opisać osobowość asystenta, określić na jakie pytania powinien lub nie powinien odpowiadać i określić, w jaki sposób ma formatować odpowiedzi.
Opcjonalnie zmień ustawienia, takie jak próg, dopełnienie prefiksu i czas trwania ciszy.
Wybierz pozycję Rozpocznij nasłuchiwanie , aby rozpocząć sesję. Możesz mówić do mikrofonu, aby rozpocząć czat.
Możesz przerwać czat w dowolnym momencie, mówiąc. Możesz zakończyć czat, wybierając przycisk Zatrzymaj nasłuchiwanie .
W przykładzie internetowym języka JavaScript pokazano, jak używać interfejsu API GPT-4o Realtime do interakcji z modelem w czasie rzeczywistym. Przykładowy kod zawiera prosty interfejs internetowy, który przechwytuje dźwięk z mikrofonu użytkownika i wysyła go do modelu na potrzeby przetwarzania. Model odpowiada tekstem i dźwiękiem, który przykładowy kod jest renderowany w interfejsie internetowym.
Przykładowy kod można uruchomić lokalnie na maszynie, wykonując następujące kroki. Aby uzyskać najbardziej aktualne instrukcje, zapoznaj się z repozytorium w witrynie GitHub .
Jeśli nie masz zainstalowanego Node.js, pobierz i zainstaluj wersję LTS Node.js.
Sklonuj repozytorium na komputer lokalny:
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
Przejdź do
javascript/samples/web
folderu w preferowanym edytorze kodu.cd ./javascript/samples
Uruchom
download-pkg.ps1
polecenie lubdownload-pkg.sh
pobierz wymagane pakiety.Przejdź do
web
folderu z./javascript/samples
folderu .cd ./web
Uruchom polecenie
npm install
, aby zainstalować zależności pakietów.Uruchom polecenie
npm run dev
, aby uruchomić serwer internetowy, przechodząc do wszystkich monitów o uprawnienia zapory zgodnie z potrzebami.Przejdź do dowolnego z podanych identyfikatorów URI z danych wyjściowych konsoli (takich jak
http://localhost:5173/
) w przeglądarce.Wprowadź następujące informacje w interfejsie internetowym:
- Punkt końcowy: punkt końcowy zasobu usługi Azure OpenAI. Nie musisz dołączać ścieżki
/realtime
. Przykładową strukturą może byćhttps://my-azure-openai-resource-from-portal.openai.azure.com
. - Klucz interfejsu API: odpowiedni klucz interfejsu API dla zasobu usługi Azure OpenAI.
- Wdrożenie: nazwa
gpt-4o-realtime-preview
modelu wdrożonego w poprzedniej sekcji. - Komunikat systemowy: Opcjonalnie możesz podać komunikat systemowy, taki jak "Zawsze mówisz jak przyjazny pirat".
- Temperatura: opcjonalnie możesz podać niestandardową temperaturę.
- Głos: opcjonalnie możesz wybrać głos.
- Punkt końcowy: punkt końcowy zasobu usługi Azure OpenAI. Nie musisz dołączać ścieżki
Wybierz przycisk Rekord, aby rozpocząć sesję. Zaakceptuj uprawnienia do korzystania z mikrofonu, jeśli zostanie wyświetlony monit.
W głównych danych wyjściowych powinien zostać wyświetlony
<< Session Started >>
komunikat. Następnie możesz mówić do mikrofonu, aby rozpocząć czat.Możesz przerwać czat w dowolnym momencie, mówiąc. Możesz zakończyć czat, wybierając przycisk Zatrzymaj.
Powiązana zawartość
- Dowiedz się więcej o sposobie korzystania z interfejsu API czasu rzeczywistego
- Zobacz dokumentację interfejsu API czasu rzeczywistego
- Dowiedz się więcej o limitach przydziałów i limitach usługi Azure OpenAI