Udostępnij za pośrednictwem


Interfejs API GPT-4o Realtime dla mowy i dźwięku (wersja zapoznawcza)

Uwaga

Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Interfejs API usługi Azure OpenAI GPT-4o Realtime dla mowy i dźwięku jest częścią rodziny modeli GPT-4o, która obsługuje interakcje konwersacyjne "mowa w, wypowiedź". Interfejs API audio realtime GPT-4o jest przeznaczony do obsługi interakcji konwersacyjnych w czasie rzeczywistym, małych opóźnień, dzięki czemu doskonale nadaje się do przypadków użycia obejmujących interakcje na żywo między użytkownikiem a modelem, takie jak agenci pomocy technicznej klienta, asystentzy głosowi i tłumacze w czasie rzeczywistym.

Większość użytkowników interfejsu API czasu rzeczywistego musi dostarczać i odbierać dźwięk od użytkownika końcowego w czasie rzeczywistym, w tym aplikacje korzystające z usługi WebRTC lub systemu telefonii. Interfejs API czasu rzeczywistego nie jest przeznaczony do łączenia się bezpośrednio z urządzeniami użytkowników końcowych i opiera się na integracji klientów w celu zakończenia strumieni audio użytkownika końcowego.

Obsługiwane modele

Obecnie tylko gpt-4o-realtime-preview wersja: 2024-10-01-preview obsługuje dźwięk w czasie rzeczywistym.

Model gpt-4o-realtime-preview jest dostępny dla wdrożeń globalnych w regionach Wschodnie stany USA 2 i Szwecja Środkowa.

Ważne

System przechowuje monity i zakończenia zgodnie z opisem w sekcji "Korzystanie z danych i dostęp do monitorowania nadużyć" warunków produktu specyficznych dla usługi dla usługi Azure OpenAI Service, z wyjątkiem tego, że ograniczony wyjątek nie ma zastosowania. Monitorowanie nadużyć zostanie włączone do korzystania z interfejsu gpt-4o-realtime-preview API nawet dla klientów, którzy w przeciwnym razie są zatwierdzani w celu monitorowania zmodyfikowanych nadużyć.

Obsługa interfejsu API

Obsługa interfejsu API czasu rzeczywistego została po raz pierwszy dodana w wersji 2024-10-01-previewinterfejsu API .

Uwaga

Aby uzyskać więcej informacji na temat interfejsu API i architektury, zobacz repozytorium audio GPT-4o usługi Azure OpenAI GPT-4o w czasie rzeczywistym w usłudze GitHub.

Wymagania wstępne

Wdrażanie modelu na potrzeby dźwięku w czasie rzeczywistym

Przed użyciem dźwięku gpt-4o-realtime-preview GPT-4o w czasie rzeczywistym potrzebne jest wdrożenie modelu w obsługiwanym regionie zgodnie z opisem w sekcji obsługiwanych modeli .

  1. Przejdź do strony głównej usługi Azure AI Foundry i upewnij się, że zalogowano się przy użyciu subskrypcji platformy Azure, która ma zasób usługi Azure OpenAI Service (z wdrożeniami modelu lub bez tych wdrożeń).
  2. Wybierz plac zabaw audio w czasie rzeczywistym w obszarze Zasób plac zabaw w okienku po lewej stronie.
  3. Wybierz pozycję + Utwórz wdrożenie , aby otworzyć okno wdrażania.
  4. Wyszukaj i wybierz gpt-4o-realtime-preview model, a następnie wybierz pozycję Potwierdź.
  5. W kreatorze wdrażania upewnij się, że wybrano 2024-10-01 wersję modelu.
  6. Postępuj zgodnie z instrukcjami kreatora, aby wdrożyć model.

Teraz, gdy masz wdrożenie gpt-4o-realtime-preview modelu, możesz wchodzić z nim w interakcje w czasie rzeczywistym w portalu Azure AI Foundry w czasie rzeczywistym — plac zabaw audio lub interfejs API czasu rzeczywistego.

Używanie dźwięku GPT-4o w czasie rzeczywistym

Napiwek

W tej chwili najszybszym sposobem rozpoczęcia programowania za pomocą interfejsu API GPT-4o Realtime jest pobranie przykładowego kodu z repozytorium audio GPT-4o usługi Azure OpenAI GPT-4o w czasie rzeczywistym w usłudze GitHub.

Aby porozmawiać z wdrożonym gpt-4o-realtime-preview modelem na placu zabaw audio w czasie rzeczywistym rozwiązania Azure AI Foundry, wykonaj następujące kroki:

  1. strona Azure OpenAI Service w portalu azure AI Foundry. Upewnij się, że zalogowano się przy użyciu subskrypcji platformy Azure, która ma zasób usługi Azure OpenAI Service i wdrożony gpt-4o-realtime-preview model.

  2. Wybierz plac zabaw audio w czasie rzeczywistym w obszarze Zasób plac zabaw w okienku po lewej stronie.

  3. Wybierz wdrożony gpt-4o-realtime-preview model z listy rozwijanej Wdrażanie .

  4. Wybierz pozycję Włącz mikrofon , aby zezwolić przeglądarce na dostęp do mikrofonu. Jeśli udzielono już uprawnień, możesz pominąć ten krok.

    Zrzut ekranu przedstawiający plac zabaw audio w czasie rzeczywistym z wybranym wdrożonym modelem.

  5. Opcjonalnie możesz edytować zawartość w polu tekstowym Nadaj modelowi instrukcje i kontekst . Przekaż instrukcje dotyczące sposobu działania modelu i dowolnego kontekstu, do którego powinien się odwoływać podczas generowania odpowiedzi. Możesz opisać osobowość asystenta, określić na jakie pytania powinien lub nie powinien odpowiadać i określić, w jaki sposób ma formatować odpowiedzi.

  6. Opcjonalnie zmień ustawienia, takie jak próg, dopełnienie prefiksu i czas trwania ciszy.

  7. Wybierz pozycję Rozpocznij nasłuchiwanie , aby rozpocząć sesję. Możesz mówić do mikrofonu, aby rozpocząć czat.

    Zrzut ekranu przedstawiający plac zabaw audio w czasie rzeczywistym z włączonym przyciskiem rozpocznij nasłuchiwanie i dostępem do mikrofonu.

  8. Możesz przerwać czat w dowolnym momencie, mówiąc. Możesz zakończyć czat, wybierając przycisk Zatrzymaj nasłuchiwanie .

W przykładzie internetowym języka JavaScript pokazano, jak używać interfejsu API GPT-4o Realtime do interakcji z modelem w czasie rzeczywistym. Przykładowy kod zawiera prosty interfejs internetowy, który przechwytuje dźwięk z mikrofonu użytkownika i wysyła go do modelu na potrzeby przetwarzania. Model odpowiada tekstem i dźwiękiem, który przykładowy kod jest renderowany w interfejsie internetowym.

Przykładowy kod można uruchomić lokalnie na maszynie, wykonując następujące kroki. Aby uzyskać najbardziej aktualne instrukcje, zapoznaj się z repozytorium w witrynie GitHub .

  1. Jeśli nie masz zainstalowanego Node.js, pobierz i zainstaluj wersję LTS Node.js.

  2. Sklonuj repozytorium na komputer lokalny:

    git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
    
  3. Przejdź do javascript/samples/web folderu w preferowanym edytorze kodu.

    cd ./javascript/samples
    
  4. Uruchom download-pkg.ps1 polecenie lub download-pkg.sh pobierz wymagane pakiety.

  5. Przejdź do web folderu z ./javascript/samples folderu .

    cd ./web
    
  6. Uruchom polecenie npm install , aby zainstalować zależności pakietów.

  7. Uruchom polecenie npm run dev , aby uruchomić serwer internetowy, przechodząc do wszystkich monitów o uprawnienia zapory zgodnie z potrzebami.

  8. Przejdź do dowolnego z podanych identyfikatorów URI z danych wyjściowych konsoli (takich jak http://localhost:5173/) w przeglądarce.

  9. Wprowadź następujące informacje w interfejsie internetowym:

    • Punkt końcowy: punkt końcowy zasobu usługi Azure OpenAI. Nie musisz dołączać ścieżki /realtime . Przykładową strukturą może być https://my-azure-openai-resource-from-portal.openai.azure.com.
    • Klucz interfejsu API: odpowiedni klucz interfejsu API dla zasobu usługi Azure OpenAI.
    • Wdrożenie: nazwa gpt-4o-realtime-preview modelu wdrożonego w poprzedniej sekcji.
    • Komunikat systemowy: Opcjonalnie możesz podać komunikat systemowy, taki jak "Zawsze mówisz jak przyjazny pirat".
    • Temperatura: opcjonalnie możesz podać niestandardową temperaturę.
    • Głos: opcjonalnie możesz wybrać głos.
  10. Wybierz przycisk Rekord, aby rozpocząć sesję. Zaakceptuj uprawnienia do korzystania z mikrofonu, jeśli zostanie wyświetlony monit.

  11. W głównych danych wyjściowych powinien zostać wyświetlony << Session Started >> komunikat. Następnie możesz mówić do mikrofonu, aby rozpocząć czat.

  12. Możesz przerwać czat w dowolnym momencie, mówiąc. Możesz zakończyć czat, wybierając przycisk Zatrzymaj.