共用方式為


適用於語音和音訊的 GPT-4o 即時 API (預覽)

注意

此功能目前處於公開預覽。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

適用於語音和音訊的 Azure OpenAI GPT-4o 即時 API 是 GPT-4o 模型系列的一部分,可支援低延遲、「語音輸入、語音輸出」交談互動。 GPT-4o 音訊 realtime API 旨在處理即時、低延遲的對話互動,因此非常適合使用者與模型之間即時互動的使用案例,例如客戶支援專員、語音助理和實時翻譯工具。

即時 API 的大部分使用者都必須即時傳遞和接收來自使用者的音訊,包括使用 WebRTC 或電話語音系統的應用程式。 即時 API 並非設計為直接連線到終端使用者裝置,並依賴用戶端整合來終止終端使用者音訊串流。

支援的模型

目前只有 gpt-4o-realtime-preview 版本: 2024-10-01-preview 支援即時音訊。

gpt-4o-realtime-preview模型適用於美國東部 2 和瑞典中部地區的全域部署

重要

系統會儲存您的提示和完成,如 Azure OpenAI 服務之服務特定產品條款的「數據使用和存取濫用監視」一節所述,但有限例外狀況不適用。 即使已核准修改濫用監視的客戶, gpt-4o-realtime-preview 也會開啟濫用監視,以使用 API。

API 支援

第一次在 API 版本中 2024-10-01-preview新增對即時 API 的支援。

注意

如需 API 和架構的詳細資訊,請參閱 GitHub 上的 Azure OpenAI GPT-4o 即時音頻存放庫。

必要條件

部署即時音訊的模型

使用 GPT-4o 即時音訊之前,您需要在支援的區域中部署gpt-4o-realtime-preview模型,如支援的模型一節所述

  1. 移至 Azure AI Foundry 首頁 ,並確定您已使用具有 Azure OpenAI 服務資源的 Azure 訂用帳戶登入(使用或不使用模型部署)。
  2. 從左窗格中的 [資源遊樂場] 底下選取 [即時音訊遊樂場]。
  3. 選取 [+ 建立部署 ] 以開啟部署視窗。
  4. 搜尋並選取模型, gpt-4o-realtime-preview 然後選取 [ 確認]。
  5. 在部署精靈中,請務必選取 2024-10-01 模型版本。
  6. 遵循精靈來部署模型。

既然您已部署 gpt-4o-realtime-preview 模型,您可以在 Azure AI Foundry 入口網站即時音訊 遊樂場或即時 API 中即時與其互動。

使用 GPT-4o 即時音訊

提示

現在,開始使用 GPT-4o 即時 API 進行開發最快的方法是從 GitHub 上的 Azure OpenAI GPT-4o 即時音訊存放庫下載範例程式代碼。

若要在 Azure AI Foundry 即時音訊遊樂場中與您的部署gpt-4o-realtime-preview模型聊天,請遵循下列步驟:

  1. Azure AI Foundry 入口網站中的 Azure OpenAI 服務頁面。 請確定您已使用具有 Azure OpenAI 服務資源和已 gpt-4o-realtime-preview 部署模型的 Azure 訂用帳戶登入。

  2. 從左窗格中的 [資源遊樂場] 底下選取 [即時音訊遊樂場]。

  3. [部署] 下拉式gpt-4o-realtime-preview清單中選取已部署的模型。

  4. 選取 [ 啟用麥克風 ] 以允許瀏覽器存取您的麥克風。 如果您已經授與許可權,您可以略過此步驟。

    即時音訊遊樂場的螢幕快照,其中已選取已部署的模型。

  5. 您可以選擇性地編輯 [提供模型指示和內容] 文字框中的內容。 提供模型關於其行為方式的指示,以及產生回應時應該參考的任何內容。 您可以描述助理的特質、告訴其應該和不應該回答的內容,以及告訴其設定回應的格式。

  6. 或者,變更閾值、前置詞填補和無聲持續時間等設定。

  7. 選取 [ 開始接 聽] 以啟動工作階段。 您可以與麥克風交談以開始聊天。

    即時音訊遊樂場的螢幕快照,其中已啟用 [開始接聽] 按鈕和麥克風存取。

  8. 您可以隨時透過說話來中斷聊天。 您可以選取 [ 停止接 聽] 按鈕來結束聊天。

JavaScript Web 範例示範如何使用 GPT-4o 即時 API 即時與模型實時互動。 範例程式代碼包含簡單的 Web 介面,可從使用者的麥克風擷取音訊,並將其傳送至模型進行處理。 模型會以文字和音訊回應,而範例程式代碼會在 Web 介面中呈現。

您可以遵循下列步驟,在本機計算機上執行範例程序代碼。 如需最新的指示, 請參閱 GitHub 上的存放庫。

  1. 如果您沒有安裝Node.js,請下載並安裝 LTS 版本的 Node.js

  2. 將存放庫複製到本機電腦:

    git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
    
  3. 移至慣用程式 javascript/samples/web 碼編輯器中的資料夾。

    cd ./javascript/samples
    
  4. 執行 download-pkg.ps1download-pkg.sh 以下載所需的套件。

  5. 從資料夾移至 web 資料夾 ./javascript/samples

    cd ./web
    
  6. 執行 npm install 以安裝套件相依性。

  7. 執行 npm run dev 以啟動網頁伺服器,並視需要流覽任何防火牆許可權提示。

  8. 在瀏覽器中,從控制台輸出移至任何提供的 URI(例如 http://localhost:5173/)。

  9. 在 Web 介面中輸入下列資訊:

    • 端點:Azure OpenAI 資源的資源端點。 您不需要附加 /realtime 路徑。 範例結構可能是 https://my-azure-openai-resource-from-portal.openai.azure.com
    • API 金鑰:Azure OpenAI 資源的對應 API 金鑰。
    • 部署:您在上一節中部署的gpt-4o-realtime-preview模型名稱。
    • 系統訊息:您可以選擇性地提供系統訊息,例如「您總是像友好的海盜一樣說話」。
    • 溫度:您可以選擇性地提供自定義溫度。
    • 語音:您可以選擇性地選取語音。
  10. 選取 [ 記錄] 按鈕以啟動工作階段。 如果出現提示,請接受使用麥克風的許可權。

  11. 您應該會在 << Session Started >> 主要輸出中看到訊息。 然後,您可以說話到麥克風開始聊天。

  12. 您可以隨時透過說話來中斷聊天。 您可以選取 [ 停止 ] 按鈕來結束聊天。