適用於語音和音訊的 GPT-4o 即時 API (預覽)
注意
此功能目前處於公開預覽。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
適用於語音和音訊的 Azure OpenAI GPT-4o 即時 API 是 GPT-4o 模型系列的一部分,可支援低延遲、「語音輸入、語音輸出」交談互動。 GPT-4o 音訊 realtime
API 旨在處理即時、低延遲的對話互動,因此非常適合使用者與模型之間即時互動的使用案例,例如客戶支援專員、語音助理和實時翻譯工具。
即時 API 的大部分使用者都必須即時傳遞和接收來自使用者的音訊,包括使用 WebRTC 或電話語音系統的應用程式。 即時 API 並非設計為直接連線到終端使用者裝置,並依賴用戶端整合來終止終端使用者音訊串流。
支援的模型
目前只有 gpt-4o-realtime-preview
版本: 2024-10-01-preview
支援即時音訊。
此gpt-4o-realtime-preview
模型適用於美國東部 2 和瑞典中部地區的全域部署。
重要
系統會儲存您的提示和完成,如 Azure OpenAI 服務之服務特定產品條款的「數據使用和存取濫用監視」一節所述,但有限例外狀況不適用。 即使已核准修改濫用監視的客戶, gpt-4o-realtime-preview
也會開啟濫用監視,以使用 API。
API 支援
第一次在 API 版本中 2024-10-01-preview
新增對即時 API 的支援。
注意
如需 API 和架構的詳細資訊,請參閱 GitHub 上的 Azure OpenAI GPT-4o 即時音頻存放庫。
必要條件
- Azure 訂用帳戶 - 建立免費帳戶。
- 在支持區域中建立的 Azure OpenAI 資源。 如需詳細資訊,請參閱使用 Azure OpenAI 建立資源及部署模型。
部署即時音訊的模型
使用 GPT-4o 即時音訊之前,您需要在支援的區域中部署gpt-4o-realtime-preview
模型,如支援的模型一節所述。
- 移至 Azure AI Foundry 首頁 ,並確定您已使用具有 Azure OpenAI 服務資源的 Azure 訂用帳戶登入(使用或不使用模型部署)。
- 從左窗格中的 [資源遊樂場] 底下選取 [即時音訊遊樂場]。
- 選取 [+ 建立部署 ] 以開啟部署視窗。
- 搜尋並選取模型,
gpt-4o-realtime-preview
然後選取 [ 確認]。 - 在部署精靈中,請務必選取
2024-10-01
模型版本。 - 遵循精靈來部署模型。
既然您已部署 gpt-4o-realtime-preview
模型,您可以在 Azure AI Foundry 入口網站即時音訊 遊樂場或即時 API 中即時與其互動。
使用 GPT-4o 即時音訊
提示
現在,開始使用 GPT-4o 即時 API 進行開發最快的方法是從 GitHub 上的 Azure OpenAI GPT-4o 即時音訊存放庫下載範例程式代碼。
若要在 Azure AI Foundry 即時音訊遊樂場中與您的部署gpt-4o-realtime-preview
模型聊天,請遵循下列步驟:
Azure AI Foundry 入口網站中的 Azure OpenAI 服務頁面。 請確定您已使用具有 Azure OpenAI 服務資源和已
gpt-4o-realtime-preview
部署模型的 Azure 訂用帳戶登入。從左窗格中的 [資源遊樂場] 底下選取 [即時音訊遊樂場]。
從 [部署] 下拉式
gpt-4o-realtime-preview
清單中選取已部署的模型。選取 [ 啟用麥克風 ] 以允許瀏覽器存取您的麥克風。 如果您已經授與許可權,您可以略過此步驟。
您可以選擇性地編輯 [提供模型指示和內容] 文字框中的內容。 提供模型關於其行為方式的指示,以及產生回應時應該參考的任何內容。 您可以描述助理的特質、告訴其應該和不應該回答的內容,以及告訴其設定回應的格式。
或者,變更閾值、前置詞填補和無聲持續時間等設定。
選取 [ 開始接 聽] 以啟動工作階段。 您可以與麥克風交談以開始聊天。
您可以隨時透過說話來中斷聊天。 您可以選取 [ 停止接 聽] 按鈕來結束聊天。
JavaScript Web 範例示範如何使用 GPT-4o 即時 API 即時與模型實時互動。 範例程式代碼包含簡單的 Web 介面,可從使用者的麥克風擷取音訊,並將其傳送至模型進行處理。 模型會以文字和音訊回應,而範例程式代碼會在 Web 介面中呈現。
您可以遵循下列步驟,在本機計算機上執行範例程序代碼。 如需最新的指示, 請參閱 GitHub 上的存放庫。
如果您沒有安裝Node.js,請下載並安裝 LTS 版本的 Node.js。
將存放庫複製到本機電腦:
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
移至慣用程式
javascript/samples/web
碼編輯器中的資料夾。cd ./javascript/samples
執行
download-pkg.ps1
或download-pkg.sh
以下載所需的套件。從資料夾移至
web
資料夾./javascript/samples
。cd ./web
執行
npm install
以安裝套件相依性。執行
npm run dev
以啟動網頁伺服器,並視需要流覽任何防火牆許可權提示。在瀏覽器中,從控制台輸出移至任何提供的 URI(例如
http://localhost:5173/
)。在 Web 介面中輸入下列資訊:
- 端點:Azure OpenAI 資源的資源端點。 您不需要附加
/realtime
路徑。 範例結構可能是https://my-azure-openai-resource-from-portal.openai.azure.com
。 - API 金鑰:Azure OpenAI 資源的對應 API 金鑰。
- 部署:您在上一節中部署的
gpt-4o-realtime-preview
模型名稱。 - 系統訊息:您可以選擇性地提供系統訊息,例如「您總是像友好的海盜一樣說話」。
- 溫度:您可以選擇性地提供自定義溫度。
- 語音:您可以選擇性地選取語音。
- 端點:Azure OpenAI 資源的資源端點。 您不需要附加
選取 [ 記錄] 按鈕以啟動工作階段。 如果出現提示,請接受使用麥克風的許可權。
您應該會在
<< Session Started >>
主要輸出中看到訊息。 然後,您可以說話到麥克風開始聊天。您可以隨時透過說話來中斷聊天。 您可以選取 [ 停止 ] 按鈕來結束聊天。
相關內容
- 深入瞭解 如何使用即時 API
- 請參閱即時 API 參考
- 深入了解 Azure OpenAI 配額和限制