음성 및 오디오용 GPT-4o 실시간 API(미리 보기)
참고 항목
이 기능은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
음성 및 오디오용 Azure OpenAI GPT-4o 실시간 API는 짧은 대기 시간, "음성 출력, 음성 출력" 대화형 상호 작용을 지원하는 GPT-4o 모델 제품군의 일부입니다. GPT-4o 오디오 realtime
API는 실시간 대기 시간이 짧은 대화형 상호 작용을 처리하도록 설계되어 사용자와 모델 간의 실시간 상호 작용(예: 고객 지원 에이전트, 음성 도우미 및 실시간 번역기)과 관련된 사용 사례에 적합합니다.
대부분의 Realtime API 사용자는 WebRTC 또는 전화 통신 시스템을 사용하는 애플리케이션을 포함하여 최종 사용자로부터 실시간으로 오디오를 전달하고 받아야 합니다. 실시간 API는 최종 사용자 디바이스에 직접 연결하도록 설계되지 않았으며 클라이언트 통합을 사용하여 최종 사용자 오디오 스트림을 종료합니다.
지원되는 모델
현재 버전만 gpt-4o-realtime-preview
: 2024-10-01-preview
실시간 오디오를 지원합니다.
이 gpt-4o-realtime-preview
모델은 미국 동부 2 및 스웨덴 중부 지역의 글로벌 배포에 사용할 수 있습니다.
Important
시스템은 제한된 예외가 적용되지 않는다는 점을 제외하고 Azure OpenAI 서비스에 대한 서비스별 제품 약관의 "남용 모니터링에 대한 데이터 사용 및 액세스" 섹션에 설명된 대로 프롬프트 및 완료를 저장합니다. 수정된 남용 모니터링에 대해 승인된 고객에게도 API 사용을 gpt-4o-realtime-preview
위해 남용 모니터링이 설정됩니다.
API 지원
실시간 API에 대한 지원은 API 버전 2024-10-01-preview
에서 처음 추가되었습니다.
참고 항목
API 및 아키텍처에 대한 자세한 내용은 GitHub의 Azure OpenAI GPT-4o 실시간 오디오 리포지토리를 참조하세요.
필수 조건
- Azure 구독 – 체험 구독을 만듭니다.
- 지원되는 지역에서 만든 Azure OpenAI 리소스입니다. 자세한 내용은 Azure OpenAI를 사용하여 리소스 만들기 및 모델 배포를 참조하세요.
실시간 오디오를 위한 모델 배포
GPT-4o 실시간 오디오를 사용하려면 지원되는 모델 섹션에 설명된 대로 지원되는 지역에 모델을 배포 gpt-4o-realtime-preview
해야 합니다.
- AI Foundry 홈페이지로 이동하여 Azure OpenAI Service 리소스가 있는 Azure 구독으로 로그인했는지 확인합니다(모델 배포의 사용 여부에 관계없이).
- 왼쪽 창의 리소스 놀이터 아래에서 실시간 오디오 플레이그라운드를 선택합니다.
- + 배포 만들기를 선택하여 배포 창을 엽니다.
- 모델을 검색하여 선택한
gpt-4o-realtime-preview
다음 확인을 선택합니다. - 배포 마법사에서 모델 버전을 선택
2024-10-01
해야 합니다. - 마법사에 따라 모델을 배포합니다.
이제 모델을 배포 gpt-4o-realtime-preview
했으므로 AI Foundry 포털 실시간 오디오 플레이그라운드 또는 실시간 API에서 실시간으로 상호 작용할 수 있습니다.
GPT-4o 실시간 오디오 사용
팁
지금 GPT-4o Realtime API를 사용하여 개발을 시작하는 가장 빠른 방법은 GitHub의 Azure OpenAI GPT-4o 실시간 오디오 리포지토리에서 샘플 코드를 다운로드하는 것입니다.
Azure AI Foundry 실시간 오디오 플레이그라운드에서 배포된 gpt-4o-realtime-preview
모델과 채팅하려면 다음 단계를 수행합니다.
AI Foundry 포털의 Azure OpenAI 서비스 페이지 입니다. Azure OpenAI 서비스 리소스 및 배포된 모델이 있는 Azure 구독으로 로그인했는지
gpt-4o-realtime-preview
확인합니다.왼쪽 창의 리소스 놀이터 아래에서 실시간 오디오 플레이그라운드를 선택합니다.
배포 드롭다운에서 배포된
gpt-4o-realtime-preview
모델을 선택합니다.브라우저에서 마이크에 액세스할 수 있도록 마이크 사용을 선택합니다. 이미 사용 권한을 부여한 경우 이 단계를 건너뛸 수 있습니다.
필요에 따라 모델 지침 및 상황에 맞는 텍스트 상자에서 내용을 편집할 수 있습니다. 응답을 생성할 때 참조해야 하는 컨텍스트와 작동 방식에 대한 지침을 모델에 제공합니다. 도우미의 성격을 설명하고, 대답해야 하는 것과 대답해서는 안 되는 것을 말하고, 응답의 형식을 지정하는 방법을 말할 수 있습니다.
필요에 따라 임계값, 접두사 안쪽 여백 및 무음 기간과 같은 설정을 변경합니다.
수신 대기 시작을 선택하여 세션을 시작합니다. 마이크로 대화하여 채팅을 시작할 수 있습니다.
언제든지 말하기를 통해 채팅을 중단할 수 있습니다. 수신 중지 단추를 선택하여 채팅을 종료할 수 있습니다 .
JavaScript 웹 샘플은 GPT-4o 실시간 API를 사용하여 모델을 실시간으로 상호 작용하는 방법을 보여 줍니다. 샘플 코드에는 사용자의 마이크에서 오디오를 캡처하고 처리를 위해 모델로 보내는 간단한 웹 인터페이스가 포함되어 있습니다. 모델은 샘플 코드가 웹 인터페이스에서 렌더링하는 텍스트 및 오디오로 응답합니다.
다음 단계에 따라 컴퓨터에서 로컬로 샘플 코드를 실행할 수 있습니다. 최신 지침은 GitHub 의 리포지토리를 참조하세요.
Node.js 설치되지 않은 경우 LTS 버전의 Node.js 다운로드하여 설치합니다.
리포지토리를 로컬 컴퓨터에 복제합니다.
git clone https://github.com/Azure-Samples/aoai-realtime-audio-sdk.git
기본 코드 편집기
javascript/samples/web
에서 폴더로 이동합니다.cd ./javascript/samples
필요한 패키지를 실행
download-pkg.ps1
하거나download-pkg.sh
다운로드합니다.폴더에서
web
폴더로./javascript/samples
이동합니다.cd ./web
실행
npm install
하여 패키지 종속성을 설치합니다.웹 서버를 시작하려면 실행
npm run dev
하여 필요에 따라 방화벽 사용 권한 프롬프트를 탐색합니다.브라우저의 콘솔 출력(예:
http://localhost:5173/
)에서 제공된 URI 중 하나로 이동합니다.웹 인터페이스에 다음 정보를 입력합니다.
- 엔드포인트: Azure OpenAI 리소스의 리소스 엔드포인트입니다. 경로를 추가할
/realtime
필요가 없습니다. 예를 들어 구조체는 다음과 같습니다https://my-azure-openai-resource-from-portal.openai.azure.com
. - API 키: Azure OpenAI 리소스에 해당하는 API 키입니다.
- 배포: 이전 섹션에서 배포한 모델의 이름
gpt-4o-realtime-preview
입니다. - 시스템 메시지: 필요에 따라 "항상 친숙한 해적처럼 이야기한다"와 같은 시스템 메시지를 제공할 수 있습니다.
- 온도: 필요에 따라 사용자 지정 온도를 제공할 수 있습니다.
- 음성: 필요에 따라 음성을 선택할 수 있습니다.
- 엔드포인트: Azure OpenAI 리소스의 리소스 엔드포인트입니다. 경로를 추가할
레코드 단추를 선택하여 세션을 시작합니다. 메시지가 표시되면 마이크를 사용할 수 있는 권한을 수락합니다.
기본 출력에
<< Session Started >>
메시지가 표시됩니다. 그런 다음 마이크로 대화하여 채팅을 시작할 수 있습니다.언제든지 말하기를 통해 채팅을 중단할 수 있습니다. 중지 단추를 선택하여 채팅을 종료할 수 있습니다.
관련 콘텐츠
- 실시간 API를 사용하는 방법에 대해 자세히 알아보기
- 실시간 API 참조 참조
- Azure OpenAI 할당량 및 제한에 대해 자세히 알아보기