오디오 스트리밍 개요 - 오디오 구독
Important
이 문서에 설명된 기능은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기 버전은 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
Azure Communication Services는 양방향 오디오 스트리밍 기능을 제공하여 개발자에게 활성 통화 중에 오디오 콘텐츠를 캡처, 분석 및 처리하는 강력한 도구를 제공합니다. 이 개발은 개발자와 기업 모두를 위한 실시간 통신의 새로운 가능성을 위한 길을 열어줍니다.
양방향 오디오 스트리밍을 Azure OpenAI 및 기타 실시간 음성 API와 같은 서비스와 통합함으로써 기업은 원활하고 짧은 대기 시간 통신을 달성할 수 있습니다. 이렇게 하면 대화형 AI 솔루션의 개발 및 배포가 크게 향상되어 보다 매력적이고 효율적인 상호 작용이 가능합니다.
양방향 스트리밍을 통해 기업은 이제 음성 솔루션을 대기 시간이 짧고 인간과 유사한 대화형 대화형 AI 에이전트로 승격할 수 있습니다. 양방향 스트리밍 API를 통해 개발자는 Azure Communication Services의 진행 중인 호출에서 웹 서버로 오디오를 실시간으로 스트리밍하고 오디오를 다시 호출로 스트리밍할 수 있습니다. 이러한 기능의 초기 초점은 기업이 대화형 AI 에이전트를 만들 수 있도록 돕는 것이지만, 다른 사용 사례에는 대화 분석을 위한 자연어 처리 또는 에이전트가 최종 사용자와 활성 상호 작용하는 동안 에이전트에 실시간 인사이트 및 제안 제공이 포함됩니다.
이 공개 미리 보기는 개발자가 Azure Communication Services에서 WebSocket을 통해 실시간 오디오 스트림에 액세스하고 오디오를 통화로 다시 스트리밍하는 기능을 지원합니다.
실시간 통화 지원
대화형 AI 솔루션 활용: 고객과 실시간으로 상호 작용할 수 있는 정교한 고객 지원 가상 에이전트를 개발하여 즉각적인 응답과 솔루션을 제공합니다.
맞춤형 고객 환경: 실시간 데이터를 활용하여 기업은 보다 개인화되고 역동적인 고객 상호 작용을 실시간으로 제공하여 만족도와 충성도를 높일 수 있습니다.
고객 대기 시간 단축: LLM(큰 언어 모델)과 양방향 오디오 스트림을 사용하여 고객을 위한 첫 번째 연락 지점 역할을 하는 가상 에이전트를 만들어 사용자 에이전트에 대한 대기 시간을 줄일 수 있습니다.
인증
- 생체 인식 인증 – 음성 인식/일치 엔진/도구를 통해 통화에서 오디오를 실행하여 오디오 스트림을 사용하여 음성 인증을 수행합니다.
양방향 오디오 스트리밍을 대화형 AI 에이전트에 사용할 수 있는 방법을 보여 주는 샘플 아키텍처
지원되는 형식
혼합
통화 중인 모든 참가자의 혼합 오디오를 포함합니다. 모든 오디오는 하나의 스트림으로 평면화됩니다.
비혼합
채널당 참가자당 오디오를 포함하며, 통화의 어느 시점에서든 가장 지배적인 4명의 스피커에 대해 최대 4개의 채널을 지원합니다. 또한 화자를 결정하는 데 사용할 수 있는 participantRawID가 표시됩니다.
추가 정보
개발자는 Azure Communication Services에서 보낸 오디오에 대해 다음 정보를 사용하여 오디오 패킷을 애플리케이션의 가청 콘텐츠로 변환할 수 있습니다.
- 프레임 속도: 초당 50프레인
- 패킷 스트림 속도: 20ms 속도
- 데이터 패킷 크기: 16,000hz의 경우 640바이트, 24,000hz의 경우 960바이트
- 오디오 메트릭: 16,000hz 및 24,000hz의 16비트 PCM 모노
- 공개 문자열 데이터는 원시 PCM 파일을 만들기 위해 바이트 배열로 변환해야 하는 base64 문자열입니다.
결제
오디오 스트리밍 요금이 청구되는 방법에 대한 자세한 내용은 Azure Communication Services 가격 책정 페이지를 참조하세요. 가격은 오디오 스트리밍의 통화 범주에서 찾을 수 있습니다.
다음 단계
자세한 내용은 오디오 스트리밍 빠른 시작을 확인하세요.