음성 텍스트 변환이란?
Azure AI 음성 서비스는 고급 음성 텍스트 변환 기능을 제공합니다. 이 기능은 실시간 및 일괄 대화 내용 기록을 모두 지원하므로, 오디오 스트림을 텍스트로 변환하기 위한 다양한 솔루션을 제공합니다.
핵심 기능
음성 텍스트 변환 서비스는 다음과 같은 핵심 기능을 제공합니다.
- 실시간 대화 내용 기록: 라이브 오디오 입력에 대한 중간 결과를 포함한 빠른 대화 내용 기록.
- 빠른 대화기록: 예상 가능한 대기 시간이 있는 상황에서 가장 빠른 동기식 출력입니다.
- 일괄 대화 내용 기록: 대량의 사전 녹음된 오디오를 효율적으로 처리합니다.
- 사용자 지정 음성: 특정 도메인 및 조건에 대한 정확도가 향상된 모델입니다.
실시간 음성 텍스트 변환
실시간 음성 텍스트 변환은 마이크나 파일에서 인식된 오디오를 그대로 기록합니다. 다음과 같이 빠른 대화 내용 기록이 필요한 애플리케이션에 이상적입니다.
- Live Meeting을 위한 대화 내용 기록, 캡션 또는 자막: 접근성과 기록 보관을 위한 실시간 오디오 대화 내용 기록.
- 다이어리화: 오디오에서 서로 다른 화자를 식별하고 구분합니다.
- 발음 평가: 발음 정확도를 평가하고 피드백을 제공합니다.
- 콜 센터 에이전트 지원: 고객 지원 담당자를 지원하기 위해 실시간 대화 내용을 기록합니다.
- 받아쓰기: 문서화 목적으로 음성을 텍스트로 기록합니다.
- 음성 에이전트: 자동 음성 응답 시스템이 사용자 쿼리와 명령을 기록할 수 있도록 지원합니다.
Speech SDK, 음성 CLI, REST API를 통해 실시간 음성 텍스트 변환 기능에 액세스할 수 있으며, 다양한 애플리케이션과 워크플로에 통합할 수 있습니다. 실시간 음성 텍스트 변환은 Speech SDK, 음성 CLI, 그리고 빠른 대화기록 API와 같은 REST API를 통해 사용할 수 있습니다.
빠른 대화기록
빠른 대화기록 API는 실시간 오디오보다 빠르게 결과를 동기식으로 반환하여 오디오 파일을 기록하는 데 사용됩니다. 다음과 같이 예측 가능한 대기 시간으로 가능한 한 빨리 오디오 녹음 내용을 기록해야 하는 시나리오에서는 빠른 대화 내용 기록을 사용합니다.
- 빠른 오디오 또는 동영상 대화 내용 기록 및 자막: 한 번에 전체 동영상 또는 오디오 파일의 대화 내용 기록을 빠르게 가져옵니다.
- 동영상 번역: 다른 언어의 오디오가 있는 경우 동영상에 대한 새로운 자막을 즉시 가져옵니다.
빠른 전사를 시작하려면 빠른 전사 API 사용을 참조하세요.
일괄 대화 내용 기록 API
일괄 대화 내용 기록은 파일에 저장된 대량의 오디오를 기록하기 위해 설계되었습니다. 이 방법은 오디오를 비동기식으로 처리하며 다음에 적합합니다.
- 사전 녹음된 오디오의 대화 내용 기록, 캡션 또는 자막: 저장된 오디오 콘텐츠를 텍스트로 대화 내용을 기록합니다.
- 콜센터 통화 후 분석: 녹음된 통화를 분석하여 유용한 인사이트를 추출합니다.
- 다이어리화: 녹음된 오디오에서 화자를 구별합니다.
일괄 대화 내용 기록은 다음을 통해 사용할 수 있습니다.
음성 텍스트 변환 REST API: RESTful 호출의 유연성을 통해 일괄 처리를 용이하게 합니다. 시작하려면 일괄 대화 내용 기록 사용 방법 및 일괄 대화 내용 기록 샘플을 참조하세요.
음성 CLI: 실시간 및 일괄 대화 내용 기록을 모두 지원하므로 대화 내용 기록 작업을 쉽게 관리할 수 있습니다. 일괄 대화 내용 기록에 Speech CLI의 도움을 받으려면 다음 명령을 실행합니다.
spx help batch transcription
사용자 지정 음성
사용자 지정 음성을 사용하면 애플리케이션 및 제품에 대한 음성 인식의 정확도를 평가하고 개선할 수 있습니다. 사용자 지정 음성 모델은 실시간 음성 텍스트 변환, 음성 번역 및 일괄 대화 기록에 사용할 수 있습니다.
팁
호스트된 배포 엔드포인트의 경우 사용자 지정 음성을 일괄 대화 내용 기록 API와 함께 사용할 필요가 없습니다. 사용자 지정 음성 모델이 일괄 대화 내용 기록에만 사용되는 경우 리소스를 보존할 수 있습니다. 자세한 내용은 Speech Service 가격 책정을 참조하세요.
기본적으로 음성 인식은 유니버설 언어 모델을 Microsoft 소유의 데이터로 학습되고 일반적으로 사용되는 구어를 반영하는 기본 모델로 활용합니다. 기본 모델은 다양한 공통 도메인을 나타내는 방언 및 음성학으로 미리 학습됩니다. 음성 인식을 요청하면 기본적으로 각 지원되는 언어에 대한 최신 기본 모델이 사용됩니다. 기본 모델은 대부분의 음성 인식 시나리오에서 잘 작동합니다.
사용자 지정 음성 기능을 사용하면 음성 인식 모델을 사용자 지정하여 애플리케이션의 특정 요구 사항에 더 잘 맞출 수 있습니다. 이 기능은 다음과 같은 경우에 특히 유용할 수 있습니다.
- 도메인별 어휘 인식 개선: 해당 분야와 관련된 텍스트 데이터로 모델을 학습합니다.
- 특정 오디오 조건에 대한 정확도 향상: 참조 대화 내용 기록본과 함께 오디오 데이터를 사용하여 모델을 구체화합니다.
사용자 지정 음성에 대한 자세한 내용은 사용자 지정 음성 개요 및 음성 텍스트 변환 REST API 설명서를 참조하세요.
언어 및 로캘별 사용자 지정 옵션에 대한 자세한 내용은 음성 서비스에 대한 언어 및 음성 지원 설명서를 참조하세요.
사용 예제
Azure AI 음성 텍스트 변환 방법에 대한 몇 가지 실제 예는 다음과 같습니다.
사용 사례 | 시나리오 | 솔루션 |
---|---|---|
실시간 모임 대화 내용 기록 및 자막 | 가상 이벤트 플랫폼은 웨비나에 대한 실시간 자막을 제공해야 합니다. | Speech SDK를 통해 실시간 음성 텍스트 변환을 통합하여 말한 콘텐츠를 이벤트 중에 라이브로 표시되는 자막으로 기록합니다. |
고객 서비스 강화 | 콜 센터는 고객 통화 내용을 실시간으로 기록하여 에이전트를 지원하려고 합니다. | 음성 CLI를 통해 실시간 음성 텍스트 변환을 사용하여 통화 내용을 기록하고, 에이전트가 고객 문의를 더 잘 이해하고 답변할 수 있도록 지원합니다. |
동영상 자막 | 동영상 호스팅 플랫폼이 동영상에 대한 자막 집합을 빠르게 생성하려고 합니다. | 빠른 대화기록 기능을 사용하면 전체 동영상에 대한 자막 집합을 빠르게 가져올 수 있습니다. |
교육 도구 | e-러닝 플랫폼은 동영상 강의의 내용을 기록하여 제공하는 것을 목표로 합니다. | 음성 텍스트 변환 REST API를 통해 일괄 대화 내용 기록을 적용하여 사전 녹화된 강의 동영상을 처리하고 학생을 위한 텍스트 대화록을 생성합니다. |
의료 문서 | 의료 서비스 제공자는 환자 상담을 문서화해야 합니다. | 받아쓰기를 위한 실시간 음성 텍스트 변환을 사용하면 의료 전문가가 메모를 말하면서 즉시 해당 내용이 기록되도록 할 수 있습니다. 사용자 지정 모델을 사용하여 특정 의학 용어에 대한 인식을 향상합니다. |
미디어 및 엔터테인먼트 | 한 미디어 회사가 대규모 동영상 보관소에 자막을 만들려고 합니다. | 일괄 대화 내용 기록 기능을 사용하면 대량으로 동영상 파일을 처리하고 각 동영상에 대한 정확한 자막을 생성할 수 있습니다. |
시장 조사 | 시장 조사 기관은 오디오 녹음을 통해 고객 피드백을 분석해야 합니다. | 일괄 대화 내용 기록 기능을 사용하여 오디오 피드백을 텍스트로 변환하면 더 쉽게 분석하고 인사이트를 추출할 수 있습니다. |
책임 있는 AI
AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 시스템에서의 책임감 있는 AI 사용 및 배포에 대해 알아보려면 투명성 참고 사항을 읽어보세요.
관련 콘텐츠
- 음성 텍스트 변환 시작
- 일괄 처리 기록 만들기
- 자세한 가격 책정 정보는 음성 서비스 가격 책정 페이지를 참조합니다.