사용자 지정 음성이란?
사용자 지정 음성을 사용하면 애플리케이션 및 제품에 대한 음성 인식의 정확도를 평가하고 개선할 수 있습니다. 사용자 지정 음성 모델은 실시간 음성 텍스트 변환, 음성 번역 및 일괄 처리 대화 기록에 사용할 수 있습니다.
기본적으로 음성 인식은 유니버설 언어 모델을 Microsoft 소유의 데이터로 학습하고 일반적으로 사용되는 음성 언어를 반영하는 기본 모델로 활용합니다. 기본 모델은 다양한 공통 도메인을 나타내는 방언 및 음성학으로 미리 학습됩니다. 음성 인식을 요청하면 기본적으로 각 지원되는 언어에 대한 최신 기본 모델이 사용됩니다. 기본 모델은 대부분의 음성 인식 시나리오에서 잘 작동합니다.
사용자 지정 모델을 사용하면 모델을 학습시키는 텍스트 데이터를 제공함으로써 기본 모델을 보강하여 애플리케이션과 관련된 도메인별 어휘의 인지를 개선할 수 있습니다. 또한 오디오 데이터에 참조 전사를 제공하여 애플리케이션의 특정 오디오 조건에 따른 인지를 개선하는 데 사용할 수 있습니다.
또한 데이터가 패턴을 따르는 경우 구조화된 텍스트로 모델을 학습하여 사용자 지정 발음을 지정하고 사용자 지정 역 텍스트 정규화, 사용자 지정 재작성 및 사용자 지정 욕설 필터링을 통해 표시 텍스트 서식을 사용자 지정할 수 있습니다.
작동 방식
사용자 지정 음성을 사용하면 사용자 고유의 데이터를 업로드하고, 사용자 지정 모델을 테스트 및 학습시키고, 모델 간의 정확도를 비교하고, 모델을 사용자 지정 엔드포인트에 배포할 수 있습니다.
이전 다이어그램에서 표시된 단계 시퀀스에 대한 자세한 내용은 다음과 같습니다.
- 프로젝트를 만들고 모델을 선택합니다. Azure Portal에서 만든 음성 리소스를 사용합니다. 오디오 데이터를 사용하여 사용자 지정 모델을 학습하는 경우 오디오 데이터 학습을 위한 전용 하드웨어가 있는 음성 리소스 지역을 선택합니다. 자세한 내용은 지역 표의 각주를 참조하세요.
- 테스트 데이터 업로드 애플리케이션, 도구 및 제품에 대한 음성 텍스트 변환 제품을 평가하는 테스트 데이터를 업로드합니다.
- 인식 품질 테스트 Speech Studio를 사용하여 업로드된 오디오를 재생하고 테스트 데이터의 음성 인식 품질을 검사합니다.
- 정량적으로 모델 테스트 음성 텍스트 변환 모델의 정확도를 평가하고 개선합니다. Speech 서비스는 추가 교육이 필요한지 여부를 결정하는 데 사용할 수 있는 정량적 WER(단어 오류율)을 제공합니다.
- 모델을 학습합니다. 해당 오디오 데이터와 함께 기록된 대본 및 관련 텍스트를 제공합니다. 학습 전후 모델 테스트는 선택 사항이지만 권장됩니다.
참고 항목
사용자 지정 음성 모델 사용량 및 엔드포인트 호스팅 비용을 지불합니다. 기본 모델이 2023년 10월 1일 이후에 만들어진 경우, Custom Speech 모델 학습에 대한 요금도 청구됩니다. 기본 모델이 2023년 10월 이전에 만들어진 경우에는 학습에 대한 요금이 청구되지 않습니다. 자세한 내용은 Azure AI 음성 가격 책정과 음성 텍스트 변환 3.2 마이그레이션 가이드의 적용 요금 섹션을 참조하세요.
- 모델 배포 테스트 결과에 만족하는 경우 사용자 지정 엔드포인트에 모델을 배포할 수 있습니다. 일괄 처리 전사를 제외하고 사용자 지정 음성 모델을 사용하려면 사용자 지정 엔드포인트를 배포해야 합니다.
팁
호스트된 배포 엔드포인트의 경우 사용자 지정 음성을 일괄 대화 내용 기록 API와 함께 사용할 필요가 없습니다. 사용자 지정 음성 모델이 일괄 대화 내용 기록에만 사용되는 경우 리소스를 보존할 수 있습니다. 자세한 내용은 Speech Service 가격 책정을 참조하세요.
책임 있는 AI
AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 시스템에서의 책임감 있는 AI 사용 및 배포에 대해 알아보려면 투명성 참고 사항을 읽어보세요.