요약

1분

이 모듈에서는 음성 기술의 두 가지 핵심 측면인 음성 인식과 음성 합성에 대해 알아보았습니다. 음성 인식은 말한 단어를 데이터로 기록하는 과정으로, 음향 모델과 언어 모델을 사용하여 종종 텍스트로 기록합니다. 이 텍스트는 닫힌 캡션, 대화록, 자동 메모 받아쓰기, 사용자 입력 처리 등 다양한 목적으로 사용될 수 있습니다. 반면, 음성 합성은 일반적으로 텍스트를 음성으로 변환하여 데이터를 음성으로 표현하는 것입니다. 합성된 음성은 음성 응답 생성, 음성 메뉴 만들기, 이메일이나 문자 메시지 소리 내어 읽기, 안내 브로드캐스트 등에 사용할 수 있습니다. 또한 음성을 텍스트로 변환하고 텍스트 음성 변환 API 등의 기능을 통해 음성 인식 및 합성 기능을 제공하는 Microsoft Azure의 AI 음성 서비스에 대해서도 알아보았습니다.

이 모듈의 주요 내용은 Azure AI 음성 서비스의 기능입니다. 음성 텍스트 변환 API는 Microsoft에서 학습한 유니버설 언어 모델 기반 모델을 사용하여 오디오의 실시간 또는 일괄 대화 내용 기록을 텍스트로 변환할 수 있도록 합니다. 프레젠테이션이나 데모 중의 실시간 대화 내용 기록 또는 저장된 오디오 파일의 일괄 대화 내용 기록을 위해 사용할 수 있습니다. 텍스트 음성 변환 API는 텍스트 입력을 음성으로 변환하며, 다양한 음성, 언어 및 지역 발음으로 사용자 지정이 가능합니다. Azure AI 음성은 Azure AI Speech Studio, Azure AI 스튜디오, CLI(명령줄 인터페이스), REST API, SDK(소프트웨어 개발 키트) 등 다양한 플랫폼을 통해 액세스할 수 있는 다양한 도구입니다.

서비스 설명서에서 Azure AI Speech에 대해 자세히 알아볼 수 있습니다.

요약

피드백