음성 인식 및 합성 이해

완료됨

음성 인식은 말한 말을 받아 처리할 수 있는 데이터로 기록합니다. 이는 종종 말을 텍스트로 기록하는 작업을 통해 이루어집니다. 말해진 단어는 오디오 파일의 녹음된 음성 또는 마이크에서 나오는 라이브 오디오 형식이 될 수 있습니다. 음성 패턴은 오디오에서 분석되어 단어에 매핑되는 인식 가능한 패턴을 결정합니다. 이를 달성하기 위해 소프트웨어는 일반적으로 다음을 포함한 여러 모델을 사용합니다.

  • 오디오 신호를 음소(특정 사운드를 나타내는 단위)로 변환하는 ‘음향’ 모델.
  • 음소를 단어로 매핑하는 ‘언어’ 모델(일반적으로 음소에 따라 가장 가능성이 높은 단어 시퀀스를 예측하는 통계 알고리즘 사용).

인식된 단어는 일반적으로 다음과 같이 다양한 목적에 사용할 수 있는 텍스트로 변환됩니다.

  • 녹화된 동영상 또는 라이브 비디오에 대한 자막 제공
  • 전화 통화 또는 회의 내용 대본 만들기
  • 자동화된 메모 받아쓰기
  • 추가 처리를 위해 의도한 사용자 입력 결정

음성 합성은 일반적으로 텍스트를 음성으로 변환하여 데이터를 음성으로 표현하는 것과 관련이 있습니다. 음성 합성 솔루션에는 일반적으로 다음 정보가 필요합니다.

  • 읽을 텍스트
  • 말을 음성화하는 데 사용할 음성

음성을 합성하기 위해 시스템은 일반적으로 텍스트를 ‘토큰화’하여 개별 단어로 분할하고 각 단어에 음성 발음을 할당합니다. 그런 다음 오디오 형식으로 변환될 음소를 만들기 위해 음성 전사를 ‘운율’ 단위(예: 구, 절 또는 문장)로 세분화합니다. 이러한 음소는 오디오로 합성되고 특정 음성, 말하는 속도, 음높이, 볼륨이 할당될 수 있습니다.

다음과 같이 다양한 목적으로 음성 합성의 출력을 사용할 수 있습니다.

  • 사용자 입력에 대한 음성 응답 생성
  • 전화 시스템을 위한 음성 메뉴 만들기
  • 핸즈프리 시나리오에서 메일 또는 문자 메시지를 소리 내어 읽기
  • 기차역 또는 공항과 같은 공공장소에서 공지 사항 방송