다음을 통해 공유


Azure AI 음성 인식 및 생성 기술 선택

Azure AI 서비스는 워크로드 디자이너와 개발자가 미리 빌드되고 사용자 지정 가능한 API 및 모델 없이 즉시 사용 가능하고 시장 준비가 되어 있고 책임감 있는 최첨단 지능형 애플리케이션을 만들 수 있도록 지원합니다.

이 문서에서는 음성-텍스트 변환, 텍스트 음성 변환, 오디오 번역, 화자 인식뿐만 아니라 학습 차이가 있는 사용자를 위한 읽기 지원과 같은 음성 인식 및 생성 기능을 제공하는 Azure AI 서비스에 대해 설명합니다.

참고 항목

용어 또는 구에 대한 인사이트를 수집하거나 음성 또는 서면 언어에 대한 자세한 컨텍스트 분석을 얻으려면 Azure AI 대상 언어 처리 기술 선택을 참조하세요.

Services

다음 Azure AI 서비스는 워크로드에 음성 인식 및 생성 기능을 제공할 수 있습니다.

  • Azure AI Speech 는 텍스트 분석을 위한 자연어 처리를 제공합니다.

    • 음성 음성을 전사하거나 번역하고 대화에서 화자를 식별해야 하는 경우 Speech Service를 사용합니다 . OpenAI 모델에서 더 높은 품질의 위스퍼 로 자연스러운 음성 생성을 위한 저렴한 대안으로 서비스를 사용할 수도 있습니다.
    • 채팅, 콘텐츠 요약, 조정 또는 스크립트를 통해 사용자를 안내하는 데 Speech Service를 사용하지 마세요. 대신 이러한 작업에 다른 모델을 사용합니다.
  • 몰입형 리더는 입증된 기술을 사용하여 언어 학습자, 신흥 독자 및 학습 차이가 있는 사람을 위해 독해력을 향상시키는 도구 입니다.

    • 몰입형 리더 사용하여 언어 학습자 또는 학습 차이가 있는 사용자에 맞게 향상된 가독성 환경을 제공합니다.
    • 기존 텍스트 음성 변환 사용 사례에는 몰입형 리더 사용하지 마세요 .

Azure AI Speech

Azure AI Speech 는 음성 리소스를 사용하여 음성을 텍스트로, 텍스트를 음성으로 변환하는 기능을 제공합니다. 높은 정확도로 음성을 텍스트로 변환하여 대화 내용을 기록하고, 자연스러운 텍스트 음성 변환을 생성하고, 음성 오디오를 번역하고, 대화 중에 화자 인식을 사용할 수 있습니다. 사용자 지정 음성을 만들고 기본 어휘에 특정 단어를 추가하거나 고유한 모델을 빌드합니다. 클라우드 또는 컨테이너의 에지 어디에서나 Speech를 실행합니다.

다양한 언어 그리고 지역에서 음성을 사용할 수 있습니다.

기능

다음 표에서는 Azure AI Speech Service에서 사용할 수 있는 기능 목록을 제공합니다.

기능 설명
일괄 처리 기록 스토리지에서 많은 양의 오디오 데이터를 전사합니다. 음성 텍스트 변환 REST API와 Speech CLI 모두 일괄 처리 대화 내용 기록을 지원합니다.
의도 인식 의도란 항공권 예약, 날씨 확인, 호출 등 사용자가 수행하려는 것을 말합니다. 의도 인식을 사용하여 애플리케이션, 도구 및 디바이스는 옵션에 따라 사용자가 시작하거나 수행할 작업을 결정할 수 있습니다. 의도 인식기 또는 CLU(대화형 언어 이해) 모델에서 사용자 의도를 정의합니다.
발음 평가 음성 발음을 평가하고 음성 오디오의 정확도와 능숙도에 대한 피드백을 발표자에게 제공합니다.
화자 인식 화자 인식은 오디오 클립에서 말하는 사람을 결정하는 데 도움이 될 수 있습니다. 이 서비스는 음성 생체 측정을 사용하여 말하는 사람의 고유한 음성 특성으로 말하는 사람을 확인하고 식별할 수 있습니다.
음성 텍스트 변환 오디오 스트림을 실시간으로 또는 일괄 처리로 텍스트로 변환합니다.
텍스트 음성 변환 애플리케이션, 도구 또는 디바이스에서 텍스트를 인간과 유사한 합성된 음성으로 변환할 수 있습니다.
음성 번역 오디오 스트림의 다중 언어 음성 음성 변환 및 음성 텍스트 변환을 제공합니다.
비디오 번역 여러 언어로 비디오를 자동으로 번역하고 생성합니다.

사용 사례

다음 표에는 Azure AI Speech를 사용할 수 있는 몇 가지 방법이 나와 있습니다.

사용 사례 사용할 기능 설명
오디오 콘텐츠 만들기 음성 텍스트 변환 인공신경망 음성을 사용하면 챗봇 및 음성 도우미와의 상호 작용에 더 자연스럽게 참여하도록 만들고, eBook 같은 디지털 텍스트를 오디오북으로 변환하고, 자동차 내부 내비게이션 시스템을 향상시킬 수 있습니다.
콜 센터 트랜스크립션 음성 텍스트 변환 실시간으로 통화를 기록하거나 일괄 처리하고, 개인 식별 정보를 수정하고, 감정과 같은 인사이트를 추출하여 콜 센터 사용 사례에 도움이 됩니다.
캡션 음성 텍스트 변환 캡션을 입력 오디오와 동기화하고, 욕설 필터를 적용하고, 부분 결과를 얻고, 사용자 지정을 적용하고, 다국어 시나리오에 대해 음성 언어를 식별합니다.
언어 학습 음성 텍스트 변환 언어 학습자에게 발음 평가 피드백을 제공하고, 원격 학습 대화를 위한 실시간 전사를 지원하고, 신경 음성으로 교육 자료를 소리 내어 읽어줍니다.
음성 도우미 텍스트 음성 변환 애플리케이션 및 환경을 위한 자연스럽고 인간과 유사한 대화형 인터페이스를 만듭니다. 음성 도우미 기능은 디바이스와 어시스턴트 구현 간의 빠르고 안정적인 상호 작용을 제공합니다.

Immersive Reader

몰입형 리더는 Azure AI Services에 속하며 새 리더, 언어 학습자 및 학습 차이(예: 난독증)가 있는 사람들을 위해 독해력을 향상시키기 위해 입증된 기술을 구현하는 포괄적으로 설계된 도구입니다. 몰입형 리더 클라이언트 라이브러리를 사용하면 Microsoft Word 및 Microsoft OneNote에서 사용되는 것과 동일한 기술을 사용하여 워크로드 사용자에게 뛰어난 환경을 제공할 수 있습니다.

기능

다음은 워크로드가 사용자의 읽기 이해 목표에 도달하는 데 사용할 수 있는 기능 목록입니다.

  • 가독성을 향상시키기 위해 콘텐츠 격리
  • 일반적인 단어와 용어에 대한 그림 표시
  • 동사, 명사, 대명사 등을 강조하여 음성 및 문법의 일부를 이해하는 데 도움이 될 수 있습니다.
  • 워크로드의 UI에서 사용자가 선택한 텍스트와 같은 콘텐츠를 소리 내어 읽습니다.
  • 콘텐츠를 여러 언어로 실시간으로 번역하여 새로운 언어를 배우는 독자의 이해력을 향상시키는 데 도움이 됩니다.
  • 가독성을 개선하거나 새 단어를 소리 내어 읽기 위해 단어를 음절로 구분합니다.

다음 단계