다음을 통해 공유


Speech Service란?

음성 서비스는 음성 리소스를 통해 음성 텍스트 변환 및 텍스트 음성 변환 기능을 제공합니다. 높은 정확도로 음성을 텍스트로 변환하여 대화 내용을 기록하고, 자연스러운 텍스트 음성 변환을 생성하고, 음성 오디오를 번역하고, 대화 중에 화자 인식을 사용할 수 있습니다.

일부 Speech Service 기능을 강조 표시하고 있는 타일 이미지

사용자 지정 음성을 만들고 기본 어휘에 특정 단어를 추가하거나 고유한 모델을 빌드합니다. 클라우드 또는 컨테이너의 에지 어디에서나 Speech를 실행합니다. Speech CLI, Speech SDKREST API를 통해 애플리케이션, 도구 및 디바이스를 음성으로 쉽게 사용할 수 있습니다.

다양한 언어, 지역가격에서 음성을 사용할 수 있습니다.

음성 시나리오

음성에 대한 일반적인 시나리오는 다음과 같습니다.

  • 캡션: 에는 캡션을 입력 오디오와 동기화하고, 욕설 필터를 적용하고, 부분 결과를 얻고, 사용자 지정을 적용하고, 다국어 시나리오에 대해 음성 언어를 식별하는 방법이 포함됩니다.
  • 오디오 콘텐츠 만들기: 신경망 음성을 사용하여 챗봇 및 음성 도우미와의 상호 작용을 보다 자연스럽고 매력적으로 만들고 전자책과 같은 디지털 텍스트를 오디오북으로 변환하고 차량 내 내비게이션 시스템을 개선할 수 있습니다.
  • 콜 센터: 실시간으로 통화를 기록하거나 일괄 처리하고, 개인 식별 정보를 수정하고, 감정과 같은 인사이트를 추출하여 콜 센터 사용 사례에 도움이 됩니다.
  • 언어 학습: 언어 학습자에게 발음 평가 피드백을 제공하고, 원격 학습 대화에 대한 실시간 대화 내용 기록을 지원하며, 신경망 음성으로 소리 내어 학습 자료를 읽습니다.
  • 음성 도우미: 애플리케이션 및 환경을 위한 자연스럽고 인간과 유사한 대화형 인터페이스를 만듭니다. 음성 도우미 기능은 디바이스와 어시스턴트 구현 간의 빠르고 안정적인 상호 작용을 제공합니다.

Microsoft는 Teams의 캡션, Office 365의 받아쓰기, Microsoft Edge 브라우저의 소리 내어 읽기와 같은 다양한 시나리오에 음성을 사용합니다.

Speech Service를 사용하는 Microsoft 제품의 로고를 보여 주는 이미지

음성 기능

다음 섹션에서는 음성 기능에 대한 요약과 함께 자세한 내용을 볼 수 있는 링크를 제공합니다.

음성 텍스트 변환

음성 텍스트 변환을 사용하면 실시간 또는 일괄 대화 내용 기록을 통해 비동기적으로 오디오의 대화 내용을 기록할 수 있습니다.

가입하거나 코드를 작성하지 않고도 Speech Studio에서 실시간 음성을 텍스트로 변환해 볼 수 있습니다.

마이크, 오디오 파일 및 Blob Storage를 포함한 다양한 원본의 오디오를 텍스트로 변환합니다. 화자 분할을 사용하여 누가 언제 무엇을 말했는지 확인하세요. 자동 서식 지정 및 구두점으로 읽을 수 있는 스크립트를 가져옵니다.

오디오에 주변 노이즈가 포함되어 있거나 업계 및 영역별 전문 용어가 많이 포함된 경우 베이스 모델이 충분하지 않을 수 있습니다. 이러한 경우 음향, 언어 및 발음 데이터를 사용하여 Custom Speech 모델을 만들고 학습시킬 수 있습니다. Custom Speech 모델은 프라이빗하며 경쟁 우위를 제공할 수 있습니다.

실시간 음성 텍스트 변환

실시간 음성 텍스트 변환을 사용하면 마이크나 파일에서 음성이 인식될 때 오디오의 대화 내용이 기록됩니다. 다음과 같이 실시간으로 오디오의 대화 내용을 기록해야 하는 애플리케이션에 실시간 음성 텍스트 변환 기능을 사용하세요.

  • 실시간 모임을 위한 대화 내용 기록, 캡션 또는 자막
  • 일기화
  • 발음 평가
  • 고객 센터 에이전트 지원
  • 받아쓰기
  • 음성 에이전트

빠른 전사 API

빠른 대화 내용 기록 API는 실시간 오디오보다 훨씬 빠르게 결과를 동기식으로 반환하여 오디오 파일을 대화 내용 기록하는 데 사용됩니다. 다음과 같이 예측 가능한 대기 시간으로 가능한 한 빨리 오디오 녹음 내용을 기록해야 하는 시나리오에서는 빠른 대화 내용 기록을 사용합니다.

  • 빠른 오디오 또는 동영상 대화 내용 기록, 자막 및 편집.
  • 동영상 번역

빠른 전사를 시작하려면 빠른 전사 API 사용을 참조하세요.

전사 일괄 처리

일괄 대화 내용 기록은 저장소에 있는 많은 양의 오디오 대화 내용을 기록하는 데 사용됩니다. SAS(공유 액세스 서명) URI가 있는 오디오 파일을 가리키고 비동기적으로 전사 결과를 받을 수 있습니다. 다음과 같이 오디오를 대량으로 대화 내용 기록해야 하는 애플리케이션에는 일괄 대화 내용 기록을 사용하세요.

  • 사전 녹음된 오디오의 대화 내용 기록, 캡션 또는 자막
  • 고객 센터 사후 통화 분석
  • 일기화

텍스트 음성 변환

텍스트 음성 변환을 사용하면 입력 텍스트를 사람과 유사한 합성된 음성으로 변환할 수 있습니다. 심층 신경망에 의해 구동되는 인간과 유사한 음성인 인공신경망을 사용합니다. SSML(Speech Synthesis Markup Language)을 사용하여 음높이, 발음, 말하기 속도, 음량 등을 미세 조정합니다.

  • 미리 빌드된 신경망 음성: 매우 자연스러운 즉시 사용 가능한 음성. 음성 갤러리에서 미리 빌드된 신경망 음성 샘플을 확인하고 비즈니스 요구 사항에 적합한 음성을 결정합니다.
  • 사용자 지정 신경망 음성: 기본적으로 제공되는 미리 빌드된 신경망 음성 외에도 브랜드 또는 제품에 고유하고 식별 가능하고 고유한 사용자 지정 신경망 음성을 만들 수도 있습니다. 사용자 지정 인공신경망 음성은 프라이빗하며 경쟁 우위를 제공할 수 있습니다. 사용자 지정 신경망 음성 샘플은 여기에서 확인합니다.

음성 번역

음성 번역을 사용하면 애플리케이션, 도구 및 디바이스에 대한 실시간 다국어 음성 번역이 가능합니다. 음성을 음성으로 변환과 음성 텍스트 변환에 이 기능을 사용합니다.

언어 식별

언어 식별지원되는 언어 목록과 비교할 때 오디오에서 말하는 언어를 식별하는 데 사용됩니다. 음성 텍스트 변환 인식 또는 음성 번역에서 언어 식별을 단독으로 사용합니다.

화자 인식

화자 인식은 고유한 음성 특성에 따라 화자를 확인 및 식별하는 알고리즘을 제공합니다. 화자 인식은 "누가 말하고 있나요?"라는 질문에 대답하는 데 사용됩니다.

발음 평가

발음 평가는 음성 발음을 평가하고 음성 오디오의 정확도와 능숙도에 대한 피드백을 발표자에게 제공합니다. 발음 평가를 통해 언어 학습자는 자신 있게 말하고 발표할 수 있도록 연습하고, 즉각적인 피드백을 받고, 발음을 개선할 수 있습니다.

의도 인식

의도 인식: 대화 언어 이해와 함께 음성 텍스트 변환을 사용하여 대화 내용이 기록된 음성에서 사용자 의도를 도출하고 음성 명령에 따라 동작합니다.

제공 및 현재 상태

클라우드 또는 온-프레미스에 Azure AI Speech 기능을 배포할 수 있습니다.

컨테이너를 사용하면 규정 준수, 보안 또는 기타 운영상의 이유로 서비스를 데이터에 더 가깝게 가져올 수 있습니다.

소버린 클라우드의 Speech Services 배포는 일부 정부 기관 및 파트너가 사용할 수 있습니다. 예를 들어 Azure Government 클라우드는 미국 정부 기관 및 파트너가 사용할 수 있습니다. 21Vianet 클라우드로 운영되는 Microsoft Azure는 중국에 사업장이 있는 조직에서 사용할 수 있습니다. 자세한 내용은 소버린 클라우드를 참조하세요.

Speech Service를 배포하고 액세스할 수 있는 위치를 보여 주는 다이어그램

애플리케이션에서 Speech 사용

Speech Studio는 Azure AI Speech 서비스의 기능을 애플리케이션에 구축하고 통합하기 위한 UI 기반 도구 세트입니다. 코드 없는 방식을 사용하여 Speech Studio에서 프로젝트를 만든 다음, Speech SDK, Speech CLI 또는 REST API를 사용하여 애플리케이션에서 해당 자산을 참조합니다.

Speech CLI는 코드를 작성할 필요 없이 Speech Service를 사용하기 위한 명령줄 도구입니다. Speech SDK의 대부분의 기능은 Speech CLI에서 사용할 수 있으며 일부 고급 기능 및 사용자 지정은 Speech CLI에서 단순화됩니다.

Speech SDK는 음성 지원 애플리케이션을 개발하는 데 사용할 수 있는 많은 Speech Services 기능을 제공합니다. Speech SDK는 많은 프로그래밍 언어 및 모든 플랫폼에서 사용할 수 있습니다.

경우에 따라 Speech SDK를 사용할 수 없거나 사용해서는 안 됩니다. 이러한 경우 REST API를 사용하여 Speech Services에 액세스할 수 있습니다. 예를 들어 일괄 처리 대화 기록화자 인식 REST API에 REST API를 사용합니다.

시작하기

Microsoft는 여러 개의 자주 사용되는 프로그래밍 언어로 빠른 시작을 제공합니다. 각 빠른 시작은 기본 디자인 패턴을 학습하고 코드를 10분 이내에 실행할 수 있도록 설계되었습니다. 각 기능에 대한 빠른 시작은 다음 목록을 참조하세요.

샘플 코드

Speech Services에 대한 샘플 코드는 GitHub에서 사용할 수 있습니다. 이러한 샘플은 파일 또는 스트림에서 오디오 읽기, 연속 및 1단계 인식 및 사용자 지정 모델 사용과 같은 일반적인 시나리오를 다룹니다. 다음 링크를 사용하여 SDK 및 REST 샘플을 확인하세요.

책임 있는 AI

AI 시스템에는 기술뿐만 아니라 이를 사용하는 사람, 영향을 받는 사람, 배포되는 환경도 포함됩니다. 시스템에서의 책임감 있는 AI 사용 및 배포에 대해 알아보려면 투명성 참고 사항을 읽어보세요.

음성 텍스트 변환

발음 평가

사용자 지정 신경망 음성

Speaker Recognition

다음 단계