다음을 통해 공유


OpenAI 텍스트 음성 변환 음성이란?

Azure AI Speech 음성과 마찬가지로 OpenAI 텍스트 음성 변환 음성은 고품질 음성 합성을 제공하여 작성된 텍스트를 자연스럽게 말하는 오디오로 변환합니다. 이를 통해 몰입형 및 대화형 사용자 환경에 대한 다양한 가능성이 열립니다.

OpenAI 텍스트 음성 변환 음성은 , 두 가지 모델 변형(Neural, NeuralHD)을 통해 사용할 수 있습니다.

  • Neural: 대기 시간이 가장 낮지만 품질이 NeuralHD보다 낮은 실시간 사용 사례에 최적화되었습니다.
  • NeuralHD: 품질에 최적화되었습니다.

Azure AI 서비스에서 사용 가능한 텍스트 음성 변환 음성

다음과 같은 궁금점이 있을 수 있습니다. OpenAI 텍스트 음성 변환 음성을 사용하려면 Azure OpenAI Service 또는 Azure AI Speech를 통해 사용해야 하나요? 하나 또는 다른 시나리오를 사용하도록 안내하는 시나리오는 무엇인가요?

각 음성 모델은 고유한 특징과 기능을 제공하므로 특정 요구 사항에 가장 적합한 기능을 선택할 수 있습니다. Azure AI 서비스에서 사용 가능한 텍스트 음성 변환 음성의 옵션과 차이점을 알고 싶으실 것입니다.

Azure AI 서비스에서 다음 텍스트 음성 변환 음성 중에서 선택할 수 있습니다.

  • Azure OpenAI Service의 OpenAI 텍스트 음성 변환 음성입니다. 미국 중북부 및 스웨덴 중부 지역에서 사용할 수 있습니다.
  • Azure AI Speech의 OpenAI 텍스트 음성 변환 음성입니다. 미국 중북부 및 스웨덴 중부 지역에서 사용할 수 있습니다.
  • Azure AI Speech Service 텍스트 음성 변환 음성입니다. 수십 지역에서 사용할 수 있습니다. 지역 목록을 참조하세요.

OpenAI 텍스트 음성 변환 음성을 Azure OpenAI Service를 통해 사용하시겠습니까, 아니면 Azure AI Speech를 통해 사용하시겠습니까?

OpenAI 텍스트 음성 변환 음성을 사용하려면 Azure OpenAI를 통해 사용할지 또는 Azure AI Speech를 통해 사용할지 선택할 수 있습니다. 음성 갤러리를 방문하여 Azure OpenAI 음성 샘플을 듣거나 오디오 콘텐츠 만들기를 사용하여 사용자 고유의 텍스트로 음성을 합성할 수 있습니다. 두 경우 모두 오디오 출력이 동일하며 두 서비스 간에 몇 가지 기능 차이만 있습니다. 자세한 내용은 아래 표를 참조하세요.

다음은 Azure OpenAI Service의 OpenAI 텍스트 음성 변환 음성과 Azure AI Speech의 OpenAI 텍스트 음성 변환 음성 간 기능을 비교한 것입니다.

기능 Azure OpenAI Service(OpenAI 음성) Azure AI Speech(OpenAI 음성) Azure AI Speech 음성
지역 미국 중북부, 스웨덴 중부 미국 중북부, 스웨덴 중부 수십 지역에서 사용할 수 있습니다. 지역 목록을 참조하세요.
음성 다양성 6 12 500개 초과
다국어 음성 번호 6 12 49
최대 다국어 언어 적용 범위 57 57 77
SSML(Speech Synthesis Markup Language) 지원 지원되지 않음 SSML 요소의 하위 집합을 지원합니다. Azure AI Speech의 전체 SSML 집합을 지원합니다.
개발 옵션 REST API Speech SDK, Speech CLI, REST API Speech SDK, Speech CLI, REST API
배포 옵션 클라우드 전용 클라우드 전용 클라우드, 임베디드, 하이브리드 및 컨테이너.
실시간 또는 일괄 합성 실시간 실시간 및 일괄 합성 실시간 및 일괄 합성
대기 시간 500ms 초과 500ms 초과 300ms 미만
합성된 오디오의 샘플 속도 24kHz 8, 16, 24 및 48kHz 8, 16, 24 및 48kHz
음성 출력 오디오 형식 opus, mp3, aac, flac opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

OpenAI 음성에서 사용할 수 없는 Azure AI Speech에서 사용할 수 있는 추가 기능과 기능이 있습니다. 예시:

  • Azure AI Speech의 OpenAI 텍스트 음성 변환 음성은 SSML 요소의 하위 집합만 지원합니다. Azure AI Speech 음성은 전체 SSML 요소 집합을 지원합니다.
  • Azure AI Speech는 단어 경계 이벤트를 지원합니다. OpenAI 음성은 단어 경계 이벤트를 지원하지 않습니다.

Azure AI Speech에서 OpenAI 텍스트 음성 변환 음성으로 지원되는 SSML 요소

입력 텍스트가 있는 SSML(Speech Synthesis Markup Language)은 텍스트 음성 변환 출력의 구조, 콘텐츠 및 기타 특성을 결정합니다. 예를 들어 SSML을 사용하여 단락, 문장, 중단, 일시 중지 또는 무음을 정의할 수 있습니다. 나중에 애플리케이션에서 처리할 수 있는 책갈피 또는 viseme와 같은 이벤트 태그를 사용하여 텍스트를 래핑할 수 있습니다.

다음 표에서는 Azure AI 음성에서 OpenAI 텍스트 음성 변환 음성으로 지원되는 SSML(Speech Synthesis Markup Language) 요소에 대해 간략하게 설명합니다. OpenAI 음성에는 다음 SSML 태그 하위 집합만 지원됩니다. 자세한 내용은 SSML 문서 구조 및 이벤트를 참조하세요.

SSML 요소 이름 설명
<speak> 말할 콘텐츠 전체를 묶습니다. SSML 문서의 루트 요소입니다.
<voice> 텍스트 음성 변환 출력에 사용되는 음성을 지정합니다.
<sub> 요소의 묶인 텍스트 대신 별칭 특성의 텍스트 값을 발음해야 함을 나타냅니다.
<say-as> 요소 텍스트의 콘텐츠 형식(예: 숫자 또는 날짜)을 나타냅니다.

이 요소에 대해 interpret-as="name"을(를) 제외한 모든 interpret-as 속성 값이 지원됩니다. 예를 들어 <say-as interpret-as="date" format="dmy">10-12-2016</say-as>은(는) 지원되지만 <say-as interpret-as="name">ED</say-as>은(는) 지원되지 않습니다. 자세한 내용은 SSML을 사용하여 발음을 참조하세요.
<s> 문장을 나타냅니다.
<lang> 인공신경망 음성으로 말하려는 언어의 기본 로캘을 나타냅니다.
<break> 단어 사이의 중단 또는 일시 중지의 기본 동작을 재정의하는 데 사용합니다.