고화질 음성이란? (미리 보기)
참고 항목
이 기능은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
Azure AI Speech는 인공신경망 텍스트 음성 변환 HD(고화질) 음성을 도입하여 텍스트 음성 변환 기술 분야에서 계속 발전하고 있습니다. HD 음성은 콘텐츠를 이해하고, 입력 텍스트에서 감정을 자동으로 감지하고, 감정에 맞게 실시간으로 말하기 톤을 조정할 수 있습니다. HD 음성은 신경망(및 비 HD)에서 일관된 음성 페르소나를 유지하고 향상된 기능을 통해 더 많은 가치를 제공합니다.
인공신경망 텍스트 음성 변환 HD 음성의 주요 기능
다음은 Azure AI Speech HD 음성의 주요 기능입니다.
주요 특징 | 설명 |
---|---|
인간과 유사한 음성 생성 | 인공신경망 텍스트 음성 HD 음성은 매우 자연스럽고 인간과 유사한 음성을 생성할 수 있습니다. 이 모델은 수백만 시간의 다국어 데이터를 학습하여 입력 텍스트를 정확하게 해석하고 수동 조정 없이 적절한 감정, 속도 및 리듬으로 음성을 생성할 수 있도록 합니다. |
이야기 잘하는 | 인공신경망 텍스트 음성은 자발적인 일시 중지 및 강조를 포함하여 자연스러운 음성 패턴을 복제할 수 있습니다. 대화형 텍스트가 제공되면 모델은 일시 중지 및 필러 단어와 같은 일반적인 음각을 재현할 수 있습니다. 생성된 음성은 누군가가 당신과 직접 대화하는 것처럼 들립니다. |
Prosody 변형 | 인공신경망 텍스트 음성 변환 HD 음성은 각 출력에 약간의 변형을 도입하여 리얼리즘을 향상시킵니다. 이러한 변형은 인간의 목소리가 자연스럽게 변형을 나타내기 때문에 음성 소리를 더 자연스럽게 만듭니다. |
높은 충실도 | 인공신경망 텍스트 음성 변환 HD 음성의 기본 목표는 고화질 오디오를 생성하는 것입니다. 우리 시스템에서 생성된 합성 음성은 품질과 자연성 모두에서 인간의 음성을 밀접하게 모방할 수 있습니다. |
버전 제어 | 인공신경망 텍스트 음성 HD 음성을 사용하여 각각 고유한 기본 모델 크기와 레시피를 사용하여 동일한 음성의 다양한 버전을 릴리스합니다. 이렇게 하면 새로운 음성 변형을 경험하거나 특정 버전의 음성을 계속 사용할 수 있습니다. |
Azure AI Speech HD 음성과 다른 Azure 텍스트 음성 음성 비교
Azure AI Speech HD 음성은 다른 Azure 텍스트 음성 음성과 어떻게 비교합니까? 기능 및 기능 측면에서 어떻게 다른가요?
다음은 Azure AI Speech HD 음성, Azure OpenAI HD 음성 및 Azure AI Speech 음성 간의 기능을 비교한 것입니다.
기능 | Azure AI Speech HD 음성 | Azure OpenAI HD 음성 | Azure AI Speech 음성(HD 아님) |
---|---|---|---|
지역 | 미국 동부, 동남 아시아, 서유럽 | 미국 중북부, 스웨덴 중부 | 수십 지역에서 사용할 수 있습니다. 지역 목록을 참조하세요. |
음성 수 | 12 | 6 | 500개 초과 |
다국어 | 아니요(기본 언어로만 수행) | 예 | 예(다국어 음성에만 적용) |
SSML 지원 | SSML 요소의 하위 집합을 지원합니다. | SSML 요소의 하위 집합을 지원합니다. | Azure AI Speech의 전체 SSML 집합을 지원합니다. |
개발 옵션 | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API | Speech SDK, Speech CLI, REST API |
배포 옵션 | 클라우드 전용 | 클라우드 전용 | 클라우드, 임베디드, 하이브리드 및 컨테이너. |
실시간 또는 일괄 합성 | 실시간 전용 | 실시간 및 일괄 합성 | 실시간 및 일괄 합성 |
대기 시간 | 300ms 미만 | 500ms 초과 | 300ms 미만 |
합성된 오디오의 샘플 속도 | 8, 16, 24 및 48kHz | 8, 16, 24 및 48kHz | 8, 16, 24 및 48kHz |
음성 출력 오디오 형식 | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
지원되는 Azure AI Speech HD 음성
Azure AI Speech HD 음성 값은 형식 voicename:basemodel:version
입니다. 콜론 앞의 이름(예: en-US-Ava
음성 페르소나 이름 및 원래 로캘)입니다. 기본 모델은 후속 업데이트의 버전별로 추적됩니다.
현재 DragonHD
Azure AI Speech HD 음성에 사용할 수 있는 유일한 기본 모델입니다. 코드를 변경하지 않고도 제공하는 최신 버전의 기본 모델을 사용하려면 버전을 사용합니다 LatestNeural
.
예를 들어 가상 사용자의 en-US-Ava
경우 다음 HD 음성 값을 지정할 수 있습니다.
en-US-Ava:DragonHDLatestNeural
: 항상 나중에 제공하는 기본 모델의 최신 버전을 사용합니다.
다음 표에서는 현재 사용할 수 있는 Azure AI Speech HD 음성을 나열합니다.
신경망 음성 페르소나 | HD 음성 |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Davis:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Xiaochen | zh-CN-Xiaochen:DragonHDLatestNeural |
Azure AI Speech HD 음성을 사용하는 방법
HD 음성이 아닌 음성과 동일한 Speech SDK 및 REST API를 사용하여 HD 음성을 사용할 수 있습니다.
Azure AI Speech HD 음성을 사용할 때 고려해야 할 몇 가지 주요 사항은 다음과 같습니다.
- 음성 로캘: 음성 이름의 로캘은 원래 언어와 지역을 나타냅니다.
- 기본 모델:
- HD 음성은 입력 텍스트를 이해하고 그에 따라 말하기 패턴을 예측하는 기본 모델과 함께 제공됩니다. 각 음성의 가용성에 따라 원하는 모델(예: DragonHDLatestNeural)을 지정할 수 있습니다.
- SSML 사용: SSML에서 음성을 참조하려면 형식
voicename:basemodel:version
을 사용합니다. 콜론 앞의 이름(예:de-DE-Seraphina
음성 페르소나 이름 및 원래 로캘)입니다. 기본 모델은 후속 업데이트의 버전별로 추적됩니다. - 온도 매개 변수:
- 온도 값은 출력의 임의성에 영향을 주는 0에서 1 사이의 부동 소수입니다. 온도 매개 변수를 조정하여 출력의 변형을 제어할 수도 있습니다. 임의성이 적을수록 더 안정적인 결과가 생성되며, 임의성이 많을수록 다양성을 제공하지만 일관성은 떨어지게 됩니다.
- 온도가 낮을수록 임의성이 줄어들어 더 예측 가능한 출력이 생성됩니다. 온도가 높을수록 임의성이 증가하여 더 다양한 출력이 가능합니다. 기본 온도는 1.0으로 설정됩니다.
다음은 SSML에서 Azure AI Speech HD 음성을 사용하는 방법의 예입니다.
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Azure AI Speech HD 음성에 지원되는 SSML 요소 및 지원되지 않는 SSML 요소
입력 텍스트가 있는 SSML(Speech Synthesis Markup Language)은 텍스트 음성 변환 출력의 구조, 콘텐츠 및 기타 특성을 결정합니다. 예를 들어 SSML을 사용하여 단락, 문장, 중단, 일시 중지 또는 무음을 정의할 수 있습니다. 나중에 애플리케이션에서 처리하는 책갈피 또는 viseme과 같은 이벤트 태그를 사용하여 텍스트를 래핑할 수 있습니다.
Azure AI Speech HD 음성은 다른 Azure AI Speech 음성이 지원하는 모든 SSML 요소 또는 이벤트를 지원하지 않습니다. 특히 Azure AI Speech HD 음성은 단어 경계 이벤트를 지원하지 않습니다.
Azure AI Speech HD 음성에 대해 지원되고 지원되지 않는 SSML 요소에 대한 자세한 내용은 다음 표를 참조하세요. SSML 요소를 사용하는 방법에 대한 지침은 SSML(Speech Synthesis Markup Language) 설명서를 참조 하세요.
SSML 요소 | 설명 | Azure AI Speech HD 음성에서 지원됨 |
---|---|---|
<voice> |
음성 및 선택적 효과(eq_car 및 eq_telecomhp8k )를 지정합니다. |
예 |
<mstts:express-as> |
말하는 스타일과 역할을 지정합니다. | 아니요 |
<mstts:ttsembedding> |
개인 음성에 대한 speakerProfileId 속성을 지정합니다. |
아니요 |
<lang xml:lang> |
말하기 언어를 지정합니다. | 예 |
<prosody> |
피치, 윤곽, 범위, 속도 및 볼륨을 조정합니다. | 아니요 |
<emphasis> |
텍스트에 단어 수준의 강세를 추가하거나 제거합니다. | 아니요 |
<audio> |
SSML 문서에 미리 녹음된 오디오를 포함합니다. | 아니요 |
<mstts:audioduration> |
출력 오디오의 기간을 지정합니다. | 아니요 |
<mstts:backgroundaudio> |
SSML 문서에 백그라운드 오디오를 추가하거나 오디오 파일을 텍스트 음성 변환과 혼합합니다. | 아니요 |
<phoneme> |
SSML 문서의 음성 발음을 지정합니다. | 아니요 |
<lexicon> |
SSML에서 여러 엔터티를 읽는 방법을 정의합니다. | 예(별칭만 지원) |
<say-as> |
요소 텍스트의 콘텐츠 형식(예: 숫자 또는 날짜)을 나타냅니다. | 예 |
<sub> |
요소의 묶인 텍스트 대신 별칭 특성의 텍스트 값을 발음해야 함을 나타냅니다. | 예 |
<math> |
출력 오디오에서 수학적 표기법을 올바르게 발음하기 위해 MathML을 입력 텍스트로 사용합니다. | 아니요 |
<bookmark> |
오디오 스트림에서 각 마커의 오프셋을 가져옵니다. | 아니요 |
<break> |
단어 사이의 줄 바꿈이나 일시 중지의 기본 동작을 재정의합니다. | 아니요 |
<mstts:silence> |
텍스트 앞이나 뒤에 또는 인접한 두 문장 사이에 일시 중지를 삽입합니다. | 아니요 |
<mstts:viseme> |
사람이 말하는 동안 얼굴과 입의 위치를 정의합니다. | 아니요 |
<p> |
SSML 문서의 문단을 나타냅니다. | 예 |
<s> |
SSML 문서의 문장을 나타냅니다. | 예 |
참고 항목
이 가이드의 이전 섹션에서는 Azure AI Speech HD 음성과 Azure OpenAI HD 음성을 비교했지만 Azure AI Speech에서 지원하는 SSML 요소는 Azure OpenAI 음성에 적용되지 않습니다.