개인 보이스에 대한 화자 프로필 ID를 가져옵니다.
애플리케이션에서 개인 보이스를 사용하려면 화자 프로필 ID를 가져와야 합니다. 스피커 프로필 ID는 제공된 텍스트 입력을 사용하여 합성된 오디오를 생성하는 데 사용됩니다.
화자의 구두 동의 문과 오디오 프롬프트(5~90초 사이의 깨끗한 사람의 음성 샘플)를 기준으로 화자 프로필 ID를 만듭니다. 사용자의 음성 특성은 텍스트 음성 변환에 사용되는 speakerProfileId
속성에 인코딩됩니다. 자세한 내용은 애플리케이션에 개인 보이스 사용을 참조하세요.
참고 항목
개인 보이스 ID 및 화자 프로필 ID는 동일하지 않습니다. 개인 보이스 ID를 선택할 수 있지만 화자 프로필 ID는 서비스에 의해 생성됩니다. 개인 보이스 ID는 개인 보이스를 관리하는 데 사용됩니다. 화자 프로필 ID는 텍스트 음성 변환에 사용됩니다.
공개적으로 액세스할 수 있는 URL(PersonalVoices_Create)에서 오디오 파일을 제공하거나 오디오 파일을 업로드(PersonalVoices_Post)합니다.
프롬프트 오디오 형식
지원되는 프롬프트 오디오 파일 형식은 다음과 같습니다.
형식 | 샘플 속도 | 비트 전송률: | 비트 수준 |
---|---|---|---|
mp3 | 16kHz, 24kHz, 44.1kHz, 48kHz | 128kbps, 192kbps, 256kbps, 320kbps | / |
wav | 16kHz, 24kHz, 44.1kHz, 48kHz | / | 16비트, 24비트, 32비트 |
파일에서 개인 보이스 만들기
이 시나리오에서는 오디오 파일을 로컬로 사용할 수 있어야 합니다.
개인 보이스를 만들고 화자 프로필 ID를 가져오려면 사용자 지정 음성 API의 PersonalVoices_Post 작업을 사용합니다. 다음 지침에 따라 요청 본문을 생성합니다.
- 필수
projectId
속성을 설정합니다. 프로젝트 만들기를 참조하세요. - 필수
consentId
속성을 설정합니다. 사용자 동의 추가를 참조하세요. - 필수
audiodata
속성을 설정합니다. 동일한 요청에서 하나 이상의 오디오 파일을 지정할 수 있습니다.
다음 PersonalVoices_Post 예제와 같이 URI를 사용하여 HTTP POST 요청을 만듭니다.
YourResourceKey
를 Speech 리소스 키로 바꿉니다.YourResourceRegion
을(를) 음성 리소스 지역으로 바꿉니다.JessicaPersonalVoiceId
을(를) 선택한 개인 보이스 ID로 대체하세요. 대/소문자 구분 ID는 개인 보이스의 URI에 사용되며 나중에 변경할 수 없습니다.
curl -v -X POST -H "Ocp-Apim-Subscription-Key: YourResourceKey" -F 'projectId="ProjectId"' -F 'consentId="JessicaConsentId"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample001.wav"' -F 'audiodata=@"D:\PersonalVoiceTest\CNVSample002.wav"' "
https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"
응답 본문은 다음 형식으로 표시되어야 합니다.
{
"id": "JessicaPersonalVoiceId",
"speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"status": "NotStarted",
"createdDateTime": "2024-09-01T05:30:00.000Z",
"lastActionDateTime": "2024-09-02T10:15:30.000Z"
}
speakerProfileId
속성을 사용하여 텍스트 음성 변환 애플리케이션에 개인 보이스를 통합합니다. 자세한 내용은 애플리케이션에 개인 보이스 사용을 참조하세요.
응답 헤더에는 Operation-Location
속성이 포함되어 있습니다. 이 URI를 사용하여 PersonalVoices_Post 작업에 대한 세부 정보를 가져옵니다. 응답 헤더의 예는 다음과 같습니다.
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f
URL에서 개인 보이스 만들기
이 시나리오에서는 오디오 파일이 Azure Blob Storage 컨테이너에 이미 저장되어 있어야 합니다.
개인 보이스를 만들고 화자 프로필 ID를 가져오려면 사용자 지정 음성 API의 PersonalVoices_Create 작업을 사용합니다. 다음 지침에 따라 요청 본문을 생성합니다.
- 필수
projectId
속성을 설정합니다. 프로젝트 만들기를 참조하세요. - 필수
consentId
속성을 설정합니다. 사용자 동의 추가를 참조하세요. - 필수
audios
속성을 설정합니다.audios
속성 내에서 다음 속성을 설정합니다.- 필수
containerUrl
속성을 오디오 파일이 포함된 Azure Blob Storage 컨테이너의 URL로 설정합니다. 읽기 및 목록 권한이 모두 있는 컨테이너에 SAS(공유 액세스 서명)를 사용합니다. - 필수
extensions
속성을 오디오 파일의 확장명으로 설정합니다. - 필요에 따라
prefix
속성을 설정하여 Blob 이름에 대한 접두사를 설정합니다.
- 필수
다음 PersonalVoices_Create 예에 표시된 것처럼 URI를 사용하여 HTTP PUT 요청을 만듭니다.
YourResourceKey
를 Speech 리소스 키로 바꿉니다.YourResourceRegion
을(를) 음성 리소스 지역으로 바꿉니다.JessicaPersonalVoiceId
을(를) 선택한 개인 보이스 ID로 대체하세요. 대/소문자 구분 ID는 개인 보이스의 URI에 사용되며 나중에 변경할 수 없습니다.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"audios": {
"containerUrl": "https://contoso.blob.core.windows.net/voicecontainer?mySasToken",
"prefix": "jessica/",
"extensions": [
".wav"
]
}
} ' "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/personalvoices/JessicaPersonalVoiceId?api-version=2024-02-01-preview"
# Ensure the `containerUrl` has both read and list permissions.
# Ensure the `.wav` files are located in the "jessica" folder within the container. The `prefix` matches all `.wav` files in the "jessica" folder. If there is no such folder, the prefix will match `.wav` files with names starting with "jessica".
응답 본문은 다음 형식으로 표시되어야 합니다.
{
"id": "JessicaPersonalVoiceId",
"speakerProfileId": "3059912f-a3dc-49e3-bdd0-02e449df1fe3",
"projectId": "ProjectId",
"consentId": "JessicaConsentId",
"status": "NotStarted",
"createdDateTime": "2024-09-01T05:30:00.000Z",
"lastActionDateTime": "2024-09-02T10:15:30.000Z"
}
speakerProfileId
속성을 사용하여 텍스트 음성 변환 애플리케이션에 개인 보이스를 통합합니다. 자세한 내용은 애플리케이션에 개인 보이스 사용을 참조하세요.
응답 헤더에는 Operation-Location
속성이 포함되어 있습니다. 이 URI를 사용하여 PersonalVoices_Create 작업에 대한 세부 정보를 가져옵니다. 응답 헤더의 예는 다음과 같습니다.
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/1321a2c0-9be4-471d-83bb-bc3be4f96a6f?api-version=2024-02-01-preview
Operation-Id: 1321a2c0-9be4-471d-83bb-bc3be4f96a6f