Dodawanie zgody na talent głosowy do profesjonalnego projektu głosowego
Talent głosowy to indywidualny lub docelowy głośnik, którego głosy są rejestrowane i używane do tworzenia modeli neuronowych głosów.
Zanim będzie można wytrenować głos neuronowy, musisz przesłać nagranie oświadczenia zgody talentu głosowego. Instrukcja talentów głosowych jest nagraniem talentów głosowych odczytujących oświadczenie, które wyraża zgodę na użycie danych mowy w celu wytrenowania niestandardowego modelu głosu. Wyrażenie zgody jest również używane do sprawdzania, czy talent głosowy jest tą samą osobą co osoba mówiąca w danych treningowych.
Napiwek
Przed rozpoczęciem pracy w usłudze Speech Studio zdefiniuj personę głosową i wybierz odpowiedni talent głosowy.
W usłudze GitHub można znaleźć ustne wyrażenie zgody w wielu językach. Język wypowiedzi słownej musi być taki sam jak nagranie. Zobacz również ujawnienie talentów głosowych.
Dodawanie talentów głosowych
Aby dodać profil talentów głosowych i przekazać oświadczenie o wyrażaniu zgody, wykonaj następujące kroki:
- Zaloguj się do programu Speech Studio.
- Wybierz pozycję Niestandardowy głos> Nazwa> projektu Skonfiguruj talent>głosowy Dodaj talent głosowy.
- W kreatorze Dodawania nowych talentów głosowych opisz cechy głosu, który chcesz utworzyć. Scenariusze określone w tym miejscu muszą być zgodne z danymi podanymi w formularzu aplikacji.
- Wybierz Dalej.
- Na stronie Przekaż instrukcje dotyczące talentów głosowych postępuj zgodnie z instrukcjami, aby przekazać wcześniej zarejestrowaną instrukcję talentu głosowego. Upewnij się, że instrukcja słowna została zarejestrowana przy użyciu tych samych ustawień, środowiska i stylu wypowiedzi co dane treningowe.
- Wprowadź nazwę talentu głosowego i nazwę firmy. Nazwa talentu głosowego musi być nazwą osoby, która zarejestrowała oświadczenie zgody. Wprowadź nazwę w tym samym języku używanym w zarejestrowanej instrukcji. Nazwa firmy musi być zgodna z nazwą firmy, która została podana w nagranej instrukcji. Upewnij się, że nazwa firmy jest wprowadzana w tym samym języku co zarejestrowana instrukcja.
- Wybierz Dalej.
- Przejrzyj szczegóły talentu głosowego i osoby, a następnie wybierz pozycję Prześlij.
Gdy stan talentu głosowego to Powodzenie, możesz przejść do trenowania niestandardowego modelu głosu.
Następne kroki
W przypadku profesjonalnej funkcji głosowej wymagane jest, aby każdy głos był tworzony z wyraźną zgodą użytkownika. Zarejestrowana instrukcja od użytkownika jest wymagana z potwierdzeniem, że klient (właściciel zasobu usługi Azure AI Speech) utworzy i użyje swojego głosu.
Aby dodać zgodę talentów głosowych na profesjonalny projekt głosowy, uzyskasz wstępnie rozpoznany plik audio zgody z publicznie dostępnego adresu URL (Consents_Create) lub przekaż plik audio (Consents_Post). W tym artykule dodasz zgodę z adresu URL.
Instrukcja zgody
Potrzebujesz nagrania audio użytkownika mówiącego o instrukcji wyrażania zgody.
Tekst instrukcji zgody dla każdego ustawienia regionalnego można uzyskać z repozytorium GitHub zamiany tekstu na mowę. Zobacz SpeakerAuthorization.txt , aby uzyskać instrukcję zgody dla en-US
ustawień regionalnych:
"I [state your first and last name] am aware that recordings of my voice will be used by [state the name of the company] to create and use a synthetic version of my voice."
Dodawanie zgody z adresu URL
Aby dodać zgodę na profesjonalny projekt głosowy z adresu URL pliku audio, użyj Consents_Create operacji niestandardowego interfejsu API głosu. Skonstruuj treść żądania zgodnie z następującymi instrukcjami:
- Ustaw wymaganą
projectId
właściwość. Zobacz Tworzenie projektu. - Ustaw wymaganą
voiceTalentName
właściwość. Nazwa talentu głosowego musi być nazwą osoby, która zarejestrowała oświadczenie zgody. Wprowadź nazwę w tym samym języku używanym w zarejestrowanej instrukcji. Nie można później zmienić nazwy talentu głosowego. - Ustaw wymaganą
companyName
właściwość. Nazwa firmy musi być zgodna z nazwą firmy podaną w nagranej instrukcji. Upewnij się, że nazwa firmy jest wprowadzana w tym samym języku co zarejestrowana instrukcja. Nie można później zmienić nazwy firmy. - Ustaw wymaganą
audioUrl
właściwość. Adres URL pliku audio wyrażania zgody przez talent głosowy. Użyj identyfikatora URI z tokenem sygnatur dostępu współdzielonego (SAS). - Ustaw wymaganą
locale
właściwość. Powinno to być ustawienia regionalne zgody. Nie można później zmienić ustawień regionalnych. Tekst na liście ustawień regionalnych mowy można znaleźć tutaj.
Utwórz żądanie HTTP PUT przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Consents_Create .
- Zastąp
YourResourceKey
ciąg kluczem zasobu usługi Mowa. - Zastąp
YourResourceRegion
element regionem zasobu usługi Mowa. - Zastąp
JessicaConsentId
ciąg wybranym identyfikatorem zgody. Identyfikator uwzględniający wielkość liter będzie używany w identyfikatorze URI zgody i nie można go później zmienić.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
"description": "Consent for Jessica voice",
"projectId": "ProjectId",
"voiceTalentName": "Jessica Smith",
"companyName": "Contoso",
"audioUrl": "https://contoso.blob.core.windows.net/public/jessica-consent.wav?mySasToken",
"locale": "en-US"
} ' "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/consents/JessicaConsentId?api-version=2024-02-01-preview"
Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:
{
"id": "JessicaConsentId",
"description": "Consent for Jessica voice",
"projectId": "ProjectId",
"voiceTalentName": "Jessica Smith",
"companyName": "Contoso",
"locale": "en-US",
"status": "NotStarted",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Nagłówek odpowiedzi zawiera Operation-Location
właściwość . Użyj tego identyfikatora URI, aby uzyskać szczegółowe informacje o operacji Consents_Create . Oto przykład nagłówka odpowiedzi:
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/070f7986-ef17-41d0-ba2b-907f0f28e314?api-version=2024-02-01-preview
Operation-Id: 070f7986-ef17-41d0-ba2b-907f0f28e314