Wdrażanie profesjonalnego modelu głosu jako punktu końcowego
Po pomyślnym utworzeniu i wytrenowanym modelu głosu wdrożysz go w niestandardowym neuronowym punkcie końcowym głosu.
Uwaga
Można utworzyć maksymalnie 50 punktów końcowych przy użyciu standardowego zasobu mowy (S0), z których każdy ma własny niestandardowy neuronowy głos.
Aby użyć niestandardowego neuronowego głosu, należy określić nazwę modelu głosu, użyć niestandardowego identyfikatora URI bezpośrednio w żądaniu HTTP i użyć tego samego zasobu usługi Mowa, aby przejść przez uwierzytelnianie tekstu w usłudze mowy.
Dodawanie punktu końcowego wdrożenia
Aby utworzyć niestandardowy neuronowy punkt końcowy głosu:
Zaloguj się do programu Speech Studio.
Wybierz pozycję Niestandardowy głos> Nazwa >projektu Wdróż model>Wdróż model.
Wybierz model głosu, który chcesz skojarzyć z tym punktem końcowym.
Wprowadź nazwę i opis niestandardowego punktu końcowego.
Wybierz pozycję Typ punktu końcowego zgodnie ze scenariuszem. Jeśli zasób znajduje się w obsługiwanym regionie, ustawieniem domyślnym dla typu punktu końcowego jest wysoka wydajność. W przeciwnym razie, jeśli zasób znajduje się w nieobsługiwanym regionie, jedyną dostępną opcją jest Szybkie wznawianie.
- Wysoka wydajność: zoptymalizowana pod kątem scenariuszy z żądaniami syntezy w czasie rzeczywistym i dużymi ilościami, takimi jak konwersacyjna sztuczna inteligencja, boty call-center. Wdrażanie lub wznawianie punktu końcowego trwa około 5 minut. Aby uzyskać informacje o regionach, w których obsługiwany jest typ punktu końcowego o wysokiej wydajności , zobacz przypisy w tabeli regionów .
- Szybkie wznawianie: zoptymalizowane pod kątem scenariuszy tworzenia zawartości audio z rzadziej występującymi żądaniami syntezy. Łatwe i szybkie wdrażanie lub wznawianie punktu końcowego w ciągu kilku minut. Typ punktu końcowego szybkiego wznawiania jest obsługiwany we wszystkich regionach, w których jest dostępny tekst na mowę.
Wybierz pozycję Wdróż , aby utworzyć punkt końcowy.
Po wdrożeniu punktu końcowego jego nazwa jest wyświetlana jako link. Wybierz link, aby wyświetlić informacje specyficzne dla punktu końcowego, takie jak klucz punktu końcowego, adres URL punktu końcowego i przykładowy kod. Gdy stan wdrożenia to Powodzenie, punkt końcowy jest gotowy do użycia.
Ustawienia aplikacji
Ustawienia aplikacji używane jako parametry żądania interfejsu API REST są dostępne na karcie Wdrażanie modelu w usłudze Speech Studio.
- Klucz punktu końcowego pokazuje klucz zasobu usługi Mowa skojarzony z punktem końcowym. Użyj klucza punktu końcowego jako wartości nagłówka
Ocp-Apim-Subscription-Key
żądania. - Adres URL punktu końcowego pokazuje region usługi. Użyj wartości poprzedzającej
voice.speech.microsoft.com
jako parametr żądania regionu usługi. Na przykład użyj adresueastus
URL punktu końcowego.https://eastus.voice.speech.microsoft.com/cognitiveservices/v1
- Adres URL punktu końcowego zawiera identyfikator punktu końcowego. Użyj wartości dołączonej do parametru
?deploymentId=
zapytania jako wartości parametru żądania identyfikatora punktu końcowego.
Korzystanie z niestandardowego głosu
Niestandardowy punkt końcowy jest funkcjonalnie identyczny ze standardowym punktem końcowym używanym do obsługi żądań zamiany tekstu na mowę.
Jedną z różnic jest to, że należy określić, EndpointId
aby używać głosu niestandardowego za pośrednictwem zestawu SPEECH SDK. Możesz rozpocząć od tekstu w przewodniku Szybki start do mowy, a następnie zaktualizować kod za pomocą elementu EndpointId
i SpeechSynthesisVoiceName
. Aby uzyskać więcej informacji, zobacz używanie niestandardowego punktu końcowego.
Aby użyć głosu niestandardowego za pomocą języka SSML (Speech Synthesis Markup Language), określ nazwę modelu jako nazwę głosu. W tym przykładzie użyto YourCustomVoiceName
głosu.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="YourCustomVoiceName">
This is the text that is spoken.
</voice>
</speak>
Przełączanie do nowego modelu głosu w produkcie
Po zaktualizowaniu modelu głosowego do najnowszej wersji aparatu lub przełączeniu się na nowy głos w produkcie należy ponownie wdrożyć nowy model głosu w nowym punkcie końcowym. Ponowne wdrażanie nowego modelu głosu w istniejącym punkcie końcowym nie jest obsługiwane. Po wdrożeniu przełącz ruch do nowo utworzonego punktu końcowego. Zalecamy najpierw przeniesienie ruchu do nowego punktu końcowego w środowisku testowym, aby upewnić się, że ruch działa prawidłowo, a następnie przenieść go do nowego punktu końcowego w środowisku produkcyjnym. Podczas przejścia należy zachować stary punkt końcowy. Jeśli podczas przejścia występują problemy z nowym punktem końcowym, możesz wrócić do starego punktu końcowego. Jeśli ruch działa dobrze w nowym punkcie końcowym przez około 24 godziny (zalecana wartość), możesz usunąć stary punkt końcowy.
Uwaga
Jeśli nazwa głosu zostanie zmieniona i używasz języka SSML (Speech Synthesis Markup Language), pamiętaj, aby użyć nowej nazwy głosu w języku SSML.
Wstrzymywanie i wznawianie punktu końcowego
Możesz zawiesić lub wznowić punkt końcowy, aby ograniczyć wydatki i oszczędzać zasoby, które nie są używane. Opłaty nie będą naliczane, gdy punkt końcowy zostanie zawieszony. Po wznowieniu punktu końcowego możesz nadal używać tego samego adresu URL punktu końcowego w aplikacji do syntezowania mowy.
Uwaga
Operacja wstrzymania zostanie ukończona niemal natychmiast. Operacja wznawiania jest wykonywana w mniej więcej tym samym czasie co nowe wdrożenie.
W tej sekcji opisano sposób zawieszenia lub wznowienia niestandardowego neuronowego punktu końcowego głosu w portalu usługi Speech Studio.
Wstrzymywanie punktu końcowego
Aby wstrzymać i dezaktywować punkt końcowy, wybierz pozycję Wstrzymaj na karcie Wdrażanie modelu w programie Speech Studio.
W wyświetlonym oknie dialogowym wybierz pozycję Prześlij. Po zawieszeniu punktu końcowego program Speech Studio wyświetli powiadomienie o pomyślnym wstrzymaniu punktu końcowego .
Wznawianie punktu końcowego
Aby wznowić i aktywować punkt końcowy, wybierz pozycję Wznów na karcie Wdrażanie modelu w usłudze Speech Studio.
W wyświetlonym oknie dialogowym wybierz pozycję Prześlij. Po pomyślnym ponownym uaktywnieniu punktu końcowego stan zmieni się z Zawieszone na Powodzenie.
Następne kroki
Po pomyślnym utworzeniu i wytrenowanym modelu głosu wdrożysz go w niestandardowym neuronowym punkcie końcowym głosu.
Uwaga
Można utworzyć maksymalnie 50 punktów końcowych przy użyciu standardowego zasobu mowy (S0), z których każdy ma własny niestandardowy neuronowy głos.
Dodawanie punktu końcowego wdrożenia
Aby utworzyć punkt końcowy, użyj Endpoints_Create operacji niestandardowego interfejsu API głosu. Skonstruuj treść żądania zgodnie z następującymi instrukcjami:
- Ustaw wymaganą
projectId
właściwość. Zobacz Tworzenie projektu. - Ustaw wymaganą
modelId
właściwość. Zobacz trenowanie modelu głosu. - Ustaw wymaganą
description
właściwość. Opis można zmienić później.
Utwórz żądanie HTTP PUT przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Endpoints_Create .
- Zastąp
YourResourceKey
ciąg kluczem zasobu usługi Mowa. - Zastąp
YourResourceRegion
element regionem zasobu usługi Mowa. - Zastąp
EndpointId
element wybranym identyfikatorem punktu końcowego. Identyfikator musi być identyfikatorem GUID i musi być unikatowy w ramach zasobu usługi Mowa. Identyfikator będzie używany w identyfikatorze URI projektu i nie można go później zmienić.
curl -v -X PUT -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "Content-Type: application/json" -d '{
"description": "Endpoint for Jessica voice",
"projectId": "ProjectId",
"modelId": "JessicaModelId",
} ' "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/EndpointId?api-version=2024-02-01-preview"
Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:
{
"id": "9f50c644-2121-40e9-9ea7-544e48bfe3cb",
"description": "Endpoint for Jessica voice",
"projectId": "ProjectId",
"modelId": "JessicaModelId",
"properties": {
"kind": "HighPerformance"
},
"status": "NotStarted",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Nagłówek odpowiedzi zawiera Operation-Location
właściwość . Użyj tego identyfikatora URI, aby uzyskać szczegółowe informacje o operacji Endpoints_Create . Oto przykład nagłówka odpowiedzi:
Operation-Location: https://eastus.api.cognitive.microsoft.com/customvoice/operations/284b7e37-f42d-4054-8fa9-08523c3de345?api-version=2024-02-01-preview
Operation-Id: 284b7e37-f42d-4054-8fa9-08523c3de345
Punkt końcowy Operation-Location
jest używany w kolejnych żądaniach interfejsu API, aby wstrzymać i wznowić punkt końcowy oraz usunąć punkt końcowy.
Korzystanie z niestandardowego głosu
Aby użyć niestandardowego neuronowego głosu, należy określić nazwę modelu głosu, użyć niestandardowego identyfikatora URI bezpośrednio w żądaniu HTTP i użyć tego samego zasobu usługi Mowa, aby przejść przez uwierzytelnianie tekstu w usłudze mowy.
Niestandardowy punkt końcowy jest funkcjonalnie identyczny ze standardowym punktem końcowym używanym do obsługi żądań zamiany tekstu na mowę.
Jedną z różnic jest to, że należy określić, EndpointId
aby używać głosu niestandardowego za pośrednictwem zestawu SPEECH SDK. Możesz rozpocząć od tekstu w przewodniku Szybki start do mowy, a następnie zaktualizować kod za pomocą elementu EndpointId
i SpeechSynthesisVoiceName
. Aby uzyskać więcej informacji, zobacz używanie niestandardowego punktu końcowego.
Aby użyć głosu niestandardowego za pomocą języka SSML (Speech Synthesis Markup Language), określ nazwę modelu jako nazwę głosu. W tym przykładzie użyto YourCustomVoiceName
głosu.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xml:lang="en-US">
<voice name="YourCustomVoiceName">
This is the text that is spoken.
</voice>
</speak>
Wstrzymywanie punktu końcowego
Możesz zawiesić lub wznowić punkt końcowy, aby ograniczyć wydatki i oszczędzać zasoby, które nie są używane. Opłaty nie będą naliczane, gdy punkt końcowy zostanie zawieszony. Po wznowieniu punktu końcowego możesz nadal używać tego samego adresu URL punktu końcowego w aplikacji do syntezowania mowy.
Aby zawiesić punkt końcowy, użyj Endpoints_Suspend operacji niestandardowego interfejsu API głosu.
Utwórz żądanie HTTP POST przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Endpoints_Suspend .
- Zastąp
YourResourceKey
ciąg kluczem zasobu usługi Mowa. - Zastąp
YourResourceRegion
element regionem zasobu usługi Mowa. - Zastąp
YourEndpointId
element identyfikatorem punktu końcowego otrzymanego podczas tworzenia punktu końcowego.
curl -v -X POST "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/YourEndpointId:suspend?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "content-type: application/json" -H "content-length: 0"
Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:
{
"id": "9f50c644-2121-40e9-9ea7-544e48bfe3cb",
"description": "Endpoint for Jessica voice",
"projectId": "ProjectId",
"modelId": "JessicaModelId",
"properties": {
"kind": "HighPerformance"
},
"status": "Disabling",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Wznawianie punktu końcowego
Aby wznowić punkt końcowy, użyj Endpoints_Resume operacji niestandardowego interfejsu API głosu.
Utwórz żądanie HTTP POST przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Endpoints_Resume .
- Zastąp
YourResourceKey
ciąg kluczem zasobu usługi Mowa. - Zastąp
YourResourceRegion
element regionem zasobu usługi Mowa. - Zastąp
YourEndpointId
element identyfikatorem punktu końcowego otrzymanego podczas tworzenia punktu końcowego.
curl -v -X POST "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/YourEndpointId:resume?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey" -H "content-type: application/json" -H "content-length: 0"
Treść odpowiedzi powinna zostać wyświetlona w następującym formacie:
{
"id": "9f50c644-2121-40e9-9ea7-544e48bfe3cb",
"description": "Endpoint for Jessica voice",
"projectId": "ProjectId",
"modelId": "JessicaModelId",
"properties": {
"kind": "HighPerformance"
},
"status": "Running",
"createdDateTime": "2023-04-01T05:30:00.000Z",
"lastActionDateTime": "2023-04-02T10:15:30.000Z"
}
Usuwanie punktu końcowego
Aby usunąć punkt końcowy, użyj Endpoints_Delete operacji niestandardowego interfejsu API głosu.
Utwórz żądanie HTTP DELETE przy użyciu identyfikatora URI, jak pokazano w poniższym przykładzie Endpoints_Delete .
- Zastąp
YourResourceKey
ciąg kluczem zasobu usługi Mowa. - Zastąp
YourResourceRegion
element regionem zasobu usługi Mowa. - Zastąp
YourEndpointId
element identyfikatorem punktu końcowego otrzymanego podczas tworzenia punktu końcowego.
curl -v -X DELETE "https://YourResourceRegion.api.cognitive.microsoft.com/customvoice/endpoints/YourEndpointId?api-version=2024-02-01-preview" -H "Ocp-Apim-Subscription-Key: YourResourceKey"
Powinien zostać wyświetlony nagłówek odpowiedzi z kodem stanu 204.
Przełączanie do nowego modelu głosu w produkcie
Po zaktualizowaniu modelu głosowego do najnowszej wersji aparatu lub przełączeniu się na nowy głos w produkcie należy ponownie wdrożyć nowy model głosu w nowym punkcie końcowym. Ponowne wdrażanie nowego modelu głosu w istniejącym punkcie końcowym nie jest obsługiwane. Po wdrożeniu przełącz ruch do nowo utworzonego punktu końcowego. Zalecamy najpierw przeniesienie ruchu do nowego punktu końcowego w środowisku testowym, aby upewnić się, że ruch działa prawidłowo, a następnie przenieść go do nowego punktu końcowego w środowisku produkcyjnym. Podczas przejścia należy zachować stary punkt końcowy. Jeśli podczas przejścia występują problemy z nowym punktem końcowym, możesz wrócić do starego punktu końcowego. Jeśli ruch działa dobrze w nowym punkcie końcowym przez około 24 godziny (zalecana wartość), możesz usunąć stary punkt końcowy.
Uwaga
Jeśli nazwa głosu zostanie zmieniona i używasz języka SSML (Speech Synthesis Markup Language), pamiętaj, aby użyć nowej nazwy głosu w języku SSML.