Co to są głosy o wysokiej rozdzielczości? (wersja zapoznawcza)

Artykuł
10/23/2024

Uwaga

Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Usługa Azure AI Speech nadal rozwija się w dziedzinie technologii zamiany tekstu na mowę wraz z wprowadzeniem neuronowego tekstu do głosów o wysokiej rozdzielczości mowy (HD). Głosy HD mogą zrozumieć zawartość, automatycznie wykrywać emocje w tekście wejściowym i dostosowywać ton wypowiedzi w czasie rzeczywistym, aby dopasować ton do tonacji. Głosy HD utrzymują spójną osobę głosową od swoich odpowiedników neuronowych (i innych niż HD), a także zapewniają jeszcze większą wartość dzięki rozszerzonym funkcjom.

Kluczowe funkcje neuronowego tekstu na głosy mowy HD

Poniżej przedstawiono najważniejsze funkcje głosów usługi Azure AI Speech HD:

Kluczowe cechy i funkcje	opis
Generowanie mowy podobnej do człowieka	Neuronowy tekst na głosy HD mowy może generować bardzo naturalną i ludzką mowę. Model jest szkolony na miliony godzin wielojęzycznych danych, umożliwiając dokładne interpretowanie tekstu wejściowego i generowanie mowy przy użyciu odpowiednich emocji, tempa i rytmu bez ręcznych korekt.
Konwersacyjny	Neuronowy tekst do mowy głosów HD może replikować naturalne wzorce mowy, w tym spontaniczne przerwy i naciski. W przypadku danego tekstu konwersacyjnego model może odtworzyć typowe fonezy, takie jak wstrzymywanie i wyrazy wypełniacza. Wygenerowany głos brzmi tak, jakby ktoś rozmawiał bezpośrednio z tobą.
Odmiany prosody	Neuronowy tekst do mowy głosów HD wprowadza niewielkie różnice w poszczególnych danych wyjściowych w celu zwiększenia realizmu. Te odmiany sprawiają, że mowa brzmi bardziej naturalnie, ponieważ ludzkie głosy naturalnie wykazują zmienność.
Wysoka wierność	Głównym celem neuronowego tekstu do mowy głosów HD jest generowanie dźwięku o wysokiej wierności. Syntetyczna mowa wytwarzana przez nasz system może ściśle naśladować ludzką mowę zarówno w jakości, jak i naturalności.
Kontrola wersji	Dzięki neuronowemu tekstowi mowy głosom HD udostępniamy różne wersje tego samego głosu, z których każdy ma unikatowy rozmiar i przepis modelu podstawowego. Dzięki temu możesz doświadczyć nowych odmian głosowych lub kontynuować korzystanie z konkretnej wersji głosu.

Porównanie głosów usługi Azure AI Speech HD z innymi głosami zamiany tekstu na mowę na platformę Azure

W jaki sposób głosy usługi Mowa HD w usłudze Azure AI są porównywane z innymi głosami mowy na platformie Azure? Jak różnią się one pod względem funkcji i możliwości?

Poniżej przedstawiono porównanie funkcji między głosami usługi Azure AI Speech HD, głosami usługi Azure OpenAI HD i głosami usługi Azure AI Speech:

Funkcja	Głosy usługi Azure AI Speech HD	Głosy usługi Azure OpenAI HD	Głosy mowy usługi Azure AI (nie HD)
Region	Wschodnie stany USA, Azja Południowo-Wschodnia, Europa Zachodnia	Północno-środkowe stany USA, Szwecja Środkowa	Dostępne w kilkudziesięciu regionach. Zobacz listę regionów.
Liczba głosów	12	6	Więcej niż 500
Wielojęzyczny	Nie (wykonaj tylko w języku podstawowym)	Tak	Tak (dotyczy tylko wielojęzycznych głosów)
Obsługa języka SSML	Obsługa podzbioru elementów SSML.	Obsługa podzbioru elementów SSML.	Obsługa pełnego zestawu SSML w usłudze Azure AI Speech.
Opcje programowania	Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST	Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST	Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST
Opcje wdrożenia	Tylko chmura	Tylko chmura	Chmura, osadzona, hybrydowa i kontenery.
Synteza w czasie rzeczywistym lub wsadowa	Tylko w czasie rzeczywistym	Synteza w czasie rzeczywistym i wsadowa	Synteza w czasie rzeczywistym i wsadowa
Opóźnienie	Mniej niż 300 ms	Więcej niż 500 ms	Mniej niż 300 ms
Częstotliwość próbkowania syntetyzowanego dźwięku	8, 16, 24 i 48 kHz	8, 16, 24 i 48 kHz	8, 16, 24 i 48 kHz
Format dźwięku wyjściowego mowy	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk	opus, mp3, pcm, truesilk

Obsługiwane głosy usługi Azure AI Speech HD

Wartości głosowe usługi Azure AI Speech HD są w formacie voicename:basemodel:version. Nazwa przed dwukropkiem, taka jak en-US-Ava, jest nazwą osoby głosowej i jej oryginalnymi ustawieniami regionalnymi. Model podstawowy jest śledzony przez wersje w kolejnych aktualizacjach.

DragonHD Obecnie jest jedynym podstawowym modelem dostępnym dla głosów usługi Azure AI Speech HD. Aby upewnić się, że używasz najnowszej wersji modelu podstawowego, który udostępniamy bez konieczności wprowadzania zmian w kodzie, użyj LatestNeural wersji.

Na przykład dla osoby en-US-Ava można określić następujące wartości głosu HD:

en-US-Ava:DragonHDLatestNeural: Zawsze używa najnowszej wersji modelu podstawowego, który udostępniamy później.

W poniższej tabeli wymieniono głosy usługi Azure AI Speech HD, które są obecnie dostępne.

Persona neuronowego głosu	Głosy HD
de-DE-Seraphina	de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew	en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2	en-US-Andrew2:DragonHDLatestNeural
en-US-Aria	en-US-Aria:DragonHDLatestNeural
en-US-Ava	en-US-Ava:DragonHDLatestNeural
en-US-Brian	en-US-Brian:DragonHDLatestNeural
en-US-Davis	en-US-Davis:DragonHDLatestNeural
en-US-Emma	en-US-Emma:DragonHDLatestNeural
en-US-Emma2	en-US-Emma2:DragonHDLatestNeural
en-US-Jenny	en-US-Jenny:DragonHDLatestNeural
en-US-Steffan	en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru	ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen	zh-CN-Xiaochen:DragonHDLatestNeural

Jak używać głosów usługi Azure AI Speech HD

Możesz używać głosów HD z tym samym zestawem SDK usługi Mowa i interfejsami API REST co głosy inne niż HD.

Poniżej przedstawiono kilka kluczowych kwestii, które należy wziąć pod uwagę podczas korzystania z głosów usługi Azure AI Speech HD:

Ustawienia regionalne głosu: ustawienia regionalne w nazwie głosu wskazują jego oryginalny język i region.
Modele podstawowe:
- Głosy HD są wyposażone w model podstawowy, który rozumie tekst wejściowy i odpowiednio przewiduje wzorzec mówienia. Można określić żądany model (taki jak DragonHDLatestNeural) zgodnie z dostępnością każdego głosu.
Użycie SSML: aby odwołać się do głosu w języku SSML, użyj formatu voicename:basemodel:version. Nazwa przed dwukropkiem, taka jak de-DE-Seraphina, jest nazwą osoby głosowej i jej oryginalnymi ustawieniami regionalnymi. Model podstawowy jest śledzony przez wersje w kolejnych aktualizacjach.
Parametr temperatury:
- Wartość temperatury jest zmiennoprzecinkowa z zakresu od 0 do 1, wpływając na losowość danych wyjściowych. Można również dostosować parametr temperatury, aby kontrolować zmienność danych wyjściowych. Mniej losowości daje bardziej stabilne wyniki, podczas gdy większa losowość oferuje różnorodność, ale mniejszą spójność.
- Niższa temperatura skutkuje mniejszą losowością, co prowadzi do bardziej przewidywalnych danych wyjściowych. Wyższa temperatura zwiększa losowość, umożliwiając uzyskanie bardziej zróżnicowanych danych wyjściowych. Domyślna temperatura jest ustawiona na wartość 1.0.

Oto przykład użycia głosów usługi Azure AI Speech HD w języku SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Obsługiwane i nieobsługiwane elementy SSML dla głosów usługi Azure AI Speech HD

Język znaczników syntezy mowy (SSML) z tekstem wejściowym określa strukturę, zawartość i inne cechy tekstu na dane wyjściowe mowy. Na przykład można użyć języka SSML do zdefiniowania akapitu, zdania, przerwania lub wstrzymania lub ciszy. Tekst można opakowować za pomocą tagów zdarzeń, takich jak zakładka lub viseme, które aplikacja przetwarza później.

Głosy usługi Azure AI Speech HD nie obsługują wszystkich elementów ani zdarzeń SSML, które obsługują inne głosy usługi Azure AI Speech. Szczególnie ważne jest, że głosy usługi Azure AI Speech HD nie obsługują zdarzeń granic słów.

Aby uzyskać szczegółowe informacje na temat obsługiwanych i nieobsługiwanych elementów SSML dla głosów usługi Azure AI Speech HD, zapoznaj się z poniższą tabelą. Aby uzyskać instrukcje dotyczące używania elementów SSML, zapoznaj się z dokumentacją języka SSML (Speech Synthesis Markup Language).

SSML, element	opis	Obsługiwane w głosach usługi Azure AI Speech HD
`<voice>`	Określa efekty głosowe i opcjonalne (`eq_car` i `eq_telecomhp8k`).	Tak
`<mstts:express-as>`	Określa style i role mówiące.	Nie.
`<mstts:ttsembedding>`	Określa `speakerProfileId` właściwość dla osobistego głosu.	Nie.
`<lang xml:lang>`	Określa język mówiący.	Tak
`<prosody>`	Dopasowuje wysokość, kontur, zakres, szybkość i objętość.	Nie.
`<emphasis>`	Dodaje lub usuwa stres na poziomie wyrazów dla tekstu.	Nie.
`<audio>`	Osadza wstępnie rozpoznany dźwięk w dokumencie SSML.	Nie.
`<mstts:audioduration>`	Określa czas trwania dźwięku wyjściowego.	Nie.
`<mstts:backgroundaudio>`	Dodaje dźwięk tła do dokumentów SSML lub miesza plik audio z tekstem do mowy.	Nie.
`<phoneme>`	Określa wymowę fonetyczną w dokumentach SSML.	Nie.
`<lexicon>`	Definiuje sposób odczytu wielu jednostek w języku SSML.	Tak (obsługuje tylko alias)
`<say-as>`	Wskazuje typ zawartości, taki jak liczba lub data, tekstu elementu.	Tak
`<sub>`	Wskazuje, że wartość tekstowa atrybutu aliasu powinna być wymawiana zamiast ujętego tekstu elementu.	Tak
`<math>`	Używa języka MathML jako tekstu wejściowego, aby prawidłowo wymawiać notacje matematyczne w wyjściowym dźwięku.	Nie.
`<bookmark>`	Pobiera przesunięcie każdego znacznika w strumieniu audio.	Nie.
`<break>`	Zastępuje domyślne zachowanie podziałów lub wstrzymuje się między wyrazami.	Nie.
`<mstts:silence>`	Wstawia wstrzymywanie przed tekstem lub po nim albo między dwoma sąsiednimi zdaniami.	Nie.
`<mstts:viseme>`	Definiuje położenie twarzy i ust, gdy osoba mówi.	Nie.
`<p>`	Określa akapity w dokumentach SSML.	Tak
`<s>`	Określa zdania w dokumentach SSML.	Tak

Uwaga

Chociaż w poprzedniej sekcji tego przewodnika porównaliśmy również głosy usługi Azure AI Speech HD z głosami usługi Azure OpenAI HD, elementy SSML obsługiwane przez usługę Azure AI Speech nie mają zastosowania do głosów usługi Azure OpenAI.

Udostępnij za pośrednictwem

Co to są głosy o wysokiej rozdzielczości? (wersja zapoznawcza)

Kluczowe funkcje neuronowego tekstu na głosy mowy HD

Porównanie głosów usługi Azure AI Speech HD z innymi głosami zamiany tekstu na mowę na platformę Azure

Obsługiwane głosy usługi Azure AI Speech HD

Jak używać głosów usługi Azure AI Speech HD

Obsługiwane i nieobsługiwane elementy SSML dla głosów usługi Azure AI Speech HD

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Co to są głosy o wysokiej rozdzielczości? (wersja zapoznawcza)

Kluczowe funkcje neuronowego tekstu na głosy mowy HD

Porównanie głosów usługi Azure AI Speech HD z innymi głosami zamiany tekstu na mowę na platformę Azure

Obsługiwane głosy usługi Azure AI Speech HD

Jak używać głosów usługi Azure AI Speech HD

Obsługiwane i nieobsługiwane elementy SSML dla głosów usługi Azure AI Speech HD

Powiązana zawartość

Opinia

Dodatkowe zasoby