Co to są głosy o wysokiej rozdzielczości? (wersja zapoznawcza)
Uwaga
Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.
Usługa Azure AI Speech nadal rozwija się w dziedzinie technologii zamiany tekstu na mowę wraz z wprowadzeniem neuronowego tekstu do głosów o wysokiej rozdzielczości mowy (HD). Głosy HD mogą zrozumieć zawartość, automatycznie wykrywać emocje w tekście wejściowym i dostosowywać ton wypowiedzi w czasie rzeczywistym, aby dopasować ton do tonacji. Głosy HD utrzymują spójną osobę głosową od swoich odpowiedników neuronowych (i innych niż HD), a także zapewniają jeszcze większą wartość dzięki rozszerzonym funkcjom.
Kluczowe funkcje neuronowego tekstu na głosy mowy HD
Poniżej przedstawiono najważniejsze funkcje głosów usługi Azure AI Speech HD:
Kluczowe cechy i funkcje | opis |
---|---|
Generowanie mowy podobnej do człowieka | Neuronowy tekst na głosy HD mowy może generować bardzo naturalną i ludzką mowę. Model jest szkolony na miliony godzin wielojęzycznych danych, umożliwiając dokładne interpretowanie tekstu wejściowego i generowanie mowy przy użyciu odpowiednich emocji, tempa i rytmu bez ręcznych korekt. |
Konwersacyjny | Neuronowy tekst do mowy głosów HD może replikować naturalne wzorce mowy, w tym spontaniczne przerwy i naciski. W przypadku danego tekstu konwersacyjnego model może odtworzyć typowe fonezy, takie jak wstrzymywanie i wyrazy wypełniacza. Wygenerowany głos brzmi tak, jakby ktoś rozmawiał bezpośrednio z tobą. |
Odmiany prosody | Neuronowy tekst do mowy głosów HD wprowadza niewielkie różnice w poszczególnych danych wyjściowych w celu zwiększenia realizmu. Te odmiany sprawiają, że mowa brzmi bardziej naturalnie, ponieważ ludzkie głosy naturalnie wykazują zmienność. |
Wysoka wierność | Głównym celem neuronowego tekstu do mowy głosów HD jest generowanie dźwięku o wysokiej wierności. Syntetyczna mowa wytwarzana przez nasz system może ściśle naśladować ludzką mowę zarówno w jakości, jak i naturalności. |
Kontrola wersji | Dzięki neuronowemu tekstowi mowy głosom HD udostępniamy różne wersje tego samego głosu, z których każdy ma unikatowy rozmiar i przepis modelu podstawowego. Dzięki temu możesz doświadczyć nowych odmian głosowych lub kontynuować korzystanie z konkretnej wersji głosu. |
Porównanie głosów usługi Azure AI Speech HD z innymi głosami zamiany tekstu na mowę na platformę Azure
W jaki sposób głosy usługi Mowa HD w usłudze Azure AI są porównywane z innymi głosami mowy na platformie Azure? Jak różnią się one pod względem funkcji i możliwości?
Poniżej przedstawiono porównanie funkcji między głosami usługi Azure AI Speech HD, głosami usługi Azure OpenAI HD i głosami usługi Azure AI Speech:
Funkcja | Głosy usługi Azure AI Speech HD | Głosy usługi Azure OpenAI HD | Głosy mowy usługi Azure AI (nie HD) |
---|---|---|---|
Region | Wschodnie stany USA, Azja Południowo-Wschodnia, Europa Zachodnia | Północno-środkowe stany USA, Szwecja Środkowa | Dostępne w kilkudziesięciu regionach. Zobacz listę regionów. |
Liczba głosów | 12 | 6 | Więcej niż 500 |
Wielojęzyczny | Nie (wykonaj tylko w języku podstawowym) | Tak | Tak (dotyczy tylko wielojęzycznych głosów) |
Obsługa języka SSML | Obsługa podzbioru elementów SSML. | Obsługa podzbioru elementów SSML. | Obsługa pełnego zestawu SSML w usłudze Azure AI Speech. |
Opcje programowania | Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST | Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST | Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST |
Opcje wdrożenia | Tylko chmura | Tylko chmura | Chmura, osadzona, hybrydowa i kontenery. |
Synteza w czasie rzeczywistym lub wsadowa | Tylko w czasie rzeczywistym | Synteza w czasie rzeczywistym i wsadowa | Synteza w czasie rzeczywistym i wsadowa |
Opóźnienie | Mniej niż 300 ms | Więcej niż 500 ms | Mniej niż 300 ms |
Częstotliwość próbkowania syntetyzowanego dźwięku | 8, 16, 24 i 48 kHz | 8, 16, 24 i 48 kHz | 8, 16, 24 i 48 kHz |
Format dźwięku wyjściowego mowy | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Obsługiwane głosy usługi Azure AI Speech HD
Wartości głosowe usługi Azure AI Speech HD są w formacie voicename:basemodel:version
. Nazwa przed dwukropkiem, taka jak en-US-Ava
, jest nazwą osoby głosowej i jej oryginalnymi ustawieniami regionalnymi. Model podstawowy jest śledzony przez wersje w kolejnych aktualizacjach.
DragonHD
Obecnie jest jedynym podstawowym modelem dostępnym dla głosów usługi Azure AI Speech HD. Aby upewnić się, że używasz najnowszej wersji modelu podstawowego, który udostępniamy bez konieczności wprowadzania zmian w kodzie, użyj LatestNeural
wersji.
Na przykład dla osoby en-US-Ava
można określić następujące wartości głosu HD:
en-US-Ava:DragonHDLatestNeural
: Zawsze używa najnowszej wersji modelu podstawowego, który udostępniamy później.
W poniższej tabeli wymieniono głosy usługi Azure AI Speech HD, które są obecnie dostępne.
Persona neuronowego głosu | Głosy HD |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Davis:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Xiaochen | zh-CN-Xiaochen:DragonHDLatestNeural |
Jak używać głosów usługi Azure AI Speech HD
Możesz używać głosów HD z tym samym zestawem SDK usługi Mowa i interfejsami API REST co głosy inne niż HD.
Poniżej przedstawiono kilka kluczowych kwestii, które należy wziąć pod uwagę podczas korzystania z głosów usługi Azure AI Speech HD:
- Ustawienia regionalne głosu: ustawienia regionalne w nazwie głosu wskazują jego oryginalny język i region.
- Modele podstawowe:
- Głosy HD są wyposażone w model podstawowy, który rozumie tekst wejściowy i odpowiednio przewiduje wzorzec mówienia. Można określić żądany model (taki jak DragonHDLatestNeural) zgodnie z dostępnością każdego głosu.
- Użycie SSML: aby odwołać się do głosu w języku SSML, użyj formatu
voicename:basemodel:version
. Nazwa przed dwukropkiem, taka jakde-DE-Seraphina
, jest nazwą osoby głosowej i jej oryginalnymi ustawieniami regionalnymi. Model podstawowy jest śledzony przez wersje w kolejnych aktualizacjach. - Parametr temperatury:
- Wartość temperatury jest zmiennoprzecinkowa z zakresu od 0 do 1, wpływając na losowość danych wyjściowych. Można również dostosować parametr temperatury, aby kontrolować zmienność danych wyjściowych. Mniej losowości daje bardziej stabilne wyniki, podczas gdy większa losowość oferuje różnorodność, ale mniejszą spójność.
- Niższa temperatura skutkuje mniejszą losowością, co prowadzi do bardziej przewidywalnych danych wyjściowych. Wyższa temperatura zwiększa losowość, umożliwiając uzyskanie bardziej zróżnicowanych danych wyjściowych. Domyślna temperatura jest ustawiona na wartość 1.0.
Oto przykład użycia głosów usługi Azure AI Speech HD w języku SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Obsługiwane i nieobsługiwane elementy SSML dla głosów usługi Azure AI Speech HD
Język znaczników syntezy mowy (SSML) z tekstem wejściowym określa strukturę, zawartość i inne cechy tekstu na dane wyjściowe mowy. Na przykład można użyć języka SSML do zdefiniowania akapitu, zdania, przerwania lub wstrzymania lub ciszy. Tekst można opakowować za pomocą tagów zdarzeń, takich jak zakładka lub viseme, które aplikacja przetwarza później.
Głosy usługi Azure AI Speech HD nie obsługują wszystkich elementów ani zdarzeń SSML, które obsługują inne głosy usługi Azure AI Speech. Szczególnie ważne jest, że głosy usługi Azure AI Speech HD nie obsługują zdarzeń granic słów.
Aby uzyskać szczegółowe informacje na temat obsługiwanych i nieobsługiwanych elementów SSML dla głosów usługi Azure AI Speech HD, zapoznaj się z poniższą tabelą. Aby uzyskać instrukcje dotyczące używania elementów SSML, zapoznaj się z dokumentacją języka SSML (Speech Synthesis Markup Language).
SSML, element | opis | Obsługiwane w głosach usługi Azure AI Speech HD |
---|---|---|
<voice> |
Określa efekty głosowe i opcjonalne (eq_car i eq_telecomhp8k ). |
Tak |
<mstts:express-as> |
Określa style i role mówiące. | Nie. |
<mstts:ttsembedding> |
Określa speakerProfileId właściwość dla osobistego głosu. |
Nie. |
<lang xml:lang> |
Określa język mówiący. | Tak |
<prosody> |
Dopasowuje wysokość, kontur, zakres, szybkość i objętość. | Nie. |
<emphasis> |
Dodaje lub usuwa stres na poziomie wyrazów dla tekstu. | Nie. |
<audio> |
Osadza wstępnie rozpoznany dźwięk w dokumencie SSML. | Nie. |
<mstts:audioduration> |
Określa czas trwania dźwięku wyjściowego. | Nie. |
<mstts:backgroundaudio> |
Dodaje dźwięk tła do dokumentów SSML lub miesza plik audio z tekstem do mowy. | Nie. |
<phoneme> |
Określa wymowę fonetyczną w dokumentach SSML. | Nie. |
<lexicon> |
Definiuje sposób odczytu wielu jednostek w języku SSML. | Tak (obsługuje tylko alias) |
<say-as> |
Wskazuje typ zawartości, taki jak liczba lub data, tekstu elementu. | Tak |
<sub> |
Wskazuje, że wartość tekstowa atrybutu aliasu powinna być wymawiana zamiast ujętego tekstu elementu. | Tak |
<math> |
Używa języka MathML jako tekstu wejściowego, aby prawidłowo wymawiać notacje matematyczne w wyjściowym dźwięku. | Nie. |
<bookmark> |
Pobiera przesunięcie każdego znacznika w strumieniu audio. | Nie. |
<break> |
Zastępuje domyślne zachowanie podziałów lub wstrzymuje się między wyrazami. | Nie. |
<mstts:silence> |
Wstawia wstrzymywanie przed tekstem lub po nim albo między dwoma sąsiednimi zdaniami. | Nie. |
<mstts:viseme> |
Definiuje położenie twarzy i ust, gdy osoba mówi. | Nie. |
<p> |
Określa akapity w dokumentach SSML. | Tak |
<s> |
Określa zdania w dokumentach SSML. | Tak |
Uwaga
Chociaż w poprzedniej sekcji tego przewodnika porównaliśmy również głosy usługi Azure AI Speech HD z głosami usługi Azure OpenAI HD, elementy SSML obsługiwane przez usługę Azure AI Speech nie mają zastosowania do głosów usługi Azure OpenAI.