Udostępnij za pośrednictwem


Co to są głosy o wysokiej rozdzielczości? (wersja zapoznawcza)

Uwaga

Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone. Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Usługa Azure AI Speech nadal rozwija się w dziedzinie technologii zamiany tekstu na mowę wraz z wprowadzeniem neuronowego tekstu do głosów o wysokiej rozdzielczości mowy (HD). Głosy HD mogą zrozumieć zawartość, automatycznie wykrywać emocje w tekście wejściowym i dostosowywać ton wypowiedzi w czasie rzeczywistym, aby dopasować ton do tonacji. Głosy HD utrzymują spójną osobę głosową od swoich odpowiedników neuronowych (i innych niż HD), a także zapewniają jeszcze większą wartość dzięki rozszerzonym funkcjom.

Kluczowe funkcje neuronowego tekstu na głosy mowy HD

Poniżej przedstawiono najważniejsze funkcje głosów usługi Azure AI Speech HD:

Kluczowe cechy i funkcje opis
Generowanie mowy podobnej do człowieka Neuronowy tekst na głosy HD mowy może generować bardzo naturalną i ludzką mowę. Model jest szkolony na miliony godzin wielojęzycznych danych, umożliwiając dokładne interpretowanie tekstu wejściowego i generowanie mowy przy użyciu odpowiednich emocji, tempa i rytmu bez ręcznych korekt.
Konwersacyjny Neuronowy tekst do mowy głosów HD może replikować naturalne wzorce mowy, w tym spontaniczne przerwy i naciski. W przypadku danego tekstu konwersacyjnego model może odtworzyć typowe fonezy, takie jak wstrzymywanie i wyrazy wypełniacza. Wygenerowany głos brzmi tak, jakby ktoś rozmawiał bezpośrednio z tobą.
Odmiany prosody Neuronowy tekst do mowy głosów HD wprowadza niewielkie różnice w poszczególnych danych wyjściowych w celu zwiększenia realizmu. Te odmiany sprawiają, że mowa brzmi bardziej naturalnie, ponieważ ludzkie głosy naturalnie wykazują zmienność.
Wysoka wierność Głównym celem neuronowego tekstu do mowy głosów HD jest generowanie dźwięku o wysokiej wierności. Syntetyczna mowa wytwarzana przez nasz system może ściśle naśladować ludzką mowę zarówno w jakości, jak i naturalności.
Kontrola wersji Dzięki neuronowemu tekstowi mowy głosom HD udostępniamy różne wersje tego samego głosu, z których każdy ma unikatowy rozmiar i przepis modelu podstawowego. Dzięki temu możesz doświadczyć nowych odmian głosowych lub kontynuować korzystanie z konkretnej wersji głosu.

Porównanie głosów usługi Azure AI Speech HD z innymi głosami zamiany tekstu na mowę na platformę Azure

W jaki sposób głosy usługi Mowa HD w usłudze Azure AI są porównywane z innymi głosami mowy na platformie Azure? Jak różnią się one pod względem funkcji i możliwości?

Poniżej przedstawiono porównanie funkcji między głosami usługi Azure AI Speech HD, głosami usługi Azure OpenAI HD i głosami usługi Azure AI Speech:

Funkcja Głosy usługi Azure AI Speech HD Głosy usługi Azure OpenAI HD Głosy mowy usługi Azure AI (nie HD)
Region Wschodnie stany USA, Azja Południowo-Wschodnia, Europa Zachodnia Północno-środkowe stany USA, Szwecja Środkowa Dostępne w kilkudziesięciu regionach. Zobacz listę regionów.
Liczba głosów 12 6 Więcej niż 500
Wielojęzyczny Nie (wykonaj tylko w języku podstawowym) Tak Tak (dotyczy tylko wielojęzycznych głosów)
Obsługa języka SSML Obsługa podzbioru elementów SSML. Obsługa podzbioru elementów SSML. Obsługa pełnego zestawu SSML w usłudze Azure AI Speech.
Opcje programowania Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST Zestaw SPEECH SDK, interfejs wiersza polecenia usługi Mowa, interfejs API REST
Opcje wdrożenia Tylko chmura Tylko chmura Chmura, osadzona, hybrydowa i kontenery.
Synteza w czasie rzeczywistym lub wsadowa Tylko w czasie rzeczywistym Synteza w czasie rzeczywistym i wsadowa Synteza w czasie rzeczywistym i wsadowa
Opóźnienie Mniej niż 300 ms Więcej niż 500 ms Mniej niż 300 ms
Częstotliwość próbkowania syntetyzowanego dźwięku 8, 16, 24 i 48 kHz 8, 16, 24 i 48 kHz 8, 16, 24 i 48 kHz
Format dźwięku wyjściowego mowy opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk opus, mp3, pcm, truesilk

Obsługiwane głosy usługi Azure AI Speech HD

Wartości głosowe usługi Azure AI Speech HD są w formacie voicename:basemodel:version. Nazwa przed dwukropkiem, taka jak en-US-Ava, jest nazwą osoby głosowej i jej oryginalnymi ustawieniami regionalnymi. Model podstawowy jest śledzony przez wersje w kolejnych aktualizacjach.

DragonHD Obecnie jest jedynym podstawowym modelem dostępnym dla głosów usługi Azure AI Speech HD. Aby upewnić się, że używasz najnowszej wersji modelu podstawowego, który udostępniamy bez konieczności wprowadzania zmian w kodzie, użyj LatestNeural wersji.

Na przykład dla osoby en-US-Ava można określić następujące wartości głosu HD:

  • en-US-Ava:DragonHDLatestNeural: Zawsze używa najnowszej wersji modelu podstawowego, który udostępniamy później.

W poniższej tabeli wymieniono głosy usługi Azure AI Speech HD, które są obecnie dostępne.

Persona neuronowego głosu Głosy HD
de-DE-Seraphina de-DE-Seraphina:DragonHDLatestNeural
en-US-Andrew en-US-Andrew:DragonHDLatestNeural
en-US-Andrew2 en-US-Andrew2:DragonHDLatestNeural
en-US-Aria en-US-Aria:DragonHDLatestNeural
en-US-Ava en-US-Ava:DragonHDLatestNeural
en-US-Brian en-US-Brian:DragonHDLatestNeural
en-US-Davis en-US-Davis:DragonHDLatestNeural
en-US-Emma en-US-Emma:DragonHDLatestNeural
en-US-Emma2 en-US-Emma2:DragonHDLatestNeural
en-US-Jenny en-US-Jenny:DragonHDLatestNeural
en-US-Steffan en-US-Steffan:DragonHDLatestNeural
ja-JP-Masaru ja-JP-Masaru:DragonHDLatestNeural
zh-CN-Xiaochen zh-CN-Xiaochen:DragonHDLatestNeural

Jak używać głosów usługi Azure AI Speech HD

Możesz używać głosów HD z tym samym zestawem SDK usługi Mowa i interfejsami API REST co głosy inne niż HD.

Poniżej przedstawiono kilka kluczowych kwestii, które należy wziąć pod uwagę podczas korzystania z głosów usługi Azure AI Speech HD:

  • Ustawienia regionalne głosu: ustawienia regionalne w nazwie głosu wskazują jego oryginalny język i region.
  • Modele podstawowe:
    • Głosy HD są wyposażone w model podstawowy, który rozumie tekst wejściowy i odpowiednio przewiduje wzorzec mówienia. Można określić żądany model (taki jak DragonHDLatestNeural) zgodnie z dostępnością każdego głosu.
  • Użycie SSML: aby odwołać się do głosu w języku SSML, użyj formatu voicename:basemodel:version. Nazwa przed dwukropkiem, taka jak de-DE-Seraphina, jest nazwą osoby głosowej i jej oryginalnymi ustawieniami regionalnymi. Model podstawowy jest śledzony przez wersje w kolejnych aktualizacjach.
  • Parametr temperatury:
    • Wartość temperatury jest zmiennoprzecinkowa z zakresu od 0 do 1, wpływając na losowość danych wyjściowych. Można również dostosować parametr temperatury, aby kontrolować zmienność danych wyjściowych. Mniej losowości daje bardziej stabilne wyniki, podczas gdy większa losowość oferuje różnorodność, ale mniejszą spójność.
    • Niższa temperatura skutkuje mniejszą losowością, co prowadzi do bardziej przewidywalnych danych wyjściowych. Wyższa temperatura zwiększa losowość, umożliwiając uzyskanie bardziej zróżnicowanych danych wyjściowych. Domyślna temperatura jest ustawiona na wartość 1.0.

Oto przykład użycia głosów usługi Azure AI Speech HD w języku SSML:

<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>

Obsługiwane i nieobsługiwane elementy SSML dla głosów usługi Azure AI Speech HD

Język znaczników syntezy mowy (SSML) z tekstem wejściowym określa strukturę, zawartość i inne cechy tekstu na dane wyjściowe mowy. Na przykład można użyć języka SSML do zdefiniowania akapitu, zdania, przerwania lub wstrzymania lub ciszy. Tekst można opakowować za pomocą tagów zdarzeń, takich jak zakładka lub viseme, które aplikacja przetwarza później.

Głosy usługi Azure AI Speech HD nie obsługują wszystkich elementów ani zdarzeń SSML, które obsługują inne głosy usługi Azure AI Speech. Szczególnie ważne jest, że głosy usługi Azure AI Speech HD nie obsługują zdarzeń granic słów.

Aby uzyskać szczegółowe informacje na temat obsługiwanych i nieobsługiwanych elementów SSML dla głosów usługi Azure AI Speech HD, zapoznaj się z poniższą tabelą. Aby uzyskać instrukcje dotyczące używania elementów SSML, zapoznaj się z dokumentacją języka SSML (Speech Synthesis Markup Language).

SSML, element opis Obsługiwane w głosach usługi Azure AI Speech HD
<voice> Określa efekty głosowe i opcjonalne (eq_car i eq_telecomhp8k). Tak
<mstts:express-as> Określa style i role mówiące. Nie.
<mstts:ttsembedding> Określa speakerProfileId właściwość dla osobistego głosu. Nie.
<lang xml:lang> Określa język mówiący. Tak
<prosody> Dopasowuje wysokość, kontur, zakres, szybkość i objętość. Nie.
<emphasis> Dodaje lub usuwa stres na poziomie wyrazów dla tekstu. Nie.
<audio> Osadza wstępnie rozpoznany dźwięk w dokumencie SSML. Nie.
<mstts:audioduration> Określa czas trwania dźwięku wyjściowego. Nie.
<mstts:backgroundaudio> Dodaje dźwięk tła do dokumentów SSML lub miesza plik audio z tekstem do mowy. Nie.
<phoneme> Określa wymowę fonetyczną w dokumentach SSML. Nie.
<lexicon> Definiuje sposób odczytu wielu jednostek w języku SSML. Tak (obsługuje tylko alias)
<say-as> Wskazuje typ zawartości, taki jak liczba lub data, tekstu elementu. Tak
<sub> Wskazuje, że wartość tekstowa atrybutu aliasu powinna być wymawiana zamiast ujętego tekstu elementu. Tak
<math> Używa języka MathML jako tekstu wejściowego, aby prawidłowo wymawiać notacje matematyczne w wyjściowym dźwięku. Nie.
<bookmark> Pobiera przesunięcie każdego znacznika w strumieniu audio. Nie.
<break> Zastępuje domyślne zachowanie podziałów lub wstrzymuje się między wyrazami. Nie.
<mstts:silence> Wstawia wstrzymywanie przed tekstem lub po nim albo między dwoma sąsiednimi zdaniami. Nie.
<mstts:viseme> Definiuje położenie twarzy i ust, gdy osoba mówi. Nie.
<p> Określa akapity w dokumentach SSML. Tak
<s> Określa zdania w dokumentach SSML. Tak

Uwaga

Chociaż w poprzedniej sekcji tego przewodnika porównaliśmy również głosy usługi Azure AI Speech HD z głosami usługi Azure OpenAI HD, elementy SSML obsługiwane przez usługę Azure AI Speech nie mają zastosowania do głosów usługi Azure OpenAI.