Omówienie awatara zamiany tekstu na mowę

Artykuł
01/13/2025

Awatar zamiany tekstu na mowę konwertuje tekst na cyfrowy film fotorealistycznego człowieka (wstępnie utworzonego awatara lub niestandardowego tekstu na awatar mowy) mówiącego z głosem naturalnie brzmiącym. Tekst do mowy awatar wideo może być syntetyzowany asynchronicznie lub w czasie rzeczywistym. Deweloperzy mogą tworzyć aplikacje zintegrowane z tekstem do awatara mowy za pośrednictwem interfejsu API lub za pomocą narzędzia do tworzenia zawartości w usłudze Speech Studio do tworzenia zawartości wideo bez kodowania.

Dzięki zaawansowanym modelom sieci neuronowej awatara zamiany tekstu na mowę funkcja ta umożliwia użytkownikom dostarczanie filmów awatarów syntetycznych o wysokiej jakości i podobnych do życia w różnych aplikacjach przy jednoczesnym przestrzeganiu odpowiedzialnych praktyk sztucznej inteligencji.

Napiwek

Aby przekonwertować tekst na mowę przy użyciu podejścia bez kodu, wypróbuj narzędzie Awatar zamiany tekstu na mowę w programie Speech Studio.

Możliwości awatara

Funkcje awatara zamiany tekstu na mowę obejmują:

Konwertuje tekst na cyfrowy film wideo fotorealistycznego człowieka mówiącego z naturalnie brzmiącymi głosami obsługiwanymi przez tekst sztucznej inteligencji platformy Azure na mowę.
Udostępnia kolekcję wstępnie utworzonych awatarów.
Głos awatara jest generowany przez tekst sztucznej inteligencji platformy Azure na mowę. Aby uzyskać więcej informacji, zobacz Avatar voice and language (Głos awatara i język).
Syntetyzuje tekst do wideo awatara mowy asynchronicznie za pomocą interfejsu API syntezy wsadowej lub w czasie rzeczywistym.
Udostępnia narzędzie do tworzenia zawartości w programie Speech Studio do tworzenia zawartości wideo bez kodowania.
Umożliwia konwersacje awatara w czasie rzeczywistym za pośrednictwem narzędzia awatara czatu na żywo w usłudze Speech Studio.

Dzięki zaawansowanym modelom sieci neuronowej awatara zamiany tekstu na mowę funkcja ta umożliwia dostarczanie filmów wideo z syntetycznymi awatarami o wysokiej jakości i jakości dla różnych aplikacji przy jednoczesnym przestrzeganiu odpowiedzialnych praktyk sztucznej inteligencji.

Głos awatara i język

Możesz wybrać spośród wielu wstępnie utworzonych głosów dla awatara. Obsługa języka tekstu na awatar mowy jest taka sama jak obsługa języka zamiany tekstu na mowę. Aby uzyskać szczegółowe informacje, zobacz Obsługa języka i głosu dla usługi Mowa. Dostęp do wstępnie utworzonego tekstu do awatarów mowy można uzyskać za pośrednictwem portalu usługi Speech Studio lub za pośrednictwem interfejsu API.

Głos w syntetycznym wideo może być wstępnie utworzonym neuronowym głosem dostępnym w usłudze Azure AI Speech lub niestandardowym neuronowym głosem talentów głosowych wybranych przez Ciebie.

Dane wyjściowe wideo awatara

Zarówno synteza wsadowa, jak i rozdzielczość syntezy w czasie rzeczywistym to 1920 x 1080, a ramki na sekundę (FPS) to 25. Koder syntezy wsadowej może być h264, hevc lub av1, jeśli format jest mp4 i może ustawić koder koderowy jako vp9 lub av1, jeśli format to webm; tylko vp9 może zawierać kanał alfa. Koder syntezy w czasie rzeczywistym to h264. Szybkość transmisji bitów wideo można skonfigurować zarówno na potrzeby syntezy wsadowej, jak i syntezy w czasie rzeczywistym w żądaniu; wartość domyślna to 20000000; Bardziej szczegółowe konfiguracje można znaleźć w przykładowym kodzie.

	Synteza wsadowa	Synteza w czasie rzeczywistym
Rozwiązanie	1920 x 1080	1920 x 1080
FPS	25	25
Kodek	h264/hevc/vp9/av1	h264

Niestandardowy tekst do awatara mowy

Możesz utworzyć niestandardowy tekst do awatarów mowy, które są unikatowe dla twojego produktu lub marki. Rozpoczęcie pracy zajmuje 10 minut nagrań wideo. Jeśli tworzysz również niestandardowy neuronowy głos dla aktora, awatar może być bardzo realistyczny. Aby uzyskać więcej informacji, zobacz Co to jest niestandardowy tekst na awatar mowy.

Niestandardowy neuronowy głos i niestandardowy tekst na awatar mowy są oddzielnymi funkcjami. Można ich używać niezależnie lub razem. Jeśli planujesz również używać niestandardowego neuronowego głosu z tekstem do awatara mowy, musisz wdrożyć lub skopiować niestandardowy model neuronowego głosu do jednego z obsługiwanych regionów awatara.

Przykładowy kod

Przykładowy kod dla awatara zamiany tekstu na mowę jest dostępny w witrynie GitHub. Te przykłady obejmują najbardziej popularne scenariusze:

Synteza wsadowa (REST)
Synteza w czasie rzeczywistym (SDK)
Czat na żywo z usługą Azure OpenAI w tle (SDK)
Aby utworzyć aplikację czatu na żywo za pomocą usługi Azure OpenAI On Your Data, możesz zapoznać się z tym przykładowym kodem (wyszukaj frazę "W danych")

Cennik

W trakcie sesji awatara w czasie rzeczywistym lub tworzenia zawartości wsadowej opłaty są naliczane oddzielnie za zamianę tekstu na mowę, mowę na tekst, usługę Azure OpenAI lub inne usługi platformy Azure.
Zapoznaj się z informacjami o cenach awatara mowy, aby dowiedzieć się, jak działa rozliczenia dla funkcji awatara zamiany tekstu na mowę.
Aby uzyskać szczegółowe informacje o cenach, zobacz Cennik usługi Mowa. Należy pamiętać, że cennik awatara będzie widoczny tylko dla regionów usługi, w których ta funkcja jest dostępna, w tym Azji Południowo-Wschodniej, Europy Północnej, Europy Zachodniej, Szwecji Środkowej, Południowo-środkowych stanów USA, Wschodnie stany USA 2 i Zachodnie stany USA 2.

Dostępne lokalizacje

Funkcja awatara zamiany tekstu na mowę jest dostępna tylko w następujących regionach usługi: Azja Południowo-Wschodnia, Europa Północna, Europa Zachodnia, Szwecja Środkowa, Południowo-środkowe stany USA, Wschodnie stany USA 2 i Zachodnie stany USA 2.

Odpowiedzialne AI

Zależy nam na osobach korzystających ze sztucznej inteligencji i ludzi, którzy będą na nią wpływać tak samo, jak zależy nam na technologii. Aby uzyskać więcej informacji, zobacz Informacje o przejrzystości odpowiedzialnej sztucznej inteligencji i ujawnianie talentów głosowych i awatarów.

Udostępnij za pośrednictwem