Übersicht zu Text-zu-Sprache-Avataren

Artikel
01/13/2025

Der Text-zu-Sprache-Avatar wandelt Text in ein digitales Video eines fotorealistischen Menschen (entweder ein vorgefertigter Avatar oder ein benutzerdefinierter Text-zu-Sprache-Avatar) um, der mit einer natürlich klingenden Stimme spricht. Der Text zu Sprach-Avatarvideo kann asynchron oder in Echtzeit synthetisiert werden. Entwickler können Anwendungen erstellen, die in den Text-zu-Sprache-Avatar integriert sind, über eine API oder mithilfe eines Inhaltserstellungstools in Speech Studio Videoinhalte ohne Codierung erstellen.

Mit den fortschrittlichen neuronalen Netzwerkmodellen des Text-zu-Sprache-Avatars können Benutzer*innen lebensechte und qualitativ hochwertige synthetische sprechende Avatar-Videos für verschiedene Anwendungen erstellen und dabei verantwortungsvolle KI-Praktiken einhalten.

Tipp

Um Text in Sprache mit einem codefreien Ansatz zu konvertieren, probieren Sie das Tool Text-zu-Sprache-Avatar in Speech Studioaus.

Avatarfunktionen

Zu den Funktionen von Sprachsynthese-Avataren gehören:

Wandelt Text in ein digitales Video eines fotorealistischen Menschen um, der mit natürlich klingenden Stimmen spricht, die von Azure KI-Text-zu-Sprache unterstützt werden.
Stellt eine Sammlung vordefinierter Avatare bereit.
Die Stimme des Avatars wird von Azure KI-Text-zu-Sprache generiert. Weitere Informationen finden Sie unter Avatarstimme und -sprache.
Synthetisiert Text-in-Sprache-Avatar-Video asynchron mit der Batchsynthese-API oder in Echtzeit.
Stellt ein Tool zum Erstellen von Inhalten in Speech Studio zum Erstellen von Videoinhalten ohne Codierung bereit.
Ermöglicht Echtzeit-Avatarunterhaltungen über das Tool „Live-Chat-Avatar“ in Speech Studio.

Mit den fortschrittlichen neuronalen Netzwerkmodellen des Text-zu-Sprache-Avatars können Sie lebensechte und qualitativ hochwertige synthetische sprechende Avatar-Videos für verschiedene Anwendungen erstellen und dabei verantwortungsvolle KI-Praktiken einhalten.

Avatarstimme und -sprache

Sie können aus einer Reihe vordefinierter Stimmen für den Avatar auswählen. Die Sprachunterstützung für Text-zu-Sprache-Avatar ist identisch mit der Sprachunterstützung für Text-zu-Sprache. Informationen zum Überprüfen der Unterstützung finden Sie unter Sprach- und Stimmunterstützung für den Speech-Dienst. Über das Speech Studio-Portal oder über die API können Sie auf vordefinierte Text-zu-Sprache-Avatare zugreifen.

Die Stimme im synthetischen Video könnte eine vorgefertigte neurale Stimme sein, die in Azure KI Speech oder der von Ihnen ausgewählten benutzerdefinierten neuralen Stimme des Sprachtalents verfügbar ist.

Avatar-Videoausgabe

Sowohl die Batchsynthese als auch die Echtzeitsyntheseauflösung sind 1920 x 1080, und die Frames pro Sekunde (FPS) sind 25. Batchsynthesecodec kann h264, hevc oder av1 sein, wenn das Format mp4 ist und Codec als vp9 oder av1 festlegen kann, wenn das Format webm ist; nur vp9 kann einen Alphakanal enthalten. Der Echtzeitsynthesecodec ist h264. Videobitrate kann sowohl für die Batchsynthese als auch für die Echtzeitsynthese in der Anforderung konfiguriert werden; Der Standardwert ist 2000000; Ausführlichere Konfigurationen finden Sie im Beispielcode.

	Batchsynthese	Echtzeitsynthese
Lösung	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

Benutzerdefinierte Sprachsynthese

Sie können benutzerdefinierten Text-zu-Sprache-Avatare erstellen, die für Ihr Produkt oder Ihre Marke einzigartig sind. Alles, was für die ersten Schritte notwendig sind, sind 10 Minuten Videoaufzeichnungen. Wenn Sie auch eine benutzerdefinierte neurale Stimme für den Akteur erstellen, kann der Avatar sehr realistisch sein. Weitere Informationen finden Sie unter Was ist ein benutzerdefinierter Text-zu-Sprache-Avatar?.

Benutzerdefinierte neurale Stimme und benutzerdefinierter Text-zu-Sprache-Avatar sind separate Features. Sie können Sie gemeinsam oder unabhängig voneinander verwenden. Wenn Sie auch eine benutzerdefinierte neuronale Stimme für einen Text-zu-Sprache-Avatar verwenden möchten, müssen Sie Ihr benutzerdefiniertes neurales Stimmmodell in einer der für Avatare unterstützten Regionen bereitstellen oder dorthin kopieren.

Beispielcode

Beispielcode für den Text-zu-Sprache-Avatar finden Sie auf GitHub. In diesen Beispielen werden die am häufigsten verwendeten Szenarien behandelt:

Batchsynthese (REST)
Echtzeitsynthese (SDK)
Live-Chat mit Azure OpenAI in Behind (SDK)
Um eine Live-Chat-APP mit Azure OpenAI On Your Data zu erstellen, können Sie auf diesen Beispielcode zurückgreifen (suchen Sie „On Your Data“)

Preiskalkulation

Während einer Avatar-Echtzeitsitzung oder batchbasierten Inhaltserstellung werden die Sprachsynthese-, Spracherkennung-, Azure OpenAI- oder anderen Azure-Dienste separat berechnet.
Informationen zur Abrechnung der Funktion „Text-zu-Sprache-Avatar“ finden Sie im Preishinweis für Text-zu-Sprache-Avatare.
Ausführliche Preisinformationen finden Sie unter Azure KI Speech – Preise. Beachten Sie, dass die Preise für den Avatar nur für Dienstregionen sichtbar sind, in denen das Feature verfügbar ist, einschließlich „Asien, Südosten“, „Europa, Norden“, „Europa, Westen“, „Schweden, Mitte“, „USA, Süden-Mitte“, „USA, Osten 2“ und „USA, Westen 2“.

Verfügbar Speicherorte

Das Feature für den Text-zu-Sprache-Avatar ist nur in den folgenden Dienstregionen verfügbar: „Asien, Südosten“, „Europa, Norden“, „Europa, Westen“, „Schweden, Mitte“, „USA, Süden-Mitte“, „USA, Osten 2“ und „USA, Westen 2“.

Verantwortungsvolle KI

Wir kümmern uns um die Menschen, die KI und die Menschen nutzen, die davon betroffen sein werden, so viel wie wir uns um Technologie kümmern. Weitere Informationen finden Sie in den Transparenzhinweisen und der Offenlegung des Sprach- und Avatar-Talents von Verantwortlichen KI.

Freigeben über