Was sind High-Definition-Stimmen? (Vorschau)
Hinweis
Dieses Feature ist zurzeit als öffentliche Preview verfügbar. Diese Vorschauversion wird ohne Vereinbarung zum Servicelevel bereitgestellt und sollte nicht für Produktionsworkloads verwendet werden. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.
Die Einführung neuronaler HD-Stimmen (High Definition) für die Sprachsynthese zeigt, wie sich Azure KI Speech im Bereich der Sprachsynthesetechnologie immer weiter entwickelt. Die HD-Stimmen können den Inhalt verstehen, automatisch Emotionen im Eingabetext erkennen und die Sprechweise in Echtzeit an die Stimmung anpassen. HD-Stimmen behalten eine konsistente Sprachpersona im Vergleich zu ihren neuronalen Gegenstücken (nicht HD) bei und bieten durch erweiterte Funktionen einen noch höheren Mehrwert.
Zentrale Features neuronaler HD-Stimmen für die Sprachsynthese
Hier finden Sie die zentralen Features der HD-Stimmen von Azure KI Speech:
Schlüsselfunktionen | Beschreibung |
---|---|
Generierung menschenähnlicher Sprache | Neuronale HD-Stimmen für die Sprachsynthese können eine sehr natürliche und menschenähnliche Sprache generieren. Das Modell wird mit Millionen von Stunden mehrsprachiger Daten trainiert. Dadurch ist es in der Lage, Eingabetext korrekt zu interpretieren und Sprache mit passender Emotion sowie mit passendem Tempo und Rhythmus zu generieren – ganz ohne manuelle Anpassungen. |
Konversation | Neuronale HD-Stimmen für die Sprachsynthese können natürliche Sprachmuster replizieren, einschließlich spontaner Pausen und Betonungen. Bei Konversationstext kann das Modell gängige Phoneme wie Pausen und Füllwörter reproduzieren. Die generierte Stimme klingt so, als ob sich jemand direkt mit Ihnen unterhält. |
Prosodievariationen | Bei neuronalen HD-Stimmen für die Sprachsynthese gibt es leichte Variationen in jeder Ausgabe, um noch realistischer zu wirken. Durch diese Variationen klingt die Sprache natürlicher, da menschliche Stimmen natürliche Variationen aufweisen. |
High Fidelity | Das Hauptziel neuronaler HD-Stimmen für die Sprachsynthese ist die Generierung von High Fidelity-Audio. Die synthetische Sprache, die von unserem System produziert wird, kann menschliche Sprache qualitativ hochwertig und mit natürlichem Klang imitieren. |
Version control (Versionskontrolle) | Mit neuronalen HD-Stimmen für die Sprachsynthese veröffentlichen wir unterschiedliche Versionen der gleichen Stimme, die jeweils über eine individuelle Basismodellgröße und über ein individuelles Rezept verfügen. Dadurch können Sie neue Stimmvarianten erleben oder weiterhin eine bestimmte Version einer Stimme verwenden. |
Vergleich der HD-Stimmen von Azure KI Speech mit anderen Azure-Stimmen für die Sprachsynthese
Inwiefern unterscheiden sich HD-Stimmen von Azure KI Speech von anderen Azure-Stimmen für die Sprachsynthese? Welche Unterschiede gibt es bei Features und Funktionen?
Hier sehen Sie einen Vergleich der Features der HD-Stimmen von Azure KI Speech, der HD-Stimmen von Azure OpenAI und der Stimmen von Azure KI Speech:
Funktion | HD-Stimmen von Azure KI Speech | HD-Stimmen von Azure OpenAI | Stimmen von Azure KI Speech (kein HD) |
---|---|---|---|
Region | „USA, Osten“, „Asien, Südosten“, „Europa, Westen“ | „USA, Norden-Mitte“, „Schweden, Mitte“ | In Dutzenden Regionen verfügbar. Weitere Informationen finden Sie in der Regionsliste. |
Anzahl von Stimmen | 12 | 6 | Mehr als 500 |
Mehrsprachig | Nein (nur für primäre Sprache) | Ja | Ja (nur bei mehrsprachigen Stimmen) |
SSML-Unterstützung | Unterstützung einer Teilmenge von SSML-Elementen. | Unterstützung einer Teilmenge von SSML-Elementen. | Unterstützung aller SSML-Elemente in Azure KI Speech. |
Entwicklungsoptionen | Speech SDK, Speech-CLI, REST-API | Speech SDK, Speech-CLI, REST-API | Speech SDK, Speech-CLI, REST-API |
Bereitstellungsoptionen | Nur Cloud | Nur Cloud | Cloud, eingebettet, hybrid und Container. |
Echtzeit- oder Batchsynthese | Nur Echtzeit | Echtzeit- und Batchsynthese | Echtzeit- und Batchsynthese |
Latenz | Weniger als 300 ms | Mehr als 500 ms | Weniger als 300 ms |
Abtastrate von synthetisierten Audio | 8, 16, 24 und 48 kHz | 8, 16, 24 und 48 kHz | 8, 16, 24 und 48 kHz |
Audioformat der Sprachausgabe | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk | opus, mp3, pcm, truesilk |
Unterstützte HD-Stimmen von Azure KI Speech
Die Werte der HD-Stimmen von Azure KI Speech haben das Format voicename:basemodel:version
. Bei dem Namen vor dem Doppelpunkt (z. B. en-US-Ava
) handelt es sich um den Namen der Stimmpersona und um das ursprüngliche Gebietsschema. Das Basismodell wird in nachfolgenden Updates anhand von Versionen nachverfolgt.
Derzeit ist DragonHD
das einzige Basismodell, das für HD-Stimmen von Azure KI Speech verfügbar ist. Verwenden Sie die Version LatestNeural
, um sicherzustellen, dass Sie die neueste Version des von uns bereitgestellten Basismodells verwenden, ohne Codeänderungen vornehmen zu müssen.
Für die Persona en-US-Ava
können Sie beispielsweise die folgenden HD-Stimmenwerte angeben:
en-US-Ava:DragonHDLatestNeural
: Verwendet immer die neueste Version des Basismodells, das wir später bereitstellen.
Die folgende Tabelle enthält die derzeit verfügbaren HD-Stimmen von Azure KI Speech:
Persona der neuronalen Stimme | HD-Stimmen |
---|---|
de-DE-Seraphina | de-DE-Seraphina:DragonHDLatestNeural |
en-US-Andrew | en-US-Andrew:DragonHDLatestNeural |
en-US-Andrew2 | en-US-Andrew2:DragonHDLatestNeural |
en-US-Aria | en-US-Aria:DragonHDLatestNeural |
en-US-Ava | en-US-Ava:DragonHDLatestNeural |
en-US-Brian | en-US-Brian:DragonHDLatestNeural |
en-US-Davis | en-US-Davis:DragonHDLatestNeural |
en-US-Emma | en-US-Emma:DragonHDLatestNeural |
en-US-Emma2 | en-US-Emma2:DragonHDLatestNeural |
en-US-Jenny | en-US-Jenny:DragonHDLatestNeural |
en-US-Steffan | en-US-Steffan:DragonHDLatestNeural |
ja-JP-Masaru | ja-JP-Masaru:DragonHDLatestNeural |
zh-CN-Xiaochen | zh-CN-Xiaochen:DragonHDLatestNeural |
Verwenden der HD-Stimmen von Azure KI Speech
Sie können HD-Stimmen mit dem gleichen Speech SDK und den gleichen REST-APIs verwenden wie Stimmen ohne HD.
Hier sind einige wichtige Punkte, die bei der Verwendung der HD-Stimmen von Azure KI Speech zu berücksichtigen sind:
- Gebietsschema der Stimme: Das Gebietsschema im Namen der Stimme gibt die ursprüngliche Sprache und Region an.
- Basismodelle:
- HD-Stimmen verfügen über ein Basismodell, das den Eingabetext versteht und das passende Sprechmuster vorhersagt. Sie können das gewünschte Modell (z. B. DragonHDLatestNeural) entsprechend der Verfügbarkeit der einzelnen Stimmen angeben.
- SSML-Verwendung: Verwenden Sie das Format
voicename:basemodel:version
, um auf eine Stimme in SSML zu verweisen. Bei dem Namen vor dem Doppelpunkt (z. B.de-DE-Seraphina
) handelt es sich um den Namen der Stimmpersona und um das ursprüngliche Gebietsschema. Das Basismodell wird in nachfolgenden Updates anhand von Versionen nachverfolgt. - Temperaturparameter:
- Der Temperaturwert ist ein Gleitkommawert zwischen 0 und 1, der die Zufälligkeit der Ausgabe beeinflusst. Sie können den Temperaturparameter auch anpassen, um die Variation von Ausgaben zu steuern. Weniger Zufälligkeit liefert stabilere Ergebnisse. Mehr Zufälligkeit führt zu mehr Vielfalt, bietet aber weniger Konsistenz.
- Eine niedrigere Temperatur führt zu weniger Zufälligkeit, was besser vorhersagbare Ausgaben zur Folge hat. Eine höhere Temperatur erhöht die Zufälligkeit, was vielfältigere Ausgaben ermöglicht. Die Standardtemperatur ist auf 1,0 festgelegt.
Hier sehen Sie ein Beispiel für die Verwendung der HD-Stimmen von Azure KI Speech in SSML:
<speak version='1.0' xmlns='http://www.w3.org/2001/10/synthesis' xmlns:mstts='https://www.w3.org/2001/mstts' xml:lang='en-US'>
<voice name='en-US-Ava:DragonHDLatestNeural' parameters='temperature=0.8'>Here is a test</voice>
</speak>
Unterstützte und nicht unterstützte SSML-Elemente für HD-Stimmen von Azure KI Speech
Die Speech Synthesis Markup Language (SSML) mit Eingabetext bestimmt die Struktur, den Inhalt und andere Merkmale der Sprachsynthese-Ausgabe. Beispielsweise können Sie mit SSML einen Absatz, einen Satz, eine Unterbrechung bzw. eine Pause oder Stille definieren. Sie können Text in Ereignistags wie Lesezeichen oder viseme einschließen, die später von Ihrer Anwendung verarbeitet werden können.
Die HD-Stimmen von Azure KI Speech unterstützen nicht alle SSML-Elemente oder -Ereignisse, die von anderen Azure KI Speech-Stimmen unterstützt werden. HD-Stimmen von Azure KI Speech unterstützen insbesondere keine Ereignisse bei Wortgrenzen.
Ausführliche Informationen zu den unterstützten und nicht unterstützten SSML-Elementen für HD-Stimmen von Azure KI Speech finden Sie in der folgenden Tabelle. Eine Anleitung für die Verwendung von SSML-Elementen finden Sie in der Dokumentation zur Sprachsynthese-Markupsprache (Speech Synthesis Markup Language, SSML).
SSML-Element | Beschreibung | Unterstützt in HD-Stimmen von Azure KI Speech |
---|---|---|
<voice> |
Gibt die Sprach- und optionalen Effekte an (eq_car und eq_telecomhp8k ). |
Ja |
<mstts:express-as> |
Gibt Sprechstile und Rollen an. | No |
<mstts:ttsembedding> |
Gibt die speakerProfileId -Eigenschaft für eine persönliche Stimme an. |
No |
<lang xml:lang> |
Gibt die gesprochene Sprache an. | Ja |
<prosody> |
Passt Tonhöhe, Kontur, Bereich, Rate und Lautstärke an. | No |
<emphasis> |
Fügt Betonung auf Wortebene für den Text hinzu oder entfernt sie. | No |
<audio> |
Fügt vorab aufgezeichnete Audiodaten in ein SSML-Dokument ein. | No |
<mstts:audioduration> |
Gibt die Dauer der Audioausgabe an. | No |
<mstts:backgroundaudio> |
Fügt Hintergrundaudioaufnahmen zu Ihren SSML-Dokumenten hinzu oder mischt eine Audiodatei mit Text-zu-Sprache. | No |
<phoneme> |
Gibt die phonetische Aussprache in SSML-Dokumenten an. | No |
<lexicon> |
Definiert, wie mehrere Entitäten in SSML gelesen werden. | Ja (nur Aliasunterstützung) |
<say-as> |
Gibt den Inhaltstyp, z. B. Zahl oder Datum, für den Text des Elements an. | Ja |
<sub> |
Gibt den Textwert des Aliasattributs anstelle des eingeschlossenen Texts des Elements an, der ausgesprochen werden soll. | Ja |
<math> |
Verwendet MathML als Eingabetext, um mathematische Notationen in der Audioausgabe ordnungsgemäß auszusprechen. | No |
<bookmark> |
Ruft den Offset der einzelnen Markierungen im Audiodatenstrom ab. | No |
<break> |
Setzt das Standardverhalten von Unterbrechungen oder Pausen zwischen Wörtern außer Kraft. | No |
<mstts:silence> |
Fügt eine Pause vor oder nach dem Text oder zwischen zwei aufeinander folgenden Sätzen ein. | No |
<mstts:viseme> |
Bestimmt die Position des Gesichts und des Mundes, während eine Person spricht. | No |
<p> |
Gibt Absätze in SSML-Dokumenten an. | Ja |
<s> |
Gibt Sätze in SSML-Dokumenten an. | Ja |
Hinweis
Weiter oben wurden HD-Stimmen von Azure KI Speech zwar auch mit HD-Stimmen von Azure OpenAI verglichen, die von Azure KI Speech unterstützten SSML-Elemente sind jedoch nicht auf Azure OpenAI-Stimmen übertragbar.