Übersicht über SSML (Speech Synthesis Markup Language, Markupsprache für Sprachsynthese)

Artikel
03/10/2025

SSML (Speech Synthesis Markup Language) ist eine XML-basierte Markupsprache, die Sie zum Optimieren der Sprachsynthese-Ausgabeattribute wie u. a. Tonhöhe, Aussprache, Sprechtempo und Lautstärke verwenden können. Sie bietet Ihnen mehr Kontrolle und Flexibilität als Nur-Text-Eingaben.

Tipp

Im Stimmkatalog können Sie Stimmen in verschiedenen Stilen und Tonhöhen hören, die einen Beispieltext vorlesen.

Anwendungsfälle

SSML wurde entwickelt, damit Sie flexibel entscheiden können, wie Ihre Sprachausgabe klingen soll, und bietet unterschiedliche Eigenschaften zum Anpassen dieser Ausgabe. Sie können SSML für Folgendes verwenden:

Definieren der Eingabetextstruktur, die Struktur, Inhalt und andere Merkmale Ihrer Sprachsynthese-Ausgabe bestimmt. Beispielsweise können Sie mit SSML einen Absatz, einen Satz, eine Unterbrechung bzw. eine Pause oder Stille definieren. Sie können Text mit Ereignistags wie einem Lesezeichen oder Mundbild (engl. viseme) umschließen, den Ihre Anwendung später verarbeiten kann. Ein „Mundbild“ ist die visuelle Beschreibung eines Phonems (der einzelnen Sprechlaute) in der gesprochenen Sprache.
Wählen Sie Stimme, Sprache, Name, Stil und Rolle aus. Sie können in einem einzelnen SSML-Dokument mehrere Stimmen verwenden. Zudem können Sie Betonung, Sprechtempo, Tonhöhe und Lautstärke anpassen. Mit SSML können außerdem vorab aufgezeichnete Audiodaten, z. B. einen Soundeffekt oder eine Musiknote, eingefügt werden.
Steuern der Aussprache des Ausgabeaudios. Beispielsweise können Sie SSML mit Phonemen und einem benutzerdefinierten Lexikon einsetzen, um die Aussprache zu verbessern. Sie können mithilfe von SSML auch festlegen, wie ein Wort oder ein mathematischer Ausdruck ausgesprochen wird.

Möglichkeiten zum Arbeiten mit SSML

SSML-Funktionen sind in verschiedenen Tools verfügbar, die für Ihren Anwendungsfall geeignet sein können.

Wichtig

Ihnen wird jedes in Sprache umgewandelte Zeichen in Rechnung gestellt, auch Satzzeichen. Obwohl das SSML-Dokument selbst nicht abrechenbar ist, zählt der Dienst optionale Elemente, mit denen Sie die Umwandlung des Textes in Sprache anpassen, wie Phoneme und Tonhöhe, als abrechenbare Zeichen. Weitere Informationen hierzu finden Sie in der Preisübersicht.

Sie können SSML auf folgende Weisen verwenden:

Mithilfe des Tools zur Audioinhaltserstellung können Sie Nur-Text und SSML in Speech Studio erstellen. Sie können die Audioausgabe hören und die SSML anpassen, um die Sprachsynthese zu verbessern. Weitere Informationen finden Sie unter Sprachsynthese mit dem Tool zur Audioinhaltserstellung.
Die Batch-Synthese-API akzeptiert SSML über die Eigenschaft inputs.
Die Speech CLI akzeptiert SSML über das Befehlszeilenargument spx synthesize --ssml SSML.
Das Speech SDK akzeptiert SSML über die SSML-Methode „speak“ in den verschiedenen unterstützten Sprachen.

Freigeben über

Übersicht über SSML (Speech Synthesis Markup Language, Markupsprache für Sprachsynthese)

Anwendungsfälle

Möglichkeiten zum Arbeiten mit SSML

Nächste Schritte

Feedback

Zusätzliche Ressourcen