Was ist Speech Studio?

Artikel
03/10/2025

Speech Studio umfasst eine Reihe von benutzeroberflächenbasierten Tools, mit denen Sie Features aus dem Azure KI Speech-Dienst erstellen und in Ihre Anwendungen integrieren können. Sie erstellen Projekte in Speech Studio mithilfe eines Ansatzes ohne Code und verweisen dann mithilfe des Speech SDK, der Speech CLI oder verschiedener REST-APIs auf die Ressourcen in Ihren Anwendungen.

Tipp

Sie können im Azure KI Foundry-Portal die Funktionen für Spracherkennung und Sprachsynthese auch ausprobieren, ohne sich anzumelden oder Code zu schreiben.

Speech Studio-Szenarien

Nutzen Sie die Möglichkeit, Beispielcode für einige gängige Anwendungsfälle zu erkunden, zu testen und anzuzeigen.

Untertitelung: Wählen Sie ein Beispielvideoclip aus, um die Ergebnisse einer in Echtzeit oder offline verarbeiteten Untertitelung anzuzeigen. Sie können Untertitel mit Ihrer Audioeingabe synchronisieren, Filter für anstößige Ausdrücke anwenden, Teilergebnisse abrufen, Anpassungen vornehmen und gesprochene Sprachen in mehrsprachigen Szenarien identifizieren. Weitere Informationen finden Sie im Schnellstart für die Untertitelung.
Callcenter: Erfahren Sie in einer Demo, wie Sie die Sie die Language- und Speech-Dienste zur Analyse von Callcentergesprächen nutzen können. Transkribieren Sie Anrufe in Echtzeit, verarbeiten Sie einen Batch von Anrufen, redigieren Sie personenbezogene Informationen, und extrahieren Sie Erkenntnisse wie die Stimmung, um die Arbeit Ihres Callcenters zu unterstützen. Weitere Informationen finden Sie im Schnellstart zum Callcenter.

Eine Demonstration dieser Szenarien im Speech Studio finden Sie in diesem Einführungsvideo.

Speech Studio-Features

Die folgenden Features des Speech-Diensts sind als Projekttypen in Speech Studio verfügbar.

Spracherkennung in Echtzeit: Testen Sie schnell die Spracherkennung, indem Sie Audiodateien hierhin ziehen, ohne Code verwenden zu müssen. Speech Studio enthält ein Demotool, mit dem Sie sehen können, wie die Spracherkennung für Ihre Audiostichproben funktioniert. Den vollen Funktionsumfang können Sie unter Was ist Spracherkennung nachlesen.
Batch Spracherkennung: Testen Sie schnell die Batchtranskriptionsfunktionen, um eine große Menge an Audio im Speicher zu transkribieren und Ergebnisse asynchron zu empfangen. Weitere Informationen zur Batch Spracherkennung finden Sie unter Batch Spracherkennung – Übersicht.
Custom Speech: Erstellen Sie Spracherkennungsmodelle, die auf bestimmte Vokabularsätze und Sprechstile zugeschnitten sind. Im Gegensatz zur Verwendung eines Basismodells für die Spracherkennung werden Custom Speech-Modelle Teil Ihres einzigartigen Wettbewerbsvorteils, da sie nicht öffentlich zugänglich sind. Weitere Informationen über das Hochladen von Audiobeispielen zur Erstellung eines benutzerdefinierten Sprachmodells finden Sie unter Hochladen von Schulungs- und Testdatensätzen.
Die Aussprachebewertung bewertet die Aussprache und gibt den Rednern Feedback zur Genauigkeit und zum Redefluss der gesprochenen Audioinformationen. Speech Studio stellt eine Sandbox zum schnellen Testen dieses Features ohne Code zur Verfügung. Informationen zur Verwendung des Features mit dem Speech SDK in Ihren Anwendungen finden Sie im Artikel Aussprachebewertung.
Sprachübersetzung: Testen und übersetzen Sie Sprache schnell und mit geringer Latenz in andere Sprachen Ihrer Wahl. Den vollen Funktionsumfang können Sie unter Was ist Sprachübersetzung nachlesen.
Sprachkatalog: Erstellen Sie Apps und Dienste, die eine natürliche Sprache verwenden. Wählen Sie aus einem umfangreichen Portfolio von Sprachen, Stimmen und Varianten aus. Erwecken Sie Ihre Szenarios mit sehr ausdrucksstarken und menschenähnlichen neuronalen Stimmen zum Leben.
Custom Voice: Erstellen Sie benutzerdefinierte, einzigartige Stimmen für die Spracherkennung. Sie stellen Audiodateien zur Verfügung, erstellen übereinstimmende Transkriptionen in Speech Studio und verwenden dann die benutzerdefinierten Stimmen in Ihren Anwendungen. Informationen zum Erstellen und Verwenden benutzerdefinierter Stimmen über Endpunkte finden Sie unter Erstellen und Verwenden Ihres Stimmmodells.
Audioinhaltserstellung: Ein Ansatz ohne Code für die Text-zu-Sprache-Synthese. Sie können die Audioausgabe unverändert oder als Ausgangspunkt für weitere Anpassungen nutzen. Sie können sehr natürliche Audioinhalte für eine Vielzahl von Szenarien erzeugen, z. B. für Hörbücher, Nachrichtensendungen, Videokommentare und Chatbots. Weitere Informationen finden Sie in der Dokumentation zur Audioinhaltserstellung.
Benutzerdefiniertes Schlüsselwort: Ein benutzerdefiniertes Schlüsselwort ist ein Wort oder ein kurzer Ausdruck, mit dem ein Produkt per Sprache aktiviert werden kann. Sie erstellen ein benutzerdefiniertes Schlüsselwort in Speech Studio und generieren dann eine Binärdatei für die Verwendung mit dem Speech SDK in Ihren Anwendungen.

Nächste Schritte

Erkunden von Speech Studio

Freigeben über

Was ist Speech Studio?

Speech Studio-Szenarien

Speech Studio-Features

Nächste Schritte

Feedback

Zusätzliche Ressourcen