Auswählen einer Azure KI-Spracherkennungs- und -generierungstechnologie

Artikel
10/14/2024

Azure KI Services helfen Workload-Designern und -Entwicklern bei der Erstellung intelligenter, hochmoderner, marktreifer und verantwortungsbewusster Anwendungen mit sofort einsatzbereiten, vorgefertigten und anpassbaren APIs und Modellen.

Dieser Artikel befasst sich mit den Azure KI Services, die Funktionen zur Spracherkennung und -generierung bieten, wie z. B. Konvertierung von Sprache in Text und Sprachsynthese, Audioübersetzung, Sprecher*innenerkennung sowie Leseunterstützung für Menschen mit Lernschwierigkeiten.

Hinweis

Wenn Sie Erkenntnisse über Begriffe oder Ausdrücke gewinnen oder eine detaillierte kontextuelle Analyse der gesprochenen oder geschriebenen Sprache erhalten möchten, lesen Sie bitte Auswahl einer auf Azure KI ausgerichteten Sprachverarbeitungstechnologie.

Dienste

Die folgenden Azure KI Services können Spracherkennungs- und Generierungsfunktionen für Ihren Workload bereitstellen.

Azure KI Speech bietet linguistische Datenverarbeitung für die Textanalyse.
- Verwenden Sie Speech Service, wenn Sie gesprochene Sprache transkribieren oder übersetzen sowie Sprecher in einem Gespräch identifizieren wollen. Sie können den Service auch als kostengünstige Alternative für natürlich klingende Spracherzeugung zu dem höherwertigen Whisper in den OpenAI-Modellen nutzen.
- Verwenden Sie Speech Service nicht für Chats, Inhaltszusammenfassungen, Moderation oder die Anleitung von Benutzern durch Skripte. Verwenden Sie stattdessen andere Modelle für diese Aktivitäten.
Immersive Reader ist ein Hilfsmittel, das bewährte Techniken einsetzt, um das Leseverständnis von Leseanfängern, Sprachschülern und Menschen mit Lernschwierigkeiten zu verbessern.
- Verwenden Sie Immersive Reader, um eine bessere Lesbarkeit zu gewährleisten, die auf Sprachschüler oder Menschen mit Lernschwierigkeiten zugeschnitten ist.
- Verwenden Sie Immersive Reader nicht für traditionelle Sprachsynthese-Anwendungen.

Azure KI Speech

Azure KI Speech bietet Funktionen für die Umwandlung von Sprache in Text und Text in Sprache mit einer Sprachressource. Sie können Sprache mit hoher Genauigkeit in Text transkribieren, Text in natürlich klingende Sprache konvertieren, gesprochene Audiodaten übersetzen und bei Konversationen die Sprechererkennung verwenden. Erstellen Sie benutzerdefinierte Stimmen, fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie eigene Modelle. Sie können Speech überall ausführen – in der Cloud oder am Edge in Containern.

Speech ist für viele Sprachen und Regionen verfügbar.

Capabilities

Die folgende Tabelle enthält eine Liste der im Azure KI Speech Service verfügbaren Funktionen.

Funktion	Beschreibung
Batch-Transkription	Transkribieren einer großen Menge von Audiodaten im Speicher. Sowohl die Spracherkennungs-REST-API als auch die Speech CLI unterstützen die Batchtranskription.
Absichtserkennung	Eine Absicht ist eine Aufgabe, die der Benutzer ausführen möchte: einen Flug buchen, sich über das Wetter informieren oder einen Anruf tätigen. Mithilfe der Absichtserkennung können Ihre Anwendungen, Tools und Geräte basierend auf Optionen bestimmen, was Benutzer*innen initiieren oder tun möchten. Sie definieren die Benutzerabsicht in der Absichtserkennung oder im CLU-Modell (Conversational Language Understanding).
Aussprachebewertung	Bewertung der Aussprache von Sprache und Rückmeldung an die Sprecher über die Genauigkeit und Geläufigkeit von gesprochenem Audio.
Sprechererkennung	Mithilfe der Sprechererkennung kann festgestellt werden, wer in einem Audioclip spricht. Der Dienst kann Sprecher anhand ihrer einzigartigen Stimmmerkmale mithilfe der Stimmbiometrie verifizieren und identifizieren.
Spracherkennung	Konvertieren von Audiostreams in Text in Echtzeit oder im Stapel.
Sprachsynthese	Ermöglicht es Ihren Anwendungen, Tools oder Geräten, Text in menschenähnliche synthetische Sprache umzuwandeln.
Sprachübersetzung	Bietet mehrsprachige Sprachsynthese und Spracherkennung von Audiostreams.
Videoübersetzung	Automatische Übersetzung und Erstellung von Videos in mehreren Sprachen.

Anwendungsfälle

Die folgende Tabelle beschreibt einige der Möglichkeiten, die Sie mit Azure KI Speech nutzen können.

Anwendungsfall	Fähigkeit zur Verwendung	Beschreibung
Erstellung von Audioinhalten	Spracherkennung	Sie können neuronale Stimmen verwenden, um die Interaktion mit Chatbots und Sprach-Assistenten natürlicher und ansprechender zu gestalten, digitale Texte wie E-Books in Hörbücher umzuwandeln und Navigationssysteme im Auto zu verbessern.
Callcentertranskription	Spracherkennung	Transkribieren Sie Anrufe in Echtzeit, verarbeiten Sie einen Batch von Anrufen, redigieren Sie personenbezogene Informationen, und extrahieren Sie Erkenntnisse wie die Stimmung, um die Arbeit Ihres Callcenters zu unterstützen.
Untertitel	Spracherkennung	Synchronisieren Sie Untertitel mit Ihrem Eingangston, wenden Sie Profanitätsfilter an, erhalten Sie Teilergebnisse, wenden Sie Anpassungen an und identifizieren Sie gesprochene Sprachen für mehrsprachige Szenarien.
Spracherwerb	Spracherkennung	Geben Sie Sprachschülern Feedback zur Aussprache, unterstützen Sie die Echtzeit-Transkription von Fernlerngesprächen und lesen Sie Lehrmaterial mit neuronalen Stimmen vor.
Sprach-Assistenten	Spracherkennung	Erstellen Sie natürliche, menschenähnliche Konversationsschnittstellen für Ihre Anwendungen und Erlebnisse. Die Sprachassistentenfunktion ermöglicht eine schnelle und zuverlässige Interaktion zwischen einem Gerät und einer Assistentenimplementierung.

Immersive Reader

Immersive Reader, Teil der Azure KI Services, ist ein integratives Tool, das bewährte Techniken zur Verbesserung des Leseverständnisses für Leseanfänger, Sprachschüler und Menschen mit Lernschwierigkeiten wie Legasthenie einsetzt. Mit der Immersive Reader Client-Bibliothek können Sie die gleiche Technologie wie in Microsoft Word und Microsoft OneNote verwenden, um den Benutzern Ihres Workloads ein großartiges Erlebnis zu bieten.

Capabilities

Nachfolgend finden Sie eine Liste von Funktionen, die Ihr Workload nutzen könnte, um Ihren Benutzern beim Erreichen ihrer Ziele in Bezug auf das Leseverständnis zu helfen.

Isolieren von Inhalten zur Verbesserung der Lesbarkeit
Anzeigen von Bildern für gängige Wörter und Begriffe
Hilfestellung zum Verständnis von Wortarten und Grammatik durch Hervorhebung von Verben, Substantiven, Pronomen und mehr
Vorlesen von Inhalten, z. B. vom Benutzer ausgewählter Text in der Benutzeroberfläche Ihres Workloads
Übersetzen von Inhalten in viele Sprachen in Echtzeit, was das Verständnis für Leser, die eine neue Sprache lernen, verbessert
Unterteilen von Wörtern in Silben, um die Lesbarkeit zu verbessern oder neue Wörter richtig auszusprechen

Freigeben über

Auswählen einer Azure KI-Spracherkennungs- und -generierungstechnologie

Dienste

Azure KI Speech

Capabilities

Anwendungsfälle

Immersive Reader

Capabilities

Nächste Schritte

Feedback

Zusätzliche Ressourcen

Freigeben über

Auswählen einer Azure KI-Spracherkennungs- und -generierungstechnologie

Dienste

Azure KI Speech

Capabilities

Anwendungsfälle

Immersive Reader

Capabilities

Nächste Schritte

Zugehörige Ressourcen

Feedback

Zusätzliche Ressourcen