Freigeben über


Auswählen einer Azure KI-Spracherkennungs- und -generierungstechnologie

Azure KI Services helfen Workload-Designern und -Entwicklern bei der Erstellung intelligenter, hochmoderner, marktreifer und verantwortungsbewusster Anwendungen mit sofort einsatzbereiten, vorgefertigten und anpassbaren APIs und Modellen.

Dieser Artikel befasst sich mit den Azure KI Services, die Funktionen zur Spracherkennung und -generierung bieten, wie z. B. Konvertierung von Sprache in Text und Sprachsynthese, Audioübersetzung, Sprecher*innenerkennung sowie Leseunterstützung für Menschen mit Lernschwierigkeiten.

Hinweis

Wenn Sie Erkenntnisse über Begriffe oder Ausdrücke gewinnen oder eine detaillierte kontextuelle Analyse der gesprochenen oder geschriebenen Sprache erhalten möchten, lesen Sie bitte Auswahl einer auf Azure KI ausgerichteten Sprachverarbeitungstechnologie.

Dienste

Die folgenden Azure KI Services können Spracherkennungs- und Generierungsfunktionen für Ihren Workload bereitstellen.

  • Azure KI Speech bietet linguistische Datenverarbeitung für die Textanalyse.

    • Verwenden Sie Speech Service, wenn Sie gesprochene Sprache transkribieren oder übersetzen sowie Sprecher in einem Gespräch identifizieren wollen. Sie können den Service auch als kostengünstige Alternative für natürlich klingende Spracherzeugung zu dem höherwertigen Whisper in den OpenAI-Modellen nutzen.
    • Verwenden Sie Speech Service nicht für Chats, Inhaltszusammenfassungen, Moderation oder die Anleitung von Benutzern durch Skripte. Verwenden Sie stattdessen andere Modelle für diese Aktivitäten.
  • Immersive Reader ist ein Hilfsmittel, das bewährte Techniken einsetzt, um das Leseverständnis von Leseanfängern, Sprachschülern und Menschen mit Lernschwierigkeiten zu verbessern.

    • Verwenden Sie Immersive Reader, um eine bessere Lesbarkeit zu gewährleisten, die auf Sprachschüler oder Menschen mit Lernschwierigkeiten zugeschnitten ist.
    • Verwenden Sie Immersive Reader nicht für traditionelle Sprachsynthese-Anwendungen.

Azure KI Speech

Azure KI Speech bietet Funktionen für die Umwandlung von Sprache in Text und Text in Sprache mit einer Sprachressource. Sie können Sprache mit hoher Genauigkeit in Text transkribieren, Text in natürlich klingende Sprache konvertieren, gesprochene Audiodaten übersetzen und bei Konversationen die Sprechererkennung verwenden. Erstellen Sie benutzerdefinierte Stimmen, fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie eigene Modelle. Sie können Speech überall ausführen – in der Cloud oder am Edge in Containern.

Speech ist für viele Sprachen und Regionen verfügbar.

Capabilities

Die folgende Tabelle enthält eine Liste der im Azure KI Speech Service verfügbaren Funktionen.

Funktion Beschreibung
Batch-Transkription Transkribieren einer großen Menge von Audiodaten im Speicher. Sowohl die Spracherkennungs-REST-API als auch die Speech CLI unterstützen die Batchtranskription.
Absichtserkennung Eine Absicht ist eine Aufgabe, die der Benutzer ausführen möchte: einen Flug buchen, sich über das Wetter informieren oder einen Anruf tätigen. Mithilfe der Absichtserkennung können Ihre Anwendungen, Tools und Geräte basierend auf Optionen bestimmen, was Benutzer*innen initiieren oder tun möchten. Sie definieren die Benutzerabsicht in der Absichtserkennung oder im CLU-Modell (Conversational Language Understanding).
Aussprachebewertung Bewertung der Aussprache von Sprache und Rückmeldung an die Sprecher über die Genauigkeit und Geläufigkeit von gesprochenem Audio.
Sprechererkennung Mithilfe der Sprechererkennung kann festgestellt werden, wer in einem Audioclip spricht. Der Dienst kann Sprecher anhand ihrer einzigartigen Stimmmerkmale mithilfe der Stimmbiometrie verifizieren und identifizieren.
Spracherkennung Konvertieren von Audiostreams in Text in Echtzeit oder im Stapel.
Sprachsynthese Ermöglicht es Ihren Anwendungen, Tools oder Geräten, Text in menschenähnliche synthetische Sprache umzuwandeln.
Sprachübersetzung Bietet mehrsprachige Sprachsynthese und Spracherkennung von Audiostreams.
Videoübersetzung Automatische Übersetzung und Erstellung von Videos in mehreren Sprachen.

Anwendungsfälle

Die folgende Tabelle beschreibt einige der Möglichkeiten, die Sie mit Azure KI Speech nutzen können.

Anwendungsfall Fähigkeit zur Verwendung Beschreibung
Erstellung von Audioinhalten Spracherkennung Sie können neuronale Stimmen verwenden, um die Interaktion mit Chatbots und Sprach-Assistenten natürlicher und ansprechender zu gestalten, digitale Texte wie E-Books in Hörbücher umzuwandeln und Navigationssysteme im Auto zu verbessern.
Callcentertranskription Spracherkennung Transkribieren Sie Anrufe in Echtzeit, verarbeiten Sie einen Batch von Anrufen, redigieren Sie personenbezogene Informationen, und extrahieren Sie Erkenntnisse wie die Stimmung, um die Arbeit Ihres Callcenters zu unterstützen.
Untertitel Spracherkennung Synchronisieren Sie Untertitel mit Ihrem Eingangston, wenden Sie Profanitätsfilter an, erhalten Sie Teilergebnisse, wenden Sie Anpassungen an und identifizieren Sie gesprochene Sprachen für mehrsprachige Szenarien.
Spracherwerb Spracherkennung Geben Sie Sprachschülern Feedback zur Aussprache, unterstützen Sie die Echtzeit-Transkription von Fernlerngesprächen und lesen Sie Lehrmaterial mit neuronalen Stimmen vor.
Sprach-Assistenten Spracherkennung Erstellen Sie natürliche, menschenähnliche Konversationsschnittstellen für Ihre Anwendungen und Erlebnisse. Die Sprachassistentenfunktion ermöglicht eine schnelle und zuverlässige Interaktion zwischen einem Gerät und einer Assistentenimplementierung.

Immersive Reader

Immersive Reader, Teil der Azure KI Services, ist ein integratives Tool, das bewährte Techniken zur Verbesserung des Leseverständnisses für Leseanfänger, Sprachschüler und Menschen mit Lernschwierigkeiten wie Legasthenie einsetzt. Mit der Immersive Reader Client-Bibliothek können Sie die gleiche Technologie wie in Microsoft Word und Microsoft OneNote verwenden, um den Benutzern Ihres Workloads ein großartiges Erlebnis zu bieten.

Capabilities

Nachfolgend finden Sie eine Liste von Funktionen, die Ihr Workload nutzen könnte, um Ihren Benutzern beim Erreichen ihrer Ziele in Bezug auf das Leseverständnis zu helfen.

  • Isolieren von Inhalten zur Verbesserung der Lesbarkeit
  • Anzeigen von Bildern für gängige Wörter und Begriffe
  • Hilfestellung zum Verständnis von Wortarten und Grammatik durch Hervorhebung von Verben, Substantiven, Pronomen und mehr
  • Vorlesen von Inhalten, z. B. vom Benutzer ausgewählter Text in der Benutzeroberfläche Ihres Workloads
  • Übersetzen von Inhalten in viele Sprachen in Echtzeit, was das Verständnis für Leser, die eine neue Sprache lernen, verbessert
  • Unterteilen von Wörtern in Silben, um die Lesbarkeit zu verbessern oder neue Wörter richtig auszusprechen

Nächste Schritte