Erste Schritte mit Sprachfeatures in Azure
Microsoft Azure stellt Spracherkennungs- und Sprachsynthesefunktionen über den Dienst Azure KI Speech bereit, der viele Funktionen unterstützt, darunter:
- Spracherkennung
- Sprachsynthese
Hinweis
In diesem Modul werden die Funktionen Spracherkennung und Sprachsynthese behandelt. Die Sprachübersetzung in Azure KI Services wird in einem separaten Modul beschrieben.
Spracherkennung
Sie können die Azure KI-API für Spracherkennung verwenden, um eine Echtzeit- oder Batchtranskription von Audioinhalten in ein Textformat durchführen. Die Audioquelle für die Transkription kann eine Echtzeit-Audioübertragung von einem Mikrofon oder einer Audiodatei sein.
Das Modell, das von der Spracherkennungs-API verwendet wird, basiert auf dem von Microsoft trainierten universellen Sprachmodell. Die Daten für das Modell sind Eigentum von Microsoft und werden in Microsoft Azure bereitgestellt. Das Modell ist für zwei Szenarios optimiert: Unterhaltung und Diktat. Sie können auch eigene benutzerdefinierte Modelle erstellen und trainieren, z. B. für Akustik, Sprache und Aussprache, wenn die vordefinierten Modelle von Microsoft nicht die benötigten Inhalte bieten.
Echtzeittranskription: Mit der Spracherkennung in Echtzeit können Sie Text in Audiostreams transkribieren. Sie können die Echtzeittranskription für Präsentationen, Demos oder andere Szenarios verwenden, in denen eine Person spricht.
Damit die Echtzeittranskription funktioniert, muss Ihre Anwendung auf eingehende Audiosignale von einem Mikrofon oder einer anderen Audioeingangsquelle wie einer Audiodatei lauschen. Ihr Anwendungscode überträgt das Audio an den Dienst, der den transkribierten Text zurückgibt.
Batchtranskription: Nicht alle Spracherkennungsszenarios sind in Echtzeit. Möglicherweise sind Audioaufnahmen auf einer Dateifreigabe, einem Remoteserver oder sogar in Azure Storage gespeichert. Sie können auf Audiodateien mit einem SAS-URI (Shared Access Signature) verweisen und asynchron Transkriptionsergebnisse empfangen.
Die Batchtranskription sollte asynchron ausgeführt werden, da die Batchaufträge auf Basis bester Leistung geplant sind. Normalerweise wird ein Auftrag innerhalb von Minuten nach der Anforderung ausgeführt. Es gibt jedoch keine Schätzung, wann ein Auftrag in den Ausführungsstatus wechselt.
Sprachsynthese
Mit der Sprachsynthese-API können Sie Texteingaben in hörbare Sprache umwandeln, die entweder direkt über einen Computerlautsprecher wiedergegeben oder in eine Audiodatei geschrieben werden kann.
Sprachsynthesestimmen: Wenn Sie die Sprachsynthese-API verwenden, können Sie die Stimme angeben, die zum Sprechen des Texts verwendet werden soll. Dieses Feature bietet Ihnen die Flexibilität, Ihre Sprachsyntheselösung zu personalisieren und ihr einen bestimmten Charakter zu verleihen.
Der Dienst umfasst mehrere vordefinierte Stimmen mit Unterstützung für mehrere Sprachen und regionaler Aussprache, einschließlich neutralen Stimmen und Stimmen, die neuronale Netzwerke verwenden, um allgemeine Einschränkungen bei der Sprachsynthese in Bezug auf die Intonation zu überwinden, was zu einer natürlicher klingenden Stimme führt. Sie können auch benutzerdefinierte Stimmen entwickeln und diese mit der Sprachsynthese-API verwenden
Unterstützte Sprachen
Sowohl die Spracherkennungs- als auch die Sprachsynthese-APIs unterstützen eine Vielzahl von Sprachen. Verwenden Sie die folgenden Links, um Details zu den unterstützten Sprachen zu finden: