Neuigkeiten in Azure KI Speech

Artikel
01/13/2025

Azure KI Speech wird fortlaufend aktualisiert. Damit Sie bezüglich der aktuellen Entwicklungen auf dem neuesten Stand bleiben, bietet dieser Artikel Informationen zu neuen Releases und Funktionen.

Aktuelle Highlights

Schnelle Transkription ist jetzt allgemein verfügbar. Sie kann Audioinhalte deutlich schneller transkribieren als diese tatsächlich dauern. Weitere Informationen finden Sie im Leitfaden zur API für schnelle Transkription.
Die Erweiterung für das Azure KI Speech-Toolkit ist jetzt für Visual Studio Code-Benutzer verfügbar. Sie enthält eine Liste der Schnellstarts und Szenariobeispiele für Speech, die einfach mit wenigen Klicks erstellt und ausgeführt werden können. Weitere Informationen finden Sie unter Azure KI Speech-Toolkit im Visual Studio Code-Marketplace.
Azure KI Speech-HD-Stimmen (High Definition) sind als öffentliche Vorschauversion verfügbar. Die HD-Stimmen können den Inhalt verstehen, automatisch Emotionen im Eingabetext erkennen und die Sprechweise in Echtzeit an die Stimmung anpassen. Weitere Informationen finden Sie unter Was sind HD-Stimmen (High-Definition) in Azure KI Speech?.
Die Videoübersetzung ist jetzt im Azure KI Speech-Dienst verfügbar. Weitere Informationen finden Sie unter Was ist Videoübersetzung?.
Der Azure KI Speech-Dienst unterstützt auch OpenAI-Stimmen für die Sprachsynthese. Weitere Informationen finden Sie unter Was sind OpenAI-Stimmen für die Sprachsynthese?
Die benutzerdefinierte Stimme-API steht zum Erstellen und Verwalten professioneller und persönlicher benutzerdefinierter neuronaler Sprachmodelle zur Verfügung.

Versionshinweise

Auswählen eines Diensts oder einer Ressource

Speech SDK 1.42.0: Release von Dezember 2024

Neue Funktionen

Java: Diagnoseprotokollierungs-APIs mit Klassen von FileLogger, MemoryLogger, EventLogger und SpxTrace hinzugefügt.
Unterstützung beim Senden der JSON-Eigenschaft "Details" des Besprechungsteilnehmers an den Dienst
Go: Öffentliche Eigenschaft SpeechServiceConnection_ProxyHostBypass hinzugefügt, um Hosts anzugeben, für die kein Proxy verwendet wird.
JavaScript, Go: Hinzugefügte öffentliche Eigenschafts-ID Speech_SegmentationStrategy, um zu bestimmen, wann ein gesprochener Ausdruck beendet wurde und ein endgültiges erkanntes Ergebnis generiert werden sollte(einschließlich semantischer Segmentierung)
JavaScript, Go: Hinzugefügte öffentliche Eigenschafts-ID Speech_SegmentationMaximumTimeMs bestimmen das Ende eines gesprochenen Ausdrucks basierend auf der Zeit in Java, Python, C#, C++

Fehlerkorrekturen

Es wurde eine eingebettete TTS-Stimme (neu) für jede Synthese geladen, wenn der Sprachname nicht festgelegt ist.
Bei Verwendung von MeetingTranscriber in einigen Szenarien wurden Offsetberechnungsprobleme behoben.
Es wurde ein potenzieller Deadlock behoben, wenn mehrere Diagnoseereignislistener parallel registriert wurden.
(JavaScript) Mögliche Verlorene NoMatch-Ergebnisse wurden behoben, wenn am Ende des Audiosignals. Dieser Fix richtet auch das Verhalten am Ende der Sprachausgabe an die anderen SDK-Sprachen aus und führt möglicherweise dazu, dass einige leere Ereignisse nicht mehr ausgelöst werden.
(JavaScript) Korrigiere Offsets im Ergebnis-JSON, um sie mit den Offsets der Ergebnisobjekte abzugleichen. Zuvor wurde nur die Offseteigenschaft des Ergebnisobjekts für die Dienstwiederholung festgelegt.
Go Language: Ein Kompilierungsfehler wurde behoben https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
Feste Ergebnisversätze in der Besprechungstranskription, wenn eine erneute Verbindung mit dem Dienst auftritt.
Ein Deadlock in der Protokollierung wurde behoben.

Beispiele

Aktualisierte C#-Beispiele für die Verwendung von .NET 8.0.
Java-Beispiel verwendet die Diagnoseprotokollierungs-API, die die Verwendung der neuen Diagnoseprotokollierungsklassen zeigt.

Release November 2024

Azure KI Speech-Toolkit-Erweiterung für Visual Studio Code

Die Erweiterung für das Azure KI Speech-Toolkit ist jetzt für Visual Studio Code-Benutzer verfügbar. Sie enthält eine Liste der Schnellstarts und Szenariobeispiele für Speech, die einfach mit wenigen Klicks erstellt und ausgeführt werden können. Weitere Informationen finden Sie unter Azure KI Speech-Toolkit im Visual Studio Code-Marketplace.

Codebeispiele für Sprachsynthese-Avatare

Wir haben Codebeispielen für Sprachsynthese-Avatare für Android und iOS hinzugefügt. Diese Beispiele veranschaulichen, wie Sie Echtzeit-Avatare für die Sprachsynthese in Ihren mobilen Anwendungen verwenden.

Speech SDK 1.41.1: Release vom Oktober 2024

Neue Funktionen

Unterstützung für Amazon Linux 2023 und Azure Linux 3.0 hinzugefügt
Öffentliche Eigenschafts-ID „SpeechServiceConnection_ProxyHostBypass“ hinzugefügt, um Hosts anzugeben, für die kein Proxy verwendet wird
Eigenschaften zum Steuern neuer Begriffssegmentierungsstrategien hinzugefügt

Fehlerkorrekturen

Unvollständige Unterstützung für die Schlüsselworterkennung in Advanced-Modellen, die nach August 2024 erstellt wurden, korrigiert.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Beachten Sie, dass Ihr Projekt mit Swift unter iOS entweder „MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip“ (von https://aka.ms/csspeech/iosbinaryembedded) oder den MicrosoftCognitiveServicesSpeechEmbedded-iOS-Pod verwenden muss, der die Unterstützung für Advanced-Modelle umfasst.
Arbeitsspeicherverlust in C# im Zusammenhang mit der Zeichenfolgennutzung behoben
Dass in Objective-C und Swift SPXAutoDetectSourceLanguageResult nicht von SPXConversationTranscriptionResult abgerufen werden konnte, wurde behoben.
Es wurde ein gelegentlicher Absturz behoben, wenn der Microsoft Audio Stack bei der Erkennung verwendet wird.
Typenhinweise in Python korrigiert https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
Der Fehler, dass bei Verwendung eines benutzerdefinierten Endpunkts die Liste der TTS-Stimmen nicht abgerufen werden kann, wurde behoben.
Eingebettete TTS-Neuinitialisierung für jede Sprachanforderung wurde behoben, wenn die Stimme mit einem Kurznamen angegeben wird.
Die API-Referenzdokumentation für die maximale Dauer von RecognizeOnce-Audiodaten wurde korrigiert.
Ein Fehler bei der Behandlung arbiträrer Samplingraten in JavaScript wurde behoben.
- Vielen Dank an rseanhall für den Beitrag.
Fehler beim Berechnen des Audiooffsets in JavaScript behoben
- Vielen Dank an motamed für den Beitrag.

Aktuelle Änderungen

Die Unterstützung der Schlüsselworterkennung unter Windows ARM 32-Bit wurde entfernt, da sie ein ONNX-Runtime erfordert, die für diese Plattform nicht verfügbar ist.

Speech-SDK 1.40: Release 2024-August

Hinweis

Die Speech SDK-Version 1.39.0 war ein internes Release und fehlt nicht.

Neue Funktionen

Unterstützung des Streamings G.722-komprimierter Audiodateien bei der Spracherkennung wurde hinzugefügt.
Unterstützung von Tonhöhe, Samplerate und Lautstärke im Eingabetextstreaming bei der Sprachsynthese wurde hinzugefügt.
Unterstützung des Eingabetextstreamings mit persönlicher Stimme durch die Einführung von PersonalVoiceSynthesisRequest bei der Sprachsynthese wurde hinzugefügt. Diese API befindet sich in der Vorschauphase und kann in zukünftigen Versionen noch geändert werden.
Unterstützung für die Diarisierung von Zwischenergebnissen bei Verwendung von ConversationTranscriber wurde hinzugefügt.
CentOS/RHEL 7-Unterstützung wurde aufgrund von CentOS 7 EOL und dem Einstellen des RHEL 7-Wartungssupport 2 entfernt.
Die Verwendung eingebetteter Sprachmodelle erfordert jetzt eine Modelllizenz anstelle eines Modellschlüssels. Wenn Sie ein bestehender Kunde des eingebetteten Speech-Diensts sind und ein Upgrade durchführen möchten, wenden Sie sich an Ihren Supportmitarbeiter bei Microsoft, um Details zu Modellupdates zu erhalten.

Fehlerkorrekturen

Speech-SDK-Binärdateien wurden mit dem Flag „_DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR“ als Minderung des Runtimefehlers Zugriffsverletzung mit std::mutex::lock nach Upgrade auf VS 2022 Version 17.10.0 – Developer Community (visualstudio.com) in Visual C++ für Windows erstellt. Windows C++-Anwendungen, die das Speech SDK verwenden, müssen möglicherweise das gleiche Buildkonfigurationsflag anwenden, wenn ihr Code std::mutex verwendet. Weitere Details finden Sie im verlinkten Problemartikel.
Korrigiert: Die OpenSSL 3.x-Erkennung funktioniert nicht unter Linux ARM64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
Das Problem das dazu führte, dass beim Bereitstellen einer UWP-App die Bibliotheken und das Modell aus dem MAS NuGet-Paket nicht an den Bereitstellungsort kopiert wurden, wurde behoben.
Ein Inhaltsanbieterkonflikt in Android-Paketen (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463) wurde behoben.
Korrigiert: Die Optionen für die Nachverarbeitung werden nicht auf Zwischenergebnisse der Spracherkennung angewendet.
Eine .NET 8-Warnung zu verteilungsspezifischen Runtimebezeichnern (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244) wurde behoben.

Beispiele

Eingebettete Sprachbeispiele wurden aktualisiert, um anstelle eines Schlüssels eine Modelllizenz zu verwenden.

Speech-SDK 1.38.0: Release von Juni 2024

Neue Funktionen

Linux-Plattformanforderungen für das Speech-SKD-Upgrade:
- Die neue Mindestbaseline ist Ubuntu 20.04 LTS oder eine Version, die mit glibc 2.31 (oder höher) kompatibel ist.
- Binärdateien für Linux x86 werden nach Ubuntu 20.04-Plattformsupport entfernt.
- Beachten Sie, dass RHEL/CentOS 7 noch bis zum 30. Juni unterstützt wird (Ende von CentOS 7 und Ende von RHEL 7-Wartungssupport 2). Binärdateien für diese werden im Release Speech-SDK 1.39.0 entfernt.
Hinzufügen von Support für OpenSSL 3 unter Linux.
Hinzufügen von Support für das Audioausgabeformat g722-16khz-64kbps mit Sprachsynthesizer.
Hinzufügen von Support für das Senden von Nachrichten über ein Verbindungsobjekt mit Sprachsynthesizer.
Hinzufügen von Start/StopKeywordRecognition-APIs in Objective-C und Swift.
Hinzufügen einer API zum Auswählen einer benutzerdefinierten Übersetzungsmodellkategorie.
Aktualisieren der GStreamer-Nutzung mit Sprachsynthesizer.

Fehlerkorrekturen

Der Fehler „Websocket-Nachrichtengröße darf 65.536 Bytes nicht überschreiten“ während „Start/StopKeywordRecognition“ wurde behoben.
Beheben eines Python-Segmentierungsfehlers während der Sprachsynthese.

Beispiele

Aktualisieren der C#-Beispiele, um .NET 6.0 standardmäßig zu verwenden.

Speech SDK 1.37.0: Release von April 2024

Neue Funktionen

Unterstützung für das Streaming von Eingabetext in der Sprachsynthese wurde hinzugefügt.
Die Standardstimme für die Sprachsynthese wurde auf „en-US-AvaMultilingualNeural“ geändert.
Android-Builds wurden für die Verwendung von OpenSSL 3.x. aktualisiert.

Fehlerkorrekturen

Gelegentliche JVM-Abstürze während SpeechRecognizer Dispose bei Verwendung von MAS wurden behoben. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
Verbesserung der Erkennung von Standardaudiogeräten unter Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)

Beispiele

Updates für neue Features.

Speech SDK 1.36.0: Release von März 2024

Neue Funktionen

Support für die Sprachidentifikation bei mehrsprachiger Übersetzung auf v2-Endpunkten mithilfe von AutoDetectSourceLanguageConfig::FromOpenRange().

Fehlerkorrekturen

Das Ereignis SynthesisCanceled wird nicht ausgelöst, wenn der Stopp während des Ereignisses SynthesisStarted aufgerufen wird.
Behebung eines Rauschproblems in der eingebetteten Sprachsynthese.
Behebung eines Absturzes bei der eingebetteten Spracherkennung, wenn mehrere Erkennungsmodule parallel ausgeführt werden.
Behebung der Einstellung für den Begriffserkennungsmodus in v1/v2-Endpunkten.
Behebung verschiedener Probleme mit Microsoft Audio Stack.

Beispiele

Updates für neue Features.

Speech SDK 1.35.0: Version von Februar 2024

Neue Funktionen

Ändern Sie die Standardstimme der Sprachsynthese von „en-US-JenniferMultilingualNeural“ zu „en-US-AvaNeural“.
Unterstützen Sie Details auf Wortebene in eingebetteten Sprachübersetzungsergebnissen mithilfe des detaillierten Ausgabeformats.

Fehlerkorrekturen

Beheben Sie die Getter-API für AudioDataStream-Position in Python.
Beheben Sie die Sprachübersetzung mithilfe von v2-Endpunkten ohne Spracherkennung.
Beheben Sie einen zufälligen Absturz und doppelte Wortgrenzenereignisse in eingebetteter Sprachsynthese.
Geben Sie einen korrekten Abbruchfehlercode für einen internen Serverfehler für WebSocket-Verbindungen zurück.
Beheben Sie den Fehler beim Laden der „FPIEProcessor.dll“-Bibliothek, wenn MAS mit C# verwendet wird.

Beispiele

Kleinere Formatierungsupdates für eingebettete Anerkennungsbeispiele.

Speech SDK 1.34.1: Release von Januar 2024

Wichtige Änderungen

Nur Fehlerkorrekturen

Neue Funktionen

Nur Fehlerkorrekturen

Fehlerkorrekturen

Behebung der in 1.34.0 eingeführten Regression, bei der die URL des Dienstendpunkts mit fehlerhaften Gebietsschemainformationen für Benutzer*innen in mehreren Regionen In China erstellt wurde.

Speech-SDK 1.34.0: Release von November 2023

Wichtige Änderungen

SpeechRecognizer wurde aktualisiert, um standardmäßig (bei fehlender expliziter URL-Angabe) einen neuen Endpunkt zu verwenden, der für die meisten Eigenschaften keine Abfragezeichenfolgenparameter mehr unterstützt. Anstatt Abfragezeichenfolgenparameter direkt mit ServicePropertyChannel.UriQueryParameter festzulegen, verwenden Sie bitte die entsprechenden API-Funktionen.

Neue Funktionen

Kompatibilität mit .NET 8 (Fix für https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170, ausgenommen für Warnungen zu Centos7-x64)
Unterstützung für eingebettete Sprachleistungsmetriken, die verwendet werden können, um die Funktionalität eines Geräts zum Ausführen eingebetteter Sprache auszuwerten.
Unterstützung für die Quellsprachidentifikation in eingebetteter mehrsprachiger Übersetzung.
Unterstützung für eingebettete Spracherkennung, Sprachsynthese und Übersetzung für iOS und Swift/Objective-C, die in der Vorschau veröffentlicht wurden.
Eingebettete Unterstützung wird in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod bereitgestellt.

Fehlerkorrekturen

Fix für iOS-SDK x2 mal binäres Größenwachstum · Issue # 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Das Problem „Zeitstempel auf Wortebene von Azure-Spracherkennungs-API kann nicht abgerufen werden“ wurde behoben. · Problem Nr. 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Fix für DialogServiceConnector-Zerstörungsphase, um Ereignisse ordnungsgemäß zu trennen. Dies verursachte gelegentlich Abstürze.
Fix für die Ausnahme beim Erstellen eines Erkennungsmoduls, wenn MAS verwendet wird.
FPIEProcessor.dll von Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-Paket für Windows UWP x64 und Arm64 hatte Abhängigkeit von VC-Runtimebibliotheken für natives C++. Das Problem wurde behoben, indem die Abhängigkeit auf die richtigen VC-Runtimebibliotheken (für UWP) aktualisiert wurde.
Fix für [MAS] Wiederkehrende Aufrufe zur recognizeOnceAsync führen zu SPXERR_ALREADY_INITIALIZED bei Verwendung von MAS · Issue # 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
Fix für Absturz der eingebetteten Spracherkennung beim Verwenden von Phrasenlisten.

Beispiele

Eingebettete iOS-Beispiele für Spracherkennung, Sprachsynthese und Übersetzung.

Speech-CLI 1.34.0: Release vom November 2023

Neue Funktionen

Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.

Fehlerkorrekturen

Aktualisierte JMESPath-Abhängigkeit zum neuesten Release, verbessert Zeichenfolgeauswertungen

Speech SDK 1.33.0: Release vom Oktober 2023

Hinweis zu Breaking Change

Das neue NuGet-Paket, das für Microsoft Audio Stack (MAS) hinzugefügt wurde, muss jetzt von Anwendungen eingeschlossen werden, die MAS in ihren Paketkonfigurationsdateien verwenden.

Neue Funktionen

Das neue NuGet-Paket „Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg“ wurde hinzugefügt. Es bietet eine verbesserte Echounterdrückungsleistung bei Verwendung von Microsoft Audio Stack.
Aussprachebewertung: Unterstützung für die Prosodie- und Inhaltsbewertung hinzugefügt, die die gesprochene Sprache in Bezug auf Prosodie, Vokabular, Grammatik und Thema bewerten kann.

Fehlerkorrekturen

Korrektur der Offsets der Schlüsselworterkennungsergebnisse, so dass sie nun von Anfang an korrekt mit dem eingegebenen Audiostrom übereinstimmen. Der Fix gilt sowohl für die eigenständige Schlüsselworterkennung als auch für die Spracherkennung mit Schlüsselwortauslöser.
Korrigiert: Synthesizer stopSpeaking gibt nicht sofort Die Methode SPXSpeechSynthesizer stopSpeaking() kann unter iOS 17 nicht sofort zurückgeben – Problem Nr. 2081 zurück.
Es wurde ein Problem mit dem Import von Mac-Katalysatoren im Swift-Modul mit Apple Silicon behoben. Problem Nr. 1948
JS: Das AudioWorkletNode-Modullasten verwendet jetzt eine vertrauenswürdige URL, wobei Fallback für CDN-Browser enthalten ist.
JS: Verpackte Lib-Dateien zielen jetzt auf ES6 JS ab, und Support für ES5 JS wurde entfernt.
JS: Zwischenereignisse für Übersetzungsszenarien, die auf den Endpunkt v2 abzielen, werden korrekt behandelt
JS: Die Spracheigenschaft für TranslationRecognitionEventArgs ist jetzt auf translation.hypothesis-Ereignisse festgelegt.
Sprachsynthese: Das SynthesisCompleted-Ereignis wird garantiert nach allen Metadatenereignissen ausgegeben, sodass es verwendet werden kann, um das Ende der Ereignisse anzugeben. Wie kann erkannt werden, wann Visemes vollständig empfangen werden? Problem Nr. 2093 Azure-Samples/cognitive-services-speech-sdk

Beispiele

Beispiel hinzugefügt, um MULAW Streaming mit Python zu veranschaulichen
Korrektur für Sprache-in-Text-NAudio-Beispiel

Speech CLI 1.33.0: Release vom Oktober 2023

Neue Funktionen

Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.

Fehlerkorrekturen

Keine

Speech SDK 1.32.1: Release im September 2023

Fehlerkorrekturen

Updates für Android-Pakete mit den neuesten Sicherheitskorrekturen von OpenSSL 1.1.1v
JS: WebWorkerLoadType-Eigenschaft hinzugefügt, um die Umgehung des Ladens der Daten-URL für Timeout-Worker zu ermöglichen
JS: Beheben der Verbindungstrennung der Konversationsübersetzung nach 10 Minuten
JS: Authentifizierungstoken für die Konversationsübersetzung wird jetzt an die Übersetzungsdienstverbindung weitergegeben

Beispiele

Unterhaltungstranskription mit Swift-APIs

Speech SDK 1.31.0: Release von August 2023

Neue Funktionen

Unterstützung für Echtzeitdiarisierung ist mit dem Speech SDK 1.31.0 in der öffentlichen Vorschau verfügbar. Dieses Feature ist in den folgenden SDKs verfügbar: C#, C++, Java, JavaScript, Python und Objective-C/Swift.
Synchronisierte Wortgrenzen- und viseme-Ereignisse mit Audiowiedergabe für die Sprachsynthese

Aktuelle Änderungen

Das frühere Szenario „Unterhaltungstranskription“ wird in „Besprechungstranskription“ umbenannt. Verwenden Sie beispielsweise MeetingTranscriber anstelle von ConversationTranscriber und CreateMeetingAsync anstelle von CreateConversationAsync. Obwohl sich die Namen von SDK-Objekten und -Methoden geändert haben, wird das Feature selbst durch die Umbenennung nicht geändert. Verwenden Sie Besprechungstranskriptionsobjekte für die Transkription von Besprechungen mit Benutzerprofilen und Stimmsignaturen. Weitere Informationen finden Sie unter Besprechungstranskription. Die Objekte und Methoden der „Konversationsübersetzung“ sind von diesen Änderungen nicht betroffen. Sie können das ConversationTranslator-Objekt und die zugehörigen Methoden weiterhin für Besprechungsübersetzungsszenarien verwenden.

Für die Echtzeitdiarisierung wird ein neues ConversationTranscriber-Objekt eingeführt. Das neue Objektmodell der Unterhaltungstranskription und die Aufrufmuster ähneln der kontinuierlichen Erkennung mit dem SpeechRecognizer-Objekt. Ein wichtiger Unterschied besteht darin, dass das ConversationTranscriber-Objekt für die Verwendung in einem Unterhaltungsszenario konzipiert ist, in dem Sie mehrere Sprecher unterscheiden möchten (Diarisierung). Benutzerprofile und Stimmsignaturen sind nicht anwendbar. Weitere Informationen finden Sie im Schnellstart zur Echtzeitdiarisierung.

In dieser Tabelle werden die vorherigen und neuen Objektnamen für die Echtzeitdiarisierung und Besprechungstranskription angezeigt. Der Name des Szenarios befindet sich in der ersten Spalte, die vorherigen Objektnamen in der zweiten Spalte und die neuen Objektnamen in der dritten Spalte.

Name des Szenarios	Vorherige Objektnamen	Neue Objektnamen
Echtzeit-Diarisierung	Nicht zutreffend	`ConversationTranscriber`
Besprechungstranskription	`ConversationTranscriber` `ConversationTranscriptionEventArgs` `ConversationTranscriptionCanceledEventArgs` `ConversationTranscriptionResult` `RemoteConversationTranscriptionResult` `RemoteConversationTranscriptionClient` `RemoteConversationTranscriptionResult` `Participant` ¹ `ParticipantChangedReason` ¹ `User` ¹	`MeetingTranscriber` `MeetingTranscriptionEventArgs` `MeetingTranscriptionCanceledEventArgs` `MeetingTranscriptionResult` `RemoteMeetingTranscriptionResult` `RemoteMeetingTranscriptionClient` `RemoteMeetingTranscriptionResult` `Participant` `ParticipantChangedReason` `User` `Meeting` ²

¹ Die Objekte Participant, ParticipantChangedReason und User gelten sowohl für Besprechungstranskriptions- als auch für Besprechungsübersetzungsszenarien.

² Das Objekt Meeting ist neu und wird mit dem Objekt MeetingTranscriber verwendet.

Fehlerkorrekturen

Die unterstützte macOS-Mindestversion wurde korrigiert. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
Fehler bei der Aussprachebewertung behoben:
- Das Problem mit der Phonem-Genauigkeit wurde behoben, so dass die Bewertungen jetzt nur noch das jeweilige falsch ausgesprochene Phonem wiedergeben. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Es wurde ein Problem behoben, bei dem das Feature „Aussprachebewertung“ völlig korrekte Aussprachen fälschlicherweise als fehlerhaft identifizierte, insbesondere in Situationen, in denen Wörter mehrere gültige Aussprachen haben konnten. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530

Beispiele

Speech SDK 1.30.0: Release von Juli 2023

Neue Funktionen

C++, C#, Java: Unterstützung für DisplayWords wurde im detaillierten Ergebnis der eingebetteten Spracherkennung hinzugefügt.
Objective-C/Swift: Unterstützung für das ConnectionMessageReceived-Ereignis wurde in Objective-C/Swift hinzugefügt.
Objective-C/Swift: Verbesserte Schlüsselworterkennungs-Modelle für iOS. Diese Änderung hat die Größe bestimmter Pakete erhöht, die iOS-Binärdateien enthalten (z. B. NuGet, XCFramework). Wir arbeiten daran, die Größe für zukünftige Releases zu reduzieren.

Fehlerkorrekturen

Es wurde ein Speicherverlust bei der Verwendung der Spracherkennung mit PhraseListGrammar behoben, den ein Kunde meldete (GitHub-Problem).
Ein Deadlock in der offenen Verbindungs-API für Sprachsynthese wurde behoben.

Weitere Hinweise

Java: Einige intern verwendete public-Java-API-Methoden wurden im Paket internal, protected oder private geändert. Diese Änderung sollte sich nicht auf Entwickler auswirken, da Anwendungen diese Pakete wahrscheinlich nicht verwenden werden. Wird hier der Transparenz wegen erwähnt.

Beispiele

Neue Beispiele zur Aussprachebewertung zum Angeben einer Lernsprache in Ihrer eigenen Anwendung
- C#: Siehe Beispielcode.
- C++: Siehe Beispielcode.
- JavaScript: Siehe Beispielcode.
- Objective-C: Siehe Beispielcode.
- Python: Siehe Beispielcode.
- Swift: Siehe Beispielcode.

Speech SDK 1.29.0: Release im Juni 2023

Neue Funktionen

C++, C#, Java – Vorschau der APIs für eingebettete Sprachübersetzung Jetzt können Sie Sprachübersetzungen ohne Cloud-Verbindung durchführen!
JavaScript – Kontinuierliche Spracherkennung (Continuous Language Identification, LID) jetzt für die Sprachübersetzung aktiviert.
JavaScript – Communitybeitrag zum Hinzufügen einer Eigenschaft LocaleName zur Klasse VoiceInfo. Vielen Dank an GitHub-Benutzer shivsarthak für den Pull Request.
C++, C#, Java: Für das Resampling der eingebetteten Sprachsyntheseausgabe mit einer Abtastrate von 16 kHz bis 48 kHz wurde Unterstützung hinzugefügt.
Unterstützung für Gebietsschema hi-IN in der Absichtserkennung mit Simple Pattern Matcher hinzugefügt.

Behebung von Programmfehlern

Ein Absturz, der durch eine Racebedingung in der Spracherkennung während der Objektzerstörung verursacht wurde, der in einigen unserer Android-Tests auftrat, wurde behoben.
Mögliche Deadlocks in der Absichtserkennung mit Simple Pattern Matcher wurden behoben.

Beispiele

Neue Beispiele für die eingebettete Sprachübersetzung

Speech SDK 1.28.0: Release von Mai 2023

Unterbrechende Änderung

JavaScript SDK: Online Certificate Status Protocol (OCSP) wurde entfernt. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Ab Version 1.28 ist unser benutzerdefiniertes OCSP-Modul nicht mehr enthalten.

Neue Funktionen

Die eingebettete Spracherkennung gibt nun NoMatchReason::EndSilenceTimeout zurück, wenn am Ende einer Äußerung ein Sprechpausen-Timeout auftritt. Dies entspricht dem Verhalten bei der Erkennung mithilfe des Echtzeit-Sprachdiensts.
JavaScript SDK: Legen Sie Eigenschaften unter SpeechTranslationConfig mithilfe von PropertyId-Enumerationswerten fest.

Behebung von Programmfehlern

C# unter Windows: Beheben Sie potenzielle Racebedingungen/Deadlocks in der Windows-Audioerweiterung. In Szenarios, in denen der Audiorenderer schnell entfernt und die Synthesizer-Methode zum Beenden des Sprechens verwendet wird, wurde das zugrunde liegende Ereignis nicht durch Beenden zurückgesetzt. Dies konnte dazu führen, dass das Rendererobjekt nie entfernt wurde, während gleichzeitig eine globale Entfernungssperre bestand, die den .NET-GC-Thread angehalten hat.

Beispiele

Ein eingebettetes Sprachbeispiel für MAUI wurde hinzugefügt.
Das eingebettete Sprachbeispiel für Android Java wurde um Sprachsynthese erweitert.

Speech SDK 1.27.0: Release im April 2023

Benachrichtigung zur bevorstehenden Änderungen

Wir planen, das Online Certificate Status Protocol (OCSP) im nächsten JavaScript SDK-Release zu entfernen. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Version 1.27 ist die letzte Version, die unser benutzerdefiniertes OCSP-Modul enthält.

Neue Funktionen

JavaScript: Unterstützung für Mikrofoneingaben aus dem Browser mit Sprecheridentifikation und -überprüfung hinzugefügt.
Eingebettete Spracherkennung: Supportupdate für die PropertyId::Speech_SegmentationSilenceTimeoutMs-Einstellung.

Behebung von Programmfehlern

Allgemein: Zuverlässigkeitsupdates in der Dienstwiederverbindungslogik (alle Programmiersprachen außer JavaScript).
Allgemein: Korrektur von Zeichenfolgenkonvertierungen, die zu Arbeitsspeicherverlust unter Windows führten (alle relevanten Programmiersprachen außer JavaScript).
Eingebettete Spracherkennung: Absturz in der französischen Spracherkennung bei Verwendung bestimmter Grammatiklisteneinträge wurde behoben.
Quellcodedokumentation: Korrekturen von Kommentaren in der SDK-Referenzdokumentation im Zusammenhang mit der Audioprotokollierung für den Dienst.
Absichtserkennung: Korrektur von Musterabgleichsprioritäten im Zusammenhang mit Listenentitäten.

Beispiele

Behandeln Sie Authentifizierungsfehler im C#-Beispiel für die Unterhaltungstranskription (CTS).
Beispiel für streamingbasierte Aussprachebewertung für Python, JavaScript, Objective-C und Swift hinzugefügt.

Speech SDK 1.26.0: Release von März 2023

Aktuelle Änderungen

Bitcode wurde in allen iOS-Zielen in folgenden Paketen deaktiviert: Cocoapod mit xcframework, NuGet (für Xamarin und MAUI) und Unity. Die Änderung wurde vorgenommen, da Apple die Bitcodeunterstützung ab Xcode 14 einstellt. Diese Änderung bedeutet auch, dass Sie möglicherweise eine Fehlermeldung mit dem Hinweis erhalten, dass das Framework keinen Bitcode enthält und eine Neuerstellung erforderlich ist, wenn Sie Xcode 13 verwenden oder den Bitcode für Ihre Anwendung mithilfe des Speech SDK explizit aktiviert haben. Stellen Sie zur Behebung dieses Problems sicher, dass Bitcode für Ihre Ziele deaktiviert ist.
Das iOS-Mindestbereitstellungsziel wurde in diesem Release auf 11.0 aktualisiert, was bedeutet, dass armv7-Hardware nicht mehr unterstützt wird.

Neue Funktionen

Die eingebettete Spracherkennung (auf dem Gerät) unterstützt jetzt sowohl Audio mit einer Abtastrate von 8 kHz als auch Audio mit einer Abtastrate von 16 kHz (16 Bit pro Sample, Mono-PCM).
Die Sprachsynthese meldet jetzt Verbindungs-, Netzwerk- und Dienstwartezeiten im Ergebnis, um die End-to-End-Latenzoptimierung zu unterstützen.
Neue Entscheidungsregeln für die Absichtserkennung mit einfachem Musterabgleich. Musterabgleiche mit mehr übereinstimmenden Zeichenbytes haben Vorrang vor Musterabgleichen mit weniger übereinstimmenden Zeichenbytes. Beispiel: Das Muster „Wählen Sie rechts oben {etwas} aus“ hat Vorrang vor „Wählen Sie {etwas} aus“.

Fehlerkorrekturen

Sprachsynthese: Es wurde ein Fehler behoben, bei dem das Emoji in Wortgrenzenereignissen nicht korrekt ist.
Schnellstart: Erkennen von Absichten mit Conversational Language Understanding:
- Absichten aus dem CLU-Orchestratorworkflow werden jetzt ordnungsgemäß angezeigt.
- Das JSON-Ergebnis ist jetzt über die Eigenschafts-ID LanguageUnderstandingServiceResponse_JsonResultverfügbar.
Spracherkennung mit Schlüsselwortaktivierung: Korrektur für ca. 150 ms fehlende Audiodaten nach einer Schlüsselworterkennung.
Korrektur für NuGet-iOS-MAUI-Releasebuild des Speech SDK – vom Kunden gemeldet (GitHub-Problem)

Beispiele

Korrektur von Swift-iOS-Beispiel – vom Kunden gemeldet (GitHub-Problem)

Speech SDK 1.25.0: Release von Januar 2023

Aktuelle Änderungen

Sprachenerkennungs-APIs (Vorschauversion) wurden vereinfacht. Wenn Sie ein Update auf Speech SDK 1.25 durchführen und eine Buildunterbrechung feststellen, besuchen Sie die Seite Sprachenerkennung, um mehr über die neue Eigenschaft SpeechServiceConnection_LanguageIdMode zu erfahren. Diese einzelne Eigenschaft ersetzt die beiden vorherigen SpeechServiceConnection_SingleLanguageIdPriority und SpeechServiceConnection_ContinuousLanguageIdPriority. Die Priorisierung zwischen geringer Latenz und hoher Genauigkeit ist nach den jüngsten Modellverbesserungen nicht mehr erforderlich. Jetzt müssen Sie nur auswählen, ob die anfängliche Sprachidentifikation oder die kontinuierliche Sprachidentifikation bei der kontinuierlichen Spracherkennung oder -übersetzung ausgeführt werden soll.

Neue Funktionen

C#/C++/Java: Das SDK für eingebettete Sprache wird jetzt in der geschlossenen öffentlichen Vorschauversion veröffentlicht. Weitere Informationen finden Sie in der Dokumentation zu Eingebettete Sprache (Vorschau). Sie können jetzt die Spracherkennung und Sprachsynthese auf einem Gerät ausführen, auch wenn die Cloudkonnektivität unterbrochen oder nicht verfügbar ist. Unterstützt auf Android-, Linux-, macOS- und Windows-Plattformen
C# MAUI: Unterstützung wurde für iOS- und Mac Catalyst-Ziele in Speech SDK NuGet hinzugefügt (Kundenproblem)
Unity: Die Android x86_64-Architektur wurde zum Unity-Paket hinzugefügt (Kundenproblem)
Go:
- Die Unterstützung für direktes Streaming von ALAW/MULAW wurde für die Spracherkennung hinzugefügt (Kundenproblem)
- Unterstützung wurde für PhraseListGrammar hinzugefügt. Vielen Dank an den GitHub-Benutzer czkoko für den Communitybeitrag!
C#/C++: Die Absichtserkennung unterstützt jetzt Conversational Language Understanding-Modelle in C++ und C# mit Orchestrierung im Microsoft-Dienst.

Behebung von Programmfehlern

Korrektur eines gelegentlichen Hängens in KeywordRecognizer beim Versuch, die Ausführung zu beenden
Python:
- Korrektur für das Abrufen von Ergebnissen der Aussprachebewertung, wenn PronunciationAssessmentGranularity.FullText festgelegt ist (Kundenproblem)
- Korrektur für die das Geschlecht betreffende Eigenschaft für männliche Stimmen, die nicht abgerufen werden, wenn Stimmen für die Sprachsynthese abgerufen werden
JavaScript
- Korrektur für die Analyse einiger WAV-Dateien, die auf iOS-Geräten aufgezeichnet wurden (Kundenproblem)
- Das JS SDK führt die Erstellung jetzt ohne Verwendung von npm-force-resolution durch (Kundenproblem)
- Conversation Translator legt jetzt den Dienstendpunkt richtig fest, wenn eine speechConfig-Instanz verwendet wird, die mit SpeechConfig.fromEndpoint() erstellt wurde.

Beispiele

Beispiele zur Verwendung von eingebetteter Sprache hinzugefügt
Beispiel für die Spracherkennung für MAUI hinzugefügt

Weitere Informationen finden Sie unter Repository für Speech SDK-Beispiele.

Speech SDK 1.24.2: Release von November 2022

Neue Funktionen

Keine neuen Features, nur eine Korrektur an der eingebetteten Engine zur Unterstützung neuer Modelldateien.

Behebung von Programmfehlern

Alle Programmiersprachen
- Es wurde ein Problem mit der Verschlüsselung eingebetteter Spracherkennungsmodelle behoben.

Speech SDK 1.24.1: Release von November 2022

Neue Funktionen

Veröffentlichte Pakete für die Vorschau eingebetteter Sprache. Weitere Informationen finden Sie unter https://aka.ms/embedded-speech.

Behebung von Programmfehlern

Alle Programmiersprachen
- Beheben des Absturzes der TTS-Einbettung bei nicht unterstütztem Voicefont
- Fehler behoben, der dazu führte, dass die Wiedergabe unter Linux mit stopSpeaking() nicht beendet werden konnte (#1686)
JavaScript SDK
- Regression bei der Abgrenzung von Audio durch die Unterhaltungstranskription korrigiert
Java
- Aktualisierte POM- und Javadocs-Dateien wurden vorübergehend in Maven Central veröffentlicht, um der Dokumentationspipeline das Aktualisieren von Onlinereferenzdokumenten zu ermöglichen.
Python
- Regression korrigiert, bei der „speak_text(ssml)“ in Python „void“ zurückgab.

Speech SDK 1.24.0: Release vom Oktober 2022

Neue Funktionen

Alle Programmiersprachen: AMR-WB (16 kHz) zur Liste der unterstützten Sprachsynthese-Audioausgabeformate hinzugefügt
Python: Paket für Linux Arm64 für unterstützte Linux-Distributionen hinzugefügt.
C#/C++/Java/Python: Unterstützung für direktes Streaming von ALAW zbd MULAW zum Sprachdienst (zusätzlich zum vorhandenen PCM-Stream) mit AudioStreamWaveFormat hinzugefügt
C# MAUI: NuGet-Paket aktualisiert, um Android-Ziele für .NET MAUI-Entwickler zu unterstützen (Kundenproblem)
Mac: separates XCframework für Mac hinzugefügt, das keine iOS-Binärdateien enthält. Dies bietet eine Option für Entwickler, die nur Mac-Binärdateien mit einem kleineren XCframework-Paket benötigen.
Microsoft Audio Stack (MAS):
- Wenn Beamforming-Winkel angegeben sind, wird Schall, der außerhalb des angegebenen Bereichs entsteht, besser unterdrückt.
- Etwa 70 % Reduzierung der Größe von libMicrosoft.CognitiveServices.Speech.extension.mas.so für Linux ARM32 und Linux Arm64.
Musterabgleich der Absichtserkennung:
- Rechtschreibunterstützung für die Sprachen fr, de, es, jp hinzugefügt
- Vorgefertigte Integer-Unterstützung für Sprache es hinzugefügt.

Fehlerkorrekturen

iOS: Behebung des Sprachsynthesefehlers unter iOS 16, der durch einen Fehler bei der Dekodierung komprimierter Audiodaten verursacht wurde (Kundenproblem).
JavaScript:
- Behebung eines nicht funktionierenden Authentifizierungstokens beim Abrufen einer Sprachsynthese-Sprachliste (Kundenproblem).
- Verwenden von Daten-URLs zum Laden von Workern (Kundenproblem).
- Erstellen eines Audioprozessor-Worklets nur, wenn AudioWorklet im Browser unterstützt wird (Kundenproblem). Dies war ein Communitybeitrag von William Wong. Vielen Dank, William!
- Beheben des erkannten Rückrufs, wenn LUIS-Antwort connectionMessage leer ist (Kundenproblem).
- Korrektes Einstellen des Timeouts für die Sprachsegmentierung.
Musterabgleich der Absichtserkennung:
- JSON-fremde Zeichen innerhalb von Modellen werden jetzt ordnungsgemäß geladen.
- Beheben eines Fehlers, wenn recognizeOnceAsync(text) während der kontinuierlichen Erkennung aufgerufen wurde.

Speech SDK 1.23.0: Release von Juli 2022

Neue Funktionen

C#, C++, Java: Unterstützung für die Sprachen zh-cn und zh-hk in der Absichtserkennung mit Musterabgleich hinzugefügt.
C#: Unterstützung für AnyCPU .NET Framework-Builds hinzugefügt

Behebung von Programmfehlern

Android: Behobene OpenSSL-Sicherheitsrisiken CVE-2022-2068 durch Aktualisieren von OpenSSL auf 1.1.1q
Python: Beheben des Absturzes beim Verwenden von PushAudioInputStream
iOS: Beheben von „EXC_BAD_ACCESS: Versuch, Null-Zeiger zu dereferenzieren“, wie in iOS gemeldet (GitHub-Problem)

Speech SDK 1.22.0: Release von Juni 2022

Neue Funktionen

Java: IntentRecognitionResult-API für getEntities(), applyLanguageModels() und recognizeOnceAsync(text) hinzugefügt, um die Engine für einfachen Musterabgleich zu unterstützen.
Unity: Unterstützung für Mac M1 (Apple Silicon) für Unity-Paket hinzugefügt (GitHub Problem)
C#: Unterstützung für x86_64 für Xamarin Android hinzugefügt (GitHub Problem)
C#: .NET Framework-Mindestversion, die auf v4.6.2 für SDK C#-Paket aktualisiert wurde, als v4.6.1 wurde eingestellt (siehe Microsoft .NET Framework Component Lifecycle-Richtlinie)
Linux: Unterstützung für Debian 11 und Ubuntu 22.04 LTS wurde hinzugefügt. Ubuntu 22.04 LTS erfordert die manuelle Installation von libssl1.1 entweder als Binärpaket von hier (z. B. libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb oder höher für x64), oder indem Sie aus Quellen kompilieren.

Behebung von Programmfehlern

UWP: OpenSSL-Abhängigkeit aus UWP-Bibliotheken entfernt und durch WinRT Websocket und HTTP-APIs ersetzt, um die Sicherheitskonformität und kleinere binäre Größe zu erfüllen.
Mac: Das Problem „MicrosoftCognitiveServicesSpeech-Module nicht gefunden“ wurde behoben, wenn Swift-Projekte für macOS-Plattform verwendet werden
Windows, Mac: Es wurde ein plattformspezifisches Problem behoben, bei dem Audioquellen, die über Eigenschaften konfiguriert wurden, um eine Echtzeitrate zu streamen, manchmal zurückfällt und schließlich die Kapazität überschritten hat

Beispiele (GitHub)

C#: .NET Framework-Beispiele, die aktualisiert wurden, um v4.6.2 zu verwenden
Unity: Beispiel für virtuelle Assistenten, das für Android und UWP behoben wurde
Unity: Unity-Beispiele, die für Unity 2020 LTS-Version aktualisiert wurden

Speech SDK 1.21.0: Release von April 2022

Neue Funktionen

Java und JavaScript: Unterstützung für die fortlaufende Sprachenerkennung bei Verwendung des SpeechRecognizer-Objekts hinzugefügt
JavaScript: Hinzugefügt: Diagnose-APIs zum Aktivieren der Konsolenprotokollierungsstufe und Dateiprotokollierung (nur auf Knotenebene), um Microsoft bei der Behandlung der von Kunden gemeldeten Probleme zu unterstützen.
Python: Hinzugefügt: Unterstützung für Unterhaltungstranskription
Go: Hinzugefügt: Unterstützung für Sprechererkennung
C++ und C#: Unterstützung für eine erforderliche Gruppe von Wörtern in der Absichtserkennung (einfacher Musterabgleich) hinzugefügt. Beispiel: „Timer (festlegen|starten|beginnen)“, wo entweder „festlegen“, „starten“ oder „beginnen“ vorhanden sein muss, damit die Absicht erkannt wird.
Alle Programmiersprachen, Sprachsynthese: Hinzugefügt: Eigenschaft „Dauer“ in Word-Begrenzungsereignissen. Hinzugefügt: Unterstützung für Interpunktationsgrenze und Satzgrenze
Objective-C/Swift/Java: Hinzugefügt: Ergebnisse auf Wortebene für das Aussprachebewertungs-Ergebnisobjekt (ähnlich wie bei C#). Die Anwendung muss keine JSON-Ergebniszeichenfolge mehr analysieren, um Informationen auf Wortebene abzurufen (GitHub-Problem).
iOS-Plattform: Hinzugefügt: Experimentelle Unterstützung für ARMv7-Architektur

Behebung von Programmfehlern

iOS-Plattform: Fix zum Ermöglichen der Erstellung von Builds für das Ziel „Jedes iOS-Gerät“ bei Verwendung von Cocoapod (GitHub-Issue)
Android-Plattform: Aktualisiert: Die OpenSSL-Version wurde auf 1.1.1n aktualisiert, um Sicherheitsrisiken zu beheben CVE-2022-0778
JavaScript: Problem, bei dem der Wav-Header nicht mit der Dateigröße aktualisiert wurde, behoben (GitHub-Issue)
JavaScript: Behoben: Synchronisierungsproblem bei der Anforderungs-ID, das zum Abbruch von Übersetzungsszenarien führte (GitHub-Problem)
JavaScript: Behoben: Problem beim Instanziieren von SpeakerAudioDestination ohne Stream (GitHub-Problem]
C++: Behoben: C+-Header zum Entfernen einer Warnung beim Kompilieren für C++17 oder höher

Beispiele GitHub

Neue Java-Beispiele für die Spracherkennung mit Sprachbestimmung
Neue Python- und Java-Beispiele für Unterhaltungstranskription
Neues Go-Beispiel für die Sprechererkennung.
Neues C++- und C#-Tool für Windows, das alle Audioaufnahme- und Rendergeräte aufzählt, um ihre Geräte-ID zu finden. Diese ID wird vom Speech SDK benötigt, wenn Sie Audio von einem nicht standardmäßigen Gerät erfassen oder darauf rendern möchten.

Speech SDK 1.20.0: Release von Januar 2022

Neue Funktionen

Objective-C, Swift und Python: Unterstützung für DialogServiceConnector wurde hinzugefügt, die für Sprach-Assistenten-Szenarien verwendet wird.
Python: Unterstützung für Python 3.10 wurde hinzugefügt. Die Unterstützung für Python 3.6 wurde entfernt, gemäß dem Ende der Lebensdauer von Python 3.6.
Unity: Das Speech SDK wird jetzt für Unity-Anwendungen unter Linux unterstützt.
C++, C#: IntentRecognizer mit Musterabgleich wird jetzt in C# unterstützt. Darüber hinaus werden jetzt Szenarien mit benutzerdefinierten Entitäten, optionalen Gruppen und Entitätsrollen in C++ und C# unterstützt.
C++, C#: Verbesserte Protokollierung der Diagnoseablaufverfolgung mithilfe der neuen Klassen FileLogger, MemoryLogger und EventLogger. SDK-Protokolle sind ein wichtiges Tool für Microsoft, um von Kunden gemeldete Probleme zu diagnostizieren. Diese neuen Klassen erleichtern es Kunden, Speech SDK-Protokolle in ihr eigenes Protokollierungssystem zu integrieren.
Alle Programmiersprachen: PronunciationAssessmentConfig verfügt jetzt über Eigenschaften zum Festlegen des gewünschten Phonemalphabets (IPA oder SAPI) und der N-besten Phonemanzahl (wodurch vermieden wird, eine JSON-Konfigurationsdatei erstellen zu müssen, gemäß GitHub Issue 1284). Außerdem wird jetzt die Ausgabe auf Silbenebene unterstützt.
Android, iOS und macOS (alle Programmiersprachen): GStreamer wird nicht mehr benötigt, um Netzwerke mit begrenzter Bandbreite zu unterstützen. SpeechSynthesizer verwendet jetzt die Audiodecodierungsfunktionen des Betriebssystems, um komprimierte Audiodaten zu decodieren, die vom Sprachsynthese-Dienst gestreamt werden.
Alle Programmiersprachen: SpeechSynthesizer unterstützt jetzt drei neue Opus-Rohausgabeformate (ohne Container), die häufig in Livestreamingszenarien verwendet werden.
JavaScript: Die getVoicesAsync()-API wurde zu SpeechSynthesizer hinzugefügt, um die Liste der unterstützten Synthesestimmen abzurufen (GitHub Issue 1350).
JavaScript: Die getWaveFormat()-API wurde zu AudioStreamFormat hinzugefügt, um Nicht-PCM-Wellenformate zu unterstützen (GitHub Issue 452)
JavaScript: Lautstärke-Getter/-Setter- und mute()/unmute()-APIs wurden zu SpeakerAudioDestination hinzugefügt (GitHub Issue 463)

Behebung von Programmfehlern

C++, C#, Java, JavaScript, Objective-C und Swift: Korrektur zum Entfernen einer Verzögerung von 10 Sekunden beim Beenden einer Spracherkennung, die einen PushAudioInputStream verwendet. Diese ist für den Fall gedacht, bei dem keine neue Audiodatei als Eingang übertragen wird, nachdem StopContinuousRecognition aufgerufen wurde (GitHub Issues 1318, 331).
Unity unter Android und UWP: Unity-Metadateien wurden für UWP, Android Arm64 und das Windows-Subsystem für Android (WSA) Arm64 korrigiert (GitHub Issue 1360).
iOS: Das Kompilieren Ihrer Speech SDK-Anwendung auf einem beliebigen iOS-Gerät bei Verwendung von CocoaPods ist jetzt korrigiert (GitHub Issue 1320).
iOS: Wenn SpeechSynthesizer so konfiguriert ist, dass Audiodaten direkt an einen Lautsprecher ausgegeben werden, wurde in seltenen Fällen die Wiedergabe am Anfang angehalten. Dies wurde behoben.
JavaScript: Verwendung des Fallbacks des Skriptprozessors für Mikrofoneingaben verwenden, wenn kein Audio-Worklet gefunden wird (GitHub Issue 455)
JavaScript: Hinzufügen eines Protokolls zum Agent, um einen bei der Sentry-Integration gefundenen Fehler zu beheben (GitHub Issue 465)

Beispiele GitHub

C++-, C#-, Python- und Java-Beispiele, die zeigen, wie Sie detaillierte Erkennungsergebnisse abrufen. Die Details umfassen alternative Erkennungsergebnisse, Zuverlässigkeitsbewertung, lexikalische Form, normalisierte Form, maskierte normalisierte Form mit jeweiligem Timing auf Wortebene.
Ein iOS-Beispiel mit der Verwendung von AVFoundation als externe Audioquelle wurde hinzugefügt.
Ein Java-Beispiel wurde hinzugefügt, um zu zeigen, wie Untertitel im SRT-Format (SubRip-Text) mithilfe des WordBoundary-Ereignisses abgerufen werden.
Android-Beispiele für die Aussprachebewertung.
C++- und C#-Beispiele, die die Verwendung der neuen Diagnoseprotokollierungsklassen zeigen.

Speech SDK 1.19.0: Release von November 2021

Highlights

Sprechererkennungsdienst ist jetzt allgemein verfügbar. Speech SDK-APIs sind unter C++, C#, Java und JavaScript verfügbar. Mit der Sprechererkennung können Sie Sprecher anhand ihrer einzigartigen Stimmmerkmale genau überprüfen und identifizieren. Weitere Informationen zu diesem Thema finden in der Dokumentation.
Wir haben die Unterstützung für Ubuntu 16.04 in Verbindung mit Azure DevOps und GitHub eingestellt. Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Migrieren Sie Ubuntu 16.04-Workflows zu mindestens Ubuntu 18.04.
OpenSSL-Verknüpfung in Linux-Binärdateien wurde in den dynamischen Modus geändert. Die Binärgröße von Linux wurde um etwa 50 % reduziert.
Mac M1 ARM-basierte Chipunterstützung wurde hinzugefügt.

Neue Funktionen

C++/C#/Java: Neue APIs wurden hinzugefügt, um die Audioverarbeitungsunterstützung für Spracheingaben mit Microsoft Audio Stack zu ermöglichen. Die Dokumentation finden Sie hier.
C++ : Neue APIs für die Absichtserkennung, um einen erweiterten Musterabgleich zu ermöglichen. Dies umfasst Listenentitäten und vordefinierte Ganzzahlentitäten sowie Unterstützung für die Gruppierung von Absichten und Entitäten als Modelle (Dokumentation, Updates und Beispiele befinden sich in der Entwicklung und werden in naher Zukunft veröffentlicht).
Mac:Unterstützung von Arm64 (M1)-basierter Hardware für CocoaPod, Python, Java und NuGet-Pakete im Zusammenhang mit GitHub-Issue 1244.
iOS/Mac:iOS- und macOS-Binärdateien sind jetzt in xcframework im Zusammenhang mit GitHub Issue 919 gepackt.
iOS/Mac: Unterstützung für Mac-Katalysator im Zusammenhang mit GitHub Issue 1171.
Linux: Neues tar-Paket für CentOS7 Informationen zum Speech SDKwurde hinzugefügt. Das TAR-Paket von Linux enthält nun spezifische Bibliotheken für RHEL/CentOS 7 in lib/centos7-x64. Speech SDK-Bibliotheken in lib/x64 gelten weiterhin für alle anderen unterstützten Linux x64-Distributionen (einschließlich RHEL/CentOS 8) und funktionieren nicht unter RHEL/CentOS 7.
JavaScript: VoiceProfile- und SpeakerRecognizer-APIs wurden in async/awaitable geändert.
JavaScript: Unterstützung für Azure-Regionen der US-Regierung wurde hinzugefügt.
Windows: Unterstützung für die Wiedergabe auf UWP (Universal Windows Platform) wurde hinzugefügt.

Behebung von Programmfehlern

Android: OpenSSL-Sicherheitsupdate (aktualisiert auf Version 1.1.1l) für Android-Pakete.
Python: Fehler behoben, bei dem die Auswahl des Lautsprechergeräts in Python fehlschlägt.
Core: Automatisches Wiederherstellen der Verbindung, wenn ein Verbindungsversuch fehlschlägt.
iOS: Audiokomprimierung wurde für iOS-Pakete aufgrund von Instabilität und Bitcode-Buildproblemen bei Verwendung von GStreamer deaktiviert. Details sind GitHub Issue 1209 verfügbar.

Beispiele GitHub

Mac/iOS: Aktualisierte Beispiele und Schnellstarts zur Verwendung des xcframework-Pakets.
.NET: Beispiele für die Verwendung von .NET Core 3.1 wurden aktualisiert.
JavaScript: Beispiel für Sprach-Assistenten wurde hinzugefügt.

Speech SDK 1.18.0: Release von Juli 2021

Hinweis: Informationen zu den ersten Schritten mit dem Speech SDK finden Sie hier.

Zusammenfassung der Highlights

Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Mit Azure DevOps und GitHub wird die Unterstützung für Version 16.04 im September 2021 eingestellt. Migrieren Sie Ubuntu 16.04-Workflows vorher mindestens zu Ubuntu 18.04.

Neue Funktionen

C++ : Der einfache Sprachmusterabgleich mit Absichtserkennung vereinfacht jetzt die Implementierung einfacher Absichtserkennungsszenarien.
C++/C#/Java: Wir haben der VoiceProfileClient-Klasse eine neue API GetActivationPhrasesAsync() hinzugefügt, die den Empfang einer Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Sprechererkennung für unabhängige Erkennungsszenarien ermöglicht.
- Wichtig: Das Feature zur Sprechererkennung befindet sich in der Vorschauphase. 90 Tage nach der Freigabe für die allgemeine Verfügbarkeit werden alle in der Vorschauversion des Features erstellten Sprachprofile nicht mehr unterstützt. Die Sprachprofile aus der Vorschauversion funktionieren dann nicht mehr.
Python: Den vorhandenen SpeechRecognizer- und TranslationRecognizer-Objekten wurde Unterstützung für die kontinuierliche Sprachidentifikation (Continuous Language Identification, LID) hinzugefügt.
Python: Ein neues Python-Objekt namens SourceLanguageRecognizer für die einmalige oder kontinuierliche Sprachidentifikation (ohne Erkennung oder Übersetzung) wurde hinzugefügt.
JavaScript: Der VoiceProfileClient-Klasse wurde eine API getActivationPhrasesAsync hinzugefügt, die den Empfang einer Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Sprechererkennung für unabhängige Erkennungsszenarien ermöglicht.
Die enrollProfileAsync-API der VoiceProfileClient-Klasse von JavaScript ist jetzt asynchron „awaitable“. Ein Beispiel zur Verwendung finden Sie in diesem unabhängigen Identifikationscode.

Verbesserungen

Java: Vielen Java-Objekten wurde Unterstützung für AutoCloseable hinzugefügt. Für die Freigabe von Ressourcen wird jetzt das try-with-resources-Modell unterstützt. Weitere Informationen finden Sie in diesem Beispiel mit try-with-resources. Sie können sich auch das Tutorial zur try-with-resources-Anweisung in der Oracle Java-Dokumentation ansehen, um mehr über dieses Muster zu erfahren.
Der Speicherbedarf des Datenträgers wurde für viele Plattformen und Architekturen erheblich reduziert. Beispiele für die Binärdatei Microsoft.CognitiveServices.Speech.core: 475 KB kleiner für x64 Linux (Reduktion um 8,0 %), 464 KB kleiner für Arm64 Windows UWP (Reduktion um 11,5 %), 343 KB kleiner für x86 Windows (Reduktion um 17,5 %) und 451 KB kleiner für x64 Windows (Reduktion um 19,4 %).

Behebung von Programmfehlern

Java: Der Synthesefehler bei Synthesetext mit Ersatzzeichen wurde behoben. Ausführlichere Informationen finden Sie hier.
JavaScript: Für die Verarbeitung von Audioeingaben über das Browsermikrofon wird jetzt AudioWorkletNode anstelle der veralteten ScriptProcessorNode-Schnittstelle verwendet. Ausführlichere Informationen finden Sie hier.
JavaScript: Halten Sie Konversationen in Szenarien mit zeitintensiver Konversationsübersetzung korrekt aufrecht. Ausführlichere Informationen finden Sie hier.
JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Medienstream hergestellt hat. Ausführlichere Informationen finden Sie hier.
JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Pushstream hergestellt hat. Ausführlichere Informationen finden Sie hier.
JavaScript: Die Offsetberechnung auf Wortebene in detaillierten Erkennungsergebnissen wurde korrigiert. Ausführlichere Informationen finden Sie hier.

Beispiele

Aktualisierte Java-Schnellstartbeispiele finden Sie hier.
Die Beispiele zur JavaScript-Sprechererkennung wurden aktualisiert, um die neue Verwendung der enrollProfileAsync()-Methode zu veranschaulichen. Beispiele finden Sie hier.

Speech SDK 1.17.0: Version aus Mai 2021

Hinweis

Erste Schritte mit dem Speech SDK finden Sie hier:

Zusammenfassung der Highlights

Geringerer Speicherbedarf: Wir verringern weiterhin den Speicher- und Datenträgerbedarf des Speech SDK und seiner Komponenten.
Mit einer neuen eigenständigen Sprachenerkennungs-API können Sie erkennen, welche Sprache gesprochen wird.
Entwickeln Sie sprachaktivierte Mixed Reality- und Gaminganwendungen mit Unity unter macOS.
Sie können jetzt in der Programmiersprache Go zusätzlich zur Spracherkennung auch die Sprachsynthese verwenden.
Es gibt verschiedene Fehlerbehebungen für von unseren geschätzten Kunden auf GitHub gekennzeichneten Issues. VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.

Neue Funktionen

C++/C#: Neue eigenständige Start- und fortlaufende Sprachenerkennung über die SourceLanguageRecognizer-API. Wenn Sie nur die in Audioinhalten gesprochene(n) Sprache(n) erkennen möchten, ist dies die richtige API dafür. Mehr dazu finden Sie in den Details für C++ und C#.
C++/C#: Spracherkennung und Übersetzungserkennung unterstützen jetzt sowohl die Spracherkennung zu Beginn als auch die kontinuierliche Spracherkennung, sodass Sie programmgesteuert bestimmen können, welche Sprache(n) gesprochen werden, bevor sie transkribiert oder übersetzt werden. Weitere Informationen zur Spracherkennung finden Sie hier und weitere Informationen zur Sprachübersetzung finden Sie hier.
C#: Unterstützung für Unity wurde zu macOS (x64) hinzugefügt. Dadurch werden Anwendungsfälle für Spracherkennung und Sprachsynthese in Mixed Reality und Gaming ermöglicht.
Go: Wir haben die Unterstützung für Sprachsynthese/Text-zu-Sprache zur Programmiersprache Go hinzugefügt, um die Sprachsynthese in noch mehr Anwendungsfällen zur Verfügung zu stellen. Weitere Informationen finden Sie in unserer Schnellstartanleitung oder in unserer Referenzdokumentation.
C++/C#/Java/Python/Objective-C/Go: Der Sprachsynthetizer unterstützt jetzt das connection-Objekt. Dies hilft Ihnen bei der Verwaltung und Überwachung der Verbindung mit dem Spracherkennungsdienst und ist besonders hilfreich, um eine Vorabverbindung zur Verringerung der Wartezeit herzustellen. Die zugehörige Dokumentation finden Sie hier.
C++/C#/Java/Python/Objective-C/Go: Wir machen jetzt die Warte- und Unterschreitungszeit in SpeechSynthesisResult verfügbar, um Sie bei der Überwachung und Diagnose von Wartezeitproblemen bei der Sprachsynthese zu unterstützen. Weitere Informationen finden Sie unter den Details für C++, C#, Java, Python, Objective-C und Go.
C++/C#/Java/Python/Objective-C: Die Sprachsynthese verwendet jetzt standardmäßig neuronale Stimmen, wenn Sie keine Stimme angeben, die verwendet werden soll. Dadurch erhalten Sie standardmäßig eine höhere Wiedergabetreue, dies erhöht aber auch den Standardpreis. Sie können eine unserer über 70 Standardstimmen oder über 130 neuronale Stimmen angeben, um den Standardwert zu ändern.
C++/C#/Java/Python/Objective-C/Go: Wir haben eine Eigenschaft für das Geschlecht zu den Synthesestimmeninformationen hinzugefügt, um die Auswahl von Stimmen basierend auf dem Geschlecht zu erleichtern. Dies behandelt das GitHub-Problem 1055.
C++, C#, Java, JavaScript: Wir unterstützen jetzt retrieveEnrollmentResultAsync, getAuthorizationPhrasesAsync und getAllProfilesAsync() in der Sprechererkennung, um dem Benutzer die Verwaltung aller Stimmenprofile für ein bestimmtes Konto zu erleichtern. Weitere Informationen finden Sie in der Dokumentation für C++, C#, Java, JavaScript. Dies behandelt das GitHub-Problem 338.
JavaScript: Wir haben Wiederholungsversuche bei Verbindungsfehlern hinzugefügt, die Ihre JavaScript-basierten Sprachanwendungen zuverlässiger gestalten.

Verbesserungen

Speech SDK-Binärdateien für Linux und Android wurden aktualisiert, um die neueste Version von OpenSSL (1.1.1k) zu verwenden.
Verbesserungen beim Codeumfang:
- Language Understanding ist jetzt in eine separate „lu“-Bibliothek unterteilt.
- Die Größe der Binärdateien für den Windows x64-Kern wurde um 14,4 % verringert.
- Die Größe der Binärdateien für den Android Arm64-Kern wurde um 13,7 % verringert.
- Andere Komponenten wurden ebenfalls verkleinert.

Behebung von Programmfehlern

Alle: Das GitHub-Problem 842 für ServiceTimeout wurde behoben. Sie können jetzt lange Audiodateien mithilfe des Speech SDK transkribieren, ohne dass die Verbindung mit dem Dienst mit diesem Fehler beendet wird. Es wird jedoch weiterhin empfohlen, die Batchtranskription für lange Dateien zu verwenden.
C# : Das GitHub-Problem 947 wurde behoben, bei dem eine fehlende Spracheingabe Ihre App in einem fehlerhaften Zustand hinterlassen konnte.
Java: Das GitHub-Problem 997 wurde behoben, bei dem das Speech SDK für Java 1.16 abstürzt, wenn „DialogServiceConnector“ ohne Netzwerkverbindung oder mit einem ungültigen Abonnementschlüssel verwendet wird.
Ein Absturz beim abrupten Beenden der Spracherkennung (z. B. mithilfe von STRG+C in der Konsolen-App) wurde behoben.
Java: Es wurde eine Korrektur zum Löschen temporärer Dateien unter Windows hinzugefügt, wenn das Speech SDK für Java verwendet wird.
Java: Das GitHub-Problem 994 wurde behoben, bei dem der Aufruf von DialogServiceConnector.stopListeningAsync zu einem Fehler führen konnte.
Java: Es wurde ein Kundenproblem im Schnellstart des virtuellen Assistenten behoben.
JavaScript: GitHub-Issue 366, bei dem ConversationTranslator den Fehler „this.cancelSpeech ist keine Funktion“ ausgelöst hat, behoben.
JavaScript: Das GitHub-Problem 298, bei dem das Beispiel „Abrufen des Ergebnisses als InMemory-Datenstrom“ den Ton laut wiedergegeben hat, wurde behoben.
JavaScript: GitHub-Issue 350, bei dem der Aufruf von AudioConfig zu „ReferenceError: MediaStream ist nicht definiert“ geführt hat, behoben.
JavaScript: Eine „UnhandledPromiseRejection“-Warnung in Node.js für zeitintensive Sitzungen wurde behoben.

Beispiele

Die Unity-Beispieldokumentation für macOS wurde hieraktualisiert.
Ein React Native-Beispiel für den Azure KI Speech-Spracherkennungsdienst ist jetzt hier verfügbar.

Speech SDK 1.16.0: Release von März 2021

Hinweis

Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können sie hierherunterladen.

Neue Funktionen

C++/C#/Java/Python: Wechsel zur aktuellen Version von GStreamer (1.18.3), um die Transkription jedes Medienformats unter Windows, Linux und Android zu unterstützen. Die zugehörige Dokumentation finden Sie hier.
C++/C#/Java/Objective-C/Python: Jetzt wird das Decodieren von komprimierter Sprachsynthese/synthetisierten Audiodaten in das SDK unterstützt. Wenn Sie das Ausgabeaudioformat auf PCM festlegen und GStreamer auf Ihrem System verfügbar ist, fordert das SDK automatisch komprimierte Audiodaten vom Dienst an, um Bandbreite zu sparen und die Audiodaten auf dem Client zu decodieren. Sie können SpeechServiceConnection_SynthEnableCompressedAudioTransmission auf false festlegen, um dieses Feature zu deaktivieren. Details zu C++, C#, Java, Objective-C, Python.
JavaScript: Node.js-Benutzer können jetzt die -AudioConfig.fromWavFileInputAPIverwenden. GitHub-Issue 252 bezieht sich auf dieses Problem.
C++/C#/Java/Objective-C/Python: Die GetVoicesAsync()-Methode wurde hinzugefügt, damit die Sprachsynthese alle verfügbaren Synthesestimmen zurückgibt. Details zu C++, C#, Java, Objective-C und Python.
C++/C#/Java/JavaScript/Objective-C/Python: Das VisemeReceived-Ereignis für TTS/Sprachsynthese wurde hinzugefügt, um synchrone Visemanimiation zurückzugeben. Die zugehörige Dokumentation finden Sie hier.
C++/C#/Java/JavaScript/Objective-C/Python: Für TTS wurde das BookmarkReached-Ereignis hinzugefügt. Sie können im Eingabe-SSML Lesezeichen festlegen und den Audiooffset jedes Lesezeichen abrufen. Die zugehörige Dokumentation finden Sie hier.
Java: Unterstützung für Sprechererkennungs-APIs wurde hinzugefügt. Ausführlichere Informationen finden Sie hier.
C++/C#/Java/JavaScript/Objective-C/Python: Es wurden zwei neue Ausgabeaudioformate mit einem WebM-Container für TTS („Webm16Khz16BitMonoOpus“ und „Webm24Khz16BitMonoOpus“) hinzugefügt. Diese Formate sind besser für das Streaming von Audiodaten mit dem Opus-Codec geeignet. Details zu C++, C#, Java, JavaScript, Objective-C und Python.
C++/C#/Java: Unterstützung für das Abrufen des Sprachprofils für das Sprechererkennungsszenario wurde hinzugefügt. Details zu C++, C# und Java.
C++/C#/Java/Objective-C/Python: Unterstützung für eine separate freigegebene Bibliothek für die Steuerung von Audiomikrofon und Lautsprecher wurde hinzugefügt. Dies ermöglicht dem Entwickler die Verwendung des SDK in Umgebungen ohne Abhängigkeiten von erforderlichen Audiobibliotheken.
Objective-C/Swift: Es wurde Unterstützung für Modulframeworks mit Umbrella-Header hinzugefügt. Dies ermöglicht dem Entwickler den Import des Speech SDK als Modul in Apps mit Objective-C (iOS oder Mac)/Swift. GitHub-Issue 452 bezieht sich auf dieses Problem.
Python: Python 3.9 wird jetzt unterstützt, während Python 3.5 aufgrund der Einstellung des Supports für Python 3.5 nicht mehr unterstützt wird.

Bekannte Probleme

C++/C#/Java: DialogServiceConnector kann nicht mit CustomCommandsConfig auf eine Anwendung für benutzerdefinierte Befehle zugreifen. Stattdessen tritt ein Verbindungsfehler auf. Dies kann umgangen werden, indem Sie der Anforderung mit config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter) die Anwendungs-ID manuell hinzufügen. Das erwartete Verhalten von CustomCommandsConfig wird in der nächsten Version wiederhergestellt.

Verbesserungen

Wir möchten die Speicherauslastung und den Datenträger-Speicherbedarf des Speech SDK releaseunabhängig verringern, und Android-Binärdateien sind jetzt um 3 % bis 5 % kleiner.
Verbesserte Genauigkeit, Lesbarkeit und Abschnitte mit weiteren Informationen in unserer C#-Referenzdokumentation hier.

Behebung von Programmfehlern

JavaScript: Umfangreiche WAV-Dateiheader werden jetzt ordnungsgemäß analysiert (vergrößert das Headersegment auf 512 Bytes). GitHub-Issue 962 bezieht sich auf dieses Problem.
JavaScript: Ein Problem bei der Mikrofonzeitsteuerung wurde korrigiert, das auftritt, wenn der Mikrofonstream vor der Stopperkennung endet. Dies betrifft eine Funktionsstörung der Spracherkennung in Firefox.
JavaScript: Die Initialisierungszusage wird jetzt ordnungsgemäß behandelt, wenn der Browser das Ausschalten des Mikrofons erzwingt, bevor „turnon“ abgeschlossen wurde.
JavaScript: „url-dependency“ wurde durch „url-parse“ ersetzt. GitHub-Issue 264 bezieht sich auf dieses Problem.
Android: Das Problem wurde behoben, dass keine Rückrufe erfolgen, wenn minifyEnabled auf „true“ festgelegt ist.
C++/C#/Java/Objective-C/Python: TCP_NODELAY wird ordnungsgemäß auf die zugrunde liegende Socket-E/A für TTS festgelegt, um die Latenz zu verringern.
C++/C#/Java/Python/Objective-C/Go: Das Problem wurde behoben, dass gelegentlich ein Absturz erfolgt, wenn die Erkennung unmittelbar nach dem Starten einer Erkennung zerstört wurde.
C++/C#/Java: Das Problem wurde behoben, dass bei der Zerstörung der Sprechererkennung gelegentlich ein Absturz erfolgt.

Beispiele

JavaScript: Browserbeispiele erfordern nicht mehr einen speziellen Download von JavaScript-Bibliotheksdateien.

Speech-SDK 1.15.0: Release von Januar 2021

Hinweis

Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können sie hierherunterladen.

Zusammenfassung der Highlights

Der geringere Arbeitsspeicher und Speicherbedarf des Datenträgers machen das SDK effizienter.
Es sind Ausgabeformate mit höherer Genauigkeit für die private Vorschau der benutzerdefinierten neuronalen Stimme verfügbar.
Die Absichtserkennung kann jetzt mehr als nur die höchste Absicht abrufen und zurückgeben, sodass Sie eine separate Bewertung der Absicht Ihres Kunden durchführen können.
Das Einrichten von Sprach-Assistenten oder Bots ist nun einfacher, Sie können das Zuhören sofort beenden und die Reaktionen auf Fehler besser steuern.
Die Geräteleistung wurde verbessert, da die Komprimierung optional ist.
Verwendung des Speech SDK unter Windows ARM bzw. Arm64 ist möglich.
Das Debuggen auf niedriger Ebene wurde verbessert.
Das Feature zur Bewertung der Aussprache ist jetzt in größerem Umfang verfügbar.
Es gibt verschiedene Fehlerbehebungen für von unseren geschätzten Kunden auf GitHub gekennzeichneten Issues. VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.

Verbesserungen

Das Speech-SDK ist jetzt effizienter und einfacher zu verwenden. Es wurde ein Multirelease gestartet, um die Speicherauslastung und den Speicherbedarf des Speech-SDK zu reduzieren. Im ersten Schritt wurden erhebliche Änderungen an der Dateigröße in freigegebenen Bibliotheken vorgenommen. Im Vergleich zum Release 1.14:
- Die 64-Bit-UWP-kompatiblen Windows-Bibliotheken sind etwa 30 Prozent kleiner.
- 32-Bit-Windows-Bibliotheken wurden noch nicht hinsichtlich Größe verbessert.
- Linux-Bibliotheken sind 20 bis 25 Prozent kleiner.
- Android-Bibliotheken sind 3 bis 5 Prozent kleiner.

Neue Funktionen

All: Für die private Vorschau der benutzerdefinierten neuronalen Stimme über die TTS-Sprachsynthese-API sind neue 48-kHz-Ausgabeformate verfügbar: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
All: Custom Voice ist ebenfalls einfacher zu verwenden. Die Unterstützung für das Einstellen von Custom Voice über EndpointId (C++, C#, Java, JavaScript, Objective-C, Python) wurde hinzugefügt. Vor dieser Änderung mussten Custom Voice-Benutzer die Endpunkt-URL über die FromEndpoint-Methode festlegen. Kunden können nun die FromSubscription-Methode wie bei vordefinierten Stimmen verwenden und dann die Bereitstellungs-ID angeben, indem sie EndpointId festlegen. Dadurch wird das Einrichten von benutzerdefinierten Stimmen vereinfacht.
C++/C#/Java/Objective-C/Python: Fragen Sie mehr als nur die höchste Absicht von IntentRecognizer ab. Jetzt wird das Konfigurieren des JSON-Ergebnisses über die LanguageUnderstandingModel FromEndpoint-Methode mithilfe des verbose=true-URI-Parameters unterstützt, das alle Absichten und nicht nur die Absicht mit der höchsten Bewertung enthält. Dies bezieht sich auf das GitHub-Issue 880. Die aktualisierte Dokumentation finden Sie hier.
C++/C#/Java: Sie können Ihren Sprach-Assistenten oder Bot dazu bringen, dass er das Zuhören sofort beendet. DialogServiceConnector (C++, C#, Java) verfügt jetzt über eine StopListeningAsync()-Methode für die gemeinsame Verwendung mit ListenOnceAsync(). Dadurch wird die Audioaufzeichnung sofort beendet und ordnungsgemäß auf das Ergebnis gewartet, sodass sich dies perfekt für Szenarios mit der Schaltfläche „Jetzt Beenden“ eignet.
C++/C#/Java/JavaScript: Sorgen Sie dafür, dass Ihr Sprach-Assistent oder Bot besser auf zugrunde liegende Systemfehler reagiert. DialogServiceConnector (C++, C#, Java, JavaScript) verfügt jetzt über einen neuen TurnStatusReceived-Ereignishandler. Diese optionalen Ereignisse entsprechen allen ITurnContext-Auflösungen im Zusammenhang mit dem Bot und melden ggf. Ausführungsfehler (z. B. als Ergebnis eines Ausnahmefehlers, Timeouts oder Netzwerkfehlers zwischen Direct Line Speech und dem Bot). TurnStatusReceived erleichtert das Reagieren auf Fehlerbedingungen. Wenn ein Bot beispielsweise zu viel Zeit für eine Back-End-Datenbankabfrage benötigt (z. B. bei der Suche nach einem Produkt), kann dem Client mit TurnStatusReceived und einer Nachricht wie „Entschuldigung, ich habe das nicht verstanden. Probieren Sie es später noch mal.“ mitgeteilt werden, dass er die Aufforderung später noch mal durchführen soll.
C++/C# : Verwenden Sie das Speech-SDK auf mehreren Plattformen. Das NuGet-Paket für das Speech SDK unterstützt jetzt native Windows ARM-/Arm64-Desktopbinärdateien (UWP wurde bereits unterstützt), damit das Speech SDK für mehr Computertypen verwendet werden kann.
Java: DialogServiceConnector verfügt jetzt über eine setSpeechActivityTemplate()-Methode, die zuvor versehentlich von der Sprache ausgeschlossen wurde. Dies entspricht dem Festlegen der Conversation_Speech_Activity_Template-Eigenschaft und erfordert, dass alle zukünftigen Bot Framework-Aktivitäten, die vom Direct Line Speech-Dienst stammen, den bereitgestellten Inhalt in ihre JSON-Nutzdaten zusammenführen.
Java: Das Debuggen auf niedriger Ebene wurde verbessert. Die Connection-Klasse verfügt jetzt ähnlich wie andere Programmiersprachen (C++, C#) über ein MessageReceived-Ereignis. Dieses Ereignis ermöglicht den Zugriff auf vom Dienst eingehende Daten auf niedriger Ebene und kann bei der Diagnose und beim Debuggen hilfreich sein.
JavaScript: Das Einrichten von Sprach-Assistenten und Bots über die BotFrameworkConfig-Klasse wird einfacher, da diese nun über die Factorymethoden fromHost() und fromEndpoint() verfügt, die die Verwendung von benutzerdefinierten Dienstidentifizierungen im Vergleich zum manuellen Festlegen von Eigenschaften vereinfachen. Die optionale Angabe von botId wurde für die Verwendung eines nicht dem Standard entsprechenden Bots in den Konfigurationsfactorys ebenfalls standardisiert.
JavaScript: Die Geräteleistung wurde durch das Hinzufügen der Zeichenfolgensteuerungseigenschaft für die WebSocket-Komprimierung verbessert. Aus Leistungsgründen wurde die WebSocket-Komprimierung standardmäßig deaktiviert. Diese kann für Szenarios mit geringer Bandbreite erneut aktiviert werden. Ausführlichere Informationen finden Sie hier. Dies bezieht sich auf das GitHub-Issue 242.
JavaScript: Die Unterstützung für die Bewertung der Aussprache wurde hinzugefügt, um die Auswertung der Aussprache zu ermöglichen. Den Schnellstart finden Sie hier.

Behebung von Programmfehlern

Alle (mit Ausnahme von JavaScript): Es wurde eine Regression in Version 1.14 korrigiert, bei der das Erkennungsmodul zu viel Speicher belegt hat.
C++: Es wurde ein Problem mit der automatischen Speicherbereinigung mit DialogServiceConnector behoben, auf das sich das GitHub-Issue 794 bezieht.
C# : Es wurde ein Problem mit dem Herunterfahren des Threads behoben, das dazu geführt hat, dass Objekte beim Verwerfen ungefähr eine Sekunde blockiert wurden.
C++/C#/Java: Es wurde eine Ausnahme korrigiert, die verhindert, dass eine Anwendung das Sprachautorisierungstoken oder die Aktivitätsvorlage mehr als einmal auf einem DialogServiceConnector festlegt.
C++/C#/Java: Es wurde ein Problem behoben, das dazu geführt hat, dass das Erkennungsmodul aufgrund einer Racebedingung beim Löschen abgestürzt ist.
JavaScript: DialogServiceConnector hat den optionalen botId-Parameter, der in den Factorys von BotFrameworkConfig angegebenen wurde, zuvor nicht berücksichtigt. Dadurch ist es notwendig, den Abfragezeichenfolgenparameter botId manuell festzulegen, um einen nicht dem Standard entsprechenden Bot zu verwenden. Der Fehler wurde korrigiert, und botId-Werte, die in den Factorys von BotFrameworkConfig bereitgestellt werden, werden einschließlich der neuen Ergänzungen fromHost() und fromEndpoint() berücksichtigt und verwendet. Dies gilt auch für den applicationId-Parameter für CustomCommandsConfig.
JavaScript: Das GitHub Issue 881 wurde behoben, sodass das Erkennungsmodul Objekten wiederverwenden kann.
JavaScript: Es wurde ein Problem behoben, bei dem das SKD mehrmals in einer TTS-Sitzung speech.config gesendet wurde und somit Bandbreite verschwendet hat.
JavaScript: Die Fehlerbehandlung bei der Mikrofonautorisierung wurde vereinfacht, sodass mehr beschreibende Meldungen angezeigt werden können, wenn ein Benutzer die Mikrofoneingabe im Browser nicht zugelassen hat.
JavaScript: Das GitHub-Issue 249 wurde behoben, bei dem Typfehler in ConversationTranslator und ConversationTranscriber einen Kompilierungsfehler für TypeScript-Benutzer verursacht haben.
Objective-C: Es wurde ein Problem behoben, bei dem der GStreamer-Build für iOS in Xcode 11.4 nicht ausgeführt werden konnte. Das GitHub-Issue 911 bezieht sich auf dieses Problem.
Python: Das GitHub-Issue 870 wurde behoben, indem „DeprecationWarning: the imp module is deprecated in favor of importlib“ (DeprecationWarning: Das imp-Modul für importlib ist veraltet.) entfernt wurde.

Beispiele

Das „from-file“-Beispiel für den JavaScript-Browser verwendet jetzt Dateien für die Spracherkennung. GitHub-Issue 884 bezieht sich auf dieses Problem.

Speech SDK 1.14.0: Release vom Oktober 2020

Hinweis

Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können sie hierherunterladen.

Neue Funktionen

Linux: Unterstützung für Debian 10 und Ubuntu 20.04 LTS wurde hinzugefügt.
Python/Objective-C: Die Unterstützung für die KeywordRecognizer-API wurde hinzugefügt. Die Dokumentation finden Sie hier.
C++/Java/C# : Die Unterstützung zum Festlegen beliebiger HttpHeader-Schlüssel/-Werte über ServicePropertyChannel::HttpHeader wurde hinzugefügt.
JavaScript: Die Unterstützung für die ConversationTranscriber-API wurde hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
C++/C# : Die neue AudioDataStream FromWavFileInput-Methode (zum Lesen von WAV-Dateien) wurde hier (C++) und hier (C#) hinzugefügt.
C++/C#/Java/Python/Objective-C/Swift: Es wurde eine stopSpeakingAsync()-Methode zum Beenden der Sprachsynthese hinzugefügt. Die Referenzdokumentation finden Sie hier (C++), hier (C#), hier (Java), hier (Python) und hier (Objective-C/Swift).
C#, C++, Java: Es wurde eine FromDialogServiceConnector()-Funktion zur Klasse Connection hinzugefügt, mit der Ereignisse für DialogServiceConnector zum Herstellen oder Aufheben von Verbindungen überwacht werden können. Die Referenzdokumentation finden Sie hier (C#), hier (C++) und hier (Java).
C++/C#/Java/Python/Objective-C/Swift: Die Unterstützung für die Aussprachebewertung wurde hinzugefügt. Diese bewertet die Aussprache und gibt den Rednern Feedback zur Genauigkeit und zum Redefluss der gesprochenen Audioinformationen. Lesen Sie die Dokumentation.

Unterbrechende Änderung

JavaScript: Der Rückgabetyp von PullAudioOutputStream.read() wurde von einer internen Zusage in eine native JavaScript-Zusage geändert.

Behebung von Programmfehlern

All: Die 1.13-Regression wurde in SetServiceProperty behoben, bei der Werte mit bestimmten Zeichen ignoriert wurden.
C# : Windows-Konsolenbeispiele in Visual Studio 2019 wurden behoben, in denen bei der Suche von nativen DLLs Fehler aufgetreten sind.
C# : Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als KeywordRecognizer-Eingabe verwendet wurde.
ObjectiveC/Swift: Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als Eingabe des Erkennungsmoduls verwendet wurde.
Windows: Es wurde ein Problem mit der Koexistenz von BT HFP/A2DP auf der universellen Windows-Plattform behoben.
JavaScript: Die Zuordnung von Sitzungs-IDs wurde behoben, um die Protokollierung zu verbessern und bei internen Debug-/Dienstkorrelationen zu helfen.
JavaScript: Es wurde eine Fehlerbehebung für DialogServiceConnector hinzugefügt, die ListenOnce-Aufrufe nach dem Ausführen des ersten Aufrufs deaktiviert.
JavaScript: Es wurde ein Problem behoben, bei dem die Ergebnisausgabe immer nur „simple“ (einfach) ergibt.
JavaScript: Ein Problem bei der fortlaufenden Erkennung wurde in Safari unter macOS behoben.
JavaScript: Es wurde eine Risikominderung für die CPU-Last für das Szenario mit hohem Anforderungsdurchsatz durchgeführt.
JavaScript: Der Zugriff auf Details des Ergebnisses der Sprachprofilregistrierung wurde zugelassen.
JavaScript: Ein Fehler bei der fortlaufenden Erkennung in IntentRecognizer wurde behoben.
C++/C#/Java/Python/Swift/ObjectiveC: Eine falsche URL für „australiaeast“ und „brazilsouth“ in IntentRecognizer wurde behoben.
C++/C# : Es wurde VoiceProfileType als Argument beim Erstellen eines VoiceProfile-Objekts hinzugefügt.
C++/C#/Java/Python/Swift/ObjectiveC: Es wurde ein Problem für das potenzielle SPX_INVALID_ARG beim Versuch behoben, AudioDataStream von einer angegebenen Position zu lesen.
IOS: Es wurde der Absturz bei der Spracherkennung unter Unity behoben.

Beispiele

ObjectiveC: Ein Beispiel für die Schlüsselworterkennung wurde hier hinzugefügt.
C#/JavaScript: Ein Schnellstart für die Unterhaltungstranskription wurde hier (C#) und hier (JavaScript) hinzugefügt.
C++/C#/Java/Python/Swift/ObjectiveC: Hier wurde ein Beispiel für die Bewertung der Aussprache hinzugefügt.

Bekanntes Problem

Das DigiCert Global Root G2-Zertifikat wird in HoloLens 2 und Android 4.4 (KitKat) nicht standardmäßig unterstützt und muss zum System hinzugefügt werden, damit das Speech SDK funktioniert. Das Zertifikat wird in naher Zukunft den Betriebssystemimages von HoloLens 2 hinzugefügt werden. Kunden von Android 4.4 müssen das aktualisierte Zertifikat dem System hinzufügen.

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!

Speech SDK 1.13.0: Release 2020-July

Hinweis

Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können die Software hier herunterladen und installieren.

Neue Funktionen

C# : Unterstützung für asynchrone Unterhaltungstranskription hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
JavaScript: Unterstützung für Sprechererkennung für Browser und Node.js hinzugefügt.
JavaScript: Unterstützung für Sprachenerkennung/Sprach-ID hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
Objective-C: Unterstützung für die Unterhaltung auf mehreren Geräten und Unterhaltungstranskription hinzugefügt.
Python: Unterstützung für komprimierte Audiodaten für Python unter Windows und Linux hinzugefügt. Die zugehörige Dokumentation finden Sie hier.

Behebung von Programmfehlern

All: Es wurde ein Problem behoben, durch das der KeywordRecognizer die Streams nach einer Erkennung nicht weiterleitete.
All: Es wurde ein Problem behoben, durch das der aus einem KeywordRecognitionResult abgeleitete Stream nicht das Schlüsselwort enthielt.
All: Es wurde ein Problem behoben, durch das SendMessageAsync die Nachricht nicht wirklich über das Netzwerk gesendet hat, nachdem die Benutzer darauf warteten.
All: Es wurde ein Absturz in den Sprechererkennungs-APIs korrigiert, wenn Benutzer VoiceProfileClient::SpeakerRecEnrollProfileAsync mehrfach aufgerufen haben und nicht darauf warteten, dass die Aufrufe beendet wurden.
All: Die Aktivierung der Dateiprotokollierung in der VoiceProfileClient- und der SpeakerRecognizer-Klasse wurde korrigiert.
JavaScript: Es wurde ein Problem mit der Drosselung behoben, wenn der Browser minimiert wird.
JavaScript: Es wurde ein Problem mit einem Arbeitsspeicherverlust in Streams behoben.
JavaScript: Zwischenspeicherung für OCSP-Antworten von Node.js hinzugefügt.
Java: Es wurde ein Problem behoben, durch das BigInteger-Felder immer „0“ zurückgaben.
iOS: Es wurde ein Problem beim Veröffentlichen von Apps, die auf dem Speech SDK basieren, im iOS App Store behoben.

Beispiele

C++: Beispielcode für Sprechererkennung hier hinzugefügt.

Abgekürzte Tests aufgrund von COVID-19

Speech SDK 1.12.1: Release von Juni 2020

Neue Funktionen

C#, C++: Sprechererkennung (Vorschauversion): Dieses Feature ermöglicht die Sprecheridentifikation („Wer spricht?“) und Sprecherüberprüfung („Ist der Sprecher die angegebene Person?“). Weitere Informationen finden Sie in der Übersichtsdokumentation.

Fehlerkorrekturen

C#, C++: Die Mikrofonaufzeichnung funktionierte in 1.12 bei der Sprechererkennung nicht. Dies wurde behoben.
JavaScript: Fehler bei der Sprachsynthese in Firefox und Safari unter macOS und iOS wurden behoben.
Ein Fehler wurde behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Unterhaltungstranskription von 8-Kanal-Datenströmen zu einem Absturz kam.
Es wurde ein Fehler behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Konversationsübersetzung von mehreren Geräten zu einem Absturz kam.

Beispiele

C++:Codebeispiel für die Sprechererkennung.
C++:Codebeispiel für die Sprechererkennung.
Java: Codebeispiel für die Absichtserkennung unter Android.

Abgekürzte Tests aufgrund von COVID-19

Speech SDK 1.12.0: Release von Mai 2020

Neue Funktionen

Goh: Neue Unterstützung der Sprache Go für Spracherkennung und benutzerdefinierten Sprach-Assistenten. Ihre Entwicklungsumgebung können Sie hier einrichten. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“.
JavaScript: Browserunterstützung für Sprachsynthese hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
C++, C#, Java: Unterstützung des neuen KeywordRecognizer-Objekts sowie neuer APIs unter Windows, Android, Linux und iOS. Lesen Sie die Dokumentation. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“.
Java: Konversation mit mehreren Geräten mit Übersetzungsunterstützung hinzugefügt. Die zugehörige Referenzdokumentation finden Sie hier.

Verbesserungen und Optimierungen

JavaScript: Mikrofonimplementierung für Browser optimiert, um die Genauigkeit bei der Spracherkennung zu verbessern.
Java: Bindungen mit direkter JNI-Implementierung ohne SWIG wurden umgestaltet. Durch diese Änderung wird die Bindungsgröße aller für Windows, Android, Linux und Mac verwendeten Java-Pakete um das Zehnfache verringert und die weitere Entwicklung der Speech SDK-Java-Implementierung vereinfacht.
Linux: Die unterstützende Dokumentation wurde mit den neuesten RHEL 7-spezifischen Anmerkungen aktualisiert.
Die Verbindungslogik wurde verbessert, um im Falle von Dienst- oder Netzwerkfehlern mehrere Verbindungsversuche zu unternehmen.
Die Speech-Schnellstartseite auf portal.azure.com wurde aktualisiert, um Entwickler*innen beim nächsten Schritt der Azure KI Speech-Journey zu unterstützen.

Behebung von Programmfehlern

C#, Java: Ein Problem beim Laden von SDK-Bibliotheken in Linux ARM wurde behoben (sowohl für die 32-Bit- als auch für die 64-Bit-Version).
C#: Das explizite Löschen nativer Handles für die TranslationRecognizer-, IntentRecognizer- und Connection-Objekte wurde korrigiert.
C# : Für das ConversationTranscriber-Objekt wurde die Lebensdauerverwaltung für Audioeingaben korrigiert.
Es wurde ein Problem behoben, bei dem der Grund für das IntentRecognizer-Ergebnis nicht ordnungsgemäß festgelegt wurde, wenn Absichten aus einfachen Ausdrücken erkannt wurden.
Problem behoben, bei dem das SpeechRecognitionEventArgs-Ergebnisoffset nicht ordnungsgemäß festgelegt wurde.
Es wurde eine Racebedingung behoben, bei der vom SDK versucht wurde, eine Netzwerknachricht zu senden, bevor die WebSocket-Verbindung hergestellt wurde. Dies war für TranslationRecognizer beim Hinzufügen von Teilnehmern reproduzierbar.
Es wurden Arbeitsspeicherverluste in der Schlüsselworterkennungs-Engine korrigiert.

Beispiele

Go: Schnellstartanleitungen für Spracherkennung und benutzerdefinierten Sprachassistenten hinzugefügt. Beispielcode finden Sie hier.
JavaScript: Schnellstartanleitungen für Sprachsynthese, Übersetzung und Absichtserkennung hinzugefügt.
Beispiele für die Schlüsselworterkennung für C# und Java (Android).

Abgekürzte Tests aufgrund von COVID-19

Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!

Speech SDK 1.11.0: Release von März 2020

Neue Funktionen

Linux: Unterstützung für Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 wurde hinzugefügt.
Linux: Unterstützung für .NET Core C# unter Linux ARM32 und Arm64 hinzugefügt. Weitere Informationen finden Sie hier.
C#, C++: UtteranceId in ConversationTranscriptionResult hinzugefügt. Dies ist eine konsistente ID für alle Spracherkennungs-Zwischenergebnisse und -Endergebnisse. Ausführlichere Informationen für C# und C++.
Python: Unterstützung für Language ID wurde hinzugefügt. Siehe „speech_sample.py“ im GitHub-Repository
Windows: Unterstützung für komprimierte Audioeingabeformate auf der Windows-Plattform für alle Win32-Konsolenanwendungen hinzugefügt. Ausführlichere Informationen finden Sie hier.
JavaScript: Unterstützung von Sprachsynthese (Text-zu-Sprache) in NodeJS. Hiererhalten Sie weitere Informationen.
JavaScript: Fügen Sie neue APIs hinzu, um die Überprüfung aller gesendeten und empfangenen Nachrichten zu ermöglichen. Hiererhalten Sie weitere Informationen.

Behebung von Programmfehlern

C#, C++: Es wurde ein Problem behoben, sodass SendMessageAsync jetzt binäre Nachrichten als binären Typ sendet. Ausführlichere Informationen für C# und C++.
C#, C++: Es wurde das Problem behoben, dass die Verwendung des Connection MessageReceived-Ereignisses einen Absturz verursachen kann, wenn Recognizer vor dem Connection-Objekt verworfen wird. Ausführlichere Informationen für C# und C++.
Android: Die Audiopuffergröße des Mikrofons wurde von 800 ms auf 100 ms verringert, um die Wartezeit zu reduzieren.
Android: Es wurde ein Problem beim x86-Android-Emulator in Android Studio behoben.
JavaScript: Unterstützung für Regionen in China mit der fromSubscription-API hinzugefügt. Ausführlichere Informationen finden Sie hier.
JavaScript: Fügen Sie weitere Fehlerinformationen zu Verbindungsfehlern aus NodeJS hinzu.

Beispiele

Unity: Problem bei öffentlichem Absichtserkennungsbeispiel ist behoben, bei dem der LUIS-JSON-Import fehlgeschlagen ist. Ausführlichere Informationen finden Sie hier.
Python: Beispiel für Language ID hinzugefügt. Ausführlichere Informationen finden Sie hier.

Abgekürzte Tests aufgrund von COVID-19: Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Geräteüberprüfung nicht im gewohnten Umfang durchführen. Beispielsweise konnten die Mikrofoneingabe und Lautsprecherausgabe unter Linux, iOS und macOS nicht getestet werden. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Beschädigungen auf diesen Plattformen geführt haben, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns auf GitHub.
Vielen Dank für Ihre Unterstützung. Fragen können Sie wie immer auf GitHub oder in Stack Overflow stellen. Auf diesen Plattformen können Sie auch Feedback geben.
Bleiben Sie gesund!

Speech SDK 1.10.0: Release von Februar 2020

Neue Funktionen

Python-Pakete zur Unterstützung des neuen Python-Release 3.8 hinzugefügt
x64-Unterstützung für Red Hat Enterprise Linux (RHEL)/CentOS 8 (C++, C#, Java, Python)

Hinweis

Kunden müssen OpenSSL wie hier beschrieben konfigurieren.
Linux ARM32-Unterstützung für Debian und Ubuntu
Von „DialogServiceConnector“ wird jetzt der optionale Parameter „bot ID“ für „BotFrameworkConfig“ unterstützt. Dieser Parameter ermöglicht die Verwendung mehrerer Direct Line Speech-Bots mit einer einzelnen Speech-Ressource. Ohne Angabe des Parameters wird der (auf der Direct Line Speech-Kanalkonfigurationsseite festgelegte) Standardbot verwendet.
„DialogServiceConnector“ verfügt nun über die Eigenschaft „SpeechActivityTemplate“. Der Inhalt dieser JSON-Zeichenfolge wird von Direct Line Speech verwendet, um ein breites Spektrum an unterstützten Feldern in allen Aktivitäten vorab aufzufüllen, die einen Direct Line Speech-Bot erreichen. Hierzu zählen auch Aktivitäten, die als Reaktion auf Ereignisse wie die Spracherkennung automatisch generiert werden.
Von der Sprachsynthese wird nun der Abonnementschlüssel für die Authentifizierung verwendet. Dadurch verringert sich die Wartezeit für das erste Byte des ersten Syntheseergebnisses nach der Erstellung eines Synthesizers.
Verringerung der durchschnittlichen Wortfehlerrate um 18,6 Prozent dank aktualisierter Spracherkennungsmodelle für 19 Gebietsschemas (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Die neuen Modelle führen zu erheblichen Verbesserungen in verschiedenen Bereichen. Hierzu zählen unter anderem Diktat, Callcentertranskription und Videoindizierung.

Behebung von Programmfehlern

Fehler behoben, der dazu führte, dass von der Unterhaltungstranskription in Java-APIs nicht ordnungsgemäß gewartet wurde
Xamarin-bezogenes GitHub-Problem mit dem Android-x86-Emulator behoben
Fehlende (Get|Set)Property-Methoden zu „AudioConfig“ hinzugefügt
Fehler bei der Sprachsynthese behoben, der dazu führte, dass der Audiodatenstrom (audioDataStream) im Falle eines Verbindungsfehlers nicht beendet werden konnte
Die Verwendung eines Endpunkts ohne Region hatte USP-Fehler für die Konversationsübersetzung zur Folge.
Für die ID-Generierung in universellen Windows-Anwendungen wird nun ein Algorithmus für eine angemessen eindeutige GUID verwendet. Zuvor wurde ungewollt standardmäßig eine Stubimplementierung verwendet, die bei umfangreichen Interaktionen häufig zu Konflikten führte.

Beispiele

Unity-Beispiel für die Verwendung des Speech SDK mit Unity-Mikrofon und Pushmodusstreaming

Weitere Änderungen

OpenSSL-Konfigurationsdokumentation für Linux aktualisiert

Speech SDK 1.9.0: Release 2020-January

Neue Funktionen

Mehrgerätekonversation: Verbinden Sie mehrere Geräte mit derselben sprach- oder textbasierten Konversation, und übersetzen Sie optional die zwischen ihnen gesendeten Nachrichten. Weitere Informationen finden Sie in diesem Artikel.
Unterstützung für die Schlüsselworterkennung wurde für das .aar-Paket für Android und für x86- und x64-Versionen hinzugefügt.
Objective-C: Methoden SendMessage und SetMessageProperty wurden dem Connection-Objekt hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
Die TTS-API in C++ unterstützt jetzt std::wstring als Texteingabe für die Synthese. Dadurch ist es nicht mehr erforderlich, den Typ wstring vor der Übergabe an das SDK in string zu konvertieren. Ausführlichere Informationen finden Sie hier.
C#: Sprach-ID und Ausgangssprachenkonfiguration sind jetzt verfügbar.
JavaScript: Dem Connection-Objekt wurde eine Funktion für die Weiterleitung benutzerdefinierter Nachrichten vom Speech-Dienst als Rückruf von receivedServiceMessage zu hinzugefügt.
JavaScript: Unterstützung für FromHost API wurde hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen. Die zugehörige Dokumentation finden Sie hier.
JavaScript: NODE_TLS_REJECT_UNAUTHORIZED wird nun dank eines Beitrags von orgads berücksichtigt. Ausführlichere Informationen finden Sie hier.

Wichtige Änderungen

OpenSSL wurde auf Version 1.1.1b aktualisiert und ist statisch mit der Kernbibliothek des Speech SDK für Linux verknüpft. Dies kann zu einer Unterbrechung führen, wenn OpenSSL für Ihren Posteingang nicht im Verzeichnis /usr/lib/ssl im System installiert wurde. In unserer Dokumentation zum Speech SDK finden Sie Möglichkeiten, wie Sie das Problem umgehen können.
Wir haben den in C# für WordLevelTimingResult.Offset zurückgegebenen Datentyp von int in long geändert, um den Zugriff auf WordLevelTimingResults zu ermöglichen, wenn Sprachdaten länger als 2 Minuten sind.
PushAudioInputStream und PullAudioInputStream senden nun WAV-Headerinformationen an den Speech-Dienst basierend auf dem AudioStreamFormat, das bei der Erstellung optional angegeben werden kann. Kunden müssen nun das unterstützte Audioeingabeformat verwenden. Alle anderen Formate führen zu weniger guten Erkennungsergebnissen oder anderen Problemen.

Behebung von Programmfehlern

Weitere Informationen finden Sie im obigen OpenSSL-Update unter „Wichtige Änderungen“. Wir haben sowohl einen zeitweiligen Absturz als auch ein Leistungsproblem (Sperrkonflikte bei hoher Auslastung) in Linux und Java korrigiert.
Java: Es wurden Verbesserungen am Objektabschluss in Szenarien mit hoher Parallelität vorgenommen.
Das NuGet-Paket wurde umstrukturiert. Wir haben die drei Kopien von Microsoft.CognitiveServices.Speech.core.dll und Microsoft.CognitiveServices.Speech.extension.kws.dll im Ordner „lib“ entfernt, sodass das NuGet-Paket nun kleiner ist und schneller heruntergeladen werden kann. Außerdem haben wir Header hinzugefügt, die zum Kompilieren einiger nativer C++-Apps benötigt werden.
Die korrigierten Schnellstartbeispiele finden Sie hier. Diese wurden ohne Anzeige der Ausnahme „Mikrofon wurde nicht gefunden“ unter Linux, macOS und Windows beendet.
Ein SDK-Absturz bei langen Spracherkennungsergebnissen für bestimmte Codepfade wie in diesem Beispiel wurde korrigiert.
Ein Fehler bei der SDK-Bereitstellung in Azure-Web-App-Umgebungen wurde behoben, um dieses Kundenproblem zu beseitigen.
Ein TTS-Fehler bei der Verwendung mehrerer <voice>- oder <audio>-Tags wurde behoben, um dieses Kundenproblems zu beseitigen.
Ein TTS 401-Fehler beim Wiederherstellen des SDK nach dem Anhalten wurde behoben.
JavaScript: Ein zirkulärer Import von Audiodaten wurde dank eines Beitrags von euirim korrigiert.
JavaScript: Unterstützung für das Festlegen von Diensteigenschaften wurde wie in 1.7 hinzugefügt.
JavaScript: Ein Problem wurde behoben, bei dem ein Verbindungsfehler zu kontinuierlichen erfolglosen WebSocket-Verbindungsversuchen führen konnte.

Beispiele

Es wurde ein Beispiel für die Schlüsselworterkennung für Android hinzugefügt.
Es wurde ein TTS-Beispiel für das Serverszenario hinzugefügt.
Es wurden Schnellstarts für die Mehrgerätekonversation in C# und C++ hinzugefügt.

Weitere Änderungen

Die Größe der SDK-Kernbibliothek unter Android wurde optimiert.
Das SDK ab Version 1.9.0 unterstützt sowohl int- als auch string-Typen im Feld für die Stimmensignaturversion für die Unterhaltungstranskription.

Speech SDK 1.8.0: Release von November 2019

Neue Funktionen

FromHost()-API hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen.
Quellsprachenerkennung für die Spracherkennung hinzugefügt (in Java und C++)
SourceLanguageConfig-Objekt zur Angabe erwarteter Ausgangssprachen für die Spracherkennung hinzugefügt (in Java und C++)
KeywordRecognizer-Unterstützung unter Windows (UWP), Android und iOS über die NuGet- und Unity-Pakete hinzugefügt
Java-Remoteunterhaltungs-API für die Unterhaltungstranskription in asynchronen Batches hinzugefügt

Wichtige Änderungen

Die Funktionen für die Unterhaltungstranskription wurden unter den Namespace Microsoft.CognitiveServices.Speech.Transcription verschoben.
Ein Teil der Unterhaltungstranskriptionsmethoden wurde in die neue Conversation-Klasse verschoben.
Die Unterstützung für 32-Bit-iOS (ARMv7 und x86) wurde eingestellt.

Behebung von Programmfehlern

Ein Absturz wurde behoben, der auftrat, wenn die lokale KeywordRecognizer-Instanz ohne gültigen Abonnementschlüssel für den Speech-Dienst verwendet wurde.

Beispiele

Xamarin-Beispiel für KeywordRecognizer
Unity-Beispiel für KeywordRecognizer
C++- und Java-Beispiele für die automatische Erkennung der Ausgangssprache

Speech SDK 1.7.0: Release von September 2019

Neue Funktionen

Unterstützung der Betaversion für Xamarin unter der universellen Windows-Plattform (UWP), Android und iOS wurde hinzugefügt
iOS-Unterstützung für Unity wurde hinzugefügt
Unterstützung von Compressed-Eingaben für ALaw, Mulaw, FLAC unter Android, iOS und Linux wurde hinzugefügt.
SendMessageAsync in der Klasse Connection zum Senden einer Nachricht an einen Dienst hinzugefügt
SetMessageProperty in der Klasse Connection zum Festlegen der Eigenschaft einer Nachricht hinzugefügt
Die Sprachsynthese hat Bindungen für Java (JRE und Android), Python, Swift und Objective-C hinzugefügt.
TTS hat die Unterstützung der Wiedergabe für macOS, iOS und Android hinzugefügt
Es wurden Informationen zur „Wortgrenze“ für TTS hinzugefügt

Behebung von Programmfehlern

IL2CPP-Buildproblem in Unity 2019 für Android wurde behoben
Es wurde ein Problem behoben, bei dem falsch formatierte Header in der Eingabe von WAV-Dateien falsch verarbeitet wurden
Es wurde ein Problem behoben, bei dem UUIDs in einigen Verbindungseigenschaften nicht eindeutig waren
Es wurden einige Warnungen bezüglich Spezifizierer für die NULL-Zulässigkeit in den Swift-Bindungen behoben (möglicherweise sind kleine Codeänderungen erforderlich)
Es wurde ein Fehler behoben, der dazu führte, dass WebSocket-Verbindungen unter Netzwerklast nicht ordnungsgemäß geschlossen wurden
Problem unter Android behoben, das gelegentlich dazu führt, dass DialogServiceConnector doppelte Eindruck-IDs verwendet
Es wurden Verbesserungen an der Stabilität von Verbindungen über Interaktionen mit Mehrfachdurchläufen und an der Berichterstellung bei Fehlern vorgenommen (über Ereignisse vom Typ Canceled), wenn sie mit DialogServiceConnector auftreten.
DialogServiceConnector-Sitzungsstarts stellen jetzt ordnungsgemäß Ereignisse bereit, einschließlich des Aufrufs von ListenOnceAsync(), während StartKeywordRecognitionAsync() aktiv ist.
Es wurde ein Absturzproblem behoben, das mit dem Empfangen von DialogServiceConnector-Aktivitäten verbunden war.

Beispiele

Schnellstart für Xamarin
Aktualisierte CPP-Schnellstartanleitung mit Linux Arm64-Informationen
Aktualisierter Unity-Schnellstart mit iOS-Informationen

Speech SDK 1.6.0: Release von Juni 2019

Beispiele

Schnellstartbeispiele für Sprachsynthese auf UWP und Unity
Schnellstartbeispiel für Swift unter iOS
Unity-Beispiele für Sprach- und Absichtserkennung sowie Übersetzung
Schnellstartbeispiele für DialogServiceConnector aktualisiert

Verbesserungen/Änderungen

Dialog „Namespace“:
- SpeechBotConnector wurde in DialogServiceConnector umbenannt.
- BotConfig wurde in DialogServiceConfig umbenannt.
- BotConfig::FromChannelSecret() wurde DialogServiceConfig::FromBotSecret() neu zugeordnet.
- Alle vorhandenen Direct Line Speech-Clients werden nach der Umbenennung weiterhin unterstützt.
Aktualisierung des TTS-REST-Adapter zur Unterstützung von Proxys, dauerhafte Verbindung
Verbesserung von Fehlermeldungen, wenn eine ungültige Region übergeben wird.
Swift/Objective-C:
- Verbesserte Fehlerberichterstellung: Methoden, die zu einem Fehler führen können, sind jetzt in zwei Versionen vorhanden: Eine, die ein NSError-Objekt für die Fehlerbehandlung bereitstellt, und eine, das eine Ausnahme auslöst. Das erste wird für Swift verfügbar gemacht. Diese Änderung erfordert Anpassungen an vorhandenem Swift-Code.
- Verbesserte Behandlung von Ereignissen

Behebung von Programmfehlern

Korrektur für TTS: Hierbei führte SpeakTextAsync die Rückgabe aus, ohne zu warten, bis das Audiorendering abgeschlossen war.
Korrektur für das Marshalling von Zeichenfolgen in C#, um vollständige Sprachunterstützung zu ermöglichen.
Korrektur für ein .NET Core-App-Problem beim Laden der Core-Bibliothek mit dem Zielframework net461 in Beispielen.
Korrektur für gelegentlich Probleme beim Bereitstellen nativer Bibliotheken im Ausgabeordner in Beispielen.
Korrektur für das zuverlässige Schließen von WebSockets.
Korrektur für mögliche Abstürze beim Öffnen einer Verbindung bei hoher Auslastung unter Linux
Korrektur für fehlende Metadaten im Frameworkbündel für macOS.
Korrektur für Probleme mit pip install --user unter Windows.

Speech SDK 1.5.1

Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.

Behebung von Programmfehlern

Fehlerbehebung bei FromSubscription bei Verwendung mit Unterhaltungstranskription.
Fehlerbehebung bei der Schlüsselworterkennung für Sprach-Assistenten.

Speech SDK 1.5.0: Release von Mai 2019

Neue Funktionen

Die Schlüsselworterkennung (Keyword Spotting Functionality, KWS) ist für Windows und Linux verfügbar. Die KWS-Funktionalität kann u. U. mit jedem Mikrofontyp verwendet werden, offiziell wird KWS derzeit jedoch nur für die Mikrofonarrays in der Azure Kinect DK-Hardware oder im Speech Devices SDK unterstützt.
Begriffshinweisfunktionalität ist über das SDK verfügbar. Weitere Informationen finden Sie hier.
Unterhaltungstranskriptionsfunktionalität ist über das SDK verfügbar.
Unterstützung für Sprach-Assistenten über den Direct Line Speech-Kanal wurde hinzugefügt.

Beispiele

Beispiele für neue Funktionen oder neue Dienste, die vom SDK unterstützt werden, wurden hinzugefügt.

Verbesserungen/Änderungen

Verschiedene Erkennungseigenschaften wurden hinzugefügt, um das Dienstverhalten oder Dienstergebnisse anzupassen (z. B. Maskieren von Obszönitäten).
Sie können die Erkennung jetzt über die Standardkonfigurationseigenschaften konfigurieren, auch wenn Sie den Erkenner FromEndpoint erstellt haben.
Objective-C: Die Eigenschaft OutputFormat wurde zu SPXSpeechConfiguration hinzugefügt.
Das SDK unterstützt jetzt Debian 9 als Linux-Distribution.

Behebung von Programmfehlern

Ein Problem wurde behoben, bei dem die Sprecherressource in der Sprachsynthese zu früh zerstört wurde.

Speech SDK 1.4.2

Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.

Speech SDK 1.4.1

Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:

Verhindern Sie das Laden von „https-proxy-agent“ durch Webpack.

Speech SDK 1.4.0: Release von April 2019

Neue Funktionen

Das SDK unterstützt jetzt den Sprachsynthese-Dienst als Betaversion. Dies wird unter Windows- und Linux-Desktops für C++ und C# unterstützt. Weitere Informationen finden Sie in der Übersicht über die Sprachsynthese.
Das SDK unterstützt jetzt MP3- und Opus/OGG-Audiodateien als Streameingabedateien. Dieses Feature steht nur unter Linux mit C++ und C# zur Verfügung und befindet sich derzeit in der Betaversion (weitere Details finden Sie hier).
Das Speech SDK für Java, .NET Core, C++ und Objective-C unterstützt nun auch macOS. Die Objective-C-Unterstützung für macOS befindet sich derzeit in der Betaphase.
iOS: Das Speech SDK für iOS (Objective-C) wird jetzt auch als ein CocoaPod veröffentlicht.
JavaScript: Unterstützung von nicht standardisierten Mikrofonen als Eingabegeräte.
JavaScript: Proxyunterstützung für Node.js.

Beispiele

Beispiele für die Verwendung des Speech SDK mit C++ und Objective-C unter macOS wurden hinzugefügt.
Beispiele zur Veranschaulichung der Verwendung des Sprachsynthese-Diensts wurden hinzugefügt.

Verbesserungen/Änderungen

Python: Zusätzliche Eigenschaften der Erkennungsergebnisse werden jetzt über die properties-Eigenschaft verfügbar gemacht.
Zur weiteren Unterstützung beim Entwickeln und Debuggen können Sie die Informationen aus SDK-Protokollierung und Diagnose in eine Protokolldatei umleiten (weitere Details finden Sie hier).
JavaScript: Verbesserte Prozessleistung bei Audiodaten.

Behebung von Programmfehlern

Mac/iOS: Ein Fehler, der zu einer langen Wartezeit geführt hat, wenn keine Verbindung mit Speech Services hergestellt werden konnte, wurde behoben.
Python: verbesserte Fehlerbehandlung für Argumente in Python-Rückrufen.
JavaScript: Ein Fehler bei Statusmeldungen nach dem Ende der Spracheingabe mit RequestSession wurde behoben.

Sprach-SDK 1.3.1: Aktualisierung von Februar 2019

Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.

Fehlerbehebung

Korrigiert einen Speicherverlust bei der Verwendung von Mikrofoneingabe. Streambasierte oder Dateieingaben sind nicht betroffen.

Speech SDK 1.3.0: Version von Februar 2019

Neue Funktionen

Das Speech SDK unterstützt die Auswahl des Eingangsmikrofons über die AudioConfig-Klasse. Dadurch können Sie Audiodaten über ein anderes als das Standardmikrofon an den Spracherkennungsdienst streamen. Weitere Informationen finden Sie in der Dokumentation, in der die Auswahl eines Audioeingabegeräts beschrieben wird. Für JavaScript ist diese Funktion noch nicht verfügbar.
Das Speech SDK unterstützt jetzt Unity in einer Betaversion. Senden Sie uns Feedback über den Abschnitt „Issue“ im GitHub-Beispielrepository. Dieses Release unterstützt Unity unter Windows x86 und x64 (Desktopanwendungen oder Anwendungen der universellen Windows-Plattform) und unter Android (ARM32/64, x86). Weitere Informationen finden Sie in unserem Unity-Schnellstart.
Die Datei Microsoft.CognitiveServices.Speech.csharp.bindings.dll (im Lieferumfang von früheren Releases enthalten) ist nicht mehr erforderlich. Die Funktion ist jetzt in das Core-SDK integriert.

Beispiele

Die folgenden neuen Inhalte stehen in unserem Beispielrepository zur Verfügung:

Weitere Beispiele für AudioConfig.FromMicrophoneInput
Weitere Python-Beispiele für Absichtserkennung und Übersetzung.
Weitere Beispiele für die Verwendung des Objekts Connection in iOS
Weitere Java-Beispiele für die Übersetzung mit Audioausgabe.
Neues Beispiel für die Verwendung der REST-API zur Batchtranskription.

Verbesserungen/Änderungen

Python
- Verbesserte Parameterüberprüfung und Fehlermeldungen in SpeechConfig
- Unterstützung für das Objekt Connection hinzugefügt
- Unterstützung für 32-Bit-Python (x86) unter Windows.
- Das Speech SDK für Python befindet sich nicht mehr in der Betaversion.
iOS
- Das SDK wird jetzt für das iOS SDK, Version 12.1, erstellt.
- Das SDK unterstützt jetzt die iOS-Versionen 9.2 und höher.
- Verbesserte Referenzdokumentation und Korrektur mehrerer Eigenschaftsnamen.
JavaScript
- Unterstützung für das Objekt Connection hinzugefügt
- Hinzugefügte Typdefinitionsdateien für JavaScript-Pakete
- Anfangsunterstützung und Implementierung für Phrasenhinweise.
- Rückgabe der Eigenschaftensammlung mit Dienst-JSON für die Erkennung.
Windows-DLLs enthalten jetzt eine Versionsressource.
Wenn Sie eine FromEndpoint-Erkennung erstellen, können Sie der Endpunkt-URL direkt Parameter hinzufügen. Mithilfe von FromEndpoint können Sie die Erkennung nicht über die Standardkonfigurationseigenschaften konfigurieren.

Behebung von Programmfehlern

Leere Angaben für Proxybenutzername und Proxykennwort wurden nicht ordnungsgemäß behandelt. Wenn Sie in diesem Release den Proxybenutzernamen und das Proxykennwort auf eine leere Zeichenfolge festlegen, werden diese bei der Herstellung einer Verbindung mit dem Proxy nicht übermittelt.
Vom SDK erstellte SessionId-Angaben waren für einige Sprachen/Umgebungen nicht immer wirklich zufällig vergeben. Es wurde eine Initialisierung des Zufallsgenerators hinzugefügt, um dieses Problem zu beheben.
Verbesserte Verarbeitung des Autorisierungstokens. Wenn Sie ein Autorisierungstoken verwenden möchten, geben Sie es in SpeechConfig an, und lassen Sie den Abonnementschlüssel leer. Erstellen Sie die Erkennung dann wie gewohnt.
In einigen Fällen wurde das Connection-Objekt nicht ordnungsgemäß freigegeben. Dieses Problem wurde behoben.
Das JavaScript-Beispiel wurde korrigiert, um die Audioausgabe für die Übersetzungssynthese auch in Safari zu unterstützen.

Speech SDK 1.2.1

Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:

Ende des Datenstroms wird bei turn.end und nicht bei speech.end ausgelöst.
In Audiopump wurde der Fehler behoben, dass der nächste Sendevorgang nicht geplant wurde, wenn beim aktuellen Sendevorgang ein Fehler auftrat.
Die kontinuierliche Erkennung mit Authentifizierungstoken wurde korrigiert.
Programmfehlerbehebung für verschiedene Erkennungen/Endpunkte.
Verbesserungen bei der Dokumentation.

Speech SDK 1.2.0: Release von Dezember 2018

Neue Funktionen

Python
- Die Betaversion der Python-Unterstützung (ab 3.5) ist mit diesem Release verfügbar. Weitere Informationen finden Sie hier] (../../quickstart-python.md).
JavaScript
- Das Speech SDK für JavaScript wird jetzt als Open-Source-Code bereitgestellt. Der Quellcode steht auf GitHubzur Verfügung.
- Node.js wird jetzt unterstützt. Weitere Informationen finden Sie hier.
- Die Längenbeschränkung für Audiositzungen wurde entfernt. Die Verbindungswiederherstellung erfolgt automatisch im Hintergrund.
Connection-Objekt
- Über Recognizer kann auf ein Objekt vom Typ Connection zugegriffen werden. Mit diesem Objekt können Sie die Dienstverbindung explizit initiieren und Verbindungsherstellungs- und Verbindungstrennungsereignisse abonnieren. (Für JavaScript und Python ist diese Funktion noch nicht verfügbar.)
Unterstützung von Ubuntu 18.04
Android
- ProGuard-Unterstützung während der APK-Generierung aktiviert

Verbesserungen

Verbesserungen bei der internen Threadverwendung (weniger Threads, Sperren, Mutexe)
Verbesserte Fehlerberichterstellung/-informationen. In einigen Fällen wurden Fehlermeldungen nicht ordnungsgemäß weitergegeben.
Entwicklungsabhängigkeiten in JavaScript wurden für die Verwendung aktueller Module aktualisiert.

Behebung von Programmfehlern

Arbeitsspeicherverluste aufgrund eines Typenkonflikts in RecognizeAsync behoben
In einigen Fällen sind Ausnahmen verloren gegangen.
Behebung des Arbeitsspeicherverlusts in Übersetzungsereignisargumenten
Sperrproblem bei der Verbindungswiederherstellung in langen Sitzungen behoben
Problem behoben, dass dazu führen konnte, dass das Endergebnis für fehlerhafte Übersetzungen verpasst wird.
C#: Wenn im Hauptthread nicht auf einen Vorgang vom Typ async gewartet wurde, konnte es vorkommen, dass die Erkennung vor Abschluss der asynchronen Aufgabe entfernt wurde.
Java: Problem behoben, das zum Absturz des virtuellen Java-Computers geführt hat
Objective-C: Enumerationszuordnung korrigiert. Anstelle von RecognizingIntent wurde „RecognizedIntent“ zurückgegeben.
JavaScript: Standardausgabeformat in SpeechConfig auf „einfach“ festgelegt
JavaScript: Beseitigung der Inkonsistenz zwischen Eigenschaften des Konfigurationsobjekts in JavaScript und anderen Sprachen

Beispiele

Mehrere Beispiele aktualisiert und korrigiert (z.B. die Ausgabestimmen für die Übersetzung).
Node.js-Beispiele zum Beispielrepository hinzugefügt

Speech SDK 1.1.0

Neue Funktionen

Unterstützung für Android x86/x64.
Proxyunterstützung: Im SpeechConfig-Objekt können Sie jetzt eine Funktion aufrufen, um die Proxyinformationen (Hostname, Port, Benutzername und Kennwort) festzulegen. Dieses Feature ist in iOS noch nicht verfügbar.
Verbesserte Fehlercodes und Meldungen. Wenn eine Erkennung einen Fehler zurückgab, wurde dadurch bereits Reason (im abgebrochenen Ereignis) oder CancellationDetails (im Erkennungsergebnis) auf Error festgelegt. Das abgebrochene Ereignis enthält jetzt zwei zusätzliche Member: ErrorCode und ErrorDetails. Wenn der Server zusätzliche Fehlerinformationen mit dem Fehler zurückgibt, sind diese jetzt in den neuen Membern verfügbar.

Verbesserungen

In der Konfiguration der Erkennung wurde eine zusätzliche Überprüfung hinzugefügt, und es wurde eine zusätzliche Fehlermeldung hinzugefügt.
Die Verarbeitung von langen Pausen mitten in einer Audiodatei wurde verbessert.
NuGet-Paket: Für .NET Framework-Projekte wird die Erstellung mit AnyCPU-Konfiguration verhindert.

Behebung von Programmfehlern

In Erkennungen wurden verschiedene Ausnahmen behoben. Darüber hinaus werden Ausnahmen abgefangen und in Ereignisse vom Typ Canceled konvertiert.
Ein Arbeitsspeicherverlust in der Eigenschaftenverwaltung wurde behoben.
Es wurde ein Fehler behoben, bei dem eine Audioeingabedatei zum Absturz der Erkennung führen konnte.
Es wurde ein Fehler behoben, bei dem nach dem Ereignis zum Beenden einer Sitzung weiter Ereignisse empfangen werden konnten.
Einige Racebedingungen im Threading wurden korrigiert.
Ein iOS-Kompatibilitätsproblem wurde behoben, das zu einem Absturz führen konnte.
Verbesserungen bei der Stabilität für die Android-Mikrofonunterstützung.
Es wurde ein Fehler behoben, bei dem eine Erkennung in JavaScript die Erkennungssprache ignorierte.
Es wurde ein Fehler behoben, der (in einigen Fällen) das Festlegen von EndpointId in JavaScript verhinderte.
Die Parameterreihenfolge in AddIntent in JavaScript wurde geändert, und es wurde eine fehlende JavaScript-Signatur für AddIntent hinzugefügt.

Beispiele

Dem Beispielrepository wurden C++- und C#-Beispiele für die Verwendung von Pull- und Pushstreams hinzugefügt.

Speech SDK 1.0.1

Verbesserte Zuverlässigkeit und Fehlerbehebungen:

Ein potenziell schwerwiegender Fehler aufgrund einer Racebedingung bei der Löscherkennung wurde behoben.
Ein potenziell schwerwiegender Fehler bei nicht festgelegten Eigenschaften wurde behoben.
Zusätzliche Fehler- und Parameterüberprüfungen wurden hinzugefügt.
Objective-C: Ein potenziell schwerwiegender Fehler durch Namensüberschreibungen in NSString wurde behoben.
Objective-C: Sichtbarkeit der API wurde angepasst
JavaScript: Korrektur in Bezug auf Ereignisse und deren Nutzlasten.
Verbesserungen bei der Dokumentation.

Im Beispielrepository wurde ein neues Beispiel für JavaScript hinzugefügt.

Azure KI Speech SDK 1.0.0: Release von September 2018

Neue Funktionen

Unterstützung für Objective-C unter iOS. Sehen Sie sich unseren Objective-C-Schnellstart für iOS an.
Unterstützung für JavaScript im Browser. Sehen Sich unseren JavaScript-Schnellstart an.

Wichtige Änderungen

Mit diesem Release werden einige Breaking Changes eingeführt. Ausführliche Informationen finden Sie auf dieser Seite.

Azure KI Speech SDK 0.6.0: Release von August 2018

Neue Funktionen

Mit dem Speech SDK erstellte UWP-Apps erfüllen nun die Anforderungen des Windows App Certification Kit (WACK). Sehen Sie sich den UWP-Schnellstart an.
Unterstützung für .NET Standard 2.0 unter Linux (Ubuntu 16.04 x 64)
Experimentell: Unterstützung für Java 8 unter Windows (64 Bit) und Linux (Ubuntu 16.04 x64). Sehen Sie sich den Schnellstart zur Java Runtime Environment an.

Funktionale Änderung

Es werden weitere Detailinformationen zu Verbindungsfehlern verfügbar gemacht.

Wichtige Änderungen

In Java (Android) erfordert die SpeechFactory.configureNativePlatformBindingWithDefaultCertificate-Funktion keinen Path-Parameter mehr. Der Pfad wird nun auf allen unterstützten Plattformen automatisch erkannt.
Der get-Accessor der EndpointUrl-Eigenschaft in Java und C# wurde entfernt.

Behebung von Programmfehlern

In Java werden die Ergebnisse der Audiosynthese in der Übersetzungserkennung jetzt implementiert.
Ein Problem wurde behoben, das inaktive Threads und eine erhöhte Anzahl von offenen und nicht verwendeten Sockets verursachen konnte.
Ein Problem wurde behoben, das dazu führen konnte, dass lange ausgeführte Erkennungen während der Übertragung beendet wurden.
Eine Racebedingung beim Herunterfahren der Erkennung wurde behoben.

Azure KI Speech SDK 0.5.0: Release von Juli 2018

Neue Funktionen

Unterstützung für Android-Plattform (API 23: Android 6.0 Marshmallow oder höher). Sehen Sie sich den Android-Schnellstart an.
Unterstützung für .NET Standard 2.0 unter Windows. Sehen Sie sich den .NET Core-Schnellstart an.
Experimentell: Unterstützung für UWP unter Windows (Version 1709 oder höher).
- Sehen Sie sich den UWP-Schnellstart an.
- Beachten Sie, dass mit dem Speech SDK erstellte UWP-Apps die Anforderungen des Windows App Certification Kit (WACK) noch nicht erfüllen.
Unterstützung einer lang andauernden Erkennung mit automatischer erneuter Verbindungsherstellung.

Funktionale Änderungen

StartContinuousRecognitionAsync() unterstützt eine lang andauernde Erkennung.
Das Erkennungsergebnis enthält mehr Felder. Versatz vom Audiobeginn und Dauer (beides in Takten) des erkannten Texts und weitere Werte, die den Erkennungsstatus darstellen, z.B. InitialSilenceTimeout und InitialBabbleTimeout.
Unterstützung für AuthorizationToken zum Erstellen von Factoryinstanzen.

Wichtige Änderungen

Erkennungsereignisse: Der NoMatch-Ereignistyp wurde mit dem Error-Ereignis zusammengeführt.
SpeechOutputFormat in C# wurde in OutputFormat umbenannt, um mit C++ konsistent zu bleiben.
Der Rückgabetyp einiger Methoden der AudioInputStream-Schnittstelle wurde geringfügig geändert:
- In Java gibt die read-Methode jetzt long anstelle von int zurück.
- In C# gibt die Read-Methode jetzt uint anstelle von int zurück.
- In C++ geben die Read- und die GetFormat-Methoden jetzt size_t anstelle von int zurück.
C++: Instanzen von Audioeingabestreams können jetzt nur als shared_ptr übergeben werden.

Behebung von Programmfehlern

Korrektur falscher Rückgabewerte im Ergebnis, wenn bei RecognizeAsync() ein Timeout auftritt.
Die Abhängigkeit von Media Foundation-Bibliotheken für Windows wurde entfernt. Das SDK verwendet jetzt die Core Audio-APIs.
Korrektur der Dokumentation: Eine Seite Regionen wurde hinzugefügt, um die unterstützten Regionen zu beschreiben.

Bekanntes Problem

Das Speech SDK für Android meldet die Ergebnisse der Sprachsynthese für Übersetzungen nicht. Dieses Problem wird im nächsten Release behoben.

Azure KI Speech SDK 0.4.0: Release von Juni 2018

Funktionale Änderungen

AudioInputStream

Eine Erkennung kann jetzt einen Stream als Audioquelle nutzen. Weitere Informationen finden Sie in der zugehörigen Schrittanleitung.
Detailliertes Ausgabeformat

Beim Erstellen von SpeechRecognizer können Sie das Ausgabeformat Detailed oder Simple anfordern. DetailedSpeechRecognitionResult enthält eine Zuverlässigkeitsbewertung, erkannten Text, eine lexikalische Rohform, eine normalisierte Form und eine normalisierte Form mit maskierten anstößigen Ausdrücken.

Unterbrechende Änderung

Änderung von SpeechRecognitionResult.RecognizedText in SpeechRecognitionResult.Text in C#.

Behebung von Programmfehlern

Ein mögliches Rückrufproblem auf USP-Ebene beim Herunterfahren wurde behoben.
Wenn eine Audioeingabedatei von einer Erkennung genutzt wurde, wurde das Dateihandle länger als erforderlich gespeichert.
Mehrere Deadlocks zwischen dem Nachrichtensystem und der Erkennung wurden entfernt.
Ein NoMatch-Ergebnis wird ausgelöst, wenn bei der Antwort vom Dienst ein Timeout auftritt.
Die Media Foundation-Bibliotheken unter Windows werden verzögert geladen. Diese Bibliothek ist nur für die Mikrofoneingabe erforderlich.
Die Uploadgeschwindigkeit für Audiodaten ist auf das Doppelte der ursprünglichen Audiogeschwindigkeit beschränkt.
C# .NET-Assemblys haben unter Windows nun einen starken Namen.
Korrektur der Dokumentation: Region ist eine erforderliche Information zum Erstellen einer Erkennung.

Weitere Beispiele wurden hinzugefügt und werden regelmäßig aktualisiert. Die Sammlung der aktuellsten Beispiele finden Sie im GitHub-Repository mit Beispielen für das Speech SDK.

Azure KI Speech SDK 0.2.12733: Release von Mai 2018

Dieses Release ist das erste öffentliche Vorschaurelease des Azure KI Speech SDK.

Speech-CLI 1.40.0: Release von August 2024

Aktualisiert für die Verwendung des Speech-SDK 1.40.0

Neue Funktionen

Keine

Fehlerkorrekturen

none

Speech-CLI 1.38.0: Release vom Juni 2024

Aktualisiert für die Verwendung des Speech-SDK 1.38.0

Neue Funktionen

Keine

Fehlerkorrekturen

Keine

Speech CLI 1.37.0: Version vom April 2024

Aktualisiert für die Verwendung von Speech SDK 1.37.0

Neue Funktionen

Keine

Fehlerkorrekturen

Keine

Speech CLI 1.36.0: Release von März 2024

Aktualisiert für die Verwendung von Speech SDK 1.36.0

Neue Funktionen

Keine

Fehlerkorrekturen

Keine

Speech CLI 1.35.0: Version vom Februar 2024

Aktualisiert für die Verwendung von Speech SDK 1.35.0

Neue Funktionen

Keine

Fehlerkorrekturen

Aktualisieren der JMESPath-Abhängigkeit auf die neueste Version

Speech-CLI 1.34.0: Release vom November 2023

Aktualisiert für die Verwendung von Speech SDK 1.34.0

Speech CLI 1.33.0: Release vom Oktober 2023

Aktualisiert für die Verwendung des Speech-SDK 1.33.0

Speech CLI 1.31.0: Release von August 2023

Update für die Verwendung von Speech SDK 1.31.0

Speech CLI 1.30.0: Release vom Juli 2023

Update für die Verwendung von Speech SDK 1.30.0

Speech CLI 1.29.0: Release vom Juni 2023

Update für die Verwendung des Speech SDK 1.29.0

Speech CLI 1.28.0: Release von Mai 2023

Update für die Verwendung des Speech SDK 1.28.0

Speech CLI 1.27.0: Version vom April 2023

Updates

Update für die Verwendung des Speech SDK 1.27.0
Aktualisieren Sie den Standardendpunkt, um v3.1-REST-APIs für Custom Speech Recognition und Batch Speech Recognition zu verwenden.

Behebung von Programmfehlern

Korrekturen im Zusammenhang mit der Analyse/Konfiguration von Abfrageparametern.

Speech CLI 1.26.0: Release von März 2023

Für die Verwendung des Speech SDK 1.26.0 aktualisiert.

Speech CLI 1.25.0: Release von Januar 2023

Für die Verwendung des Speech SDK 1.25.0 aktualisiert.

Speech CLI 1.24.0: Release vom Oktober 2022

Verwendet Speech SDK 1.24.0.

Neue Funktionen

Erweiterte „SPX-Prüfung“ zur Unterstützung von JMESPath-Abfragen für alle SPX-Ereignisse

Behebung von Programmfehlern

Verschiedene Verbesserungen der Stabilität gegenüber Auswertungen von JMESPath-Abfragen
Behebung von Kürzungen bei Schreibvorgängen in Dateien, die auf Computern mit eingeschränkten Ressourcen auftreten können

Speech CLI 1.23.0: Release vom Juli 2022

Verwendet Speech SDK 1.23.0.

Neue Funktionen

Bessere Aufteilung großer Ergebnisse (max. 37 Zeichen, 3 Zeilen) für Untertitel (--output vtt und --output srt)
Dokumentierte spx synthesize--format-Optionen (siehe spx help synthesize format)
Dokumentierte die meisten spx csr-Befehle/Optionen (siehe spx help csr)
Hinzugefügter Befehl spx csr model copy (siehe spx help csr model copy)
Hinzugefügte Option --check result mithilfe von JMES-Abfragen (siehe spx help check result)
Verbesserte Fehlermeldungen beim Angeben ungültiger Befehlsoptionen
Umstellung von .NET Core 3.1 zu .NET 6.0. Zum Ausführen des Speech CLI müssen Sie die .NET 6.0-Runtime (oder höher) installieren.

Behebung von Programmfehlern

Alle URLs zum Entfernen der Sprache wurden aktualisiert (z. B. „en-US“).
Behobene Versionsinformationen, die in allen Fällen ordnungsgemäß gemeldet werden (bisher waren sie manchmal leer)

Speech CLI 1.22.0: Release vom Juni 2022

Verwendet Speech SDK 1.22.0.

Neue Funktionen

Der Befehl spx init wurde hinzugefügt, um Benutzer über die Erstellung von Sprachressourcenschlüsseln zu leiten, ohne zum Azure Web Portal zu wechseln.
Speech Docker-Container verfügen jetzt über Azure CLI, sodass der spx init-Befehl standardmäßig funktioniert.
Zeitstempel als Ereignisausgabeoption hinzugefügt, um SPX beim Berechnen von Latenzen nützlicher zu machen.

Speech CLI 1.21.0: Version vom April 2022

Verwendet Speech SDK 1.21.0.

Neue Funktionen

Generierung von WEBVTT-Untertiteln
- Unterstützung für --output vtt zu spx translate hinzugefügt
- Unterstützt --output vtt file FILENAME, um den standardmäßigen VTT-DATEINAMEN außer Kraft zu setzen
- Unterstützt --output vtt file - für das Schreiben in die Standardausgabe
- Einzelne VTT-Dateien werden für jede Zielsprache (z. B. --target en;de;fr) erstellt.
Generierung von SRT-Untertiteln
- Hinzugefügt: --output srt-Unterstützung für spx recognize, spx intent und spx translate
- Unterstützt --output srt file FILENAME, um den standardmäßigen SRT-DATEINAMEN außer Kraft zu setzen
- Unterstützt --output srt file - für das Schreiben in die Standardausgabe
- Für spx translate werden einzelne SRT-Dateien für jede Zielsprache (z. B. --target en;de;fr) erstellt.

Behebung von Programmfehlern

Korrigiert: WEBVTT-Zeitbereichsausgabe zur ordnungsgemäßen Verwendung des hh:mm:ss.fff-Formats

Speech CLI 1.20.0: Release von Januar 2022

Neue Funktionen

Sprechererkennung
- spx profile enroll und spx speaker [identify/verify] unterstützen jetzt Mikrofoneingaben.
Absichtserkennung (spx intent)
- --keyword FILE.table
- --pattern und --patterns
- --output all/each intentid
- --output all/each entity json
- --output all/each ENTITY entity
- --once, --once+, --continuous („continuous“ ist jetzt Standard)
- --output all/each connection EVENT
- --output all/each connection message (Beispiel: text, path)
Überprüfung/Erstellung der Ausgabeerwartung der CLI-Konsole:
- Unterstützung von --expect PATTERN und --not expect PATTERN für alle Befehle
- --auto expect zur Unterstützung der Erstellung erwarteter Muster
Überprüfung/Erstellung der Ausgabeerwartung der SDK-Protokollierung:
- Unterstützung von --log expect PATTERN und --not log expect PATTERN für alle Befehle
- Unterstützung von --log auto expect [FILTER] für alle Befehle
- Unterstützung von --log FILE für spx profile und spx speaker
Audiodateieingabe
- Unterstützung von --format ANY für alle Befehle
- Unterstützung von --file - (Lesen von der Standardeingabe, Aktivieren von Pipeszenarien)
Audiodateiausgabe
- Unterstützung von --audio output - Schreiben in die Standardausgabe, Aktivieren von Pipeszenarien
Ausgabedateien
- --output all/each file - Schreiben in die Standardausgabe
- --output batch file - Schreiben in die Standardausgabe
- --output vtt file - Schreiben in die Standardausgabe
- --output json file - Schreiben in die Standardausgabe für spx csr- und spx batch-Befehle
Ausgabeeigenschaften
- --output […] result XXX property (PropertyId oder string)
- --output […] connection message received XXX property (PropertyId oder string)
- --output […] recognizer XXX property (PropertyId oder string)
Azure WebJob-Integration
- spx webjob folgt nun dem Unterbefehlsmuster
- Die WebJob-Hilfe wurde aktualisiert, um das Unterbefehlsmuster widerzuspiegeln (siehe spx help webjob).

Behebung von Programmfehlern

Fehler behoben, wenn --output vtt FILE und --output batch FILE gleichzeitig verwendet werden.
spx [...] --zip ZIPFILENAME enthält jetzt alle Binärdateien, die für alle Szenarien erforderlich sind (sofern vorhanden).
spx profile- und spx speaker-Befehle geben jetzt ausführliche Fehlerinformationen zum Abbruch zurück.

Release von Mai 2021

Neue Funktionen

Unterstützung für Profil, Sprecher-ID und Sprecherüberprüfung hinzugefügt. – Probieren Sie spx profile und spx speaker über die Befehlszeile.
Wir haben außerdem Dialogunterstützung hinzugefügt. – Probieren Sie spx dialog über die Befehlszeile.
Verbesserte spx-Hilfe. Senden Sie uns Ihr Feedback, wie dies für Sie funktioniert, indem Sie ein GitHub-Problem öffnen.
Wir haben die Größe der Installation des .NET-Tools verringert.

Abgekürzte Tests aufgrund von COVID-19

Da unsere Entwickler aufgrund der fortwährenden Pandemie weiterhin von zu Hause aus arbeiten müssen, wurden die manuellen Überprüfungsskripts aus den Zeiten vor der Pandemie erheblich reduziert. Es wird auf weniger Geräten mit weniger Konfigurationen getestet, und die Wahrscheinlichkeit, dass umgebungsspezifische Fehler nicht erkannt werden, ist möglicherweise höher. Dennoch werden weiterhin viele verschiedene Automatisierungsansätze für die Überprüfung verwendet. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!

Release von März 2021

Neue Funktionen

Der Befehl spx intent für die Absichtserkennung wurde hinzugefügt. Dieser ersetzt spx recognize intent.
Für den recognize- und intent-Befehl können jetzt Azure-Funktionen verwendet werden, um mithilfe von spx recognize --wer url <URL> die Wort-Fehler-Rate zu berechnen.
Der recognize-Befehl kann jetzt mit spx recognize --output vtt file <FILENAME> Ergebnisse als VTT-Dateien ausgeben.
Vertrauliche wichtige Informationen werden jetzt in der Debugausgabe/ausführlichen Ausgabe unkenntlich gemacht.
Für das Inhaltsfeld bei der Erstellung von Batch-Transkriptionen wurden URL-Überprüfung und eine Fehlermeldung hinzugefügt.

Abgekürzte Tests aufgrund von COVID-19

Release von Januar 2021

Neue Funktionen

Die Speech-CLI ist jetzt als NuGet-Paket verfügbar und kann über die .NET-CLI als globales .NET-Tool installiert werden, das Sie über die Shell oder die Befehlszeile aufrufen können.
Das DevOps-Vorlagenrepository für Custom Speech wurde aktualisiert, um die Speech-CLI für Custom Speech-Workflows zu verwenden.

Abgekürzte Tests aufgrund von COVID-19

Release vom Oktober 2020

SPX ist die Befehlszeilenschnittstelle, um den Speech-Dienst ohne das Schreiben von Code zu verwenden. Laden Sie die neueste Version hier herunter.

Neue Funktionen

spx csr dataset upload --kind audio|language|acoustic – Erstellen Sie Datasets aus lokalen Daten, nicht nur aus URLs.
spx csr evaluation create|status|list|update|delete – Vergleichen Sie neue Modelle mit grundlegenden Tatsachen/anderen Modellen.
spx * list – Unterstützt die nicht ausgelagerte Umgebung (erfordert kein --top X --skip X).
spx * --http header A=B – Unterstützen Sie benutzerdefinierte Header (zur benutzerdefinierten Authentifizierung zu Office hinzugefügt).
spx help – Verbesserter Text und farbcodierter Graviszeichentext (blau).

Release von Juni 2020

Hinzugefügte Suchfeatures für die Hilfe in der Befehlszeilenschnittstelle:
- spx help find --text TEXT
- spx help find --topic NAME
Für die neu bereitgestellten APIs der Version 3.0 für Batch und Custom Speech aktualisiert:
- spx help batch examples
- spx help csr examples

Abgekürzte Tests aufgrund von COVID-19

Speech CLI (auch als SPX bezeichnet): Release von Mai 2020

SPX ist ein neues Befehlszeilentool, mit dem Sie Aktionen wie Erkennung, Synthese, Übersetzung, Batch-Transkription und benutzerdefinierte Sprachverwaltung über die Befehlszeile ausführen können. Verwenden Sie es zum Testen des Speech-Diensts oder zum Erstellen von Skripts für die auszuführenden Aufgaben des Speech-Diensts. Das Tool steht hier zum Download zur Verfügung. Dort finden Sie auch die Dokumentation.

Version vom Februar 2025

Version 1.1 von HD-Stimmen (öffentliche Vorschau)

13 aktuelle HD-Stimmen wurden auf Version 1.1 (neueste Version) aktualisiert, um mehrsprachige Stimmen zu unterstützen.

Angeben der „aktuellen“ Standardeinstellungen für das Modell als v1.1
v1.1 unterstützt mehrere Sprachen
Wenn Sie eine ältere Version aufrufen möchten, geben Sie die Version im Namen der Stimme an:
- Version 1.0: en-US-Ava:DragonHDV1.0Neural
- Aktuell (derzeit v1.1): en-US-Ava:DragonHDLatestNeural

Gebietsschema (BCP-47)	Name der Stimme
`de-DE`	`de-DE-Seraphina:DragonHDLatestNeural` (weiblich)
`en-US`	`en-US-Brian:DragonHDLatestNeural` (männlich)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (männlich)
`en-US`	`en-US-Ava:DragonHDLatestNeural` (weiblich)
`en-US`	`en-US-Andrew:DragonHDLatestNeural` (männlich)
`en-US`	`en-US-Andrew2:DragonHDLatestNeural` (männlich) – optimiert für freies Sprechen
`en-US`	`en-US-Emma:DragonHDLatestNeural` (weiblich)
`en-US`	`en-US-Emma2:DragonHDLatestNeural` (weiblich) – optimiert für freies Sprechen
`en-US`	`en-US-Steffan:DragonHDLatestNeural` (männlich)
`en-US`	`en-US-Aria:DragonHDLatestNeural` (weiblich)
`en-US`	`en-US-Jenny:DragonHDLatestNeural` (weiblich)
`ja-JP`	`ja-JP-Masaru:DragonHDLatestNeural` (männlich)
`zh-CN`	`zh-CN-Xiaochen:DragonHDLatestNeural` (weiblich)

Öffentliche Vorschau neuer HD-Stimmen

Es wurden 14 weitere HD-Stimmen hinzugefügt, die nur in Version 1.1 verfügbar sind.

Gebietsschema (BCP-47)	Name der Stimme
`de-DE`	`de-DE-Florian:DragonHDLatestNeural` (männlich)
`en-US`	`en-US-Adam:DragonHDLatestNeural` (männlich)
`en-US`	`en-US-Brain:DragonHDLatestNeural` (männlich)
`en-US`	`en-US-Davis:DragonHDLatestNeural` (männlich)
`en-US`	`en-US-Phoebe:DragonHDLatestNeural` (weiblich)
`en-US`	`en-US-Serena:DragonHDLatestNeural` (weiblich)
`en-US`	`en-US-Alloy:DragonHDLatestNeural` (männlich)
`en-US`	`en-US-Nova:DragonHDLatestNeural` (weiblich)
`es-ES`	`es-ES-Ximena:DragonHDLatestNeural` (weiblich)
`es-ES`	`es-ES-Tristan:DragonHDLatestNeural` (männlich)
`fr-FR`	`fr-FR-Vivienne:DragonHDLatestNeural` (weiblich)
`fr-FR`	`fr-FR-Remy:DragonHDLatestNeural` (männlich)
`ja-JP`	`ja-JP-Nanami:DragonHDLatestNeural` (weiblich)
`zh-CN`	`zh-CN-Yunfan:DragonHDLatestNeural` (männlich)

Azure OpenAI Service-Turbostimmen

Diese Turbostimmen sind jetzt allgemein verfügbar:

Gebietsschema (BCP-47)	Name der Stimme
`en-US`	`en-US-AlloyTurboMultilingualNeural` (männlich)
`en-US`	`en-US-EchoTurboMultilingualNeural` (männlich)
`en-US`	`en-US-FableTurboMultilingualNeural` (Neutral)
`en-US`	`en-US-NovaTurboMultilingualNeural` (weiblich)
`en-US`	`en-US-OnyxTurboMultilingualNeural` (männlich)
`en-US`	`en-US-ShimmerTurboMultilingualNeural` (weiblich)

Verbesserungen der Stimmqualität

Verbesserte Qualität von 16 Stimmen.

Gebietsschema (BCP-47)	Name der Stimme
`ar-EG`	`ar-EG-ShakirNeural` (männlich)
`ca-ES`	`ca-ES-EnricNeural` (männlich)
`en-IE`	`en-IE-EmilyNeural` (weiblich)
`fi-FI`	`fi-FI-HarriNeural` (männlich)
`fi-FI`	`fi-FI-SelmaNeural` (weiblich)
`fr-CH`	`fr-CH-FabriceNeural` (weiblich)
`hr-HR`	`hr-HR-GabrijelaNeural` (weiblich)
`nl-NL`	`nl-NL-MaartenNeural` (männlich)
`pt-PT`	`pt-PT-RaquelNeural` (weiblich)
`ro-RO`	`ro-RO-AlinaNeural` (weiblich)
`sv-SE`	`sv-SE-MattiasNeural` (männlich)
`sv-SE`	`sv-SE-SofieNeural` (weiblich)
`vi-VN`	`vi-VN-HoaiMyNeural` (weiblich)
`vi-VN`	`vi-VN-NamMinhNeural` (männlich)
`zh-HK`	`zh-HK-HiuMaanNeural` (weiblich)
`zh-HK`	`zh-HK-WanLungNeural` (männlich)

GA – Eingebettete Jenny mit mehreren Stilen

Stilunterstützung für en-US-JennyNeural wurde in eingebettete Sprache hinzugefügt. Die gleichen Stile wie in der Cloud werden unterstützt. Die folgenden Stile werden unterstützt: angry, assistant, chat, cheerful, customerservice, excited, friendly, hopeful, newscast, sad, shouting, terrified, unfriendly und whispering.

Release von Januar 2025

Training benutzerdefinierter Avatare

Sie können jetzt benutzerdefinierte Avatare in Speech Studio trainieren. Zuvor mussten Sie warten, dass Microsoft Ihren benutzerdefinierten Avatar trainiert.

Ausführlichere Informationen zum Erstellen eines benutzerdefinierten Avatars finden Sie unter Erstellen eines benutzerdefinierten Sprachsynthese-Avatars.

Release von Oktober 2024

Vordefinierte neuronale Stimme

Einführung der 4-Turbo-Version von Azure OpenAI Voices in der Public Preview: en-US-EchoTurboMultilingualNeural, en-US-FableTurboMultilingualNeural, en-US-OnyxTurboMultilingualNeural und en-US-ShimmerTurboMultilingualNeural. Die Turbo-Version von Azure OpenAI Voices hat eine ähnliche Stimme wie Azure OpenAI Voices, unterstützt aber zusätzliche Funktionen. Die Turbo-Stimmen unterstützen den vollständigen Satz von SSML-Elementen und weitere Funktionen wie Wortgrenzen, genau wie andere Azure AI Speech-Stimmen. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Diese Stimmen sind jetzt allgemein verfügbar:

Gebietsschema (BCP-47)	Name der Stimme
`de-DE`	`SeraphinaMultilingualNeural`
`de-DE`	`FlorianMultilingualNeural`
`en-GB`	`AdaMultilingualNeural`
`en-GB`	`OllieMultilingualNeural`
`en-US`	`LunaNeural`
`en-US`	`KaiNeural`
`en-US`	`CoraMultilingualNeural`
`en-US`	`ChristopherMultilingualNeural`
`en-US`	`BrandonMultilingualNeural`
`es-ES`	`IsidoraMultilingualNeural`
`es-ES`	`ArabellaMultilingualNeural`
`es-ES`	`TristanMultilingualNeural`
`es-ES`	`XimenaMultilingualNeural`
`fr-FR`	`LucienMultilingualNeural`
`fr-FR`	`VivienneMultilingualNeural`
`fr-FR`	`RemyMultilingualNeural`
`it-IT`	`IsabellaMultilingualNeural`
`it-IT`	`MarcelloMultilingualNeural`
`it-IT`	`AlessioMultilingualNeural`
`it-IT`	`GiuseppeMultilingualNeural`
`ko-KR`	`HyunsuMultilingualNeural`
`pt-BR`	`ThalitaMultilingualNeural`
`pt-BR`	`MacerioMultilingualNeural`

Vorkonfigurierte neuronale High Definition-Stimme (HD)

Azure KI Speech-HD-Stimmen (High Definition) sind als öffentliche Vorschauversion verfügbar. Die HD-Stimmen können den Inhalt verstehen, automatisch Emotionen im Eingabetext erkennen und die Sprechweise in Echtzeit an die Stimmung anpassen. HD-Stimmen behalten eine konsistente Sprachpersona im Vergleich zu ihren neuronalen Gegenstücken (nicht HD) bei und bieten durch erweiterte Funktionen einen noch höheren Mehrwert. Weitere Informationen finden Sie unter Was sind HD-Stimmen (High-Definition) in Azure KI Speech?.

Benutzerdefinierte neuronale Stimme

Bisher wurden einige Gebietsschemas nur mit V3 für das Trainingsrezept unterstützt. Diese Gebietsschemas unterstützen jetzt auch V9 und ermöglichen eine verbesserte Trainingsqualität und erweiterte Features. Informationen zu diesen Gebietsschemas finden Sie in der folgenden Tabelle:

Gebietsschema (BCP-47)	Sprache
`ar-EG`	Arabisch (Ägypten)
`ar-SA`	Arabisch (Saudi-Arabien)
`ca-ES`	Katalanisch
`cs-CZ`	Tschechisch (Tschechien)
`da-DK`	Dänisch (Dänemark)
`de-AT`	Deutsch (Österreich)
`de-CH`	Deutsch (Schweiz)
`el-GR`	Griechisch (Griechenland)
`en-IN`	Englisch (Indien)
`fi-FI`	Finnisch (Finnland)
`fr-CH`	Französisch (Schweiz)
`he-IL`	Hebräisch (Israel)
`hi-IN`	Hindi (Indien)
`hu-HU`	Ungarisch (Ungarn)
`ms-MY`	Malaiisch (Malaysia)
`nb-NO`	Norwegisch, Bokmål (Norwegen)
`nl-NL`	Niederländisch (Niederlande)
`pl-PL`	Polnisch (Polen)
`pt-PT`	Portugiesisch (Portugal)
`ro-RO`	Rumänisch (Rumänien)
`ru-RU`	Russisch (Russische Föderation)
`sk-SK`	Slowakisch (Slowakei)
`sv-SE`	Schwedisch (Schweden)
`th-TH`	Thai (Thailand)
`r-TR`	Türkisch (Türkiye)
`vi-VN`	Vietnamesisch (Vietnam)
`zh-HK`	Chinesisch (Kantonesisch, traditionell)
`zh-TW`	Chinesisch (Taiwanesisch, Mandarin; traditionell)

Benutzerdefinierte neuronale Stimme Pro unterstützt jetzt die folgenden neuen Gebietsschemas:
- en-NZ: Englisch (Neuseeland)
- es-CL: Spanisch (Chile)
- es-US: Spanisch (USA)
- ta-MY: Tamil (Malaysia)
Eine vollständige Liste der unterstützten Gebietsschemas finden Sie in der Sprachliste für benutzerdefinierte neuronale Stimme.

Das sprachübergreifende Feature unterstützt jetzt die folgenden neuen Gebietsschemas als Quellgebietsschemas:

Gebietsschema (BCP-47)	Sprache
`da-DK`	Dänisch (Dänemark)
`de-AT`	Deutsch (Österreich)
`de-CH`	Deutsch (Schweiz)
`de-DE`	Deutsch (Deutschland)
`en-CA`	Englisch (Kanada)
`fi-FI`	Finnisch (Finnland)
`fr-CH`	Französisch (Schweiz)
`hu-HU`	Ungarisch (Ungarn)
`ms-MY`	Malaiisch (Malaysia)
`nb-NO`	Norwegisch, Bokmål (Norwegen)
`pt-PT`	Portugiesisch (Portugal)
`sv-SE`	Schwedisch (Schweden)
`tr-TR`	Türkisch (Türkiye)
`ta-IN`	Tamil (Indien)
`zh-HK`	Chinesisch (Kantonesisch, traditionell)

Eine vollständige Liste der unterstützten Gebietsschemas finden Sie in der Sprachliste für benutzerdefinierte neuronale Stimme.

Das Feature für Stimmen mit mehreren Stilen unterstützt jetzt die folgenden neuen Gebietsschemas:

Gebietsschema (BCP-47)	Sprache
`ar-EG`	Arabisch (Ägypten)
`ar-SA`	Arabisch (Saudi-Arabien)
`ca-ES`	Katalanisch
`cs-CZ`	Tschechisch (Tschechien)
`da-DK`	Dänisch (Dänemark)
`de-AT`	Deutsch (Österreich)
`de-CH`	Deutsch (Schweiz)
`de-DE`	Deutsch (Deutschland)
`el-GR`	Griechisch (Griechenland)
`en-AU`	Englisch (Australien)
`en-CA`	Englisch (Kanada)
`en-GB`	Walisisch (Großbritannien)
`en-IN`	Englisch (Indien)
`es-ES`	Spanisch (Spanien)
`es-MX`	Spanisch (Mexiko)
`fi-FI`	Finnisch (Finnland)
`fr-CA`	Französisch (Kanada)
`fr-CH`	Französisch (Schweiz)
`fr-FR`	Französisch (Frankreich)
`he-IL`	Hebräisch (Israel)
`hi-IN`	Hindi (Indien)
`hu-HU`	Ungarisch (Ungarn)
`it-IT`	Italienisch (Italien)
`ko-KR`	Koreanisch (Korea)
`ms-MY`	Malaiisch (Malaysia)
`nb-NO`	Norwegisch, Bokmål (Norwegen)
`nl-BE`	Niederländisch (Belgien)
`nl-NL`	Niederländisch (Niederlande)
`pl-PL`	Polnisch (Polen)
`pt-BR`	Portugiesisch (Brasilien)
`pt-PT`	Portugiesisch (Portugal)
`ro-RO`	Rumänisch (Rumänien)
`ru-RU`	Russisch (Russische Föderation)
`sk-SK`	Slowakisch (Slowakei)
`sv-SE`	Schwedisch (Schweden)
`th-TH`	Thai (Thailand)
`tr-TR`	Türkisch (Türkiye)
`vi-VN`	Vietnamesisch (Vietnam)
`zh-HK`	Chinesisch (Kantonesisch, traditionell)
`zh-TW`	Chinesisch (Taiwanesisch, Mandarin; traditionell)

Eine vollständige Liste der unterstützten Gebietsschemas finden Sie in der Sprachliste für benutzerdefinierte neuronale Stimme.

Release vom September 2024

Vordefinierte neuronale Stimme

Unterstützung und allgemeine Verfügbarkeit für neue Stimmen in den folgenden Gebietsschemas hinzugefügt:

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`as-IN`	Assamisch (Indien)	`as-IN-YashicaNeural` (weiblich) `as-IN-PriyomNeural` (männlich)
`or-IN`	Odia (Indien)	`or-IN-SubhasiniNeural` (weiblich) `or-IN-SukantNeural` (männlich)
`pa-IN`	Punjabi (Indien)	`pa-IN-OjasNeural` (männlich) `pa-IN-VaaniNeural` (weiblich)

Die einzige Stimme in dieser Tabelle ist allgemein verfügbar und unterstützt nur das Gebietsschema „en-IN“.

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`en-IN`	Englisch (Indien)	`en-IN-AashiNeural` (weiblich)

Die fünf Stimmen in dieser Tabelle sind allgemein verfügbar und unterstützen sowohl „en-IN“ als auch „hi-IN“-Gebietsschemas.

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`en-IN`	Englisch (Indien)	`en-IN-AaravNeural` (männlich) `en-IN-AnanyaNeural` (weiblich) `en-IN-KavyaNeural` (weiblich) `en-IN-KunalNeural` (männlich) `en-IN-RehaanNeural` (männlich)
`hi-IN`	Hindi (Indien)	`hi-IN-AaravNeural` (männlich) `hi-IN-AnanyaNeural` (weiblich) `hi-IN-KavyaNeural` (weiblich) `hi-IN-KunalNeural` (männlich) `hi-IN-RehaanNeural` (männlich)

Sprachstile und Rollen

Unterstützung für newscast-, cheerful-, empathetic-Formatvorlagen für die en-IN-NeerjaNeural- und hi-IN-SwaraNeural-Stimmen hinzugefügt.

Neue Formatvorlagen für die folgenden Stimmen hinzugefügt:

es-MX-DaliaNeural: whispering, sad, cheerful
fr-FR-DeniseNeural: whispering, sad, excited
it-IT-IsabellaNeural: whispering, sad, excited, cheerful
pt-PT-RaquelNeural: whispering, sad
de-DE-ConradNeural: sad, cheerful
en-GB-RyanNeural: whispering, sad
es-MX-JorgeNeural: whispering, sad, excited, cheerful
fr-FR-HenriNeural: whispering, sad, excited
it-IT-DiegoNeural: sad, excited, cheerful
es-ES-AlvaroNeural: cheerful, sad
ko-KR-InjoonNeural: sad

Weitere Informationen finden Sie unter Sprachstile und Rollen.

Release von August 2024

Vordefinierte neuronale Stimme

Einführung von neuen mehrsprachigen Stimmen als öffentliche Vorschauversion. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Neue mehrsprachige Stimmen

Standort	Sprache	Geschlecht	Name der Stimme
de-De	Englisch (Vereinigte Staaten)	Male	en-US-AdamMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Female	en-US-AmandaMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Male	en-US-DerekMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Male	en-US-LewisMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Female	en-US-LolaMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Female	en-US-PhoebeMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Male	en-US-SamuelMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Female	en-US-SerenaMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Male	en-US-DustinMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Female	en-US-EvelynMultilingualNeural
es-ES	Spanisch (Spanien)	Male	es-ES-TristanMultilingualNeural
fr-FR	Französisch (Frankreich)	Male	fr-FR-LucienMultilingualNeural
pt-BR	Portugiesisch (Brasilien)	Male	pt-BR-MacerioMultilingualNeural
zh-CN	Chinesisch (Mandarin, vereinfacht)	Male	zh-CN-YunfanMultilingualNeural
zh-CN	Chinesisch (Mandarin, vereinfacht)	Male	zh-CN-YunxiaoMultilingualNeural
zh-CN	Chinesisch (Mandarin, vereinfacht)	Male	zh-CN-YunyiMultilingualNeural

Einsprachige Modelle auf mehrsprachige Stimmen mit Verbesserungen der Natürlichkeit aktualisiert

Standort	Sprache	Geschlecht	Name der Stimme
de-De	Englisch (Vereinigte Staaten)	Female	en-US-NancyMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Male	en-US-BrandonMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Male	en-US-ChristopherMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Female	en-US-CoraMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Male	en-US-DavisMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Male	en-US-SteffanMultilingualNeural
es-ES	Spanisch (Spanien)	Female	es-ES-XimenaMultilingualNeural
it-IT	Italienisch (Italien)	Male	it-IT-GiuseppeMultilingualNeural
ko-KR	Koreanisch (Korea)	Male	ko-KR-HyunsuMultilingualNeural

Optimieren Sie die folgenden aktuellen mehrsprachigen Stimmen mit besserer Qualität.

Standort Sprache Geschlecht Name der Stimme

de-De Englisch (Vereinigte Staaten) Male en-US-AndrewMultilingualNeural

de-De Englisch (Vereinigte Staaten) Female en-US-AvaMultilingualNeural
Drei mehrsprachige Stimmen unterstützen jetzt Stile. Weitere Informationen finden Sie unter Sprachstile und Rollen.
- en-US-SerenaMultilingualNeural: empathetic, excited, friendly, shy, serious, relieved und sad.
- en-US-AndrewMultilingualNeural: empathetic und relieved.
- zh-CN-XiaoxiaoMultilingualNeural: affectionate, cheerful, empathetic, excited, poetry-reading, sorry und story.

Standort	Sprache	Geschlecht	Name der Stimme
de-De	Englisch (Vereinigte Staaten)	Male	en-US-AndrewMultilingualNeural
de-De	Englisch (Vereinigte Staaten)	Female	en-US-AvaMultilingualNeural

Release von Juli 2024

Sprachsynthese-Avatar (GA, allgemein verfügbar)

Der Sprachsynthese-Avatar ist jetzt allgemein verfügbar. Weitere Informationen finden Sie unter Sprachsynthese-Avatar.

Vordefinierte neuronale Stimme

Einführung der 2-Turbo-Version von Azure OpenAI Voices in der öffentlichen Vorschau: en-US-AlloyTurboMultilingualNeural und en-US-NovaTurboMultilingualNeural. Die Turbo-Version von Azure OpenAI Voices hat eine ähnliche Stimme wie Azure OpenAI Voices, unterstützt aber zusätzliche Funktionen. Die Turbo-Stimmen unterstützen den vollständigen Satz von SSML-Elementen und weitere Funktionen wie Wortgrenzen, genau wie andere Azure AI Speech-Stimmen. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Einführung von 2 neuen mehrsprachigen Stimmen in der Public Preview: zh-CN-YunfanMultilingualNeural und zh-CN-YunxiaoMultilingualNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Eingebettete neuronale Stimme

en-US-JennyMultilingual Stimme wird in Produktion gegeben und unterstützt bis zu 24 Sprachumgebungen für das Erlebnis auf dem Gerät. Die unterstützten Sprachversionen finden Sie in der Tabelle unten.

Standort	Sprache
`da-DK`	Dänisch (Dänemark)
`de-DE`	Deutsch (Deutschland)
`en-AU`	Englisch (Australien)
`en-GB`	Walisisch (Großbritannien)
`en-IN`	Englisch (Indien)
`en-US`	Englisch (USA)
`es-ES`	Spanisch (Spanien)
`es-MX`	Spanisch (Mexiko)
`fr-CA`	Französisch (Kanada)
`fr-FR`	Französisch (Frankreich)
`he-IL`	Hebräisch (Israel)
`it-IT`	Italienisch (Italien)
`ja-JP`	Japanisch (Japan)
`ko-KR`	Koreanisch (Korea)
`nb-NO`	Norwegisch, Bokmål (Norwegen)
`nl-NL`	Niederländisch (Niederlande)
`pl-PL`	Polnisch (Polen)
`pt-PT`	Portugiesisch (Portugal)
`sv-SE`	Schwedisch (Schweden)
`th-TH`	Thai (Thailand)
`tr-TR`	Türkisch (Türkiye)
`zh-CN`	Chinesisch (Mandarin, vereinfacht)
`zh-HK`	Chinesisch (Kantonesisch, traditionell)
`zh-TW`	Chinesisch (Taiwanesisch, Mandarin; traditionell)

Release vom Juni 2024

Vordefinierte neuronale Stimme

Einführung von sechs neuen Stimmen in der Public Preview, die in bestimmten Regionen verfügbar sind: Asien, Osten; Asien, Südosten; USA, Osten; USA, Westen; Indien, Mitte.

Standort	Sprache	Stimmen für die Sprachsynthese
`or-IN`	Odia (Indien)	`or-IN-SubhasiniNeural` (weiblich)
`or-IN`	Odia (Indien)	`or-IN-SukantNeural` (männlich)
`pa-IN`	Punjabi (Indien)	`pa-IN-VaaniNeural` (weiblich)
`pa-IN`	Punjabi (Indien)	`pa-IN-OjasNeural` (männlich)
`as-IN`	Assamisch (Indien)	`as-IN-YashicaNeural` (weiblich)
`as-IN`	Assamisch (Indien)	`as-IN-PriyomNeural` (männlich)

Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Sprachsynthese-Avatar

Der Text-zu-Sprache-Avatar unterstützt nun die folgenden Regionen: „Asien, Südosten“, „Europa, Norden“, „Europa, Westen“, „Schweden, Mitte“, „USA, Süden-Mitte“ und „USA, Westen 2“. Weitere Informationen finden Sie unter Vom Speech-Dienst unterstützte Regionen.

Release von Mai (2024)

Personalisierte Stimme (allgemeine Verfügbarkeit)

Personalisierte Stimme ist jetzt allgemein verfügbar. Mit Personal Voice können Sie in wenigen Sekunden eine KI-generierte Replikation Ihrer Stimme (oder der Benutzer Ihrer Anwendung) erhalten. Sie geben ein einminütiges Sprachbeispiel als Audio-Prompt vor und verwenden es dann, um Sprache in einer der über 90 unterstützten Sprachen in mehr als 100 Ländern zu erzeugen. Weitere Informationen finden Sie unter Übersicht über personalisierte Stimme.

Vordefinierte neuronale Stimme

Einführung von 8 neuen mehrsprachigen Stimmen in der Public Preview: en-GB-AdaMultilingualNeural, en-GB-OllieMultilingualNeural, es-ES-ArabellaMultilingualNeural, es-ES-IsidoraMultilingualNeural, it-IT-AlessioMultilingualNeural, it-IT-IsabellaMultilingualNeural, it-IT-MarcelloMultilingualNeural und pt-BR-ThalitaMultilingualNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Einführung von zwei neuen en-US-Stimmen, die für das Callcenter-Szenario in der Public Preview optimiert sind: en-US-LunaNeural und en-US-KaiNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Release von April 2024

Sprachsynthese-Avatar

Sie können jetzt ein statisches Hintergrundbild für Ihre Avatare festlegen. Verwenden Sie für dieses Feature einfach die avatarConfig.backgroundImage-Eigenschaft, und geben Sie eine URL an, die auf das gewünschte Bild zeigt. Ausführliche Informationen finden Sie unter Bearbeiten des Hintergrunds.

Release von März 2024

Vordefinierte neuronale Stimme

9 mehrsprachige Stimmen sind in allen Regionen allgemein verfügbar: en-US-AvaMultilingualNeural, en-US-AndrewMultilingualNeural, en-US-EmmaMultilingualNeural, en-US-BrianMultilingualNeural, de-DE-FlorianMultilingualNeural, de-DE-SeraphinaMultilingualNeural, fr-FR-RemyMultilingualNeural, fr-FR-VivienneMultilingualNeural, und zh-CN-XiaoxiaoMultilingualNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Eine mehrsprachige Stimme wurden in der öffentlichen Vorschau eingeführt: ja-JP-MasaruMultilingualNeural. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Weitere Updates:
- en-US-RyanMultilingualNeural ist in allen Regionen allgemein verfügbar.
- en-US-JennyMultilingualV2Neural ist in allen Regionen allgemein verfügbar, zusammengeführt mit en-US-JennyMultilingualNeural.
- Preview, die für die aktualisierten en-IN-NeerjaNeural und hi-IN-SwaraNeural mit 3 neuen Stilen in USA, Osten, Europa, Westen und Asien, Südosten verfügbar ist.
- Vorschau für neue weibliche Stimmen in Indien, Mitte: en-IN-KavyaNeural, en-IN-AnanyaNeural, en-IN-AashiNeural, hi-IN-KavyaNeural, und hi-IN-AnanyaNeural.

Sprachsynthese-Avatar

Abhängigkeit von Azure Communication Services (ACS) TURN für Echtzeit-Avatar entfernt. Der Beispielcode wurde entsprechend aktualisiert, um diese Änderung widerzuspiegeln.
Veröffentlichung der Preise des Text-zu-Sprache-Avatars. Weitere Informationen finden Sie auf der Seite mit der Preisübersicht. Beachten Sie, dass die Preise für den Avatar nur für Dienstregionen sichtbar sind, in denen das Feature verfügbar ist.

Version vom Februar 2024

OpenAI-Stimmen

Der Azure KI Speech-Dienst unterstützt OpenAI-Stimmen für die Sprachsynthese in den folgenden Regionen: USA, Norden-Mitte und Schweden, Mitte. Wie Azure KI Speech-Stimmen liefern die OpenAI-Stimmen für die Sprachsynthese qualitativ hochwertige Sprachsynthese, mit deren Hilfe Sie Text in natürlich klingende Sprache umwandeln können. Dadurch entstehen vielfältige Möglichkeiten für immersive und interaktive Benutzererfahrungen. Weitere Informationen finden Sie unter Was sind OpenAI-Stimmen für die Sprachsynthese?

Hinweis

OpenAI-Stimmen für die Sprachsynthese stehen auch im Azure OpenAI Service zur Verfügung.
Mit diesem Update haben wir die Preise für vordefinierte neuronale Stimmen mit Azure KI Speech angepasst. Überprüfen Sie die aktualisierten Preise hier.

Persönliche Stimme

Die persönliche Sprachfunktion unterstützt jetzt DragonLatestNeural- und PhoenixLatestNeural-Modelle. Diese neuen Modelle verbessern die Natürlichkeit der synthetisierten Stimmen, indem sie die Spracheigenschaften der Stimme im Prompt besser wiedergeben. Weitere Informationen finden Sie unter Integration einer personalisierten Stimme in Ihre Anwendung.

Release von Dezember 2023

Benutzerdefinierte Stimme-API

Die benutzerdefinierte Stimme-API steht zum Erstellen und Verwalten professioneller und persönlicher benutzerdefinierter neuronaler Sprachmodelle zur Verfügung.

Benutzerdefinierte neuronale Stimme

Die neu trainierten Sprachmodelle unterstützen jetzt 48 kHz Samplerate, unabhängig von der Modellversion. Für zuvor trainierte Sprachmodelle ist es erforderlich , die Modulversion auf mindestens 2023.11.13.0 zu aktualisieren, um die Samplerate auf 48 kHz zu verbessern.

Vordefinierte neuronale Stimme

Neue mehrsprachige Stimmen wurden in der öffentlichen Vorschau eingeführt:

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`de-DE`	Deutsch (Deutschland)	`de-DE-FlorianMultilingualNeural` (männlich)
`de-DE`	Deutsch (Deutschland)	`de-DE-SeraphinaMultilingualNeural` (weiblich)
`en-US`	Englisch (USA)	`en-US-AvaMultilingualNeural` (weiblich)
`en-US`	Englisch (USA)	`en-US-EmmaMultilingualNeural` (weiblich)
`fr-FR`	Französisch (Frankreich)	`fr-FR-RemyMultilingualNeural` (männlich)
`en-US`	Englisch (USA)	`en-US-BrianMultilingualNeural` (männlich)
`en-US`	Englisch (USA)	`en-US-AndrewMultilingualNeural` (männlich)
`fr-FR`	Französisch (Frankreich)	`fr-FR-VivienneMultilingualNeural` (weiblich)
`zh-CN`	Chinesisch (Mandarin, vereinfacht)	`zh-CN-XiaoxiaoMultilingualNeural` (weiblich)
`zh-CN`	Chinesisch (Mandarin, vereinfacht)	`zh-CN-XiaochenMultilingualNeural` (weiblich)
`zh-CN`	Chinesisch (Mandarin, vereinfacht)	`zh-CN-YunyiMultilingualNeural` (männlich)

Einführung neuer zh-CN-XiaoxiaoDialectsNeural-Stimmen für die öffentliche Vorschau, die mehrere chinesische Dialekte und Akzente unterstützen:

Voicename	Sekundäre Sprache	Dialekt/Akzent
`zh-CN-XiaoxiaoDialectsNeural`	`zh-CN-shaanxi`	Chinesisch (Zhongyuan Mandarin Shaanxi, vereinfacht)
	`zh-CN-sichuan`	Chinesisch (Mandarin, Südwesten; vereinfacht)
	`zh-CN-shanxi`	Chinesisch (Shanxi-Akzent Mandarin, vereinfacht)
	`nan-CN`	Chinesisch (Min Nan, vereinfacht)
	`zh-CN-anhui`	Chinesisch (Jianghuai Mandarin Anhui, vereinfacht)
	`zh-CN-hunan`	Chinesisch (Hunan-Akzent Mandarin, vereinfacht)
	`zh-CN-gansu`	Chinesisch (Lanyin Mandarin Gansu, vereinfacht)
	`zh-CN-shandong`	Chinesisch (Jilu Mandarin, vereinfacht)
	`zh-CN-henan`	Chinesisch (Zhongyuan Mandarin Henan, vereinfacht)
	`zh-CN-liaoning`	Chinesisch (Nordöstliches Mandarin, vereinfacht)
	`zh-TW`	Chinesisch (Taiwanesisch, Mandarin; traditionell)

Release von November 2023

Persönliche Stimme

Persönliche Stimme steht in der Vorschau in den folgenden Regionen zur Verfügung: Westeuropa, USA, Osten und Asien, Südosten. Mit persönlicher Stimme (Vorschau) können Sie die KI-generierte Replikation Ihrer Stimme (oder die Benutzer Ihrer Anwendung) innerhalb weniger Sekunden abrufen. Sie geben ein einminütiges Sprachbeispiel als Audio-Prompt vor und verwenden es dann, um Sprache in einer der über 90 unterstützten Sprachen in mehr als 100 Ländern zu erzeugen.

Weitere Informationen finden Sie unter Persönliche Stimme.

Sprachsynthese-Avatar

Die Funktion Text-zu-Sprache-Avatar ist in der Vorschau in den folgenden Regionen verfügbar: USA, Westen 2, Europa, Westen und Asien, Südosten.

Der Text-zu-Sprache-Avatar wandelt Text in ein digitales Video eines fotorealistischen Menschen (entweder ein vorgefertigter Avatar oder ein benutzerdefinierter Text-zu-Sprache-Avatar) um, der mit einer natürlich klingenden Stimme spricht. Der Text zu Sprach-Avatarvideo kann asynchron oder in Echtzeit synthetisiert werden. Entwickler können Anwendungen erstellen, die in den Text-zu-Sprache-Avatar integriert sind, über eine API oder mithilfe eines Inhaltserstellungstools in Speech Studio Videoinhalte ohne Codierung erstellen.

Weitere Informationen finden Sie unter Text-zu-Sprache-Avatar, Transparenzhinweise und Offenlegung des Sprach- und Avatar-Talents.

Benutzerdefinierte neuronale Stimme

Support für die 24 neuen Gebietsschemas für die sprachübergreifende Stimme hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen.

Vordefinierte neuronale Stimme

Neue Stimmen wurden in der öffentlichen Vorschau eingeführt:

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`de-DE`	Deutsch (Deutschland)	`SeraphinaNeural` (weiblich)
`es-ES`	Spanisch (Spanien)	`XimenaNeural` (weiblich)
`fr-CA`	Französisch (Kanada)	`ThierryNeural` (männlich)
`fr-FR`	Französisch (Frankreich)	`VivienneNeural` (weiblich)
`it-IT`	Italienisch (Italien)	`GiuseppeNeural` (männlich)
`ko-KR`	Koreanisch (Korea)	`HyunsuNeural` (männlich)
`pt-BR`	Portugiesisch (Brasilien)	`ThalitaNeural` (weiblich)

Modelle aktualisiert, Fehler behoben und Qualität verbessert:

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`es-ES`	Spanisch (Spanien)	`AlvaroNeural` (männlich)
`en-GB`	Walisisch (Großbritannien)	`RyanNeural` (männlich)
`ko-KR`	Koreanisch (Korea)	`InjoonNeural` (männlich)

Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Release von Oktober 2023

Benutzerdefinierte neuronale Stimme

Support für die 12 neuen Gebietsschemas mit Benutzerdefinierter neuronaler Stimme Pro hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen.

Veröffentlichung im September 2023

Vordefinierte neuronale Stimme

Neue Stimmen wurden in der öffentlichen Vorschau eingeführt:

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`en-US`	Englisch (USA)	`en-US-EmmaNeural` (weiblich)
`en-US`	Englisch (USA)	`en-US-AndrewNeural` (männlich)
`en-US`	Englisch (USA)	`en-US-BrianNeural` (männlich)

Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Eingebettete neuronale Stimme

Alle 147 Gebietsschemas hier (außer fa-IR, Persisch (Iran)) sind sofort mit entweder 1 ausgewählten weiblichen und/oder 1 ausgewählten männlichen Stimme verfügbar.

August 2023 Release

Benutzerdefinierte neuronale Stimme

Die neueste Version des CNV Lite-Trainingsrezepts wurde jetzt veröffentlicht. Dieses Release bietet mehrere Verbesserungen an der Qualität Ihrer Sprachmodelle. Probieren Sie Speech Studio aus.

Release von Juli 2023

Benutzerdefinierte neuronale Stimme

Stimme mit mehreren Stilen ist allgemein verfügbar.
Zwei neue Gebietsschemas wurden der öffentlichen Vorschau für Stimmen mit mehreren Stilen hinzugefügt: ja-JP und zh-CN. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen. Weitere Informationen finden Sie in der Liste voreingestellter Stile für verschiedene Sprachen.
Sprachübergreifende Stimme ist allgemein verfügbar.
Zwei neue Gebietsschemas für die sprachübergreifende Stimme wurden hinzugefügt: id-ID und nl-NL. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Vordefinierte neuronale TTS-Stimmen

Eine neue geschlechtsneutrale en-US-Stimme wurde in der öffentlichen Vorschau eingeführt:

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`en-US`	Englisch (USA)	`en-US-BlueNeural` (Neutral)

Neue mehrsprachige Stimmen wurden in der öffentlichen Vorschau eingeführt:

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`en-US`	Englisch (USA)	`en-US-JennyMultilingualV2Neural` (weiblich)
`en-US`	Englisch (USA)	`en-US-RyanMultilingualNeural` (männlich)

Die mehrsprachigen Stimmen en-US-JennyMultilingualV2Neural und en-US-RyanMultilingualNeural erkennen automatisch die Sprache des Eingabetexts. Sie können das <lang>-Element jedoch weiterhin verwenden, um die Sprechsprache für diese Stimmen anzupassen.

Diese neuen mehrsprachigen Stimmen können in 41 Sprachen und Akzenten sprechen: Arabic (Egypt), Arabic (Saudi Arabia), Catalan, Czech (Czechia), Danish (Denmark), German (Austria), German (Switzerland), German (Germany), English (Australia), English (Canada), English (United Kingdom), English (Hong Kong SAR), English (Ireland), English (India), English (United States), Spanish (Spain), Spanish (Mexico), Finnish (Finland), French (Belgium), French (Canada), French (Switzerland), French (France), Hindi (India), Hungarian (Hungary), Indonesian (Indonesia), Italian (Italy), Japanese (Japan), Korean (Korea), Norwegian Bokmål (Norway), Dutch (Belgium), Dutch (Netherlands), Polish (Poland), Portuguese (Brazil), Portuguese (Portugal), Russian (Russia), Swedish (Sweden), Thai (Thailand), Turkish (Türkiye), Chinese (Mandarin, Simplified), Chinese (Cantonese, Traditional), Chinese (Taiwanese Mandarin, Traditional).

Bestimmte SSML-Elemente wie Pause (break), Betonung (emphasis), Stille (silence) und Aussprachehilfe (sub) werden in diesen mehrsprachigen Stimmen nicht vollständig unterstützt.

Wichtig

Die Stimme en-US-JennyMultilingualV2Neural wird nur vorübergehend zu Auswertungszwecken in der öffentlichen Vorschau zur Verfügung gestellt. Sie wird künftig entfernt.

Um in einer anderen Sprache als Englisch sprechen zu können, erfordert die aktuelle Implementierung der Stimme en-US-JennyMultilingualNeural die Festlegung des <lang xml:lang>-Elements. Wir gehen davon aus, dass die Stimme en-US-JennyMultilingualNeural im 4. Quartal 2023 aktualisiert wird und dann ohne das <lang xml:lang>-Element in der Sprache des Eingabetexts spricht. Dies entspricht dem Verhalten der Stimme en-US-JennyMultilingualV2Neural.

Für folgende Stimmen wurden in der öffentlichen Vorschau neue Features eingeführt:

Lateinische Eingabe wurde für Stimmen in Serbisch (Serbien) sr-RS hinzugefügt: sr-latn-RS-SophieNeural und sr-latn-RS-NicholasNeural.
Unterstützung der englischen Aussprache wurde für Stimmen in Albanisch (Albanien) sq-AL hinzugefügt: sq-AL-AnilaNeural und sq-AL-IlirNeural.

Version vom Mai 2023

Audio Content Creation

Alle vordefinierten Stimmen mit Sprechstilen und mehrformatigen benutzerdefinierten Stimmen unterstützen die graduelle Anpassung des Stils.
Sie können die Aussprache eines Worts jetzt korrigieren, indem Sie es aussprechen und aufzeichnen. Phoneme können automatisch aus Ihrer Aufzeichnung erkannt werden. Das Feature Erkennen durch Sprechen befindet sich jetzt in der öffentlichen Vorschau.

Release von April 2023

Vordefinierte neuronale TTS-Stimmen

Die folgenden Features dieser Stimmen wurden von der öffentlichen Vorschau in die allgemeine Verfügbarkeit verschoben:

Stil	Stimmen für die Sprachsynthese
style="chat"	`en-GB-RyanNeural`, `es-MX-JorgeNeural` und `it-IT-IsabellaNeural`
style="cheerful"	`en-GB-RyanNeural`, `en-GB-SoniaNeural`, `es-MX-JorgeNeural`, `fr-FR-DeniseNeural`, `fr-FR-HenriNeural` und `it-IT-IsabellaNeural`
style="sad"	`en-GB-SoniaNeural`, `fr-FR-DeniseNeural` und `fr-FR-HenriNeural`

Verbesserung der englischen Aussprache für die Stimmen hi-IN, ta-IN und te-IN, die jetzt in den Regionen mit öffentlicher Vorschau laufen.

Weitere Informationen finden Sie in der Liste der Sprachen und Stimmen.

Release von März 2023

Neue Funktionen

Die Speech Synthesis Markup Language (SSML) wurde aktualisiert und unterstützt jetzt Elemente von Audioeffektprozessoren, die die Qualität der synthetisierten Sprachausgabe für bestimmte Szenarien auf Geräten optimieren. Weitere Informationen finden Sie im Markup für Sprachsynthese.

Benutzerdefinierte neuronale Stimme

Unterstützung für das Gebietsschema nl-BE mit Benutzerdefinierte neuronale Stimme Pro hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Vordefinierte neuronale TTS-Stimmen

Die folgenden Stimmen sind jetzt allgemein verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`en-AU`	Englisch (Australien)	`en-AU-AnnetteNeural` (weiblich) `en-AU-CarlyNeural` (weiblich) `en-AU-DarrenNeural` (männlich) `en-AU-DuncanNeural` (männlich) `en-AU-ElsieNeural` (weiblich) `en-AU-FreyaNeural` (weiblich) `en-AU-JoanneNeural` (weiblich) `en-AU-KenNeural` (männlich) `en-AU-KimNeural` (weiblich) `en-AU-NeilNeural` (männlich) `en-AU-TimNeural` (männlich) `en-AU-TinaNeural` (weiblich) `en-AU-WilliamNeural` (männlich)
`en-GB`	Walisisch (Großbritannien)	`en-GB-RyanNeural` (männlich) `en-GB-SoniaNeural` (weiblich)
`es-ES`	Spanisch (Spanien)	`es-ES-AbrilNeural` (weiblich) `es-ES-ArnauNeural` (männlich) `es-ES-DarioNeural` (männlich) `es-ES-EliasNeural` (männlich) `es-ES-EstrellaNeural` (weiblich) `es-ES-IreneNeural` (weiblich) `es-ES-LaiaNeural` (weiblich) `es-ES-LiaNeural` (weiblich) `es-ES-NilNeural` (männlich) `es-ES-SaulNeural` (männlich) `es-ES-TeoNeural` (männlich) `es-ES-TrianaNeural` (weiblich) `es-ES-VeraNeural` (weiblich)
`es-MX`	Spanisch (Mexiko)	`es-MX-JorgeNeural` (männlich)
`fr-FR`	Französisch (Frankreich)	`fr-FR-HenriNeural` (männlich)
`it-IT`	Italienisch (Italien)	`it-IT-IsabellaNeural` (weiblich)
`ja-JP`	Japanisch (Japan)	`ja-JP-AoiNeural` (weiblich) `ja-JP-DaichiNeural` (männlich) `ja-JP-MayuNeural` (weiblich) `ja-JP-NaokiNeural` (männlich) `ja-JP-ShioriNeural` (weiblich)

Unterstützung für den cheerful-Stil mit der de-DE-ConradNeural-Stimme wurde hinzugefügt.

Release von Februar 2023

Vordefinierte neuronale TTS-Stimmen

Die folgenden Stimmen sind jetzt allgemein verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`zh-CN`	Chinesisch (Mandarin, vereinfacht)	`zh-CN-XiaomengNeural` (weiblich) `zh-CN-XiaoyiNeural` (weiblich) `zh-CN-XiaozhenNeural` (weiblich) `zh-CN-YunfengNeural` (männlich) `zh-CN-YunhaoNeural` (männlich) `zh-CN-YunjianNeural` (männlich) `zh-CN-YunxiaNeural` (männlich) `zh-CN-YunzeNeural` (männlich)
`zh-CN-henan`	Chinesisch (Zhongyuan Mandarin Henan, vereinfacht)	`zh-CN-henan-YundengNeural` (männlich)

Release von Dezember 2022

Batchsynthese-REST-API (Vorschau)

Die Batchsynthese-API befindet sich derzeit in der öffentlichen Vorschau. Sobald sie allgemein verfügbar ist, wird die API für lange Audiodaten veraltet sein. Weitere Informationen finden Sie unter Migrieren zur Batchsynthese-API.

Release von November 2022

Vordefinierte neuronale TTS-Stimme (GA)

Die folgenden Stimmen sind jetzt allgemein verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`es-MX`	Spanisch (Mexiko)	`es-MX-BeatrizNeural` (weiblich) `es-MX-CandelaNeural` (weiblich) `es-MX-CarlotaNeural` (weiblich) `es-MX-CecilioNeural` (männlich) `es-MX-GerardoNeural` (männlich) `es-MX-LarissaNeural` (weiblich) `es-MX-LibertoNeural` (männlich) `es-MX-LucianoNeural` (männlich) `es-MX-MarinaNeural` (weiblich) `es-MX-NuriaNeural` (weiblich) `es-MX-PelayoNeural` (männlich) `es-MX-RenataNeural` (weiblich) `es-MX-YagoNeural` (männlich)
`it-IT`	Italienisch (Italien)	`it-IT-BenignoNeural` (männlich) `it-IT-CalimeroNeural` (männlich) `it-IT-CataldoNeural` (männlich) `it-IT-FabiolaNeural` (weiblich) `it-IT-FiammaNeural` (weiblich) `it-IT-GianniNeural` (männlich) `it-IT-ImeldaNeural` (weiblich) `it-IT-IrmaNeural` (weiblich) `it-IT-LisandroNeural` (männlich) `it-IT-PalmiraNeural` (weiblich) `it-IT-PierinaNeural` (weiblich) `it-IT-RinaldoNeural` (männlich)
`pt-BR`	Portugiesisch (Brasilien)	`pt-BR-BrendaNeural` (weiblich) `pt-BR-DonatoNeural` (männlich) `pt-BR-ElzaNeural` (weiblich) `pt-BR-FabioNeural` (männlich) `pt-BR-GiovannaNeural` (weiblich) `pt-BR-HumbertoNeural` (männlich) `pt-BR-JulioNeural` (männlich) `pt-BR-LeilaNeural` (weiblich) `pt-BR-LeticiaNeural` (weiblich) `pt-BR-ManuelaNeural` (weiblich) `pt-BR-NicolauNeural` (männlich) `pt-BR-ValerioNeural` (männlich) `pt-BR-YaraNeural` (weiblich)

Benutzerdefinierte neuronale Stimme

Die folgende Gebietsschemaunterstützung wird für Benutzerdefinierte neuronale Stimme hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Unterstützung für das Gebietsschema fr-BE mit Benutzerdefinierte neuronale Stimme Pro hinzugefügt.
Unterstützung für das Gebietsschema es-ES mit Benutzerdefinierte neuronale Stimme Lite hinzugefügt.

Release von Oktober 2022

Vordefinierte neuronale TTS-Stimme (GA)

Die folgenden Stimmen sind jetzt allgemein verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`eu-ES`	Baskisch	`eu-ES-AinhoaNeural` (weiblich) `eu-ES-AnderNeural` (männlich)
`hy-AM`	Armenisch (Armenien)	`hy-AM-AnahitNeural` (weiblich) `hy-AM-HaykNeural` (männlich)

Vordefinierte neuronale TTS-Stimme (Vorschau)

Die folgenden Stimmen sind jetzt in der öffentlichen Vorschau verfügbar. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Gebietsschema (BCP-47)	Sprache	Stimmen für die Sprachsynthese
`en-AU`	Englisch (Australien)	`en-AU-AnnetteNeural`(Weiblich) `en-AU-CarlyNeural`(Weiblich) `en-AU-DarrenNeural`(Männlich) `en-AU-DuncanNeural`(Männlich) `en-AU-ElsieNeural`(Weiblich) `en-AU-FreyaNeural`(Weiblich) `en-AU-JoanneNeural`(Weiblich) `en-AU-KenNeural`(Männlich) `en-AU-KimNeural`(Weiblich) `en-AU-NeilNeural`(Männlich) `en-AU-TimNeural`(Männlich) `en-AU-TinaNeural`(Weiblich)
`es-ES`	Spanisch (Spanien)	`es-ES-AbrilNeural`(Weiblich) `es-ES-AlvaroNeural`(Männlich) `es-ES-ArnauNeural`(Männlich) `es-ES-DarioNeural`(Männlich) `es-ES-EliasNeural`(Männlich) `es-ES-EstrellaNeural`(Weiblich) `es-ES-IreneNeural`(Weiblich) `es-ES-LaiaNeural`(Weiblich) `es-ES-LiaNeural`(Weiblich) `es-ES-NilNeural`(Männlich) `es-ES-SaulNeural`(Männlich) `es-ES-TeoNeural`(Männlich) `es-ES-TrianaNeural`(Weiblich) `es-ES-VeraNeural`(Weiblich)
`ja-JP`	Japanisch (Japan)	`ja-JP-AoiNeural`(Weiblich) `ja-JP-DaichiNeural`(Männlich) `ja-JP-MayuNeural`(Weiblich) `ja-JP-NaokiNeural`(Männlich) `ja-JP-ShioriNeural`(Weiblich)
`ko-KR`	Koreanisch (Korea)	`ko-KR-BongJinNeural`(Männlich) `ko-KR-GookMinNeural`(Männlich) `ko-KR-JiMinNeural`(Weiblich) `ko-KR-SeoHyeonNeural`(Weiblich) `ko-KR-SoonBokNeural`(Weiblich) `ko-KR-YuJinNeural`(Weiblich)
`wuu-CN`	Chinesisch (Wu, vereinfacht)	`wuu-CN-XiaotongNeural` (weiblich) `wuu-CN-YunzheNeural` (männlich)
`yue-CN`	Chinesisch (Kantonesisch, vereinfacht)	`yue-CN-XiaoMinNeural` (weiblich) `yue-CN-YunSongNeural` (männlich)

Allgemeine TTS-Stimmupdates

Verbesserte Qualität für die Stimmen fil-PH-AngeloNeural und fil-PH-BlessicaNeural.
Textnormalisierungsregeln werden für Stimmen mit den Gebietsschemas es-CL Spanisch (Chile) und uz-UZ Usbekisch (Usbekistan) aktualisiert.
Die Schreibweise englischer Buchstaben für Stimmen mit den Gebietsschemas sq-AL Albanisch (Albanien) und az-AZ Aserbaidschanisch (Aserbaidschan) wurde hinzugefügt.
Verbesserte englische Aussprache für die Stimme zh-HK-WanLungNeural.
Verbesserte Fragetöne für die Stimmen nl-NL-MaartenNeural und pt-BR-AntonioNeural.
Unterstützung für das <lang ="en-US">-Tag für eine bessere englische Aussprache mit den folgenden Stimmen wurde hinzugefügt: de-DE-ConradNeural, de-DE-KatjaNeural, es-ES-AlvaroNeural, es-MX-DaliaNeural, es-MX-JorgeNeural, fr-CA-SylvieNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural, it-IT-DiegoNeural und it-IT-IsabellaNeural.
Unterstützung für das style="chat"-Tag mit den folgenden Stimmen wurde hinzugefügt: en-GB-RyanNeural, es-MX-JorgeNeural und it-IT-IsabellaNeural.
Unterstützung für das style="cheerful"-Tag wurde für die folgenden Stimmen hinzugefügt: en-GB-RyanNeural, en-GB-SoniaNeural, es-MX-JorgeNeural, fr-FR-DeniseNeural, fr-FR-HenriNeural und it-IT-IsabellaNeural.
Unterstützung für das style="sad"-Tag wurde für die folgenden Stimmen hinzugefügt: en-GB-SoniaNeural, fr-FR-DeniseNeural und fr-FR-HenriNeural.

Release von September 2022

Vordefinierte neuronale TTS-Stimme

Alle voreingestellten neuronalen Stimmen wurden mit 48 kHz Samplerate auf High-Fidelity-Stimmen aktualisiert.

Release von August 2022

Vordefinierte neuronale TTS-Stimme

Veröffentlichte neue Stimmen in der öffentlichen Vorschau:

Stimmen für Englisch (USA): en-US-AIGenerate1Neural und en-US-AIGenerate2Neural.
Stimmen für chinesische Regionalsprachen: zh-CN-henan-YundengNeural, zh-CN-shaanxi-XiaoniNeural und zh-CN-shandong-YunxiangNeural.

Weitere Informationen finden Sie in der Liste der Sprachen und Stimmen.

Release von Juli 2022

Vordefinierte neuronale TTS-Stimme

In der öffentlichen Vorschau wurden 5 neue Stimmen für zh-CN Chinesisch (Mandarin, vereinfacht) und 1 neue Stimme für en-US Englisch (USA) hinzugefügt. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.

Sprache	Gebietsschema	Geschlecht	Name der Stimme	Stilunterstützung
Chinesisch (Mandarin, vereinfacht)	`zh-CN`	Weiblich	`zh-CN-XiaomengNeural` ^Neu	Allgemein, mehrere Stile verfügbar mittels SSML
Chinesisch (Mandarin, vereinfacht)	`zh-CN`	Weiblich	`zh-CN-XiaoyiNeural` ^Neu	Allgemein, mehrere Stile verfügbar mittels SSML
Chinesisch (Mandarin, vereinfacht)	`zh-CN`	Weiblich	`zh-CN-XiaozhenNeural` ^Neu	Allgemein, mehrere Stile verfügbar mittels SSML
Chinesisch (Mandarin, vereinfacht)	`zh-CN`	Male	`zh-CN-YunxiaNeural` ^Neu	Allgemein, mehrere Stile verfügbar mittels SSML
Chinesisch (Mandarin, vereinfacht)	`zh-CN`	Male	`zh-CN-YunzeNeural` ^Neu	Allgemein, mehrere Stile verfügbar mittels SSML
Englisch (USA)	`en-US`	Male	`en-US-RogerNeural` ^Neu	Allgemein

Unterstützte Stile und Rollen für die hinzugefügten neuronalen Stimmen.

Sprache	Stile	Stilgrad	Rollen
zh-CN-XiaomengNeural ^{Öffentliche Vorschau}	`chat`	Unterstützt
zh-CN-XiaoyiNeural ^{Public Preview}	`affectionate`, `angry`, `cheerful`, `disgruntled`, `embarrassed`, `fearful`, `gentle`, `sad`, `serious`	Unterstützt
zh-CN-XiaozhenNeural ^{Public Preview}	`angry`, `cheerful`, `disgruntled`, `fearful`, `sad`, `serious`	Unterstützt
zh-CN-YunxiaNeural ^{Public Preview}	`angry`, `calm`, `cheerful`, `fearful`, `sad`	Unterstützt
zh-CN-YunzeNeural ^{Public Preview}	`angry`, `calm`, `cheerful`, `depressed`, `disgruntled`, `documentary-narration`, `fearful`, `sad`, `serious`	Unterstützt	Unterstützt

Abrufen der Gesichtsposition mit Mundbild

Unterstützung für Überblendformen hinzugefügt, um die Gesichtsbewegungen einer von Ihnen entworfenen 3D-Figur zu steuern. Mehr dazu erfahren Sie unter Vorgehensweise: Abrufen der Gesichtsposition mit Mundbild.
SSML aktualisiert, um das Visemelement zu unterstützen. Mehr dazu finden Sie unter Markup für Sprachsynthese.

Release von Juni 2022

Vordefinierte neuronale TTS-Stimme

9 neue Sprachen und Varianten für die neuronale Sprachsynthese wurden hinzugefügt:

Sprache	Gebietsschema	Geschlecht	Name der Stimme	Stilunterstützung
Arabisch (Libanon)	`ar-LB`	Weiblich	`ar-LB-LaylaNeural` ^Neu	Allgemein
Arabisch (Libanon)	`ar-LB`	Male	`ar-LB-RamiNeural` ^Neu	Allgemein
Arabisch (Oman)	`ar-OM`	Weiblich	`ar-OM-AyshaNeural` ^Neu	Allgemein
Arabisch (Oman)	`ar-OM`	Male	`ar-OM-AbdullahNeural` ^Neu	Allgemein
Aserbaidschanisch (Aserbaidschan)	`az-AZ`	Weiblich	`az-AZ-BabekNeural` ^Neu	Allgemein
Aserbaidschanisch (Aserbaidschan)	`az-AZ`	Male	`az-AZ-BanuNeural` ^Neu	Allgemein
Bosnien (Bosnien und Herzegowina)	`bs-BA`	Weiblich	`bs-BA-VesnaNeural` ^Neu	Allgemein
Bosnien (Bosnien und Herzegowina)	`bs-BA`	Male	`bs-BA-GoranNeural` ^Neu	Allgemein
Georgisch (Georgien)	`ka-GE`	Weiblich	`ka-GE-EkaNeural` ^Neu	Allgemein
Georgisch (Georgien)	`ka-GE`	Male	`ka-GE-GiorgiNeural` ^Neu	Allgemein
Mongolisch (Mongolei)	`mn-MN`	Weiblich	`mn-MN-YesuiNeural` ^Neu	Allgemein
Mongolisch (Mongolei)	`mn-MN`	Male	`mn-MN-BataaNeural` ^Neu	Allgemein
Nepalesisch (Nepal)	`ne-NP`	Weiblich	`ne-NP-HemkalaNeural` ^Neu	Allgemein
Nepalesisch (Nepal)	`ne-NP`	Male	`ne-NP-SagarNeural` ^Neu	Allgemein
Albanisch (Albanien)	`sq-AL`	Weiblich	`sq-AL-AnilaNeural` ^Neu	Allgemein
Albanisch (Albanien)	`sq-AL`	Male	`sq-AL-IlirNeural` ^Neu	Allgemein
Tamil (Malaysia)	`ta-MY`	Weiblich	`ta-MY-KaniNeural` ^Neu	Allgemein
Tamil (Malaysia)	`ta-MY`	Male	`ta-MY-SuryaNeural` ^Neu	Allgemein

GA 36 Stimmen aus Public Preview für en-GB Englisch (Vereinigtes Königreich), fr-FR Französisch (Frankreich) und de-DE Deutsch (Deutschland):

Sprache	Gebietsschema	Geschlecht	Name der Stimme	Stilunterstützung
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-AbbiNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-BellaNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-HollieNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-MaisieNeural`	Allgemein, Kinderstimme
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-OliviaNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-SoniaNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-AlfieNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-ElliotNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-EthanNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-NoahNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-OliverNeural`	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-ThomasNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-BrigitteNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-CelesteNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-CoralieNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-EloiseNeural`	Allgemein, Kinderstimme
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-JacquelineNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-JosephineNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-YvetteNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-AlainNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-ClaudeNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-JeromeNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-MauriceNeural`	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-YvesNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-AmalaNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-ElkeNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-GiselaNeural`	Allgemein, Kinderstimme
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-KlarissaNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-LouisaNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-MajaNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-TanjaNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-BerndNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-ChristophNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-KasperNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-KillianNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-KlausNeural`	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-RalfNeural`	Allgemein

Es wurden 40 neue Stimmen von es-MX Spanisch (Mexiko), it-IT Italienisch (Italien), pt-BR Portugiesisch (Brasilien) und 2 Akzente für zh-CN Chinesisch (Mandarin, vereinfacht) in Public Preview hinzugefügt:

Sprache	Gebietsschema	Geschlecht	Name der Stimme	Stilunterstützung
Spanisch (Mexiko)	`es-MX`	Female	`es-MX-BeatrizNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Female	`es-MX-CarlotaNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Female	`es-MX-NuriaNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Female	`es-MX-RenataNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Female	`es-MX-LarissaNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Female	`es-MX-CandelaNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Female	`es-MX-MarinaNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Female	`it-IT-FiammaNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Female	`it-IT-IrmaNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Female	`it-IT-FabiolaNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Female	`it-IT-PalmiraNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Female	`it-IT-ImeldaNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Female	`it-IT-PierinaNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Female	`pt-BR-ElzaNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Female	`pt-BR-ManuelaNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Female	`pt-BR-BrendaNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Female	`pt-BR-LeilaNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Female	`pt-BR-YaraNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Female	`pt-BR-GiovannaNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Female	`pt-BR-LeticiaNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Male	`es-MX-CecilioNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Male	`es-MX-LibertoNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Male	`es-MX-LucianoNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Male	`es-MX-PelayoNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Male	`es-MX-YagoNeural` ^Neu	Allgemein
Spanisch (Mexiko)	`es-MX`	Male	`es-MX-GerardoNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Male	`it-IT-BenignoNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Male	`it-IT-CataldoNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Male	`it-IT-LisandroNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Male	`it-IT-CalimeroNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Male	`it-IT-RinaldoNeural` ^Neu	Allgemein
Italienisch (Italien)	`it-IT`	Male	`it-IT-GianniNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Male	`pt-BR-DonatoNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Male	`pt-BR-HumbertoNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Male	`pt-BR-FabioNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Male	`pt-BR-JulioNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Male	`pt-BR-ValerioNeural` ^Neu	Allgemein
Portugiesisch (Brasilien)	`pt-BR`	Male	`pt-BR-NicolauNeural` ^Neu	Allgemein
Chinesisch (Mandarin, vereinfacht)	`zh-CN-sichuan`	Male	`zh-CN-sichuan-YunxiSichuanNeural` ^Neu	Allgemein, Sichuan-Akzent
Chinesisch (Mandarin, vereinfacht)	`zh-CN-liaoning`	Weiblich	`zh-CN-liaoning-XiaobeiNeural` ^Neu	Allgemein, Liaoning-Akzent

Verbesserte Qualität für en-SG-LunaNeural und en-SG-WayneNeural
48-kHz-Ausgabeunterstützung für Public Preview mit en-US-JennyNeural, en-US-AriaNeural und zh-CN-XiaoxiaoNeural

Benutzerdefinierte neuronale Stimme

Aktiviert, um Datenprobleme online zu beheben. Erfahren Sie mehr zum Beheben von Datenproblemen in Speech Studio.
Trainingsrezeptversion hinzugefügt. Erfahren Sie mehr über die Auswahl der Trainingsrezeptversion für Ihr Sprachmodell.

Tool für die Audioinhaltserstellung

Unterstützte Paginierung.
Aktiviert, um global nach Name, Dateityp und Aktualisierungszeit auf der Arbeitsdateiseite zu sortieren.

Release von Mai 2022

Vordefinierte neuronale TTS-Stimme

Veröffentlicht: 5 neue Stimmen in der öffentlichen Vorschau mit mehreren Stilen, um die Vielfalt in amerikanischem Englisch zu bereichern. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Unterstützung dieser neuen Stile Angry, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified und Whispering in der öffentlichen Vorschau für en-US-AriaNeural.
Unterstützung dieser neuen Stile Angry, Cheerful, Excited, Friendly, Hopeful, Sad, Shouting, Unfriendly, Terrified und Whispering in der öffentlichen Vorschau für en-US-GuyNeural, en-US-JennyNeural.
Unterstützung dieser neuen Stile Excited, Friendly, Hopeful, Shouting, Unfriendly, Terrified und Whispering in der öffentlichen Vorschau für en-US-SaraNeural. Weitere Informationen finden Sie unter Sprachstile und Rollen.
Veröffentlichte neue Stimmen zh-CN-YunjianNeural, zh-CN-YunhaoNeural und zh-CN-YunfengNeural in der öffentlichen Vorschau. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
Unterstützung von 2 neuen Formatvorlagen sports-commentary, sports-commentary-excited in der öffentlichen Vorschau für zh-CN-YunjianNeural. Weitere Informationen finden Sie unter Sprachstile und Rollen.
Unterstützung von 1 neuen Formatvorlagen advertisement-upbeat in der öffentlichen Vorschau für zh-CN-YunhaoNeural. Weitere Informationen finden Sie unter Sprachstile und Rollen.
Die Formatvorlagen cheerful und sad für fr-FR-DeniseNeural sind im Allgemeinen in allen Regionen verfügbar.
SSML wurde aktualisiert, um MathML-Elemente für en-US- und en-AU-Stimmen zu unterstützen. Weitere Informationen finden Sie im Markup für Sprachsynthese.

Benutzerdefinierte neuronale Stimme

Aktiviert, das Training während des Trainings des Stimmmodells abzubrechen. Erfahren Sie mehr darüber, wie Sie Trainings abbrechen.
Aktiviert zum Klonen des Modells (Umbenennen des Stimmmodells). Erfahren Sie mehr darüber, wie Sie Ihr Stimmmodell umbenennen.
Aktiviert, um Ihr Stimmmodell zu testen, indem Sie Ihr eigenes Testskript hinzufügen. Erfahren Sie mehr darüber, wie Sie Ihr Testskript hochladen.
Aktiviert, um die Engineversion für Ihr Stimmmodell zu aktualisieren. Erfahren Sie mehr darüber, wie Sie die Modellengineversion aktualisieren.
Unterstützte weitere Trainingsbereiche. Weitere Informationen finden Sie unter Unterstützung für Regionen.
10 unterstützte Gebietsschemas für Benutzerdefinierte neuronale Stimme Lite (Vorschau). Weitere Informationen finden Sie unter Sprachunterstützung.

Tool für die Audioinhaltserstellung

Aktiviert, um das Tool zur Audioinhaltserstellung auszuprobieren, ohne sich anzumelden.
Verbessertes Layout zum Anpassen von Phonemen.
Verbesserte Leistung: Gibt die maximale Anzahl (200) von Dateien an, die gleichzeitig hochgeladen werden können.
Verbesserte Leistung: Gibt die maximale Verzeichnistiefeebene (5 Ebenen) an.

Release von März 2022

Vordefinierte neuronale TTS-Stimme

Unterstützung für die Stile Cheerful und Sad mit fr-FR-DeniseNeural in der öffentlichen Vorschauversion hinzugefügt. Weitere Informationen finden Sie unter Sprachstile und Rollen.
Getrennte Container für vordefinierte neuronale TTS-Stimmen als öffentliche Vorschauversion veröffentlicht. Weitere Informationen finden Sie unter Verwenden von Docker-Containern in nicht verbundenen Umgebungen.

Benutzerdefinierte neuronale Stimme

Unterstützung für rollenbasierte Zugriffssteuerung. Weitere Informationen finden Sie unter Azure rollenbasierte Zugriffskontrolle in Speech Studio.
Unterstützung für private Endpunkte und VNET-Dienstendpunkte. Weitere Informationen finden Sie unter Verwenden privater Endpunkte mit dem Speech-Dienst.

Tool für die Audioinhaltserstellung

Grenzwerte für Dateigröße und Parallelität für F0-Ressourcen (Free-Tarif) aktualisiert, um die Benutzererfahrung mit dem Speech SDK und den APIs konsistent zu machen. Weitere Informationen finden Sie unter Speech-Dienst – Kontingente und Grenzwerte.

Release von Februar 2022

Benutzerdefinierte neuronale Stimme

Benutzerdefinierte neuronale Stimme Lite in öffentlicher Vorschau. Weitere Informationen finden Sie unter Was ist Benutzerdefinierte neuronale Stimme Lite.
Sprachunterstützung auf 49 Gebietsschemas erweitert. Weitere Informationen finden Sie unter Sprachunterstützung.
Unterstützung für weitere Regionen/Rechenzentren. Weitere Informationen finden Sie unter Unterstützung für Regionen.

Tool für die Audioinhaltserstellung

Der Grenzwert für die Ausgabelänge beim Herunterladen von Audiodaten wurde entfernt.

Release von Januar 2022

Neue Sprachen und Stimmen

10 neue Sprachen und Varianten für die neuronale Sprachsynthese wurden hinzugefügt:

Sprache	Gebietsschema	Geschlecht	Name der Stimme	Stilunterstützung
Bangla (Indien)	`bn-IN`	Weiblich	`bn-IN-TanishaaNeural` ^Neu	Allgemein
Bangla (Indien)	`bn-IN`	Male	`bn-IN-BashkarNeural` ^Neu	Allgemein
Isländisch (Island)	`is-IS`	Weiblich	`is-IS-GudrunNeural` ^Neu	Allgemein
Isländisch (Island)	`is-IS`	Male	`is-IS-GunnarNeural` ^Neu	Allgemein
Kannada (Indien)	`kn-IN`	Weiblich	`kn-IN-SapnaNeural` ^Neu	Allgemein
Kannada (Indien)	`kn-IN`	Male	`kn-IN-GaganNeural` ^Neu	Allgemein
Kasachisch (Kasachstan)	`kk-KZ`	Weiblich	`kk-KZ-AigulNeural` ^Neu	Allgemein
Kasachisch (Kasachstan)	`kk-KZ`	Male	`kk-KZ-DauletNeural` ^Neu	Allgemein
Laotisch (Laos)	`lo-LA`	Weiblich	`lo-LA-KeomanyNeural` ^Neu	Allgemein
Laotisch (Laos)	`lo-LA`	Male	`lo-LA-ChanthavongNeural` ^Neu	Allgemein
Mazedonisch (Republik Nordmazedonien)	`mk-MK`	Weiblich	`mk-MK-MarijaNeural` ^Neu	Allgemein
Mazedonisch (Republik Nordmazedonien)	`mk-MK`	Male	`mk-MK-AleksandarNeural` ^Neu	Allgemein
Malayalam (Indien)	`ml-IN`	Weiblich	`ml-IN-SobhanaNeural` ^Neu	Allgemein
Malayalam (Indien)	`ml-IN`	Male	`ml-IN-MidhunNeural` ^Neu	Allgemein
Paschtu (Afghanistan)	`ps-AF`	Weiblich	`ps-AF-LatifaNeural` ^Neu	Allgemein
Paschtu (Afghanistan)	`ps-AF`	Male	`ps-AF-GulNawazNeural` ^Neu	Allgemein
Serbisch (Serbien, kyrillisch)	`sr-RS`	Weiblich	`sr-RS-SophieNeural` ^Neu	Allgemein
Serbisch (Serbien, kyrillisch)	`sr-RS`	Male	`sr-RS-NicholasNeural` ^Neu	Allgemein
Singhalesisch (Sri Lanka)	`si-LK`	Weiblich	`si-LK-ThiliniNeural` ^Neu	Allgemein
Singhalesisch (Sri Lanka)	`si-LK`	Male	`si-LK-SameeraNeural` ^Neu	Allgemein

Eine vollständige Liste der verfügbaren Stimmen finden Sie unter Sprachenunterstützung.

Neuronale Stimmen in der Vorschauphase

Neue Stimmen für en-GB, fr-FR und de-DE in der Vorschauphase hinzugefügt:

Sprache	Gebietsschema	Geschlecht	Name der Stimme	Stilunterstützung
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-AbbiNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-BellaNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-HollieNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Female	`en-GB-OliviaNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Mädchen	`en-GB-MaisieNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-AlfieNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-ElliotNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-EthanNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-NoahNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-OliverNeural` ^Neu	Allgemein
Walisisch (Großbritannien)	`en-GB`	Male	`en-GB-ThomasNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-BrigitteNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-CelesteNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-CoralieNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-JacquelineNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-JosephineNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Female	`fr-FR-YvetteNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Mädchen	`fr-FR-EloiseNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-AlainNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-ClaudeNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-JeromeNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-MauriceNeural` ^Neu	Allgemein
Französisch (Frankreich)	`fr-FR`	Male	`fr-FR-YvesNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-AmalaNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-ElkeNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-KlarissaNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-LouisaNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-MajaNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Female	`de-DE-TanjaNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Mädchen	`de-DE-GiselaNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-BerndNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-ChristophNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-KasperNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-KillianNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-KlausNeural` ^Neu	Allgemein
Deutsch (Deutschland)	`de-DE`	Male	`de-DE-RalfNeural` ^Neu	Allgemein

Eine vollständige Liste der verfügbaren Stimmen finden Sie unter Sprachenunterstützung.

Aussprachegenauigkeit

Verbesserte englische Wortaussprache für alle he-IL-Stimmen.
Die Genauigkeit der Aussprache auf Wortebene für cs-CZ und da-DK wurde verbessert.
Verbesserte Behandlung von arabischen diakritischen und hebräischen Nikudzeichen.
Verbessertes Lesen von Entitäten für ja-JP

Speech Studio

Benutzerdefinierte neuronale Stimme: Zusätzliche Modelltests mithilfe der Batch-API (API für lange Audiodaten) aktiviert
Audioinhaltserstellung: Weitere Ausgabeformate aktiviert

Release von Oktober 2021

Neue Sprachen und Stimmen

49 neue Sprachen und 98 Stimmen für die neuronale Sprachsynthese wurden hinzugefügt:

Adri für af-ZA Afrikaans (Südafrika), Willem für af-ZA Afrikaans (Südafrika), Mekdes für am-ET Amharisch (Äthiopien), Ameha für am-ET Amharisch (Äthiopien), Fatima für ar-AE Arabisch (Vereinigte Arabische Emirate), Hamdan für ar-AE Arabisch (Vereinigte Arabische Emirate), Laila für ar-BH Arabisch (Bahrain), Ali für ar-BH Arabisch (Bahrain), Amina für ar-DZ Arabisch (Algerien), Ismael für ar-DZ Arabisch (Algerien), Rana für ar-IQ Arabisch (Irak), Bassel für ar-IQ Arabisch (Irak), Sana für ar-JO Arabisch (Jordanien), Taim für ar-JO Arabisch (Jordanien), Noura für ar-KW Arabisch (Kuwait), Fahed für ar-KW Arabisch (Kuwait), Iman für ar-LY Arabisch (Libyen), Omar für ar-LY Arabisch (Libyen), Mouna für ar-MA Arabisch (Marokko), Jamal für ar-MA Arabisch (Marokko), Amal für ar-QA Arabisch (Katar), Moaz für ar-QA Arabisch (Katar), Amany für ar-SY Arabisch (Syrien), Laith für ar-SY Arabisch (Syrien), Reem für ar-TN Arabisch (Tunesien), Hedi für ar-TN Arabisch (Tunesien), Maryam für ar-YE Arabisch (Jemen), Saleh für ar-YE Arabisch (Jemen), Nabanita für bn-BD Bangla (Bangladesch), Pradeep für bn-BD Bangla (Bangladesch), Asilia für en-KE Englisch (Kenia), Chilemba für en-KE Englisch (Kenia), Ezinne für en-NG Englisch (Nigeria), Abeo für en-NG Englisch (Nigeria), Imani für en-TZ Englisch (Tansania), Elimu für en-TZ Englisch (Tansania), Sofia für es-BO Spanisch (Bolivien), Marcelo für es-BO Spanisch (Bolivien), Catalina für es-CL Spanisch (Chile), Lorenzo für es-CL Spanisch (Chile), Maria für es-CR Spanisch (Costa Rica), Juan für es-CR Spanisch (Costa Rica), Belkys für es-CU Spanisch (Kuba), Manuel für es-CU Spanisch (Kuba), Ramona für es-DO Spanisch (Dominikanische Republik), Emilio für es-DO Spanisch (Dominikanische Republik), Andrea für es-EC Spanisch (Ecuador), Luis für es-EC Spanisch (Ecuador), Teresa für es-GQ Spanisch (Äquatorialguinea), Javier für es-GQ Spanisch (Äquatorialguinea), Marta für es-GT Spanisch (Guatemala), Andres für es-GT Spanisch (Guatemala), Karla für es-HN Spanisch (Honduras), Carlos für es-HN Spanisch (Honduras), Yolanda für es-NI Spanisch (Nicaragua), Federico für es-NI Spanisch (Nicaragua), Margarita für es-PA Spanisch (Panama), Roberto für es-PA Spanisch (Panama), Camila für es-PE Spanisch (Peru), Alex für es-PE Spanisch (Peru), Karina für es-PR Spanisch (Puerto Rico), Victor für es-PR Spanisch (Puerto Rico), Tania für es-PY Spanisch (Paraguay), Mario für es-PY Spanisch (Paraguay), Lorena für es-SV Spanisch (El Salvador), Rodrigo für es-SV Spanisch (El Salvador), Valentina für es-UY Spanisch (Uruguay), Mateo für es-UY Spanisch (Uruguay), Paola für es-VE Spanisch (Venezuela), Sebastian für es-VE Spanisch (Venezuela), Dilara für fa-IR Persisch (Iran), Farid für fa-IR Persisch (Iran), Blessica für fil-PH Filipino (Philippinen), Angelo für fil-PH Filipino (Philippinen), Sabela für gl-ES Galicisch, Roi für gl-ES Galicisch, Siti für jv-ID Javanisch (Indonesien), Dimas für jv-ID Javanisch (Indonesien), Sreymom für km-KH Khmer (Kambodscha), Piseth für km-KH Khmer (Kambodscha), Nilar für my-MM Birmanisch (Myanmar), Thiha für my-MM Birmanisch (Myanmar), Ubax für so-SO Somali (Somalia), Muuse für so-SO Somali (Somalia), Tuti für su-ID Sundanesisch (Indonesien), Jajang für su-ID Sundanesisch (Indonesien), Rehema für sw-TZ Suaheli (Tansania), Daudi für sw-TZ Suaheli (Tansania), Saranya für ta-LK Tamil (Sri Lanka), Kumar für ta-LK Tamil (Sri Lanka), Venba für ta-SG Tamil (Singapur), Anbu für ta-SG Tamil (Singapur), Gul für ur-IN Urdu (Indien), Salman für ur-IN Urdu (Indien), Madina für uz-UZ Usbekisch (Usbekistan), Sardor für uz-UZ Usbekisch (Usbekistan), Thando für zu-ZA isi Zulu (Südafrika), Themba für zu-ZA isi Zulu (Südafrika).

Release von September 2021

Neue Chatbot-Stimme in en-US Englisch (USA): Sara stellt eine junge Erwachsene dar, die lockerer spricht und sich am besten für die Chatbotszenarien eignet.
Neue Stile hinzugefügt für ja-JP Japanische Stimme Nanami: Mit Nanami sind jetzt drei neue Stile verfügbar: Chat, Kundendienst und Unterhaltung.
Verbesserung der Aussprache: Ardi für id-ID, Premwadee für th-TH, Christel für da-DK, HoaiMy und NamMinh für vi-VN.
Zwei neue Stimmen in zh-CN Chinesisch (Mandarin, China) in der Vorschau: Xiaochen & Xiaoyan, optimiert für Spontansprache und Kundenserviceszenarien.

Release von Juli 2021

Updates für neuronale Sprachsynthese

Die Aussprachefehler in Hebräisch wurden um 20 % reduziert.

Speech Studio-Updates

Benutzerdefinierte neuronale Stimme: Die Trainingspipeline wurde auf UniTTSv3 aktualisiert, wodurch die Modellqualität verbessert und die Trainingszeit für Akustikmodelle um 50 % reduziert wird.
Audioinhaltserstellung: Das Leistungsproblem beim Exportieren und der Fehler bei der Auswahl benutzerdefinierter neuronaler Stimmen wurden behoben.

Release von Juni 2021

Speech Studio-Updates

Benutzerdefinierte neuronale Stimme: Das Training für „Benutzerdefinierte neuronale Stimme“ wurde erweitert und unterstützt jetzt „Asien, Südosten“. Es wurden neue Features veröffentlicht, die die Statusüberprüfung beim Hochladen von Daten unterstützen.
Audioinhaltserstellung: Es wurde ein neues Feature zur Unterstützung eines benutzerdefinierten Lexikons veröffentlicht. Mit diesem Feature können Benutzer ganz einfach eigene Lexikondateien erstellen und die angepasste Aussprache für ihre Audioausgabe definieren.

Release von Mai 2021

Neue Sprachen und Stimmen zur neuronalen Sprachsynthese hinzugefügt

Zehn neue Sprachen wurden eingeführt: 20 neue Stimmen in 10 neuen Gebietsschemas werden der neuronalen TTS-Sprachliste hinzugefügt: Yan in en-HK Englisch (Hongkong), Sam in en-HK Englisch (Hongkong), Molly in en-NZ Englisch (Neuseeland), Mitchell in en-NZ Englisch (Neuseeland), Luna in en-SG Englisch (Singapur), Wayne in en-SG Englisch (Singapur), Leah in en-ZA Englisch (Südafrika), Luke in en-ZA Englisch (Südafrika), Dhwani in gu-IN Gujarati (Indien), Niranjan in gu-IN Gujarati (Indien), Aarohi in mr-IN Marathi (Indien), Manohar in mr-IN Marathi (Indien), Elena in es-AR Spanisch (Argentinien), Tomas in es-AR Spanisch (Argentinien), Salome in es-CO Spanisch (Kolumbien), Gonzalo in es-CO Spanisch (Kolumbien), Paloma in es-US Spanisch (USA), Alonso in es-US Spanisch (USA), Zuri in sw-KE Suaheli (Kenia), Rafiki in sw-KE Suaheli (Kenia).
Elf neue en-US-Stimmen in der Vorschauversion: 11 neue en-US-Stimmen in der Vorschauversion werden dem amerikanischen Englisch hinzugefügt: Ashley, Amber, Ana, Brandon, Christopher, Cora, Elizabeth, Eric, Michelle, Monica, Jacob.
Fünf chinesische zh-CN-Stimmen (Mandarin, vereinfacht) sind allgemein verfügbar. 5 chinesische Stimmen (Mandarin, vereinfacht) werden von der Vorschauversion in die allgemein verfügbare Version geändert. Dabei handelt es sich um Yunxi, Xiaomo, Xiaoman, Xiaoxuan, Xiaorui. Jetzt sind diese Stimmen in allen Regionen verfügbar. Yunxi wird mit einem neuen „Assistenten“-Stil hinzugefügt, der für Chatbots und Sprach-Agents geeignet ist. Die Stimmstile von Xiaomo wurden so optimiert, dass sie natürlicher und charakteristischer sind.

Release von April 2021

Neuronale Sprachsynthese ist in 21 Regionen verfügbar.

Zwölf neue Regionen hinzugefügt: Neuronale Sprachsynthese ist jetzt in diesen 12 neuen Regionen verfügbar: Japan East, Japan West, Korea Central, North Central US, North Europe, South Central US, Southeast Asia, UK South, west Central US, West Europe, West US und West US 2. Hier finden Sie eine vollständige Liste der 21 unterstützten Regionen.

Release von März 2021

Neue Sprachen und Stimmen zur neuronalen Sprachsynthese hinzugefügt

Einführung von sechs neuen Sprachen: 12 neue Stimmen in 6 neuen Gebietsschemas wurden der Liste für neuronale Sprachsynthese hinzugefügt: Nia in cy-GB Walisisch (Vereinigtes Königreich), Aled in cy-GB Walisisch (Vereinigtes Königreich), Rosa in en-PH Englisch (Philippinen), James in en-PH Englisch (Philippinen), Charline in fr-BE Französisch (Belgien), Gerard in fr-BE Französisch (Belgien), Dena in nl-BE Niederländisch (Belgien), Arnaud in nl-BE Niederländisch (Belgien), Polina in uk-UA Ukrainisch (Ukraine), Ostap in uk-UA Ukrainisch (Ukraine), Uzma in ur-PK Urdu (Pakistan), Asad in ur-PK Urdu (Pakistan).
Fünf Sprachen sind aus der Vorschau in die allgemeine Verfügbarkeit übergegangen: 10 Stimmen, die im November in 5 Gebietsschemas eingeführt wurden, sind jetzt allgemein verfügbar: Kert in et-EE Estnisch (Estland), Colm in ga-IE Irisch (Irland), Nils in lv-LV Lettisch (Lettland), Leonas in lt-LT Litauisch (Litauen), Joseph in mt-MT Maltesisch (Malta).
Neue männliche Stimme für Französisch (Kanada) : Die neue Stimme „Antoine“ ist für fr-CA Französisch (Kanada) verfügbar.
Qualitätsverbesserung: Reduzierung der Aussprachefehlerrate für hu-HU Ungarisch – 48,17 %, nb-NO Norwegisch – 52,76 %, nl-NL Niederländisch (Niederlande) –22,11 %.

Mit diesem Release werden nun insgesamt 142 neuronale Stimmen in 60 Sprachen/Gebietsschemas unterstützt. Darüber hinaus sind mehr als 70 Standardstimmen in 49 Sprachen/Gebietsschemas verfügbar. Eine vollständige Liste finden Sie unter Sprachunterstützung.

Abrufen von Gesichtsausdrucksereignissen zum Animieren von Figuren

Neuronale Sprachsynthese umfasst jetzt das Ereignis Viseme. Durch Ereignisse vom Typ „Mundbild“ können Benutzer eine Sequenz von Gesichtsausdrücken gemeinsam mit synthetisierter Sprache abrufen. Mundbilder können verwendet werden, um die Bewegung von 2D- und 3D-Avatarmodellen zu steuern, mit perfekter Anpassung der Mundbewegungen an die synthetisierte Sprache. Ereignisse vom Typ „Mundbild“ stehen derzeit nur für die Stimme en-US-AriaNeural zur Verfügung.

Hinzufügen des Lesezeichenelements in Speech Synthesis Markup Language (SSML)

Mit dem Lesezeichenelement können Sie benutzerdefinierte Marker in SSML einfügen, um den Offset der einzelnen Marker im Audiostream abzurufen. Es kann verwendet werden, um auf eine bestimmte Position in der Text- oder Tagsequenz zu verweisen.

Release von Februar 2021

Allgemeine Verfügbarkeit von benutzerdefinierte neuronale Stimme

Benutzerdefinierte neuronale Stimme ist im Februar in 13 Sprachen allgemein verfügbar: Chinesisch (Mandarin, vereinfacht), Englisch (Australien), Englisch (Indien), Englisch (Vereinigtes Königreich), Englisch (Nordamerika), Französisch (Kanada), Französisch (Frankreich), Deutsch (Deutschland), Italienisch (Italien), Japanisch (Japan), Koreanisch (Korea), Portugiesisch (Brasilien), Spanisch (Mexico) und Spanisch (Spanien). Erfahren Sie mehr darüber, was benutzerdefinierte neuronale Stimme ist und wie Sie sie verantwortungsbewusst verwenden. Die Funktion „Benutzerdefinierte neuronale Stimme“ erfordert eine Registrierung, und Microsoft kann den Zugriff auf Grundlage der Microsoft-Berechtigungskriterien einschränken. Weitere Informationen zum eingeschränkten Zugriff.

Release von Dezember 2020

Neue neuronale Stimmen in der allgemeinen Verfügbarkeit und in der Vorschau

51 neue Stimmen wurden veröffentlicht, sodass nun insgesamt 129 neuronale Stimmen in 54 Sprachen/Gebietsschemas vorhanden sind:

46 neue Stimmen in GA-Gebietsschemas: Shakir in ar-EG Arabisch (Ägypten), Hamed in ar-SA Arabisch (Saudi Arabien), Borislav in bg-BG Bulgarisch (Bulgarien), Joana in ca-ES Katalanisch, Antonin in cs-CZ Tschechisch (Tschechische Republik), Jeppe in da-DK Dänisch (Dänemark), Jonas in de-AT Deutsch (Österreich), Jan in de-CH Deutsch (Schweiz), Nestoras in el-GR Griechisch (Griechenland), Liam in en-CA Englisch (Kanada), Connor in en-IE Englisch (Irland), Madhur in en-IN Hindi (Indien), Mohan in en-IN Telugu (Indien), Prabhat in en-IN Englisch (Indien), Valluvar in en-IN Tamil (Indien), Enric in es-ES Katalanisch, Kert in et-EE Estnisch (Estland), Harri in fi-FI Finnisch (Finnland), Selma in fi-FI Finnisch (Finnland), Fabrice in fr-CH Französisch (Schweiz), Colm in ga-IE Irisch (Irland), Avri in he-IL Hebräisch (Israel), Srecko in hr-HR Kroatisch (Kroatien), Tamas in hu-HU Ungarisch (Ungarn), Gadis in id-ID Indonesisch (Indonesien), Leonas in lt-LT Litauisch (Litauen), Nils in lv-LV Lettisch (Lettland), Osman in ms-MY Malaiisch (Malaysia), Joseph in mt-MT Maltesisch (Malta), Finn in nb-NO Norwegisch, Bokmål (Norwegen), Pernille in nb-NO Norwegisch, Bokmål (Norwegen), Fenna in nl-NL Niederländisch (Niederlande), Maarten in nl-NL Niederländisch (Niederlande), Agnieszka in pl-PL Polnisch (Polen), Marek in pl-PL Polnisch (Polen), Duarte in pt-BR Portugiesisch (Brasilien), Raquel in pt-PT Portugiesisch (Potugal), Emil in ro-RO Rumänisch (Rumänien), Dmitry in ru-RU Russisch (Russland), Svetlana in ru-RU Russisch (Russland), Lukas in sk-SK Slowakisch (Slowakei), Rok in sl-SI Slowenisch (Slowenien), Mattias in sv-SE Schwedisch (Schweden), Sofie in sv-SE Schwedisch (Schweden), Niwat in th-TH Thai (Thailand), Ahmet in tr-TR Türkisch (Türkei), NamMinh in vi-VN Vietnamesisch (Vietnam), HsiaoChen in zh-TW Taiwanesisch Mandarin (Taiwan), YunJhe in zh-TW Taiwanesisch Mandarin (Taiwan), HiuMaan in zh-HK Chinesisch Kantonesisch (Hongkong Sonderverwaltungsregion), WanLung in zh-HK Chinesisch Kantonesisch (Hongkong Sonderverwaltungsregion).
5 neue Stimmen in Gebietsschemas in der Vorschau: Kert in et-EE Estnisch (Estland), Colm in ga-IE Irisch (Irland), Nils in lv-LV Lettisch (Lettland), Leonas in lt-LT Litauisch (Litauen), Joseph in mt-MT Maltesisch (Malta).

Mit diesem Release werden nun insgesamt 129 neuronale Stimmen in 54 Sprachen/Gebietsschemas unterstützt. Darüber hinaus sind mehr als 70 Standardstimmen in 49 Sprachen/Gebietsschemas verfügbar. Eine vollständige Liste finden Sie unter Sprachunterstützung.

Updates für die Audioinhaltserstellung

Die Benutzeroberfläche für die Stimmenauswahl mit Stimmenkategorien und ausführlichen Beschreibungen wurde verbessert.
Die Intonation für alle neuronalen Stimmen wurde für verschiedene Sprachen optimiert.
Die Benutzeroberflächenlokalisierung basierend auf der Sprache des Browsers wurde automatisiert.
StyleDegree-Steuerelemente für alle neuronalen Stimmen für zh-CN. Sie können die neuen Features im Audioinhaltserstellungs-Tool testen.

Updates für zh-CN-Stimmen

Alle neuronalen Stimmen für zh-CN wurden mit Unterstützung von Englisch aktualisiert.
Alle neuronalen Stimmen für zh-CN unterstützen nun Anpassung der Intonation. SSML oder das Audioinhaltserstellungs-Tool können zum Anpassen der Intonation verwendet werden.
Alle neuronalen Stimmen für zh-CN mit mehreren Stilen wurden zur Unterstützung des StyleDegree-Steuerelements aktualisiert. Die Intensität der Emotionen (weich oder stark) ist anpassbar.
zh-CN-YunyeNeural wurde zur Unterstützung mehrerer Stile aktualisiert, die verschiedene Emotionen widerspiegeln können.

Release von November 2020

Neue Gebietsschemas und Stimmen in der Vorschau

Fünf neue Stimmen und Sprachen wurden zum Portfolio der neuronalen Sprachsynthese hinzugefügt. Sie lauten wie folgt: Grace in Maltesisch (Malta), Ona in Litauisch (Litauen), Anu in Estnisch (Estland), Orla in Irisch (Irland) und Everita in Lettisch (Lettland).
Fünf neue zh-CN-Stimmen mit Unterstützung mehrerer Stile und Rollen: Xiaohan, Xiaomo, Xiaorui, Xiaoxuan und Yunxi.

Diese Stimmen sind in drei Azure-Regionen in der öffentlichen Vorschau verfügbar: „USA, Osten“, „Asien, Südosten“ und „Europa, Westen“.

Allgemeine Verfügbarkeit des neuronalen Sprachsynthese-Containers

Mit dem neuronalen Sprachsynthese-Container können Entwickler die Sprachsynthese mit den natürlichsten digitalen Stimmen für spezifische Sicherheits- und Datengovernanceanforderungen in ihren eigenen Umgebungen ausführen. Erfahren Sie, wie Sie Sprachsynthesecontainer installieren.

Neue Funktionen

Benutzerdefinierte Stimme: ermöglicht Benutzer*innen das Kopieren eines Stimmmodells aus einer Region in eine andere (das Anhalten und Fortsetzen des Endpunkts wird unterstützt). Navigieren Sie hier zum Azure-Portal.
Unterstützung des SSML-Tags „silence“
Allgemeine Verbesserungen bei der Stimmenqualität der Sprachsynthese: Die Genauigkeit der Aussprache auf Wortebene in nb-NO wurde verbessert. Aussprachefehler wurden um 53 % verringert.

Weitere Informationen finden Sie in diesem Techblog.

Release von Oktober 2020

Neue Funktionen

Jenny unterstützt einen neuen newscast-Stil. Weitere Informationen finden Sie unter Verwenden der Sprachstile in SSML.
Für neuronale Stimmen wurde ein Upgrade auf einen HiFiNet-Vocoder durchgeführt, der eine höhere Klangtreue und eine höhere Synthesegeschwindigkeit aufweist. Dies kommt Kunden zugute, deren Szenario auf HiFi-Audio oder lange Interaktionen beruht, einschließlich Videoübersetzung, Hörbücher oder Onlinelernmaterialien. Erfahren Sie mehr über die Story, und hören Sie sich die Sprachbeispiele in unserem Tech Community-Blogbeitrag an.
Custom Voice und Audioinhaltserstellungs-Studio wurden für 17 Gebietsschemas lokalisiert. Benutzer können die Benutzeroberfläche für eine benutzerfreundlichere Umgebung leicht in eine lokale Sprache wechseln.
Audioinhaltserstellung: Es wurde die Stilgradsteuerung für XiaoxiaoNeural hinzugefügt. Das Feature der angepassten Unterbrechung wurde optimiert, um inkrementelle Unterbrechungen von 50 ms einzuschließen.

Allgemeine Verbesserungen bei der Stimmenqualität der Sprachsynthese

Die Genauigkeit der Aussprache auf Wortebene wurde in pl-PL (Verringerung der Fehlerrate: 51 %) und fi-FI (Verringerung der Fehlerrate: 58 %) verbessert.
Das Lesen einzelner Wörter für ja-JP wurde für das Wörterbuchszenario verbessert. Aussprachefehler wurden um 80 % verringert.
zh-CN-XiaoxiaoNeural: Die Sprachqualität von „Sentiment/CustomerService/Newscast/Cheerful/Angry style“ wurde verbessert.
zh-CN: Die Erhua-Aussprache und der helle Ton wurden verbessert und der Raumsatzrhythmus optimiert, was die Verständlichkeit erheblich verbessert.

Release von September 2020

Neue Funktionen

Neuronale Sprachsynthese
- Erweitert, um 18 neue Sprachen/Gebietsschemas zu unterstützen. Dazu gehören Bulgarisch, Tschechisch, Deutsch (Österreich), Deutsch (Schweiz), Griechisch, Englisch (Irland), Französisch (Schweiz), Hebräisch, Kroatisch, Ungarisch, Indonesisch, Malaiisch, Rumänisch, Slowakisch, Slowenisch, Tamil, Telugu und Vietnamesisch.
- Wir haben 14 neue Stimmen veröffentlicht, um die Vielfalt in den vorhandenen Sprachen zu erhöhen. Weitere Informationen finden Sie in der vollständigen Liste der Sprachen und Stimmen.
- Neue Sprechweisen für en-US- und zh-CN-Stimmen. Jenny, die neue Stimme auf Englisch (USA), unterstützt Chatbot-, Kundendienst- und Assistentenstile. 10 neue Sprechweisen sind mit unserer zh-CN-Stimme „XiaoXiao“ verfügbar. Darüber hinaus unterstützt die neuronale Stimme von XiaoXiao die StyleDegree-Optimierung. Weitere Informationen finden Sie unter Verwenden der Sprachstile in SSML.
Container: Es wurde ein neuronaler Sprachsynthese-Container in der öffentlichen Vorschau mit 16 Stimmen in 14 Sprachen veröffentlicht. Weitere Informationen finden Sie unter Bereitstellen von Speech-Containern für neuronale Sprachsynthese.

Lesen Sie die vollständige Ankündigung der TTS-Updates für Ignite 2020.

Release von August 2020

Neue Funktionen

Neuronale Sprachsynthese: Neuer Sprechstil für die en-US-Stimme „Aria“. AriaNeural kann wie ein Nachrichtensprecher beim Lesen der Nachrichten klingen. Der Stil „newscast-formal“ klingt seriöser, während der Stil „newscast-casual“ lockerer und informell klingt. Weitere Informationen finden Sie unter Verwenden der Sprachstile in SSML.
Benutzerdefinierte Stimme: Release einer neuen Funktion zur automatischen Überprüfung der Trainingsdatenqualität. Wenn Sie Ihre Daten hochladen, untersucht das System verschiedene Aspekte Ihrer Audio- und Transkriptdaten und behebt oder filtert automatisch Probleme, um die Qualität des Sprachmodells zu verbessern. Dies umfasst die Lautstärke Ihrer Audiodaten, den Rauschpegel, die Aussprachegenauigkeit, die Ausrichtung der Sprache mit dem normalisierten Text, die Stille in den Audiodaten sowie das Audio- und Skriptformat.
Audioinhaltserstellung: Neue Features für leistungsstärkere Sprachoptimierungs- und Audioverwaltungsfunktionen:
- Aussprache: Das Feature zur Optimierung der Aussprache wurde mit dem aktuellen Phonemsatz aktualisiert. Sie können das richtige Phonemelement aus der Bibliothek auswählen und die Aussprache der ausgewählten Wörter verfeinern.
- Herunterladen: Die Audiofeatures „Herunterladen“ und „Exportieren“ wurde verbessert, um das Generieren von Audiodaten nach Absatz zu unterstützen. Sie können den Inhalt in derselben Datei oder in SSML bearbeiten, während Sie mehrere Audioausgaben erzeugen. Die Dateistruktur von „Herunterladen“ wurde ebenfalls optimiert. Sie können jetzt problemlos alle Audiodateien in einem Ordner erhalten.
- Taskstatus: Die Funktion zum Exportieren mehrerer Dateien wurde verbessert. Wenn beim Exportieren von mehreren Dateien in der Vergangenheit ein Fehler bei einer der Dateien aufgetreten ist, ist der gesamte Task fehlgeschlagen. Nun werden alle anderen Dateien erfolgreich exportiert. Der Taskbericht wurde um mehr Details und strukturierte Informationen erweitert. Sie können die Protokolle nun mithilfe des Berichts auf alle fehlerhaften Dateien und Sätze überprüfen.
- SSML-Dokumentation: Ein Link zur SSML-Dokumentation wurde bereitgestellt, damit Sie die Regeln zur Verwendung der Optimierungsfeatures überprüfen können.
Die Voice List-API wurde aktualisiert, sodass nun ein benutzerfreundlicher Anzeigename und die unterstützten Sprachstile für neuronale Stimmen enthalten sind.

Allgemeine Verbesserungen bei der Stimmenqualität der Sprachsynthese

Der Prozentsatz an Aussprachefehlern für ru-RU (Fehlerrate wurde um 56 % reduziert) und sv-SE (Fehlerrate wurde um 49 % reduziert) wurde reduziert.
Das Lesen von Wörtern mit Polyphonie von neuronalen Stimmen in en-US wurde um 40 % verbessert. Beispiele für Wörter mit Polyphonie sind „read“, „live“, „content“, „record“ und „object“.
Die Natürlichkeit der Betonung von Fragen in fr-FR wurde verbessert. MOS-Erhöhung (Mean Opinion Score): +0,28
Die Vocoder für die folgenden Stimmen wurden mit Genauigkeitsverbesserungen und allgemeiner Leistungsverbesserung um 40 % aktualisiert.

Gebietsschema Sprache

en-GB Mia

es-MX Dalia

fr-CA Sylvie

fr-FR Denise

ja-JP Nanami

ko-KR Sun-Hi

Gebietsschema	Sprache
`en-GB`	Mia
`es-MX`	Dalia
`fr-CA`	Sylvie
`fr-FR`	Denise
`ja-JP`	Nanami
`ko-KR`	Sun-Hi

Fehlerkorrekturen

Einige Fehler mit dem Audioinhaltserstellungs-Tool wurden behoben.
- Ein Problem mit der automatischen Aktualisierung wurde behoben.
- Probleme mit Sprachstilen in zh-CN in der Region „Asien, Südosten“ wurden behoben.
- Ein Stabilitätsproblem, einschließlich eines Exportfehlers mit dem Tag „break“, sowie Satzzeichenfehler wurden behoben.

Release von Januar 2025

Neues Feature: Semantische Segmentierung

Ankündigung der Freigabe eines neuen Features: semantische Segmentierung. Dieses Feature integriert ein Interpunktionsmodul im Decoder, das Audio basierend auf semantischen Informationen segmentiert und dadurch logischere und präzisere Segmentierungsgrenzen ermöglicht. Hauptvorteile:

Verbesserte Segmentierungsgenauigkeit: Durch die Nutzung semantischer Informationen reduziert dieses Feature Instanzen langer Segmente erheblich, die durch das Fehlen von Pausen in Eingabeaudioinhalten verursacht werden.
Verringern Sie Wartezeit durch Untersegmentierung: Die Gesamtwartezeit für Spracherkennung wird mit einer Verkürzung der längsten 5 % der Segmente um 40 % bis 60 % reduziert.
Ausgleich der Übersegmentierung: Dieses Feature trägt außerdem zur Verhinderung von Übersegmentierung bei, indem es die Segmentierung verzögert, wenn ein besserer Satz formuliert werden kann.

Unterstützte Gebietsschemas:

Englisch (en-US, en-GB)
Chinesisch (zh-CN, zh-HK)
Japanisch (ja-JP)
Koreanisch (ko-KR)
Deutsch (de-DE)
Französisch (fr-FR)
Italienisch (it-IT)
Spanisch (es-ES, es-MX)
Hindi (hi-IN)
Portugiesisch (pt-BR, pt-PT)
Türkisch (tr-TR)
Russisch (ru-RU)
Thailändisch (th-TH)
Indonesisch (id-ID)

Details zur Implementierung finden Sie in der Dokumentation Erkennen von Sprache im Abschnitt „Semantische Segmentierung“.

Echtzeit-Spracherkennung: Neues Modellrelease für Englisch

Ankündigung zum Release des aktuellen englischen Sprachmodells (en-US, en-CA), das erhebliche Verbesserungen für verschiedene Leistungsmetriken bringt. Im Folgenden sind die wichtigsten Highlights des Release aufgeführt:

Verbesserte Barrierefreiheit: Die WER (Word Error Rate, Wortfehlerrate) bei internen Barrierefreiheitstestsätzen von Microsoft wurde um 36 % reduziert, wodurch eine präzisere und zuverlässigere Spracherkennung bei Personen mit Sprachbehinderungen möglich ist.
Reduzierung von Ghostwords: Eine erhebliche Reduzierung von Ghostwords um 90 % im Ghostword-Entwicklungssatz sowie Reduzierungen von 63 % bis zu 100 % in allen anderen Ghostword-Datasets, wodurch die Klarheit und Genauigkeit der Transkriptionen erheblich verbessert wurde.

Das neue Modell hat auch die Gesamtleistung, einschließlich der Entitätserkennung und einer besseren Erkennung geschriebener Buchstaben, verbessert.

Es wird erwartet, dass diese Fortschritte eine genauere, effizientere und zufriedenstellendere Erfahrung für alle Benutzenden ermöglichen. Das neue Modell ist über die API und den Azure AI Foundry-Playground verfügbar. Jegliches Feedback dient der weiteren Verbesserung von Features.

Release von November 2024

Spracherkennungs-REST-API Version 2024-11-15

Die Spracherkennung-REST-API Version 2024-11-15 ist jetzt allgemein verfügbar. Weitere Informationen finden Sie in der Referenzdokumentation zur Spracherkennungs-REST-API und im Leitfaden zur Spracherkennungs-REST-API.

Hinweis

Die Spracherkennungs-REST-API Version 2024-05-15-preview ist veraltet.

Schnelle Transkription (GA)

Die schnelle Transkription ist jetzt über die Spracherkennungs-REST-API Version 2024-11-15 allgemein verfügbar. Mit der schnellen Transkription können Sie Audiodateien präzise und synchron mit einem hohen Geschwindigkeitsfaktor in Text umwandeln. Sie kann Audioinhalte schneller transkribieren als diese tatsächlich dauern. Weitere Informationen finden Sie im Leitfaden zur API für schnelle Transkription.

Release von Oktober 2024

Echtzeit-Spracherkennung (zweisprachig)

Die Erkennungsqualität für spanische Kurzbegriffe wurde durch die zweisprachigen es-US-Modelle erheblich verbessert. Das Modell ist zweisprachig und unterstützt auch Englisch. Die Qualität der englischen Erkennung wurde ebenfalls verbessert.

Videoübersetzung (Vorschau)

Die Videoübersetzungs-API ist jetzt als Public Preview verfügbar. Weitere Informationen finden Sie unter Verwenden der Videoübersetzung.

Release vom September 2024

Spracherkennung in Echtzeit

Die Echtzeit-Spracherkennung hat neue Modelle mit besserer Qualität für die folgenden Sprachen veröffentlicht.

fi-FI/id-ID/zh-TW/pl-PL/pt-PT es-SV/es-EC/es-BO/es-PY/es-AR/es-DO/es-UY/es-CR/es-VE/es-NI/es-HN/es-PR/es-CO/es-CL/es-CU/es-PE/es-PA/es-GT/es-GQ

Schnelle Transkription (Vorschau)

Schnelle Transkription unterstützt jetzt die Diarisierung, um mehrere Sprecher in Monokanalaudiodateien zu erkennen und zu trennen. Weitere Informationen finden Sie im Leitfaden zur API für schnelle Transkription.

Release von August 2024

Spracherwerb (Vorschau)

Spracherwerb ist jetzt in der öffentlichen Vorschau verfügbar. Interaktives Sprachlernen kann Ihre Lernerfahrung ansprechender und effektiver gestalten. Weitere Informationen finden Sie unter Interaktives Sprachlernen mit Aussprachebewertung.

Aussprachebewertung

Die Speech-Aussprachebewertung unterstützt jetzt 33 Sprachen, die allgemein verfügbar sind. Alle Sprachen sind in allen Spracherkennungsregionen verfügbar. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.

Sprache	Gebietsschema (BCP-47)
Arabisch (Ägypten)	`ar-EG`
Arabisch (Saudi-Arabien)	`ar-SA`
Katalanisch	`ca-ES`
Chinesisch (Kantonesisch, traditionell)	`zh-HK`
Chinesisch (Mandarin, vereinfacht)	`zh-CN`
Chinesisch (Taiwanesisch, Mandarin; traditionell)	`zh-TW`
Dänisch (Dänemark)	`da-DK`
Niederländisch (Niederlande)	`nl-NL`
Englisch (Australien)	`en-AU`
Englisch (Kanada)	`en-CA`
Englisch (Indien)	`en-IN`
Walisisch (Großbritannien)	`en-GB`
Englisch (USA)	`en-US`
Finnisch (Finnland)	`fi-FI`
Französisch (Kanada)	`fr-CA`
Französisch (Frankreich)	`fr-FR`
Deutsch (Deutschland)	`de-DE`
Hindi (Indien)	`hi-IN`
Italienisch (Italien)	`it-IT`
Japanisch (Japan)	`ja-JP`
Koreanisch (Korea)	`ko-KR`
Malaiisch (Malaysia)	`ms-MY`
Norwegisch, Bokmål (Norwegen)	`nb-NO`
Polnisch (Polen)	`pl-PL`
Portugiesisch (Brasilien)	`pt-BR`
Portugiesisch (Portugal)	`pt-PT`
Russisch (Russische Föderation)	`ru-RU`
Spanisch (Mexiko)	`es-MX`
Spanisch (Spanien)	`es-ES`
Schwedisch (Schweden)	`sv-SE`
Tamil (Indien)	`ta-IN`
Thai (Thailand)	`th-TH`
Vietnamesisch (Vietnam)	`vi-VN`

Release von Juli 2024

API für schnelle Transkription (Vorschau)

Schnelle Transkription ist jetzt als Public Preview verfügbar. Mit der schnellen Transkription können Sie Audiodateien präzise und synchron mit einem hohen Geschwindigkeitsfaktor in Text umwandeln. Sie kann Audioinhalte schneller transkribieren als diese tatsächlich dauern. Weitere Informationen finden Sie im Leitfaden zur API für schnelle Transkription.

Tipp

Testen Sie die schnelle Transkription im Azure KI Foundry-Portal.

Release vom Juni 2024

Allgemeine Verfügbarkeit der Spracherkennung-REST-API v3.2

Die Spracherkennung-REST-API, Version 3.2, ist jetzt allgemein verfügbar. Weitere Informationen zur Spracherkennung-REST-API v3.2 finden Sie in der Referenzdokumentation zur Spracherkennung-REST-API v3.2 und in der Anleitung zur Spracherkennung-REST-API.

Hinweis

Die Vorschauversionen 3.2-preview.1 und 3.2-preview.2 wurden im September 2024 eingestellt.

Die Spracherkennungs-REST-API v3.1 wird am Veröffentlichungsdatum eingestellt. Die Spracherkennungs-REST-API v3.0 wird am 1. April 2026 eingestellt. Weitere Informationen zum Upgraden finden Sie in den Migrationsleitfäden v3.0 zu v3.1 und v3.1 zu v3.2 der Spracherkennung-REST-API.

Release von Mai (2024)

Videoübersetzung (Vorschau)

Die Videoübersetzung ist jetzt als Public Preview verfügbar. Die Videoübersetzung ist ein Feature in Azure KI Speech, mit dem Sie Videos nahtlos automatisch in mehrere Sprachen übersetzen und in mehreren Sprachen generieren können. Diese Funktion soll Ihnen helfen, Ihre Videoinhalte zu lokalisieren, um ein breites Publikum auf der ganzen Welt anzusprechen. Sie können auf effiziente Weise beeindruckende, lokalisierte Videos für verschiedene Anwendungsbereiche wie Vlogs, Bildung, Nachrichten, Unternehmensschulungen, Werbung, Film, TV-Shows und mehr erstellen. Weitere Informationen finden Sie unter Übersicht über die Videoübersetzung.

Aussprachebewertung

Die Aussprachebewertung von Speech unterstützt jetzt 24 allgemein verfügbare Sprachen (7 neue Sprachen hinzugefügt), wobei 3 zusätzliche Sprachen in der Vorschau verfügbar sind. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.

Release von April 2024

Automatische mehrsprachige Sprachübersetzung (Preview)

Automatische mehrsprachige Sprachübersetzung ist in der öffentlichen Vorschau verfügbar. Diese innovative Funktion revolutioniert die Art und Weise, wie Sprachbarrieren überwunden werden, und bietet unvergleichliche Möglichkeiten für eine nahtlose Kommunikation über verschiedene Sprachlandschaften hinweg.

Wichtigste Highlights

Nicht spezifizierte Eingabesprache: Die mehrsprachige Sprachübersetzung kann Audiodaten in einer Vielzahl von Sprachen verarbeiten, und es ist nicht erforderlich, die erwartete Eingabesprache anzugeben. Das macht es zu einer unverzichtbaren Funktion, um einander in globalen Kontexten zu verstehen und miteinander zu arbeiten, ohne dass eine Voreinstellung erforderlich ist.
Sprachwechsel: Die mehrsprachige Sprachübersetzung ermöglicht es, dass mehrere Sprachen während derselben Sitzung gesprochen werden können, die alle in dieselbe Zielsprache übersetzt werden. Es ist nicht nötig, eine Sitzung neu zu starten, wenn sich die Eingabesprache ändert oder Sie eine andere Aktion durchführen.

Funktionsweise

Reisedolmetscher: Die mehrsprachige Sprachübersetzung kann die Erfahrung von Reisenden in fremden Ländern verbessern, indem sie ihnen Informationen und Hilfe in ihrer bevorzugten Sprache bietet. Hotel-Concierge-Services, Führungen und Besucherzentren können diese Technologie nutzen, um auf die unterschiedlichen sprachlichen Bedürfnisse einzugehen.
Internationale Konferenzen: Mehrsprachige Sprachübersetzung kann die Kommunikation zwischen Teilnehmenden aus verschiedenen Regionen, die möglicherweise verschiedene Sprachen sprechen, durch live übersetzte Untertitel erleichtern. Die Teilnehmenden können in ihrer Muttersprache sprechen, ohne diese angeben zu müssen, was eine nahtlose Verständigung und Zusammenarbeit gewährleistet.
Bildungsveranstaltungen: In multikulturellen Klassenzimmern oder Online-Lernumgebungen kann die mehrsprachige Sprachübersetzung die Sprachenvielfalt unter Lernenden und Lehrenden unterstützen. Es ermöglicht eine nahtlose Kommunikation und Teilnahme, ohne dass Sie die Sprache der einzelnen Lernenden oder Lehrenden angeben müssen.

So erfolgt der Zugriff

Eine ausführliche Einführung finden Sie in der Übersicht über die Sprachübersetzung. Außerdem können Sie sich die Codebeispiele unter Wie Sprache übersetzt wird ansehen. Diese neue Funktion wird von allen SDK-Versionen ab 1.37.0 vollständig unterstützt.

Spracherkennung in Echtzeit mit Diarisierung (GA)

Die Spracherkennung in Echtzeit mit Diarisierung ist jetzt allgemein verfügbar.

Sie können Spracherkennungsanwendungen erstellen, die die Spracherkennung nutzen, um zwischen verschiedenen Sprecherinnen und Sprechern zu unterscheiden, die an dem Gespräch teilnehmen. Weitere Informationen zur Echtzeit-Diarisierung finden Sie in der Schnellstartanleitung zur Echtzeit-Diarisierung.

Update des Spracherkennungsmodells

Für die Echtzeit-Spracherkennung wurden neue Modelle mit zweisprachigen Funktionen veröffentlicht. Das en-IN-Modell unterstützt jetzt zweisprachige Szenarien auf Englisch und Hindi und bietet eine verbesserte Genauigkeit. Arabische Gebietsschemas (ar-AE, ar-BH, ar-DZ, ar-IL, ar-IQ, ar-KW, ar-LB, ar-LY, ar-MA, ar-OM, ar-PS, ar-QA, ar-SA, ar-SY, ar-TN, ar-YE) sind jetzt mit zweisprachiger Unterstützung für Englisch ausgestattet und weisen eine verbesserte Genauigkeit und Callcenterunterstützung auf.

Die Batchtranskription bietet Modelle mit neuer Architektur für diese Gebietsschemata: es-ES, es-MX, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, und zh-CN. Diese Modelle verbessern die Lesbarkeit und die Entitätserkennung erheblich.

Release von März 2024

Allgemeine Verfügbarkeit (General Availability, GA) von Whisper

Das Whisper-Spracherkennungsmodell mit Azure KI Speech ist jetzt allgemein verfügbar.

Im Artikel Was ist das Whisper-Modell? erfahren Sie mehr darüber, wann Azure KI Speech bzw. wann Azure OpenAI Service verwendet werden sollte.

Version vom Februar 2024

Aussprachebewertung

Die Aussprachebewertung von Speech unterstützt jetzt 23 allgemein verfügbare Sprachen (5 neue Sprachen hinzugefügt), wobei 3 zusätzliche Sprachen in der Vorschau verfügbar sind. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.

Ausdrucksliste

Ausdruckslisten für die folgenden Gebietsschemas werden jetzt unterstützt: ar-SA, de-CH, en-IE, en-ZA, es-US, id-ID, nl-NL, pl-PL, pt-PT, ru-RU, sv-SE, th-TH, vi-VN, zh-HK, zh-TW.

Release von November 2023

Einführung in das zweisprachige Sprachmodell!

Wir freuen uns, eine bahnbrechende Ergänzung zu unserem Echtzeit-Sprachmodell vorstellen zu können: das zweisprachige Sprachmodell. Diese erhebliche Verbesserung ermöglicht es unserem Sprachmodell, bilinguale Sprachpaare wie Englisch und Spanisch sowie Englisch und Französisch nahtlos zu unterstützen. Mit diesem Feature können Benutzer*innen während Echtzeitinteraktionen mühelos zwischen Sprachen wechseln. Dies ist ein entscheidender Moment in unserem Bestreben, das Kommunikationserlebnis zu verbessern.

Wichtigste Highlights:

Bilinguale Unterstützung: Mit unserer neuesten Version können Benutzer*innen während Echtzeitsprachinteraktionen nahtlos zwischen Englisch und Spanisch oder zwischen Englisch und Französisch wechseln. Diese Funktionalität ist auf Personen zugeschnitten, die zwei Sprachen sprechen und häufig zwischen diesen beiden Sprachen wechseln.
Erweiterte Benutzeroberfläche: Personen, die zwei Sprachen sprechen, werden diese Funktion als äußerst nützlich empfinden – sei es bei der Arbeit, zu Hause oder in anderen Umgebungen. Die Fähigkeit des Modells, Englisch und Spanisch zu verstehen und in Echtzeit darauf zu reagieren, eröffnet neue Möglichkeiten für effektive und flüssige Kommunikation.

Verwendung:

Wählen Sie es-US (Spanisch und Englisch) oder fr-CA (Französisch und Englisch) aus, wenn Sie die Spracherkennungsdienst-API aufrufen oder die Funktion in Speech Studio ausprobieren. Sie können entweder nur eine Sprache verwenden oder die Sprachen kombinieren – das Modell ist darauf ausgelegt, sich dynamisch anzupassen, sodass präzise und kontextbezogene Antworten in beiden Sprachen bereitgestellt werden.

Verbessern Sie Ihre Kommunikation mit unserem neuesten Featurerelease: direkt verfügbare, nahtlose Kommunikation in mehreren Sprachen!

Update von Sprache-in-Text-Modellen

Wir freuen uns, ein erhebliches Update für unsere Sprachmodelle, vielversprechende verbesserte Genauigkeit, verbesserte Lesbarkeit und optimierte Entitätserkennung einzuführen. Dieses Upgrade verfügt über eine robuste neue Struktur, die durch ein erweitertes Schulungsdataset gestärkt wird und eine deutliche Verbesserung der Gesamtleistung gewährleistet. Es enthält neu veröffentlichte Modelle für en-US, zh-CN, ja-JP, it-IT, pt-BR, es-MX, es-ES, fr-FR, de-DE, ko-KR, tr-TR, sv-SE und he-IL.

Highlights:

Bessere Genauigkeit mit neuer Modellstruktur: Die neu definierte Modellstruktur, gekoppelt mit einem umfangreicheren Schulungsdatensatz, erhöht Genauigkeitsstufen und sorgt für eine vielversprechendere Sprachausgabe.
Verbesserung der Lesbarkeit: Unser neuestes Modell bringt eine erhebliche Steigerung der Lesbarkeit, verbesserung der Kohärenz und Klarheit gesprochener Inhalte.
Erweiterte Entitätserkennung: Die Entitätserkennung erhält ein erhebliches Upgrade, was zu genaueren und differenzierten Ergebnissen führt.

Mögliche Auswirkungen: Trotz dieser Fortschritte ist es von entscheidender Bedeutung, potenzielle Auswirkungen zu berücksichtigen:

Benutzerdefiniertes Stilletimeout: Benutzende, die das benutzerdefinierte Stilletimeout verwenden, können insbesondere bei niedrigen Einstellungen eine Übersegmentierung und das Auslassen von Ein-Wort-Sätzen feststellen.
Das neue Modell kann Kompatibilitätsprobleme mit der Schlüsselwortpräfixfunktion aufweisen, und den Benutzern wird empfohlen, die Leistung in ihren spezifischen Anwendungen zu bewerten.
Weniger überflüssige Wörter oder Ausdrücke: Benutzer bemerken möglicherweise eine Verringerung der Überflüssigkeit von Wörtern oder Ausdrücken wie „um“ oder „uh“ in der Sprachausgabe.
Ungenauigkeiten in Wort-Zeitstempeldauer: Einige überflüssige Wörter zeigen möglicherweise Ungenauigkeiten in der Zeitstempeldauer an, was in Anwendungen, die von präzisem Timing abhängig sind, aufmerksamkeitsabhängig ist.
Varianz der Konfidenzwertverteilung: Benutzer, die auf Konfidenzbewertungen und zugehörigen Schwellenwerten vertrauen, sollten sich potenzielle Abweichungen in der Verteilung bewusst sein und Anpassungen für eine optimale Leistung erfordern.
Die Genauigkeitsverbesserung des Begriffslistenfeatures kann von der Fehlerkennung bestimmter Ausdrücke beeinflusst werden.

Wir empfehlen Ihnen, diese Verbesserungen zu untersuchen und potenzielle Probleme für einen nahtlosen Übergang zu berücksichtigen, und wie immer ist Ihr Feedback entscheidend für die Verfeinerung und Weiterentwicklung unserer Dienste.

Aussprachebewertung

Die Sprach-Aussprachebewertung unterstützt jetzt 18 Sprachen, die allgemein verfügbar sind, wobei 6 zusätzliche Sprachen in der Vorschau verfügbar sind. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.
Wir freuen uns, Ihnen mitzuteilen, dass die Aussprachebewertung ab dem 1. November 2023 neue Features eingeführt: Prosodie, Grammatik, Vokabular und Thema. Diese Verbesserungen zielen darauf ab, eine noch umfassendere Sprachlernerfahrung für Lese- und Sprachbewertungen bereitzustellen. Aktualisieren Sie auf die SDK-Version 1.35.0 oder später, um weitere Details in Verwenden der Aussprachebewertung und Aussprachebewertung in Speech Studio zu erkunden.

Release vom September 2023

Whisper in der Public Preview

Azure KI Speech unterstützt über die Batchtranskriptions-API ab sofort das Whisper-Modell von OpenAI. Weitere Informationen finden Sie im Leitfaden Erstellen einer Batchtranskription.

Hinweis

Azure OpenAI Service unterstützt mit einer synchronen REST-API ebenfalls das OpenAI-Whisper-Modell für die Spracherkennung. Weitere Informationen finden Sie unter Schnellstart.

Im Artikel Was ist das Whisper-Modell? erfahren Sie mehr darüber, wann Azure KI Speech bzw. wann Azure OpenAI Service verwendet werden sollte.

Spracherkennungs-REST-API 3.2 Public Preview

Die Spracherkennungs-REST-API v3.2 ist in Preview verfügbar. Die Spracherkennungs-REST-API v3.1 ist allgemein verfügbar. Die Spracherkennungs-REST-API v3.0 wird am 1. April 2026 eingestellt. Weitere Informationen finden Sie in den Migrationsleitfäden der Spracherkennungs-REST-API v3.0 zu v3.1 und v3.1 zu v3.2.

August 2023 Release

Neue Gebietsschemata für die Spracherkennung:

Die Spracherkennung unterstützt zwei neue Gebietsschemas, wie in der folgenden Tabelle dargestellt. Eine vollständige Liste der Sprachen finden Sie hier.

Standort	Sprache
`pa-IN`	Punjabi (Indien)
`ur-IN`	Urdu (Indien)

Aussprachebewertung

Die Aussprachebewertung in Speech unterstützt jetzt drei zusätzliche Sprachen in der allgemeinen Verfügbarkeit: Englisch (Kanada), Japanisch (Japan) und Spanisch (Mexiko). Drei weitere Sprachen sind in der Vorschau verfügbar. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.

Version vom Mai 2023

Aussprachebewertung

Die Sprach-Aussprachebewertung unterstützt jetzt 3 zusätzliche Sprachen, die allgemein in Deutsch (Deutschland), Japanisch (Japan) und Spanisch (Mexiko) verfügbar sind, wobei 4 zusätzliche Sprachen in der Vorschau verfügbar sind. Weitere Informationen finden Sie in der vollständigen Sprachenliste für die Aussprachebewertung.
Sie können jetzt die Standardverpflichtungsebene Speech to Text für die Aussprachebewertung für alle öffentlichen Regionen verwenden. Wenn Sie eine Mindestabnahme für die Standardspracherkennung erwerben, werden die Ausgaben für die Aussprachebewertung auf die Erfüllung der Mindestabnahme angerechnet. Weitere Informationen unter Preise für Mindestabnahme.

Release von Februar 2023

Aussprachebewertung

Die Aussprachebewertung von Speech unterstützt jetzt fünf weitere Sprachen: Englisch (Vereinigtes Königreich), Englisch (Australien), Französisch (Frankreich), Spanisch (Spanien) und Chinesisch (Mandarin, vereinfacht) sind allgemein verfügbar, weitere Sprachen als Vorschau.
Es wurde Beispielcode hinzugefügt, der die Verwendung der Aussprachebewertung im Streamingmodus in Ihrer eigenen Anwendung veranschaulicht.
- C#: Siehe Beispielcode.
- C++: Siehe Beispielcode.
- Java: Siehe Beispielcode.
- JavaScript: Siehe Beispielcode.
- Objective-C: Siehe Beispielcode.
- Python: Siehe Beispielcode.
- Swift: Siehe Beispielcode.

Custom Speech

Unterstützung für Audio und von Menschen bezeichnete Transkripte wird für die Gebietsschemas de-AT hinzugefügt.

Release vom Januar 2023

Custom Speech

Unterstützung für Audio und von Menschen bezeichnete Transkripte wird für zusätzliche Gebietsschemas hinzugefügt: ar-BH, ar-DZ, ar-EG, ar-MA, ar-SA, ar-TN, ar-YE und ja-JP.

Unterstützung für die Anpassung von strukturiertem Text wird für das Gebietsschema de-AT hinzugefügt.

Release von Dezember 2022

Spracherkennungs-REST-API

Die Spracherkennungs-REST-API, Version 3.1, ist allgemein verfügbar. Version 3.0 der Spracherkennungs-REST-API wird eingestellt. Weitere Informationen zur Migration finden Sie im Leitfaden.

Release von Oktober 2022

Neues Gebietsschema für die Spracherkennung

Unterstützung für Malayalam (Indien) mit Gebietsschema ml-IN hinzugefügt. Eine vollständige Liste der Sprachen finden Sie hier.

Release von Juli 2022

Neue Gebietsschemata für die Spracherkennung:

Es wurden 7 neue Gebietsschemas hinzugefügt, wie in der folgenden Tabelle dargestellt. Eine vollständige Liste der Sprachen finden Sie hier.

Gebietsschema	Sprache
`bs-BA`	Bosnien (Bosnien und Herzegowina)
`yue-CN`	Chinesisch (Kantonesisch, vereinfacht)
`zh-CN-sichuan`	Chinesisch (Mandarin, Südwesten; vereinfacht)
`wuu-CN`	Chinesisch (Wu, vereinfacht)
`ps-AF`	Paschtu (Afghanistan)
`so-SO`	Somali (Somalia)
`cy-GB`	Walisisch (Großbritannien)

Release von Juni 2022

Neue Gebietsschemata für die Spracherkennung:

Es wurden 10 neue Gebietsschemas hinzugefügt, wie in der folgenden Tabelle dargestellt. Eine vollständige Liste der Sprachen finden Sie hier.

Gebietsschema	Sprache
`sq-AL`	Albanisch (Albanien)
`hy-AM`	Armenisch (Armenien)
`az-AZ`	Aserbaidschanisch (Aserbaidschan)
`eu-ES`	Baskisch
`gl-ES`	Galicisch
`ka-GE`	Georgisch (Georgien)
`it-CH`	Italienisch (Schweiz)
`kk-KZ`	Kasachisch (Kasachstan)
`mn-MN`	Mongolisch (Mongolei)
`ne-NP`	Nepalesisch (Nepal)

Release von April 2022

Neue Gebietsschemata für die Spracherkennung:

Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.

Gebietsschema	Sprache
`bn-IN`	Bangla (Indien)

Release von Januar 2022

Neue Gebietsschemata für die Spracherkennung:

Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.

Gebietsschema	Sprache
`af-ZA`	Afrikaans (Südafrika)
`am-ET`	Amharisch (Äthiopien)
`de-CH`	Deutsch (Schweiz)
`fr-BE`	Französisch (Belgien)
`is-IS`	Isländisch (Island)
`jv-ID`	Javanesisch (Indonesien)
`km-KH`	Khmer (Kambodscha)
`kn-IN`	Kannada (Indien)
`lo-LA`	Laotisch (Laos)
`mk-MK`	Mazedonisch (Nordmazedonien)
`my-MM`	Birmanisch (Myanmar)
`nl-BE`	Niederländisch (Belgien)
`si-LK`	Singhalesisch (Sri Lanka)
`sr-RS`	Serbisch (Serbien)
`sw-TZ`	Suaheli (Tansania)
`uk-UA`	Ukrainisch (Ukraine)
`uz-UZ`	Usbekisch (Usbekistan)
`zu-ZA`	Zulu (Südafrika)

Release von Juli 2021

Neue Gebietsschemata für die Spracherkennung:

Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.

Gebietsschema	Sprache
`ar-DZ`	Arabisch (Algerien)
`ar-LY`	Arabisch (Libyen)
`ar-MA`	Arabisch (Marokko)
`ar-TN`	Arabisch (Tunesien)
`ar-YE`	Arabisch (Jemen)
`bg-BG`	Bulgarisch (Bulgarien)
`el-GR`	Griechisch (Griechenland)
`et-EE`	Estnisch (Estland)
`fa-IR`	Persisch (Iran)
`ga-IE`	Irisch (Irland)
`hr-HR`	Kroatisch (Kroatien)
`lt-LT`	Litauisch (Litauen)
`lv-LV`	Lettisch (Lettland)
`mt-MT`	Maltesisch (Malta)
`ro-RO`	Rumänisch (Rumänien)
`sk-SK`	Slowakisch (Slowakei)
`sl-SI`	Slowenisch (Slowenien)
`sw-KE`	Suaheli (Kenia)

Release von Januar 2021

Neue Gebietsschemata für die Spracherkennung:

Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.

Gebietsschema	Sprache
`ar-AE`	Arabisch (Vereinigte Arabische Emirate)
`ar-IL`	Arabisch (Israel)
`ar-IQ`	Arabisch (Irak)
`ar-OM`	Arabisch (Oman)
`ar-PS`	Arabisch (Palästinensische Autonomiebehörde)
`de-AT`	Deutsch (Österreich)
`en-GH`	Englisch (Ghana)
`en-KE`	Englisch (Kenia)
`en-NG`	Englisch (Nigeria)
`en-TZ`	Englisch (Tansania)
`es-GQ`	Spanisch (Äquatorialguinea)
`fil-PH`	Philippinisch (Philippinen)
`fr-CH`	Französisch (Schweiz)
`he-IL`	Hebräisch (Israel)
`id-ID`	Indonesisch (Indonesien)
`ms-MY`	Malaiisch (Malaysia)
`vi-VN`	Vietnamesisch (Vietnam)

Release von August 2020

Neue Gebietsschemata für die Spracherkennung:

Im August wurden 26 neue Gebietsschemata für die Spracherkennung veröffentlicht: 2 europäische Sprachen (cs-CZ und hu-HU), 5 englische Gebietsschemata und 19 spanische Gebietsschemata, die die meisten Regionen/Länder in Südamerika abdecken. Im Folgenden finden Sie eine Liste der neuen Gebietsschemas. Eine vollständige Liste der Sprachen finden Sie hier.

Gebietsschema	Sprache
`cs-CZ`	Tschechisch (Tschechische Republik)
`en-HK`	Englisch (Hongkong Sonderverwaltungsregion)
`en-IE`	Englisch (Irland)
`en-PH`	Englisch (Philippinen)
`en-SG`	Englisch (Singapur)
`en-ZA`	Englisch (Südafrika)
`es-AR`	Spanisch (Argentinien)
`es-BO`	Spanisch (Bolivien)
`es-CL`	Spanisch (Chile)
`es-CO`	Spanisch (Kolumbien)
`es-CR`	Spanisch (Costa Rica)
`es-CU`	Spanisch (Kuba)
`es-DO`	Spanisch (Dominikanische Republik)
`es-EC`	Spanisch (Ecuador)
`es-GT`	Spanisch (Guatemala)
`es-HN`	Spanisch (Honduras)
`es-NI`	Spanisch (Nicaragua)
`es-PA`	Spanisch (Panama)
`es-PE`	Spanisch (Peru)
`es-PR`	Spanisch (Puerto Rico)
`es-PY`	Spanisch (Paraguay)
`es-SV`	Spanisch (El Salvador)
`es-US`	Spanisch (USA)
`es-UY`	Spanisch (Uruguay)
`es-VE`	Spanisch (Venezuela)
`hu-HU`	Ungarisch (Ungarn)

Release vom Oktober 2024

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Speech-Sprachenerkennung 1.16.0
Neuronale Sprachsynthese 3.5.0
- en-us-ariacpuneural als Alias für en-us-jessacpuneural festgelegt
- Version der Back-End-Engine für die Sprachsynthese aktualisiert
Spracherkennung 4.10.0
- Unterstützung für Gebietsschema uk-UA wieder hinzugefügt
- Stilleeinstellungen für die Arbeit mit langen Pausen in Audiodaten korrigiert
- Veraltete Modelle ersetzt: cs-CZ, da-DK, en-GB, fr-CA, hu-HU, it-CH, tr-TR, zh-CN-sichuan
Benutzerdefinierte Spracherkennung 4.10.0

Release von September 2024

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Speech-Sprachenerkennung 1.15.0
- Entschärfen von Sicherheitsrisiken
Neuronale Sprachsynthese 3.4.0
- Neue Stimmen: en-us-andrewmultilingualneural, en-us-jessaneural, es-us-alonsoneural, es-us-palomaneural, it-it-isabellamultilingualneural
- Entschärfen von Sicherheitsrisiken
Spracherkennung 4.9.0
- Neue Gebietsschemas: ar-YE, af-ZA, am-ET, ar-MA, ar-TN, sw-KE, sw-TZ, zu-ZA
- Entschärfen von Sicherheitsrisiken
- Update für veraltete Modelle
Benutzerdefinierte Spracherkennung 4.9.0
- Entschärfen von Sicherheitsrisiken

Release von August 2024

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Speech-Sprachenerkennung 1.14.0
- Upgrade für .NET 8.0
- Entschärfen von Sicherheitsrisiken
Neuronale Sprachsynthese 3.3.0
- Upgrade für .NET 8.0
- Entschärfen von Sicherheitsrisiken
Spracherkennung 4.8.0
- Upgrade für .NET 8.0
- Entschärfen von Sicherheitsrisiken
- Upgrade für Erkennungs-Engine
- Behebung des Problems, dass PropertyId.Speech_SegmentationSilenceTimeoutMs ignoriert wurde
- Update für veraltete Modelle
- Entfernung des Gebietsschemas uk-UA

Release von Februar 2024

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 4.6.0
Spracherkennung 4.6.0
Neuronale Sprachsynthese 3.1.0

Aktualisieren Sie die Spracherkennungskomponenten auf den neuesten Stand. Aktualisieren Sie alle es-Gebietsschemamodelle auf den neuesten Stand. Erhöhen Sie den Medientransformationspuffer für Anwendungsfälle der Spracherkennung.

Release November 2023

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 4.5.0
Spracherkennung 4.5.0
Neuronale Sprachsynthese 2.19.0

Version vom Oktober 2023

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 4.4.0
Spracherkennung 4.4.0
Neuronale Sprachsynthese 2.18.0

Eine Reihe von Sicherheitsrisiken mit hohem Risiko wurden behoben.

Redundante Protokolle wurden aus Containern entfernt.

De interne Medienkomponente wurde auf die neueste Version aktualisiert.

Fügen Sie Support für Spracheen-IN-NeerjaNeural hinzu.

Release im September 2023

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Speech-Sprachenerkennung 1.12.0
Benutzerdefinierte Spracherkennung 4.3.0
Spracherkennung 4.3.0
Neuronale Sprachsynthese 2.17.0

Führen Sie ein Upgrade der benutzerdefinierten Spracherkennung und der Spracherkennung auf das neueste Framework durch.

Sicherheitsrisikoprobleme wurden behoben.

Fügen Sie Support für Sprachear-AE-FatimaNeural hinzu.

Release von Juli 2023

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 4.1.0
Spracherkennung 4.1.0
Neuronale Sprachsynthese 2.15.0

Das Problem der Ausführung des Spracherkennungscontainers über docker-Bereitstellungsoptionen mit lokalen benutzerdefinierten Modelldateien wurde behoben.

Das Problem, bei dem das RECOGNIZING-Ereignis in einigen Fällen nicht als Antwort über das Speech SDK angezeigt wird, wurde behoben.

Sicherheitsrisikoprobleme wurden behoben.

Release von Juni 2023

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 4.0.0
Spracherkennung 4.0.0
Neuronale Sprachsynthese 2.14.0

Für lokale Bilder für die Spracherkennung wurde ein Upgrade auf .NET 6.0 durchgeführt.

Für Anzeigemodelle für Gebietsschemas wie en-us, ar-eg, ar-bh, ja-jp und ko-kr wurde ein Upgrade durchgeführt.

Aktualisieren Sie die Containerkomponente für die Spracherkennung, um Sicherheitslücken zu schließen.

Hinzufügen von Unterstützung für lokale Stimmen de-DE-AmalaNeural, de-AT-IngridNeural, de-AT-JonasNeural und en-US-JennyMultilingualNeural

Mai 2023 Release

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 3.14.0
Spracherkennung 3.14.0
Neuronale Sprachsynthese 2.13.0

Beheben des Interpunktionsproblems he-IL

Beheben von Sicherheitsrisikoproblemen

Hinzufügen der neuen Gebietsschema-Stimmen en-US-MichelleNeural und es-MX-CandelaNeural

Release von April 2023

Sicherheitsupdates

Beheben von Sicherheitsrisikoproblemen

Release vom März 2023

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 3.12.0
Spracherkennung 3.12.0
Speech-Sprachenerkennung 1.11.0
Neuronale Sprachsynthese 2.11.0

Beheben von Sicherheitsrisikoproblemen

Beheben des Problems mit der tr-TR-Groß-/Kleinschreibung

Upgrade der Anzeigemodelle für die Spracherkennung (en-US)

Unterstützung für vordefinierte neuronale Sprachsynthese für das Gebietsschema ar-AE-HamdanNeural hinzugefügt

Release von Februar 2023

Neue Containerversionen

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 3.11.0
Spracherkennung 3.11.0
Neuronale Sprachsynthese 2.10.0

Beheben von Sicherheitsrisikoproblemen

Regelmäßiges Upgrade für Sprachmodelle

Fügen Sie neue arabische Gebietsschemas hinzu:

ar-IL
ar-PS

Aktualisieren von hebräischen und türkischen Anzeigemodellen

Release von Januar 2023

Neue Containerversionen

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 3.10.0
Spracherkennung 3.10.0
Neuronale Sprachsynthese 2.9.0

Problem mit Hypothesenmodus behoben

Problem mit HTTP-Proxy behoben

Getrennter Modus für den benutzerdefinierten Spracherkennungs-Container

Unterstützung für nicht verbundene CNV-Container zu TTS-Front-End hinzugefügt

Unterstützung für folgende Gebietsschemastimmen hinzugefügt:

da-DK-ChristelNeural
da-DK-JeppeNeural
en-IN-PrabhatNeural

Release von Dezember 2022

Neue Containerversionen

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 3.9.0
Spracherkennung 3.9.0
Neuronale Sprachsynthese 2.8.0

Beheben eines ipv4/ipv6-Problems

Beheben eines Sicherheitsrisikoproblems

Release von November 2022

Neue Containerversionen

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 3.8.0
Spracherkennung 3.8.0
Neuronale Sprachsynthese 2.7.0

Release vom Oktober 2022

Neue Containerversionen

Hinzugefügte Unterstützung für die neuesten Modellversionen:

Benutzerdefinierte Spracherkennung 3.7.0
Spracherkennung 3.7.0
Neuronale Sprachsynthese 2.6.0

Release vom September 2022

Spracherkennung 3.6.0-amd64

Hinzugefügte Unterstützung für die neuesten Modellversionen.

Hinzugefügte Unterstützung für diese Gebietsschemas:

az-AZ
bn-IN
bs-BA
cy-GB
eu-ES
fa-IR
gl-ES
he-il
hy-AM
it-CH
ka-GE
kk-KZ
mk-MK
mn-MN
ne-NP
ps-AF
so-SO
sq-AL
wuu-CN
yue-CN
zh-CN-Sichuan

Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.

Benutzerdefinierte Spracherkennung 3.6.0-amd64

Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.

Neuronale Sprachsynthese 2.5.0

Hinzugefügte Unterstützung für diese vordefinierten neuronalen Stimmen:

az-az-babekneural
az-az-banuneural
fa-ir-dilaraneural
fa-ir-faridneural
fil-ph-angeloneural
fil-ph-blessicaneural
he-il-avrineural
he-il-hilaneural
id-id-ardineural
id-id-gadisneural
ka-ge-ekaneural
ka-ge-giorgineural

Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.

Release von Mai 2022

Container für Speech-Spracherkennung v1.9.0-amd64-preview

Fehlerkorrekturen für die Speech-Spracherkennung.

Release von März 2022

Benutzerdefinierter Spracherkennungs-Container v3.1.0

Unterstützung für das Abrufen von Anzeigemodellen hinzugefügt.

Release von Januar 2022

Spracherkennungs-Container v3.0.0

Hinzugefügte Unterstützung für die Verwendung von Containern in nicht verbundenen Umgebungen.

Spracherkennungs-Container v2.18.0

Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.

Neuronal-neuronaler Sprachsynthese-Container v1.12.0

Hinzugefügte Unterstützung für diese vordefinierten neuronalen Stimmen: am-et-amehaneural, am-et-mekdesneural, so-so-muuseneural und so-so-ubaxneural.

Regelmäßige monatliche Updates, einschließlich Sicherheitsupgrades und Fehlerbehebungen für Sicherheitsrisiken.

Freigeben über

Neuigkeiten in Azure KI Speech

Aktuelle Highlights

Versionshinweise

Speech SDK 1.42.0: Release von Dezember 2024

Neue Funktionen

Fehlerkorrekturen

Beispiele

Release November 2024

Azure KI Speech-Toolkit-Erweiterung für Visual Studio Code

Codebeispiele für Sprachsynthese-Avatare

Speech SDK 1.41.1: Release vom Oktober 2024

Neue Funktionen

Fehlerkorrekturen

Aktuelle Änderungen

Speech-SDK 1.40: Release 2024-August

Neue Funktionen

Fehlerkorrekturen

Beispiele

Speech-SDK 1.38.0: Release von Juni 2024

Neue Funktionen

Fehlerkorrekturen

Beispiele

Speech SDK 1.37.0: Release von April 2024

Neue Funktionen

Fehlerkorrekturen

Beispiele

Speech SDK 1.36.0: Release von März 2024

Neue Funktionen

Fehlerkorrekturen

Beispiele

Speech SDK 1.35.0: Version von Februar 2024

Neue Funktionen

Fehlerkorrekturen

Beispiele

Speech SDK 1.34.1: Release von Januar 2024

Wichtige Änderungen

Neue Funktionen

Fehlerkorrekturen

Speech-SDK 1.34.0: Release von November 2023

Wichtige Änderungen

Neue Funktionen

Fehlerkorrekturen

Beispiele

Speech-CLI 1.34.0: Release vom November 2023

Neue Funktionen

Fehlerkorrekturen

Speech SDK 1.33.0: Release vom Oktober 2023

Hinweis zu Breaking Change

Neue Funktionen

Fehlerkorrekturen

Beispiele

Speech CLI 1.33.0: Release vom Oktober 2023

Neue Funktionen

Fehlerkorrekturen

Speech SDK 1.32.1: Release im September 2023

Fehlerkorrekturen

Beispiele

Speech SDK 1.31.0: Release von August 2023

Neue Funktionen

Aktuelle Änderungen

Fehlerkorrekturen

Beispiele

Speech SDK 1.30.0: Release von Juli 2023

Neue Funktionen

Fehlerkorrekturen

Weitere Hinweise

Beispiele

Speech SDK 1.29.0: Release im Juni 2023

Neue Funktionen

Behebung von Programmfehlern

Beispiele

Speech SDK 1.28.0: Release von Mai 2023

Unterbrechende Änderung

Neue Funktionen

Behebung von Programmfehlern

Beispiele

Speech SDK 1.27.0: Release im April 2023

Benachrichtigung zur bevorstehenden Änderungen

Neue Funktionen