Neuigkeiten in Azure KI Speech
Azure KI Speech wird fortlaufend aktualisiert. Damit Sie bezüglich der aktuellen Entwicklungen auf dem neuesten Stand bleiben, bietet dieser Artikel Informationen zu neuen Releases und Funktionen.
Aktuelle Highlights
- Schnelle Transkription ist jetzt allgemein verfügbar. Sie kann Audioinhalte deutlich schneller transkribieren als diese tatsächlich dauern. Weitere Informationen finden Sie im Leitfaden zur API für schnelle Transkription.
- Die Erweiterung für das Azure KI Speech-Toolkit ist jetzt für Visual Studio Code-Benutzer verfügbar. Sie enthält eine Liste der Schnellstarts und Szenariobeispiele für Speech, die einfach mit wenigen Klicks erstellt und ausgeführt werden können. Weitere Informationen finden Sie unter Azure KI Speech-Toolkit im Visual Studio Code-Marketplace.
- Azure KI Speech-HD-Stimmen (High Definition) sind als öffentliche Vorschauversion verfügbar. Die HD-Stimmen können den Inhalt verstehen, automatisch Emotionen im Eingabetext erkennen und die Sprechweise in Echtzeit an die Stimmung anpassen. Weitere Informationen finden Sie unter Was sind HD-Stimmen (High-Definition) in Azure KI Speech?.
- Die Videoübersetzung ist jetzt im Azure KI Speech-Dienst verfügbar. Weitere Informationen finden Sie unter Was ist Videoübersetzung?.
- Der Azure KI Speech-Dienst unterstützt auch OpenAI-Stimmen für die Sprachsynthese. Weitere Informationen finden Sie unter Was sind OpenAI-Stimmen für die Sprachsynthese?
- Die benutzerdefinierte Stimme-API steht zum Erstellen und Verwalten professioneller und persönlicher benutzerdefinierter neuronaler Sprachmodelle zur Verfügung.
Versionshinweise
Auswählen eines Diensts oder einer Ressource
Release November 2024
Die Erweiterung für das Azure KI Speech-Toolkit ist jetzt für Visual Studio Code-Benutzer verfügbar. Sie enthält eine Liste der Schnellstarts und Szenariobeispiele für Speech, die einfach mit wenigen Klicks erstellt und ausgeführt werden können. Weitere Informationen finden Sie unter Azure KI Speech-Toolkit im Visual Studio Code-Marketplace.
Speech SDK 1.41.1: Release vom Oktober 2024
Neue Funktionen
- Unterstützung für Amazon Linux 2023 und Azure Linux 3.0 hinzugefügt
- Öffentliche Eigenschafts-ID „SpeechServiceConnection_ProxyHostBypass“ hinzugefügt, um Hosts anzugeben, für die kein Proxy verwendet wird
- Eigenschaften zum Steuern neuer Begriffssegmentierungsstrategien hinzugefügt
Fehlerkorrekturen
- Unvollständige Unterstützung für die Schlüsselworterkennung in Advanced-Modellen, die nach August 2024 erstellt wurden, korrigiert.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Beachten Sie, dass Ihr Projekt mit Swift unter iOS entweder „MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip“ (von https://aka.ms/csspeech/iosbinaryembedded) oder den MicrosoftCognitiveServicesSpeechEmbedded-iOS-Pod verwenden muss, der die Unterstützung für Advanced-Modelle umfasst.
- Arbeitsspeicherverlust in C# im Zusammenhang mit der Zeichenfolgennutzung behoben
- Dass in Objective-C und Swift SPXAutoDetectSourceLanguageResult nicht von SPXConversationTranscriptionResult abgerufen werden konnte, wurde behoben.
- Es wurde ein gelegentlicher Absturz behoben, wenn der Microsoft Audio Stack bei der Erkennung verwendet wird.
- Typenhinweise in Python korrigiert https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Der Fehler, dass bei Verwendung eines benutzerdefinierten Endpunkts die Liste der TTS-Stimmen nicht abgerufen werden kann, wurde behoben.
- Eingebettete TTS-Neuinitialisierung für jede Sprachanforderung wurde behoben, wenn die Stimme mit einem Kurznamen angegeben wird.
- Die API-Referenzdokumentation für die maximale Dauer von RecognizeOnce-Audiodaten wurde korrigiert.
- Ein Fehler bei der Behandlung arbiträrer Samplingraten in JavaScript wurde behoben.
- Vielen Dank an rseanhall für den Beitrag.
- Fehler beim Berechnen des Audiooffsets in JavaScript behoben
- Vielen Dank an motamed für den Beitrag.
Aktuelle Änderungen
- Die Unterstützung der Schlüsselworterkennung unter Windows ARM 32-Bit wurde entfernt, da sie ein ONNX-Runtime erfordert, die für diese Plattform nicht verfügbar ist.
Speech-SDK 1.40: Release 2024-August
Hinweis
Die Speech SDK-Version 1.39.0 war ein internes Release und fehlt nicht.
Neue Funktionen
- Unterstützung des Streamings
G.722
-komprimierter Audiodateien bei der Spracherkennung wurde hinzugefügt. - Unterstützung von Tonhöhe, Samplerate und Lautstärke im Eingabetextstreaming bei der Sprachsynthese wurde hinzugefügt.
- Unterstützung des Eingabetextstreamings mit persönlicher Stimme durch die Einführung von
PersonalVoiceSynthesisRequest
bei der Sprachsynthese wurde hinzugefügt. Diese API befindet sich in der Vorschauphase und kann in zukünftigen Versionen noch geändert werden. - Unterstützung für die Diarisierung von Zwischenergebnissen bei Verwendung von
ConversationTranscriber
wurde hinzugefügt. - CentOS/RHEL 7-Unterstützung wurde aufgrund von CentOS 7 EOL und dem Einstellen des RHEL 7-Wartungssupport 2 entfernt.
- Die Verwendung eingebetteter Sprachmodelle erfordert jetzt eine Modelllizenz anstelle eines Modellschlüssels. Wenn Sie ein bestehender Kunde des eingebetteten Speech-Diensts sind und ein Upgrade durchführen möchten, wenden Sie sich an Ihren Supportmitarbeiter bei Microsoft, um Details zu Modellupdates zu erhalten.
Fehlerkorrekturen
- Speech-SDK-Binärdateien wurden mit dem Flag „_DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR“ als Minderung des Runtimefehlers Zugriffsverletzung mit std::mutex::lock nach Upgrade auf VS 2022 Version 17.10.0 – Developer Community (visualstudio.com) in Visual C++ für Windows erstellt. Windows C++-Anwendungen, die das Speech SDK verwenden, müssen möglicherweise das gleiche Buildkonfigurationsflag anwenden, wenn ihr Code std::mutex verwendet. Weitere Details finden Sie im verlinkten Problemartikel.
- Korrigiert: Die OpenSSL 3.x-Erkennung funktioniert nicht unter Linux ARM64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- Das Problem das dazu führte, dass beim Bereitstellen einer UWP-App die Bibliotheken und das Modell aus dem MAS NuGet-Paket nicht an den Bereitstellungsort kopiert wurden, wurde behoben.
- Ein Inhaltsanbieterkonflikt in Android-Paketen (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463) wurde behoben.
- Korrigiert: Die Optionen für die Nachverarbeitung werden nicht auf Zwischenergebnisse der Spracherkennung angewendet.
- Eine .NET 8-Warnung zu verteilungsspezifischen Runtimebezeichnern (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244) wurde behoben.
Beispiele
- Eingebettete Sprachbeispiele wurden aktualisiert, um anstelle eines Schlüssels eine Modelllizenz zu verwenden.
Speech-SDK 1.38.0: Release von Juni 2024
Neue Funktionen
- Linux-Plattformanforderungen für das Speech-SKD-Upgrade:
- Die neue Mindestbaseline ist Ubuntu 20.04 LTS oder eine Version, die mit
glibc
2.31 (oder höher) kompatibel ist. - Binärdateien für Linux x86 werden nach Ubuntu 20.04-Plattformsupport entfernt.
- Beachten Sie, dass RHEL/CentOS 7 noch bis zum 30. Juni unterstützt wird (Ende von CentOS 7 und Ende von RHEL 7-Wartungssupport 2). Binärdateien für diese werden im Release Speech-SDK 1.39.0 entfernt.
- Die neue Mindestbaseline ist Ubuntu 20.04 LTS oder eine Version, die mit
- Hinzufügen von Support für OpenSSL 3 unter Linux.
- Hinzufügen von Support für das Audioausgabeformat g722-16khz-64kbps mit Sprachsynthesizer.
- Hinzufügen von Support für das Senden von Nachrichten über ein Verbindungsobjekt mit Sprachsynthesizer.
- Hinzufügen von Start/StopKeywordRecognition-APIs in Objective-C und Swift.
- Hinzufügen einer API zum Auswählen einer benutzerdefinierten Übersetzungsmodellkategorie.
- Aktualisieren der GStreamer-Nutzung mit Sprachsynthesizer.
Fehlerkorrekturen
- Der Fehler „Websocket-Nachrichtengröße darf 65.536 Bytes nicht überschreiten“ während „Start/StopKeywordRecognition“ wurde behoben.
- Beheben eines Python-Segmentierungsfehlers während der Sprachsynthese.
Beispiele
- Aktualisieren der C#-Beispiele, um .NET 6.0 standardmäßig zu verwenden.
Speech SDK 1.37.0: Release von April 2024
Neue Funktionen
- Unterstützung für das Streaming von Eingabetext in der Sprachsynthese wurde hinzugefügt.
- Die Standardstimme für die Sprachsynthese wurde auf „en-US-AvaMultilingualNeural“ geändert.
- Android-Builds wurden für die Verwendung von OpenSSL 3.x. aktualisiert.
Fehlerkorrekturen
- Gelegentliche JVM-Abstürze während SpeechRecognizer Dispose bei Verwendung von MAS wurden behoben. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Verbesserung der Erkennung von Standardaudiogeräten unter Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Beispiele
- Updates für neue Features.
Speech SDK 1.36.0: Release von März 2024
Neue Funktionen
- Support für die Sprachidentifikation bei mehrsprachiger Übersetzung auf v2-Endpunkten mithilfe von AutoDetectSourceLanguageConfig::FromOpenRange().
Fehlerkorrekturen
Das Ereignis SynthesisCanceled wird nicht ausgelöst, wenn der Stopp während des Ereignisses SynthesisStarted aufgerufen wird.
Behebung eines Rauschproblems in der eingebetteten Sprachsynthese.
Behebung eines Absturzes bei der eingebetteten Spracherkennung, wenn mehrere Erkennungsmodule parallel ausgeführt werden.
Behebung der Einstellung für den Begriffserkennungsmodus in v1/v2-Endpunkten.
Behebung verschiedener Probleme mit Microsoft Audio Stack.
Beispiele
- Updates für neue Features.
Speech SDK 1.35.0: Version von Februar 2024
Neue Funktionen
- Ändern Sie die Standardstimme der Sprachsynthese von „en-US-JenniferMultilingualNeural“ zu „en-US-AvaNeural“.
- Unterstützen Sie Details auf Wortebene in eingebetteten Sprachübersetzungsergebnissen mithilfe des detaillierten Ausgabeformats.
Fehlerkorrekturen
- Beheben Sie die Getter-API für AudioDataStream-Position in Python.
- Beheben Sie die Sprachübersetzung mithilfe von v2-Endpunkten ohne Spracherkennung.
- Beheben Sie einen zufälligen Absturz und doppelte Wortgrenzenereignisse in eingebetteter Sprachsynthese.
- Geben Sie einen korrekten Abbruchfehlercode für einen internen Serverfehler für WebSocket-Verbindungen zurück.
- Beheben Sie den Fehler beim Laden der „FPIEProcessor.dll“-Bibliothek, wenn MAS mit C# verwendet wird.
Beispiele
- Kleinere Formatierungsupdates für eingebettete Anerkennungsbeispiele.
Speech SDK 1.34.1: Release von Januar 2024
Wichtige Änderungen
- Nur Fehlerkorrekturen
Neue Funktionen
- Nur Fehlerkorrekturen
Fehlerkorrekturen
- Behebung der in 1.34.0 eingeführten Regression, bei der die URL des Dienstendpunkts mit fehlerhaften Gebietsschemainformationen für Benutzer*innen in mehreren Regionen In China erstellt wurde.
Speech-SDK 1.34.0: Release von November 2023
Wichtige Änderungen
SpeechRecognizer
wurde aktualisiert, um standardmäßig (bei fehlender expliziter URL-Angabe) einen neuen Endpunkt zu verwenden, der für die meisten Eigenschaften keine Abfragezeichenfolgenparameter mehr unterstützt. Anstatt Abfragezeichenfolgenparameter direkt mit ServicePropertyChannel.UriQueryParameter festzulegen, verwenden Sie bitte die entsprechenden API-Funktionen.
Neue Funktionen
- Kompatibilität mit .NET 8 (Fix für https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170, ausgenommen für Warnungen zu Centos7-x64)
- Unterstützung für eingebettete Sprachleistungsmetriken, die verwendet werden können, um die Funktionalität eines Geräts zum Ausführen eingebetteter Sprache auszuwerten.
- Unterstützung für die Quellsprachidentifikation in eingebetteter mehrsprachiger Übersetzung.
- Unterstützung für eingebettete Spracherkennung, Sprachsynthese und Übersetzung für iOS und Swift/Objective-C, die in der Vorschau veröffentlicht wurden.
- Eingebettete Unterstützung wird in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod bereitgestellt.
Fehlerkorrekturen
- Fix für iOS-SDK x2 mal binäres Größenwachstum · Issue # 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Das Problem „Zeitstempel auf Wortebene von Azure-Spracherkennungs-API kann nicht abgerufen werden“ wurde behoben. · Problem Nr. 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Fix für DialogServiceConnector-Zerstörungsphase, um Ereignisse ordnungsgemäß zu trennen. Dies verursachte gelegentlich Abstürze.
- Fix für die Ausnahme beim Erstellen eines Erkennungsmoduls, wenn MAS verwendet wird.
- FPIEProcessor.dll von Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-Paket für Windows UWP x64 und Arm64 hatte Abhängigkeit von VC-Runtimebibliotheken für natives C++. Das Problem wurde behoben, indem die Abhängigkeit auf die richtigen VC-Runtimebibliotheken (für UWP) aktualisiert wurde.
- Fix für [MAS] Wiederkehrende Aufrufe zur recognizeOnceAsync führen zu SPXERR_ALREADY_INITIALIZED bei Verwendung von MAS · Issue # 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Fix für Absturz der eingebetteten Spracherkennung beim Verwenden von Phrasenlisten.
Beispiele
- Eingebettete iOS-Beispiele für Spracherkennung, Sprachsynthese und Übersetzung.
Speech-CLI 1.34.0: Release vom November 2023
Neue Funktionen
- Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.
Fehlerkorrekturen
- Aktualisierte JMESPath-Abhängigkeit zum neuesten Release, verbessert Zeichenfolgeauswertungen
Speech SDK 1.33.0: Release vom Oktober 2023
Hinweis zu Breaking Change
- Das neue NuGet-Paket, das für Microsoft Audio Stack (MAS) hinzugefügt wurde, muss jetzt von Anwendungen eingeschlossen werden, die MAS in ihren Paketkonfigurationsdateien verwenden.
Neue Funktionen
- Das neue NuGet-Paket „Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg“ wurde hinzugefügt. Es bietet eine verbesserte Echounterdrückungsleistung bei Verwendung von Microsoft Audio Stack.
- Aussprachebewertung: Unterstützung für die Prosodie- und Inhaltsbewertung hinzugefügt, die die gesprochene Sprache in Bezug auf Prosodie, Vokabular, Grammatik und Thema bewerten kann.
Fehlerkorrekturen
- Korrektur der Offsets der Schlüsselworterkennungsergebnisse, so dass sie nun von Anfang an korrekt mit dem eingegebenen Audiostrom übereinstimmen. Der Fix gilt sowohl für die eigenständige Schlüsselworterkennung als auch für die Spracherkennung mit Schlüsselwortauslöser.
- Korrigiert: Synthesizer stopSpeaking gibt nicht sofort Die Methode SPXSpeechSynthesizer stopSpeaking() kann unter iOS 17 nicht sofort zurückgeben – Problem Nr. 2081 zurück.
- Es wurde ein Problem mit dem Import von Mac-Katalysatoren im Swift-Modul mit Apple Silicon behoben. Problem Nr. 1948
- JS: Das AudioWorkletNode-Modullasten verwendet jetzt eine vertrauenswürdige URL, wobei Fallback für CDN-Browser enthalten ist.
- JS: Verpackte Lib-Dateien zielen jetzt auf ES6 JS ab, und Support für ES5 JS wurde entfernt.
- JS: Zwischenereignisse für Übersetzungsszenarien, die auf den Endpunkt v2 abzielen, werden korrekt behandelt
- JS: Die Spracheigenschaft für TranslationRecognitionEventArgs ist jetzt auf translation.hypothesis-Ereignisse festgelegt.
- Sprachsynthese: Das SynthesisCompleted-Ereignis wird garantiert nach allen Metadatenereignissen ausgegeben, sodass es verwendet werden kann, um das Ende der Ereignisse anzugeben. Wie kann erkannt werden, wann Visemes vollständig empfangen werden? Problem Nr. 2093 Azure-Samples/cognitive-services-speech-sdk
Beispiele
- Beispiel hinzugefügt, um MULAW Streaming mit Python zu veranschaulichen
- Korrektur für Sprache-in-Text-NAudio-Beispiel
Speech CLI 1.33.0: Release vom Oktober 2023
Neue Funktionen
- Support für die Ausgabe von Wörterbegrenzungsereignissen beim Synthetisieren von Sprache.
Fehlerkorrekturen
- Keine
Speech SDK 1.32.1: Release im September 2023
Fehlerkorrekturen
- Updates für Android-Pakete mit den neuesten Sicherheitskorrekturen von OpenSSL 1.1.1v
- JS: WebWorkerLoadType-Eigenschaft hinzugefügt, um die Umgehung des Ladens der Daten-URL für Timeout-Worker zu ermöglichen
- JS: Beheben der Verbindungstrennung der Konversationsübersetzung nach 10 Minuten
- JS: Authentifizierungstoken für die Konversationsübersetzung wird jetzt an die Übersetzungsdienstverbindung weitergegeben
Beispiele
Speech SDK 1.31.0: Release von August 2023
Neue Funktionen
Unterstützung für Echtzeitdiarisierung ist mit dem Speech SDK 1.31.0 in der öffentlichen Vorschau verfügbar. Dieses Feature ist in den folgenden SDKs verfügbar: C#, C++, Java, JavaScript, Python und Objective-C/Swift.
Synchronisierte Wortgrenzen- und viseme-Ereignisse mit Audiowiedergabe für die Sprachsynthese
Aktuelle Änderungen
- Das frühere Szenario „Unterhaltungstranskription“ wird in „Besprechungstranskription“ umbenannt. Verwenden Sie beispielsweise
MeetingTranscriber
anstelle vonConversationTranscriber
undCreateMeetingAsync
anstelle vonCreateConversationAsync
. Obwohl sich die Namen von SDK-Objekten und -Methoden geändert haben, wird das Feature selbst durch die Umbenennung nicht geändert. Verwenden Sie Besprechungstranskriptionsobjekte für die Transkription von Besprechungen mit Benutzerprofilen und Stimmsignaturen. Weitere Informationen finden Sie unter Besprechungstranskription. Die Objekte und Methoden der „Konversationsübersetzung“ sind von diesen Änderungen nicht betroffen. Sie können dasConversationTranslator
-Objekt und die zugehörigen Methoden weiterhin für Besprechungsübersetzungsszenarien verwenden.
- Für die Echtzeitdiarisierung wird ein neues
ConversationTranscriber
-Objekt eingeführt. Das neue Objektmodell der Unterhaltungstranskription und die Aufrufmuster ähneln der kontinuierlichen Erkennung mit demSpeechRecognizer
-Objekt. Ein wichtiger Unterschied besteht darin, dass dasConversationTranscriber
-Objekt für die Verwendung in einem Unterhaltungsszenario konzipiert ist, in dem Sie mehrere Sprecher unterscheiden möchten (Diarisierung). Benutzerprofile und Stimmsignaturen sind nicht anwendbar. Weitere Informationen finden Sie im Schnellstart zur Echtzeitdiarisierung.
In dieser Tabelle werden die vorherigen und neuen Objektnamen für die Echtzeitdiarisierung und Besprechungstranskription angezeigt. Der Name des Szenarios befindet sich in der ersten Spalte, die vorherigen Objektnamen in der zweiten Spalte und die neuen Objektnamen in der dritten Spalte.
Name des Szenarios | Vorherige Objektnamen | Neue Objektnamen |
---|---|---|
Echtzeit-Diarisierung | Nicht zutreffend | ConversationTranscriber |
Besprechungstranskription | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1 Die Objekte Participant
, ParticipantChangedReason
und User
gelten sowohl für Besprechungstranskriptions- als auch für Besprechungsübersetzungsszenarien.
2 Das Objekt Meeting
ist neu und wird mit dem Objekt MeetingTranscriber
verwendet.
Fehlerkorrekturen
- Die unterstützte macOS-Mindestversion wurde korrigiert. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Fehler bei der Aussprachebewertung behoben:
- Das Problem mit der Phonem-Genauigkeit wurde behoben, so dass die Bewertungen jetzt nur noch das jeweilige falsch ausgesprochene Phonem wiedergeben. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Es wurde ein Problem behoben, bei dem das Feature „Aussprachebewertung“ völlig korrekte Aussprachen fälschlicherweise als fehlerhaft identifizierte, insbesondere in Situationen, in denen Wörter mehrere gültige Aussprachen haben konnten. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Beispiele
CSharp
JavaScript
Speech SDK 1.30.0: Release von Juli 2023
Neue Funktionen
- C++, C#, Java: Unterstützung für
DisplayWords
wurde im detaillierten Ergebnis der eingebetteten Spracherkennung hinzugefügt. - Objective-C/Swift: Unterstützung für das
ConnectionMessageReceived
-Ereignis wurde in Objective-C/Swift hinzugefügt. - Objective-C/Swift: Verbesserte Schlüsselworterkennungs-Modelle für iOS. Diese Änderung hat die Größe bestimmter Pakete erhöht, die iOS-Binärdateien enthalten (z. B. NuGet, XCFramework). Wir arbeiten daran, die Größe für zukünftige Releases zu reduzieren.
Fehlerkorrekturen
- Es wurde ein Speicherverlust bei der Verwendung der Spracherkennung mit PhraseListGrammar behoben, den ein Kunde meldete (GitHub-Problem).
- Ein Deadlock in der offenen Verbindungs-API für Sprachsynthese wurde behoben.
Weitere Hinweise
- Java: Einige intern verwendete
public
-Java-API-Methoden wurden im Paketinternal
,protected
oderprivate
geändert. Diese Änderung sollte sich nicht auf Entwickler auswirken, da Anwendungen diese Pakete wahrscheinlich nicht verwenden werden. Wird hier der Transparenz wegen erwähnt.
Beispiele
- Neue Beispiele zur Aussprachebewertung zum Angeben einer Lernsprache in Ihrer eigenen Anwendung
- C#: Siehe Beispielcode.
- C++: Siehe Beispielcode.
- JavaScript: Siehe Beispielcode.
- Objective-C: Siehe Beispielcode.
- Python: Siehe Beispielcode.
- Swift: Siehe Beispielcode.
Speech SDK 1.29.0: Release im Juni 2023
Neue Funktionen
- C++, C#, Java – Vorschau der APIs für eingebettete Sprachübersetzung Jetzt können Sie Sprachübersetzungen ohne Cloud-Verbindung durchführen!
- JavaScript – Kontinuierliche Spracherkennung (Continuous Language Identification, LID) jetzt für die Sprachübersetzung aktiviert.
- JavaScript – Communitybeitrag zum Hinzufügen einer Eigenschaft
LocaleName
zur KlasseVoiceInfo
. Vielen Dank an GitHub-Benutzer shivsarthak für den Pull Request. - C++, C#, Java: Für das Resampling der eingebetteten Sprachsyntheseausgabe mit einer Abtastrate von 16 kHz bis 48 kHz wurde Unterstützung hinzugefügt.
- Unterstützung für Gebietsschema
hi-IN
in der Absichtserkennung mit Simple Pattern Matcher hinzugefügt.
Behebung von Programmfehlern
- Ein Absturz, der durch eine Racebedingung in der Spracherkennung während der Objektzerstörung verursacht wurde, der in einigen unserer Android-Tests auftrat, wurde behoben.
- Mögliche Deadlocks in der Absichtserkennung mit Simple Pattern Matcher wurden behoben.
Beispiele
- Neue Beispiele für die eingebettete Sprachübersetzung
Speech SDK 1.28.0: Release von Mai 2023
Unterbrechende Änderung
- JavaScript SDK: Online Certificate Status Protocol (OCSP) wurde entfernt. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Ab Version 1.28 ist unser benutzerdefiniertes OCSP-Modul nicht mehr enthalten.
Neue Funktionen
- Die eingebettete Spracherkennung gibt nun
NoMatchReason::EndSilenceTimeout
zurück, wenn am Ende einer Äußerung ein Sprechpausen-Timeout auftritt. Dies entspricht dem Verhalten bei der Erkennung mithilfe des Echtzeit-Sprachdiensts. - JavaScript SDK: Legen Sie Eigenschaften unter
SpeechTranslationConfig
mithilfe vonPropertyId
-Enumerationswerten fest.
Behebung von Programmfehlern
- C# unter Windows: Beheben Sie potenzielle Racebedingungen/Deadlocks in der Windows-Audioerweiterung. In Szenarios, in denen der Audiorenderer schnell entfernt und die Synthesizer-Methode zum Beenden des Sprechens verwendet wird, wurde das zugrunde liegende Ereignis nicht durch Beenden zurückgesetzt. Dies konnte dazu führen, dass das Rendererobjekt nie entfernt wurde, während gleichzeitig eine globale Entfernungssperre bestand, die den .NET-GC-Thread angehalten hat.
Beispiele
- Ein eingebettetes Sprachbeispiel für MAUI wurde hinzugefügt.
- Das eingebettete Sprachbeispiel für Android Java wurde um Sprachsynthese erweitert.
Speech SDK 1.27.0: Release im April 2023
Benachrichtigung zur bevorstehenden Änderungen
- Wir planen, das Online Certificate Status Protocol (OCSP) im nächsten JavaScript SDK-Release zu entfernen. Dadurch können Clients Browser- und Knotenstandards für die Zertifikatverarbeitung besser erfüllen. Version 1.27 ist die letzte Version, die unser benutzerdefiniertes OCSP-Modul enthält.
Neue Funktionen
- JavaScript: Unterstützung für Mikrofoneingaben aus dem Browser mit Sprecheridentifikation und -überprüfung hinzugefügt.
- Eingebettete Spracherkennung: Supportupdate für die
PropertyId::Speech_SegmentationSilenceTimeoutMs
-Einstellung.
Behebung von Programmfehlern
- Allgemein: Zuverlässigkeitsupdates in der Dienstwiederverbindungslogik (alle Programmiersprachen außer JavaScript).
- Allgemein: Korrektur von Zeichenfolgenkonvertierungen, die zu Arbeitsspeicherverlust unter Windows führten (alle relevanten Programmiersprachen außer JavaScript).
- Eingebettete Spracherkennung: Absturz in der französischen Spracherkennung bei Verwendung bestimmter Grammatiklisteneinträge wurde behoben.
- Quellcodedokumentation: Korrekturen von Kommentaren in der SDK-Referenzdokumentation im Zusammenhang mit der Audioprotokollierung für den Dienst.
- Absichtserkennung: Korrektur von Musterabgleichsprioritäten im Zusammenhang mit Listenentitäten.
Beispiele
- Behandeln Sie Authentifizierungsfehler im C#-Beispiel für die Unterhaltungstranskription (CTS).
- Beispiel für streamingbasierte Aussprachebewertung für Python, JavaScript, Objective-C und Swift hinzugefügt.
Speech SDK 1.26.0: Release von März 2023
Aktuelle Änderungen
- Bitcode wurde in allen iOS-Zielen in folgenden Paketen deaktiviert: Cocoapod mit xcframework, NuGet (für Xamarin und MAUI) und Unity. Die Änderung wurde vorgenommen, da Apple die Bitcodeunterstützung ab Xcode 14 einstellt. Diese Änderung bedeutet auch, dass Sie möglicherweise eine Fehlermeldung mit dem Hinweis erhalten, dass das Framework keinen Bitcode enthält und eine Neuerstellung erforderlich ist, wenn Sie Xcode 13 verwenden oder den Bitcode für Ihre Anwendung mithilfe des Speech SDK explizit aktiviert haben. Stellen Sie zur Behebung dieses Problems sicher, dass Bitcode für Ihre Ziele deaktiviert ist.
- Das iOS-Mindestbereitstellungsziel wurde in diesem Release auf 11.0 aktualisiert, was bedeutet, dass armv7-Hardware nicht mehr unterstützt wird.
Neue Funktionen
- Die eingebettete Spracherkennung (auf dem Gerät) unterstützt jetzt sowohl Audio mit einer Abtastrate von 8 kHz als auch Audio mit einer Abtastrate von 16 kHz (16 Bit pro Sample, Mono-PCM).
- Die Sprachsynthese meldet jetzt Verbindungs-, Netzwerk- und Dienstwartezeiten im Ergebnis, um die End-to-End-Latenzoptimierung zu unterstützen.
- Neue Entscheidungsregeln für die Absichtserkennung mit einfachem Musterabgleich. Musterabgleiche mit mehr übereinstimmenden Zeichenbytes haben Vorrang vor Musterabgleichen mit weniger übereinstimmenden Zeichenbytes. Beispiel: Das Muster „Wählen Sie rechts oben {etwas} aus“ hat Vorrang vor „Wählen Sie {etwas} aus“.
Fehlerkorrekturen
- Sprachsynthese: Es wurde ein Fehler behoben, bei dem das Emoji in Wortgrenzenereignissen nicht korrekt ist.
- Schnellstart: Erkennen von Absichten mit Conversational Language Understanding:
- Absichten aus dem CLU-Orchestratorworkflow werden jetzt ordnungsgemäß angezeigt.
- Das JSON-Ergebnis ist jetzt über die Eigenschafts-ID
LanguageUnderstandingServiceResponse_JsonResult
verfügbar.
- Spracherkennung mit Schlüsselwortaktivierung: Korrektur für ca. 150 ms fehlende Audiodaten nach einer Schlüsselworterkennung.
- Korrektur für NuGet-iOS-MAUI-Releasebuild des Speech SDK – vom Kunden gemeldet (GitHub-Problem)
Beispiele
- Korrektur von Swift-iOS-Beispiel – vom Kunden gemeldet (GitHub-Problem)
Speech SDK 1.25.0: Release von Januar 2023
Aktuelle Änderungen
- Sprachenerkennungs-APIs (Vorschauversion) wurden vereinfacht. Wenn Sie ein Update auf Speech SDK 1.25 durchführen und eine Buildunterbrechung feststellen, besuchen Sie die Seite Sprachenerkennung, um mehr über die neue Eigenschaft
SpeechServiceConnection_LanguageIdMode
zu erfahren. Diese einzelne Eigenschaft ersetzt die beiden vorherigenSpeechServiceConnection_SingleLanguageIdPriority
undSpeechServiceConnection_ContinuousLanguageIdPriority
. Die Priorisierung zwischen geringer Latenz und hoher Genauigkeit ist nach den jüngsten Modellverbesserungen nicht mehr erforderlich. Jetzt müssen Sie nur auswählen, ob die anfängliche Sprachidentifikation oder die kontinuierliche Sprachidentifikation bei der kontinuierlichen Spracherkennung oder -übersetzung ausgeführt werden soll.
Neue Funktionen
- C#/C++/Java: Das SDK für eingebettete Sprache wird jetzt in der geschlossenen öffentlichen Vorschauversion veröffentlicht. Weitere Informationen finden Sie in der Dokumentation zu Eingebettete Sprache (Vorschau). Sie können jetzt die Spracherkennung und Sprachsynthese auf einem Gerät ausführen, auch wenn die Cloudkonnektivität unterbrochen oder nicht verfügbar ist. Unterstützt auf Android-, Linux-, macOS- und Windows-Plattformen
- C# MAUI: Unterstützung wurde für iOS- und Mac Catalyst-Ziele in Speech SDK NuGet hinzugefügt (Kundenproblem)
- Unity: Die Android x86_64-Architektur wurde zum Unity-Paket hinzugefügt (Kundenproblem)
- Go:
- Die Unterstützung für direktes Streaming von ALAW/MULAW wurde für die Spracherkennung hinzugefügt (Kundenproblem)
- Unterstützung wurde für PhraseListGrammar hinzugefügt. Vielen Dank an den GitHub-Benutzer czkoko für den Communitybeitrag!
- C#/C++: Die Absichtserkennung unterstützt jetzt Conversational Language Understanding-Modelle in C++ und C# mit Orchestrierung im Microsoft-Dienst.
Behebung von Programmfehlern
- Korrektur eines gelegentlichen Hängens in KeywordRecognizer beim Versuch, die Ausführung zu beenden
- Python:
- Korrektur für das Abrufen von Ergebnissen der Aussprachebewertung, wenn
PronunciationAssessmentGranularity.FullText
festgelegt ist (Kundenproblem) - Korrektur für die das Geschlecht betreffende Eigenschaft für männliche Stimmen, die nicht abgerufen werden, wenn Stimmen für die Sprachsynthese abgerufen werden
- Korrektur für das Abrufen von Ergebnissen der Aussprachebewertung, wenn
- JavaScript
- Korrektur für die Analyse einiger WAV-Dateien, die auf iOS-Geräten aufgezeichnet wurden (Kundenproblem)
- Das JS SDK führt die Erstellung jetzt ohne Verwendung von npm-force-resolution durch (Kundenproblem)
- Conversation Translator legt jetzt den Dienstendpunkt richtig fest, wenn eine speechConfig-Instanz verwendet wird, die mit SpeechConfig.fromEndpoint() erstellt wurde.
Beispiele
Beispiele zur Verwendung von eingebetteter Sprache hinzugefügt
Beispiel für die Spracherkennung für MAUI hinzugefügt
Weitere Informationen finden Sie unter Repository für Speech SDK-Beispiele.
Speech SDK 1.24.2: Release von November 2022
Neue Funktionen
- Keine neuen Features, nur eine Korrektur an der eingebetteten Engine zur Unterstützung neuer Modelldateien.
Behebung von Programmfehlern
- Alle Programmiersprachen
- Es wurde ein Problem mit der Verschlüsselung eingebetteter Spracherkennungsmodelle behoben.
Speech SDK 1.24.1: Release von November 2022
Neue Funktionen
- Veröffentlichte Pakete für die Vorschau eingebetteter Sprache. Weitere Informationen finden Sie unter https://aka.ms/embedded-speech.
Behebung von Programmfehlern
- Alle Programmiersprachen
- Beheben des Absturzes der TTS-Einbettung bei nicht unterstütztem Voicefont
- Fehler behoben, der dazu führte, dass die Wiedergabe unter Linux mit stopSpeaking() nicht beendet werden konnte (#1686)
- JavaScript SDK
- Regression bei der Abgrenzung von Audio durch die Unterhaltungstranskription korrigiert
- Java
- Aktualisierte POM- und Javadocs-Dateien wurden vorübergehend in Maven Central veröffentlicht, um der Dokumentationspipeline das Aktualisieren von Onlinereferenzdokumenten zu ermöglichen.
- Python
- Regression korrigiert, bei der „speak_text(ssml)“ in Python „void“ zurückgab.
Speech SDK 1.24.0: Release vom Oktober 2022
Neue Funktionen
- Alle Programmiersprachen: AMR-WB (16 kHz) zur Liste der unterstützten Sprachsynthese-Audioausgabeformate hinzugefügt
- Python: Paket für Linux Arm64 für unterstützte Linux-Distributionen hinzugefügt.
- C#/C++/Java/Python: Unterstützung für direktes Streaming von ALAW zbd MULAW zum Sprachdienst (zusätzlich zum vorhandenen PCM-Stream) mit
AudioStreamWaveFormat
hinzugefügt - C# MAUI: NuGet-Paket aktualisiert, um Android-Ziele für .NET MAUI-Entwickler zu unterstützen (Kundenproblem)
- Mac: separates XCframework für Mac hinzugefügt, das keine iOS-Binärdateien enthält. Dies bietet eine Option für Entwickler, die nur Mac-Binärdateien mit einem kleineren XCframework-Paket benötigen.
- Microsoft Audio Stack (MAS):
- Wenn Beamforming-Winkel angegeben sind, wird Schall, der außerhalb des angegebenen Bereichs entsteht, besser unterdrückt.
- Etwa 70 % Reduzierung der Größe von
libMicrosoft.CognitiveServices.Speech.extension.mas.so
für Linux ARM32 und Linux Arm64.
- Musterabgleich der Absichtserkennung:
- Rechtschreibunterstützung für die Sprachen
fr
,de
,es
,jp
hinzugefügt - Vorgefertigte Integer-Unterstützung für Sprache
es
hinzugefügt.
- Rechtschreibunterstützung für die Sprachen
Fehlerkorrekturen
- iOS: Behebung des Sprachsynthesefehlers unter iOS 16, der durch einen Fehler bei der Dekodierung komprimierter Audiodaten verursacht wurde (Kundenproblem).
- JavaScript:
- Behebung eines nicht funktionierenden Authentifizierungstokens beim Abrufen einer Sprachsynthese-Sprachliste (Kundenproblem).
- Verwenden von Daten-URLs zum Laden von Workern (Kundenproblem).
- Erstellen eines Audioprozessor-Worklets nur, wenn AudioWorklet im Browser unterstützt wird (Kundenproblem). Dies war ein Communitybeitrag von William Wong. Vielen Dank, William!
- Beheben des erkannten Rückrufs, wenn LUIS-Antwort
connectionMessage
leer ist (Kundenproblem). - Korrektes Einstellen des Timeouts für die Sprachsegmentierung.
- Musterabgleich der Absichtserkennung:
- JSON-fremde Zeichen innerhalb von Modellen werden jetzt ordnungsgemäß geladen.
- Beheben eines Fehlers, wenn
recognizeOnceAsync(text)
während der kontinuierlichen Erkennung aufgerufen wurde.
Speech SDK 1.23.0: Release von Juli 2022
Neue Funktionen
- C#, C++, Java: Unterstützung für die Sprachen
zh-cn
undzh-hk
in der Absichtserkennung mit Musterabgleich hinzugefügt. - C#: Unterstützung für
AnyCPU
.NET Framework-Builds hinzugefügt
Behebung von Programmfehlern
- Android: Behobene OpenSSL-Sicherheitsrisiken CVE-2022-2068 durch Aktualisieren von OpenSSL auf 1.1.1q
- Python: Beheben des Absturzes beim Verwenden von PushAudioInputStream
- iOS: Beheben von „EXC_BAD_ACCESS: Versuch, Null-Zeiger zu dereferenzieren“, wie in iOS gemeldet (GitHub-Problem)
Speech SDK 1.22.0: Release von Juni 2022
Neue Funktionen
- Java: IntentRecognitionResult-API für getEntities(), applyLanguageModels() und recognizeOnceAsync(text) hinzugefügt, um die Engine für einfachen Musterabgleich zu unterstützen.
- Unity: Unterstützung für Mac M1 (Apple Silicon) für Unity-Paket hinzugefügt (GitHub Problem)
- C#: Unterstützung für x86_64 für Xamarin Android hinzugefügt (GitHub Problem)
- C#: .NET Framework-Mindestversion, die auf v4.6.2 für SDK C#-Paket aktualisiert wurde, als v4.6.1 wurde eingestellt (siehe Microsoft .NET Framework Component Lifecycle-Richtlinie)
- Linux: Unterstützung für Debian 11 und Ubuntu 22.04 LTS wurde hinzugefügt. Ubuntu 22.04 LTS erfordert die manuelle Installation von libssl1.1 entweder als Binärpaket von hier (z. B. libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb oder höher für x64), oder indem Sie aus Quellen kompilieren.
Behebung von Programmfehlern
- UWP: OpenSSL-Abhängigkeit aus UWP-Bibliotheken entfernt und durch WinRT Websocket und HTTP-APIs ersetzt, um die Sicherheitskonformität und kleinere binäre Größe zu erfüllen.
- Mac: Das Problem „MicrosoftCognitiveServicesSpeech-Module nicht gefunden“ wurde behoben, wenn Swift-Projekte für macOS-Plattform verwendet werden
- Windows, Mac: Es wurde ein plattformspezifisches Problem behoben, bei dem Audioquellen, die über Eigenschaften konfiguriert wurden, um eine Echtzeitrate zu streamen, manchmal zurückfällt und schließlich die Kapazität überschritten hat
Beispiele (GitHub)
- C#: .NET Framework-Beispiele, die aktualisiert wurden, um v4.6.2 zu verwenden
- Unity: Beispiel für virtuelle Assistenten, das für Android und UWP behoben wurde
- Unity: Unity-Beispiele, die für Unity 2020 LTS-Version aktualisiert wurden
Speech SDK 1.21.0: Release von April 2022
Neue Funktionen
- Java und JavaScript: Unterstützung für die fortlaufende Sprachenerkennung bei Verwendung des SpeechRecognizer-Objekts hinzugefügt
- JavaScript: Hinzugefügt: Diagnose-APIs zum Aktivieren der Konsolenprotokollierungsstufe und Dateiprotokollierung (nur auf Knotenebene), um Microsoft bei der Behandlung der von Kunden gemeldeten Probleme zu unterstützen.
- Python: Hinzugefügt: Unterstützung für Unterhaltungstranskription
- Go: Hinzugefügt: Unterstützung für Sprechererkennung
- C++ und C#: Unterstützung für eine erforderliche Gruppe von Wörtern in der Absichtserkennung (einfacher Musterabgleich) hinzugefügt. Beispiel: „Timer (festlegen|starten|beginnen)“, wo entweder „festlegen“, „starten“ oder „beginnen“ vorhanden sein muss, damit die Absicht erkannt wird.
- Alle Programmiersprachen, Sprachsynthese: Hinzugefügt: Eigenschaft „Dauer“ in Word-Begrenzungsereignissen. Hinzugefügt: Unterstützung für Interpunktationsgrenze und Satzgrenze
- Objective-C/Swift/Java: Hinzugefügt: Ergebnisse auf Wortebene für das Aussprachebewertungs-Ergebnisobjekt (ähnlich wie bei C#). Die Anwendung muss keine JSON-Ergebniszeichenfolge mehr analysieren, um Informationen auf Wortebene abzurufen (GitHub-Problem).
- iOS-Plattform: Hinzugefügt: Experimentelle Unterstützung für ARMv7-Architektur
Behebung von Programmfehlern
- iOS-Plattform: Fix zum Ermöglichen der Erstellung von Builds für das Ziel „Jedes iOS-Gerät“ bei Verwendung von Cocoapod (GitHub-Issue)
- Android-Plattform: Aktualisiert: Die OpenSSL-Version wurde auf 1.1.1n aktualisiert, um Sicherheitsrisiken zu beheben CVE-2022-0778
- JavaScript: Problem, bei dem der Wav-Header nicht mit der Dateigröße aktualisiert wurde, behoben (GitHub-Issue)
- JavaScript: Behoben: Synchronisierungsproblem bei der Anforderungs-ID, das zum Abbruch von Übersetzungsszenarien führte (GitHub-Problem)
- JavaScript: Behoben: Problem beim Instanziieren von SpeakerAudioDestination ohne Stream (GitHub-Problem]
- C++: Behoben: C+-Header zum Entfernen einer Warnung beim Kompilieren für C++17 oder höher
Beispiele GitHub
- Neue Java-Beispiele für die Spracherkennung mit Sprachbestimmung
- Neue Python- und Java-Beispiele für Unterhaltungstranskription
- Neues Go-Beispiel für die Sprechererkennung.
- Neues C++- und C#-Tool für Windows, das alle Audioaufnahme- und Rendergeräte aufzählt, um ihre Geräte-ID zu finden. Diese ID wird vom Speech SDK benötigt, wenn Sie Audio von einem nicht standardmäßigen Gerät erfassen oder darauf rendern möchten.
Speech SDK 1.20.0: Release von Januar 2022
Neue Funktionen
- Objective-C, Swift und Python: Unterstützung für DialogServiceConnector wurde hinzugefügt, die für Sprach-Assistenten-Szenarien verwendet wird.
- Python: Unterstützung für Python 3.10 wurde hinzugefügt. Die Unterstützung für Python 3.6 wurde entfernt, gemäß dem Ende der Lebensdauer von Python 3.6.
- Unity: Das Speech SDK wird jetzt für Unity-Anwendungen unter Linux unterstützt.
- C++, C#: IntentRecognizer mit Musterabgleich wird jetzt in C# unterstützt. Darüber hinaus werden jetzt Szenarien mit benutzerdefinierten Entitäten, optionalen Gruppen und Entitätsrollen in C++ und C# unterstützt.
- C++, C#: Verbesserte Protokollierung der Diagnoseablaufverfolgung mithilfe der neuen Klassen FileLogger, MemoryLogger und EventLogger. SDK-Protokolle sind ein wichtiges Tool für Microsoft, um von Kunden gemeldete Probleme zu diagnostizieren. Diese neuen Klassen erleichtern es Kunden, Speech SDK-Protokolle in ihr eigenes Protokollierungssystem zu integrieren.
- Alle Programmiersprachen: PronunciationAssessmentConfig verfügt jetzt über Eigenschaften zum Festlegen des gewünschten Phonemalphabets (IPA oder SAPI) und der N-besten Phonemanzahl (wodurch vermieden wird, eine JSON-Konfigurationsdatei erstellen zu müssen, gemäß GitHub Issue 1284). Außerdem wird jetzt die Ausgabe auf Silbenebene unterstützt.
- Android, iOS und macOS (alle Programmiersprachen): GStreamer wird nicht mehr benötigt, um Netzwerke mit begrenzter Bandbreite zu unterstützen. SpeechSynthesizer verwendet jetzt die Audiodecodierungsfunktionen des Betriebssystems, um komprimierte Audiodaten zu decodieren, die vom Sprachsynthese-Dienst gestreamt werden.
- Alle Programmiersprachen: SpeechSynthesizer unterstützt jetzt drei neue Opus-Rohausgabeformate (ohne Container), die häufig in Livestreamingszenarien verwendet werden.
- JavaScript: Die getVoicesAsync()-API wurde zu SpeechSynthesizer hinzugefügt, um die Liste der unterstützten Synthesestimmen abzurufen (GitHub Issue 1350).
- JavaScript: Die getWaveFormat()-API wurde zu AudioStreamFormat hinzugefügt, um Nicht-PCM-Wellenformate zu unterstützen (GitHub Issue 452)
- JavaScript: Lautstärke-Getter/-Setter- und mute()/unmute()-APIs wurden zu SpeakerAudioDestination hinzugefügt (GitHub Issue 463)
Behebung von Programmfehlern
- C++, C#, Java, JavaScript, Objective-C und Swift: Korrektur zum Entfernen einer Verzögerung von 10 Sekunden beim Beenden einer Spracherkennung, die einen PushAudioInputStream verwendet. Diese ist für den Fall gedacht, bei dem keine neue Audiodatei als Eingang übertragen wird, nachdem StopContinuousRecognition aufgerufen wurde (GitHub Issues 1318, 331).
- Unity unter Android und UWP: Unity-Metadateien wurden für UWP, Android Arm64 und das Windows-Subsystem für Android (WSA) Arm64 korrigiert (GitHub Issue 1360).
- iOS: Das Kompilieren Ihrer Speech SDK-Anwendung auf einem beliebigen iOS-Gerät bei Verwendung von CocoaPods ist jetzt korrigiert (GitHub Issue 1320).
- iOS: Wenn SpeechSynthesizer so konfiguriert ist, dass Audiodaten direkt an einen Lautsprecher ausgegeben werden, wurde in seltenen Fällen die Wiedergabe am Anfang angehalten. Dies wurde behoben.
- JavaScript: Verwendung des Fallbacks des Skriptprozessors für Mikrofoneingaben verwenden, wenn kein Audio-Worklet gefunden wird (GitHub Issue 455)
- JavaScript: Hinzufügen eines Protokolls zum Agent, um einen bei der Sentry-Integration gefundenen Fehler zu beheben (GitHub Issue 465)
Beispiele GitHub
- C++-, C#-, Python- und Java-Beispiele, die zeigen, wie Sie detaillierte Erkennungsergebnisse abrufen. Die Details umfassen alternative Erkennungsergebnisse, Zuverlässigkeitsbewertung, lexikalische Form, normalisierte Form, maskierte normalisierte Form mit jeweiligem Timing auf Wortebene.
- Ein iOS-Beispiel mit der Verwendung von AVFoundation als externe Audioquelle wurde hinzugefügt.
- Ein Java-Beispiel wurde hinzugefügt, um zu zeigen, wie Untertitel im SRT-Format (SubRip-Text) mithilfe des WordBoundary-Ereignisses abgerufen werden.
- Android-Beispiele für die Aussprachebewertung.
- C++- und C#-Beispiele, die die Verwendung der neuen Diagnoseprotokollierungsklassen zeigen.
Speech SDK 1.19.0: Release von November 2021
Highlights
Sprechererkennungsdienst ist jetzt allgemein verfügbar. Speech SDK-APIs sind unter C++, C#, Java und JavaScript verfügbar. Mit der Sprechererkennung können Sie Sprecher anhand ihrer einzigartigen Stimmmerkmale genau überprüfen und identifizieren. Weitere Informationen zu diesem Thema finden in der Dokumentation.
Wir haben die Unterstützung für Ubuntu 16.04 in Verbindung mit Azure DevOps und GitHub eingestellt. Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Migrieren Sie Ubuntu 16.04-Workflows zu mindestens Ubuntu 18.04.
OpenSSL-Verknüpfung in Linux-Binärdateien wurde in den dynamischen Modus geändert. Die Binärgröße von Linux wurde um etwa 50 % reduziert.
Mac M1 ARM-basierte Chipunterstützung wurde hinzugefügt.
Neue Funktionen
C++/C#/Java: Neue APIs wurden hinzugefügt, um die Audioverarbeitungsunterstützung für Spracheingaben mit Microsoft Audio Stack zu ermöglichen. Die Dokumentation finden Sie hier.
C++ : Neue APIs für die Absichtserkennung, um einen erweiterten Musterabgleich zu ermöglichen. Dies umfasst Listenentitäten und vordefinierte Ganzzahlentitäten sowie Unterstützung für die Gruppierung von Absichten und Entitäten als Modelle (Dokumentation, Updates und Beispiele befinden sich in der Entwicklung und werden in naher Zukunft veröffentlicht).
Mac:Unterstützung von Arm64 (M1)-basierter Hardware für CocoaPod, Python, Java und NuGet-Pakete im Zusammenhang mit GitHub-Issue 1244.
iOS/Mac:iOS- und macOS-Binärdateien sind jetzt in xcframework im Zusammenhang mit GitHub Issue 919 gepackt.
iOS/Mac: Unterstützung für Mac-Katalysator im Zusammenhang mit GitHub Issue 1171.
Linux: Neues tar-Paket für CentOS7 Informationen zum Speech SDKwurde hinzugefügt. Das TAR-Paket von Linux enthält nun spezifische Bibliotheken für RHEL/CentOS 7 in
lib/centos7-x64
. Speech SDK-Bibliotheken in lib/x64 gelten weiterhin für alle anderen unterstützten Linux x64-Distributionen (einschließlich RHEL/CentOS 8) und funktionieren nicht unter RHEL/CentOS 7.JavaScript: VoiceProfile- und SpeakerRecognizer-APIs wurden in async/awaitable geändert.
JavaScript: Unterstützung für Azure-Regionen der US-Regierung wurde hinzugefügt.
Windows: Unterstützung für die Wiedergabe auf UWP (Universal Windows Platform) wurde hinzugefügt.
Behebung von Programmfehlern
Android: OpenSSL-Sicherheitsupdate (aktualisiert auf Version 1.1.1l) für Android-Pakete.
Python: Fehler behoben, bei dem die Auswahl des Lautsprechergeräts in Python fehlschlägt.
Core: Automatisches Wiederherstellen der Verbindung, wenn ein Verbindungsversuch fehlschlägt.
iOS: Audiokomprimierung wurde für iOS-Pakete aufgrund von Instabilität und Bitcode-Buildproblemen bei Verwendung von GStreamer deaktiviert. Details sind GitHub Issue 1209 verfügbar.
Beispiele GitHub
Mac/iOS: Aktualisierte Beispiele und Schnellstarts zur Verwendung des xcframework-Pakets.
.NET: Beispiele für die Verwendung von .NET Core 3.1 wurden aktualisiert.
JavaScript: Beispiel für Sprach-Assistenten wurde hinzugefügt.
Speech SDK 1.18.0: Release von Juli 2021
Hinweis: Informationen zu den ersten Schritten mit dem Speech SDK finden Sie hier.
Zusammenfassung der Highlights
- Ubuntu 16.04 hat im April 2021 das Ende der Lebensdauer erreicht. Mit Azure DevOps und GitHub wird die Unterstützung für Version 16.04 im September 2021 eingestellt. Migrieren Sie Ubuntu 16.04-Workflows vorher mindestens zu Ubuntu 18.04.
Neue Funktionen
- C++ : Der einfache Sprachmusterabgleich mit Absichtserkennung vereinfacht jetzt die Implementierung einfacher Absichtserkennungsszenarien.
- C++/C#/Java: Wir haben der
VoiceProfileClient
-Klasse eine neue APIGetActivationPhrasesAsync()
hinzugefügt, die den Empfang einer Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Sprechererkennung für unabhängige Erkennungsszenarien ermöglicht.- Wichtig: Das Feature zur Sprechererkennung befindet sich in der Vorschauphase. 90 Tage nach der Freigabe für die allgemeine Verfügbarkeit werden alle in der Vorschauversion des Features erstellten Sprachprofile nicht mehr unterstützt. Die Sprachprofile aus der Vorschauversion funktionieren dann nicht mehr.
- Python: Den vorhandenen
SpeechRecognizer
- undTranslationRecognizer
-Objekten wurde Unterstützung für die kontinuierliche Sprachidentifikation (Continuous Language Identification, LID) hinzugefügt. - Python: Ein neues Python-Objekt namens
SourceLanguageRecognizer
für die einmalige oder kontinuierliche Sprachidentifikation (ohne Erkennung oder Übersetzung) wurde hinzugefügt. - JavaScript: Der
VoiceProfileClient
-Klasse wurde eine APIgetActivationPhrasesAsync
hinzugefügt, die den Empfang einer Liste gültiger Aktivierungsausdrücke in der Registrierungsphase der Sprechererkennung für unabhängige Erkennungsszenarien ermöglicht. - Die
enrollProfileAsync
-API derVoiceProfileClient
-Klasse von JavaScript ist jetzt asynchron „awaitable“. Ein Beispiel zur Verwendung finden Sie in diesem unabhängigen Identifikationscode.
Verbesserungen
- Java: Vielen Java-Objekten wurde Unterstützung für AutoCloseable hinzugefügt. Für die Freigabe von Ressourcen wird jetzt das try-with-resources-Modell unterstützt. Weitere Informationen finden Sie in diesem Beispiel mit try-with-resources. Sie können sich auch das Tutorial zur try-with-resources-Anweisung in der Oracle Java-Dokumentation ansehen, um mehr über dieses Muster zu erfahren.
- Der Speicherbedarf des Datenträgers wurde für viele Plattformen und Architekturen erheblich reduziert. Beispiele für die Binärdatei
Microsoft.CognitiveServices.Speech.core
: 475 KB kleiner für x64 Linux (Reduktion um 8,0 %), 464 KB kleiner für Arm64 Windows UWP (Reduktion um 11,5 %), 343 KB kleiner für x86 Windows (Reduktion um 17,5 %) und 451 KB kleiner für x64 Windows (Reduktion um 19,4 %).
Behebung von Programmfehlern
- Java: Der Synthesefehler bei Synthesetext mit Ersatzzeichen wurde behoben. Ausführlichere Informationen finden Sie hier.
- JavaScript: Für die Verarbeitung von Audioeingaben über das Browsermikrofon wird jetzt
AudioWorkletNode
anstelle der veraltetenScriptProcessorNode
-Schnittstelle verwendet. Ausführlichere Informationen finden Sie hier. - JavaScript: Halten Sie Konversationen in Szenarien mit zeitintensiver Konversationsübersetzung korrekt aufrecht. Ausführlichere Informationen finden Sie hier.
- JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Medienstream hergestellt hat. Ausführlichere Informationen finden Sie hier.
- JavaScript: Es wurde ein Problem behoben, aufgrund dessen das Erkennungsmodul bei der kontinuierlichen Erkennung erneut eine Verbindung mit einem Pushstream hergestellt hat. Ausführlichere Informationen finden Sie hier.
- JavaScript: Die Offsetberechnung auf Wortebene in detaillierten Erkennungsergebnissen wurde korrigiert. Ausführlichere Informationen finden Sie hier.
Beispiele
- Aktualisierte Java-Schnellstartbeispiele finden Sie hier.
- Die Beispiele zur JavaScript-Sprechererkennung wurden aktualisiert, um die neue Verwendung der
enrollProfileAsync()
-Methode zu veranschaulichen. Beispiele finden Sie hier.
Speech SDK 1.17.0: Version aus Mai 2021
Hinweis
Erste Schritte mit dem Speech SDK finden Sie hier:
Zusammenfassung der Highlights
- Geringerer Speicherbedarf: Wir verringern weiterhin den Speicher- und Datenträgerbedarf des Speech SDK und seiner Komponenten.
- Mit einer neuen eigenständigen Sprachenerkennungs-API können Sie erkennen, welche Sprache gesprochen wird.
- Entwickeln Sie sprachaktivierte Mixed Reality- und Gaminganwendungen mit Unity unter macOS.
- Sie können jetzt in der Programmiersprache Go zusätzlich zur Spracherkennung auch die Sprachsynthese verwenden.
- Es gibt verschiedene Fehlerbehebungen für von unseren geschätzten Kunden auf GitHub gekennzeichneten Issues. VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.
Neue Funktionen
- C++/C#: Neue eigenständige Start- und fortlaufende Sprachenerkennung über die
SourceLanguageRecognizer
-API. Wenn Sie nur die in Audioinhalten gesprochene(n) Sprache(n) erkennen möchten, ist dies die richtige API dafür. Mehr dazu finden Sie in den Details für C++ und C#. - C++/C#: Spracherkennung und Übersetzungserkennung unterstützen jetzt sowohl die Spracherkennung zu Beginn als auch die kontinuierliche Spracherkennung, sodass Sie programmgesteuert bestimmen können, welche Sprache(n) gesprochen werden, bevor sie transkribiert oder übersetzt werden. Weitere Informationen zur Spracherkennung finden Sie hier und weitere Informationen zur Sprachübersetzung finden Sie hier.
- C#: Unterstützung für Unity wurde zu macOS (x64) hinzugefügt. Dadurch werden Anwendungsfälle für Spracherkennung und Sprachsynthese in Mixed Reality und Gaming ermöglicht.
- Go: Wir haben die Unterstützung für Sprachsynthese/Text-zu-Sprache zur Programmiersprache Go hinzugefügt, um die Sprachsynthese in noch mehr Anwendungsfällen zur Verfügung zu stellen. Weitere Informationen finden Sie in unserer Schnellstartanleitung oder in unserer Referenzdokumentation.
- C++/C#/Java/Python/Objective-C/Go: Der Sprachsynthetizer unterstützt jetzt das
connection
-Objekt. Dies hilft Ihnen bei der Verwaltung und Überwachung der Verbindung mit dem Spracherkennungsdienst und ist besonders hilfreich, um eine Vorabverbindung zur Verringerung der Wartezeit herzustellen. Die zugehörige Dokumentation finden Sie hier. - C++/C#/Java/Python/Objective-C/Go: Wir machen jetzt die Warte- und Unterschreitungszeit in
SpeechSynthesisResult
verfügbar, um Sie bei der Überwachung und Diagnose von Wartezeitproblemen bei der Sprachsynthese zu unterstützen. Weitere Informationen finden Sie unter den Details für C++, C#, Java, Python, Objective-C und Go. - C++/C#/Java/Python/Objective-C: Die Sprachsynthese verwendet jetzt standardmäßig neuronale Stimmen, wenn Sie keine Stimme angeben, die verwendet werden soll. Dadurch erhalten Sie standardmäßig eine höhere Wiedergabetreue, dies erhöht aber auch den Standardpreis. Sie können eine unserer über 70 Standardstimmen oder über 130 neuronale Stimmen angeben, um den Standardwert zu ändern.
- C++/C#/Java/Python/Objective-C/Go: Wir haben eine Eigenschaft für das Geschlecht zu den Synthesestimmeninformationen hinzugefügt, um die Auswahl von Stimmen basierend auf dem Geschlecht zu erleichtern. Dies behandelt das GitHub-Problem 1055.
- C++, C#, Java, JavaScript: Wir unterstützen jetzt
retrieveEnrollmentResultAsync
,getAuthorizationPhrasesAsync
undgetAllProfilesAsync()
in der Sprechererkennung, um dem Benutzer die Verwaltung aller Stimmenprofile für ein bestimmtes Konto zu erleichtern. Weitere Informationen finden Sie in der Dokumentation für C++, C#, Java, JavaScript. Dies behandelt das GitHub-Problem 338. - JavaScript: Wir haben Wiederholungsversuche bei Verbindungsfehlern hinzugefügt, die Ihre JavaScript-basierten Sprachanwendungen zuverlässiger gestalten.
Verbesserungen
- Speech SDK-Binärdateien für Linux und Android wurden aktualisiert, um die neueste Version von OpenSSL (1.1.1k) zu verwenden.
- Verbesserungen beim Codeumfang:
- Language Understanding ist jetzt in eine separate „lu“-Bibliothek unterteilt.
- Die Größe der Binärdateien für den Windows x64-Kern wurde um 14,4 % verringert.
- Die Größe der Binärdateien für den Android Arm64-Kern wurde um 13,7 % verringert.
- Andere Komponenten wurden ebenfalls verkleinert.
Behebung von Programmfehlern
- Alle: Das GitHub-Problem 842 für ServiceTimeout wurde behoben. Sie können jetzt lange Audiodateien mithilfe des Speech SDK transkribieren, ohne dass die Verbindung mit dem Dienst mit diesem Fehler beendet wird. Es wird jedoch weiterhin empfohlen, die Batchtranskription für lange Dateien zu verwenden.
- C# : Das GitHub-Problem 947 wurde behoben, bei dem eine fehlende Spracheingabe Ihre App in einem fehlerhaften Zustand hinterlassen konnte.
- Java: Das GitHub-Problem 997 wurde behoben, bei dem das Speech SDK für Java 1.16 abstürzt, wenn „DialogServiceConnector“ ohne Netzwerkverbindung oder mit einem ungültigen Abonnementschlüssel verwendet wird.
- Ein Absturz beim abrupten Beenden der Spracherkennung (z. B. mithilfe von STRG+C in der Konsolen-App) wurde behoben.
- Java: Es wurde eine Korrektur zum Löschen temporärer Dateien unter Windows hinzugefügt, wenn das Speech SDK für Java verwendet wird.
- Java: Das GitHub-Problem 994 wurde behoben, bei dem der Aufruf von
DialogServiceConnector.stopListeningAsync
zu einem Fehler führen konnte. - Java: Es wurde ein Kundenproblem im Schnellstart des virtuellen Assistenten behoben.
- JavaScript: GitHub-Issue 366, bei dem
ConversationTranslator
den Fehler „this.cancelSpeech ist keine Funktion“ ausgelöst hat, behoben. - JavaScript: Das GitHub-Problem 298, bei dem das Beispiel „Abrufen des Ergebnisses als InMemory-Datenstrom“ den Ton laut wiedergegeben hat, wurde behoben.
- JavaScript: GitHub-Issue 350, bei dem der Aufruf von
AudioConfig
zu „ReferenceError: MediaStream ist nicht definiert“ geführt hat, behoben. - JavaScript: Eine „UnhandledPromiseRejection“-Warnung in Node.js für zeitintensive Sitzungen wurde behoben.
Beispiele
- Die Unity-Beispieldokumentation für macOS wurde hieraktualisiert.
- Ein React Native-Beispiel für den Azure KI Speech-Spracherkennungsdienst ist jetzt hier verfügbar.
Speech SDK 1.16.0: Release von März 2021
Hinweis
Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können sie hierherunterladen.
Neue Funktionen
- C++/C#/Java/Python: Wechsel zur aktuellen Version von GStreamer (1.18.3), um die Transkription jedes Medienformats unter Windows, Linux und Android zu unterstützen. Die zugehörige Dokumentation finden Sie hier.
- C++/C#/Java/Objective-C/Python: Jetzt wird das Decodieren von komprimierter Sprachsynthese/synthetisierten Audiodaten in das SDK unterstützt. Wenn Sie das Ausgabeaudioformat auf PCM festlegen und GStreamer auf Ihrem System verfügbar ist, fordert das SDK automatisch komprimierte Audiodaten vom Dienst an, um Bandbreite zu sparen und die Audiodaten auf dem Client zu decodieren. Sie können
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
auffalse
festlegen, um dieses Feature zu deaktivieren. Details zu C++, C#, Java, Objective-C, Python. - JavaScript: Node.js-Benutzer können jetzt die -
AudioConfig.fromWavFileInput
APIverwenden. GitHub-Issue 252 bezieht sich auf dieses Problem. - C++/C#/Java/Objective-C/Python: Die
GetVoicesAsync()
-Methode wurde hinzugefügt, damit die Sprachsynthese alle verfügbaren Synthesestimmen zurückgibt. Details zu C++, C#, Java, Objective-C und Python. - C++/C#/Java/JavaScript/Objective-C/Python: Das
VisemeReceived
-Ereignis für TTS/Sprachsynthese wurde hinzugefügt, um synchrone Visemanimiation zurückzugeben. Die zugehörige Dokumentation finden Sie hier. - C++/C#/Java/JavaScript/Objective-C/Python: Für TTS wurde das
BookmarkReached
-Ereignis hinzugefügt. Sie können im Eingabe-SSML Lesezeichen festlegen und den Audiooffset jedes Lesezeichen abrufen. Die zugehörige Dokumentation finden Sie hier. - Java: Unterstützung für Sprechererkennungs-APIs wurde hinzugefügt. Ausführlichere Informationen finden Sie hier.
- C++/C#/Java/JavaScript/Objective-C/Python: Es wurden zwei neue Ausgabeaudioformate mit einem WebM-Container für TTS („Webm16Khz16BitMonoOpus“ und „Webm24Khz16BitMonoOpus“) hinzugefügt. Diese Formate sind besser für das Streaming von Audiodaten mit dem Opus-Codec geeignet. Details zu C++, C#, Java, JavaScript, Objective-C und Python.
- C++/C#/Java: Unterstützung für das Abrufen des Sprachprofils für das Sprechererkennungsszenario wurde hinzugefügt. Details zu C++, C# und Java.
- C++/C#/Java/Objective-C/Python: Unterstützung für eine separate freigegebene Bibliothek für die Steuerung von Audiomikrofon und Lautsprecher wurde hinzugefügt. Dies ermöglicht dem Entwickler die Verwendung des SDK in Umgebungen ohne Abhängigkeiten von erforderlichen Audiobibliotheken.
- Objective-C/Swift: Es wurde Unterstützung für Modulframeworks mit Umbrella-Header hinzugefügt. Dies ermöglicht dem Entwickler den Import des Speech SDK als Modul in Apps mit Objective-C (iOS oder Mac)/Swift. GitHub-Issue 452 bezieht sich auf dieses Problem.
- Python: Python 3.9 wird jetzt unterstützt, während Python 3.5 aufgrund der Einstellung des Supports für Python 3.5 nicht mehr unterstützt wird.
Bekannte Probleme
- C++/C#/Java:
DialogServiceConnector
kann nicht mitCustomCommandsConfig
auf eine Anwendung für benutzerdefinierte Befehle zugreifen. Stattdessen tritt ein Verbindungsfehler auf. Dies kann umgangen werden, indem Sie der Anforderung mitconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
die Anwendungs-ID manuell hinzufügen. Das erwartete Verhalten vonCustomCommandsConfig
wird in der nächsten Version wiederhergestellt.
Verbesserungen
- Wir möchten die Speicherauslastung und den Datenträger-Speicherbedarf des Speech SDK releaseunabhängig verringern, und Android-Binärdateien sind jetzt um 3 % bis 5 % kleiner.
- Verbesserte Genauigkeit, Lesbarkeit und Abschnitte mit weiteren Informationen in unserer C#-Referenzdokumentation hier.
Behebung von Programmfehlern
- JavaScript: Umfangreiche WAV-Dateiheader werden jetzt ordnungsgemäß analysiert (vergrößert das Headersegment auf 512 Bytes). GitHub-Issue 962 bezieht sich auf dieses Problem.
- JavaScript: Ein Problem bei der Mikrofonzeitsteuerung wurde korrigiert, das auftritt, wenn der Mikrofonstream vor der Stopperkennung endet. Dies betrifft eine Funktionsstörung der Spracherkennung in Firefox.
- JavaScript: Die Initialisierungszusage wird jetzt ordnungsgemäß behandelt, wenn der Browser das Ausschalten des Mikrofons erzwingt, bevor „turnon“ abgeschlossen wurde.
- JavaScript: „url-dependency“ wurde durch „url-parse“ ersetzt. GitHub-Issue 264 bezieht sich auf dieses Problem.
- Android: Das Problem wurde behoben, dass keine Rückrufe erfolgen, wenn
minifyEnabled
auf „true“ festgelegt ist. - C++/C#/Java/Objective-C/Python:
TCP_NODELAY
wird ordnungsgemäß auf die zugrunde liegende Socket-E/A für TTS festgelegt, um die Latenz zu verringern. - C++/C#/Java/Python/Objective-C/Go: Das Problem wurde behoben, dass gelegentlich ein Absturz erfolgt, wenn die Erkennung unmittelbar nach dem Starten einer Erkennung zerstört wurde.
- C++/C#/Java: Das Problem wurde behoben, dass bei der Zerstörung der Sprechererkennung gelegentlich ein Absturz erfolgt.
Beispiele
- JavaScript: Browserbeispiele erfordern nicht mehr einen speziellen Download von JavaScript-Bibliotheksdateien.
Speech-SDK 1.15.0: Release von Januar 2021
Hinweis
Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können sie hierherunterladen.
Zusammenfassung der Highlights
- Der geringere Arbeitsspeicher und Speicherbedarf des Datenträgers machen das SDK effizienter.
- Es sind Ausgabeformate mit höherer Genauigkeit für die private Vorschau der benutzerdefinierten neuronalen Stimme verfügbar.
- Die Absichtserkennung kann jetzt mehr als nur die höchste Absicht abrufen und zurückgeben, sodass Sie eine separate Bewertung der Absicht Ihres Kunden durchführen können.
- Das Einrichten von Sprach-Assistenten oder Bots ist nun einfacher, Sie können das Zuhören sofort beenden und die Reaktionen auf Fehler besser steuern.
- Die Geräteleistung wurde verbessert, da die Komprimierung optional ist.
- Verwendung des Speech SDK unter Windows ARM bzw. Arm64 ist möglich.
- Das Debuggen auf niedriger Ebene wurde verbessert.
- Das Feature zur Bewertung der Aussprache ist jetzt in größerem Umfang verfügbar.
- Es gibt verschiedene Fehlerbehebungen für von unseren geschätzten Kunden auf GitHub gekennzeichneten Issues. VIELEN DANK! Es wäre schön, wenn Sie uns weiter Feedback senden würden.
Verbesserungen
- Das Speech-SDK ist jetzt effizienter und einfacher zu verwenden. Es wurde ein Multirelease gestartet, um die Speicherauslastung und den Speicherbedarf des Speech-SDK zu reduzieren. Im ersten Schritt wurden erhebliche Änderungen an der Dateigröße in freigegebenen Bibliotheken vorgenommen. Im Vergleich zum Release 1.14:
- Die 64-Bit-UWP-kompatiblen Windows-Bibliotheken sind etwa 30 Prozent kleiner.
- 32-Bit-Windows-Bibliotheken wurden noch nicht hinsichtlich Größe verbessert.
- Linux-Bibliotheken sind 20 bis 25 Prozent kleiner.
- Android-Bibliotheken sind 3 bis 5 Prozent kleiner.
Neue Funktionen
- All: Für die private Vorschau der benutzerdefinierten neuronalen Stimme über die TTS-Sprachsynthese-API sind neue 48-kHz-Ausgabeformate verfügbar: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- All: Custom Voice ist ebenfalls einfacher zu verwenden. Die Unterstützung für das Einstellen von Custom Voice über
EndpointId
(C++, C#, Java, JavaScript, Objective-C, Python) wurde hinzugefügt. Vor dieser Änderung mussten Custom Voice-Benutzer die Endpunkt-URL über dieFromEndpoint
-Methode festlegen. Kunden können nun dieFromSubscription
-Methode wie bei vordefinierten Stimmen verwenden und dann die Bereitstellungs-ID angeben, indem sieEndpointId
festlegen. Dadurch wird das Einrichten von benutzerdefinierten Stimmen vereinfacht. - C++/C#/Java/Objective-C/Python: Fragen Sie mehr als nur die höchste Absicht von
IntentRecognizer
ab. Jetzt wird das Konfigurieren des JSON-Ergebnisses über dieLanguageUnderstandingModel FromEndpoint
-Methode mithilfe desverbose=true
-URI-Parameters unterstützt, das alle Absichten und nicht nur die Absicht mit der höchsten Bewertung enthält. Dies bezieht sich auf das GitHub-Issue 880. Die aktualisierte Dokumentation finden Sie hier. - C++/C#/Java: Sie können Ihren Sprach-Assistenten oder Bot dazu bringen, dass er das Zuhören sofort beendet.
DialogServiceConnector
(C++, C#, Java) verfügt jetzt über eineStopListeningAsync()
-Methode für die gemeinsame Verwendung mitListenOnceAsync()
. Dadurch wird die Audioaufzeichnung sofort beendet und ordnungsgemäß auf das Ergebnis gewartet, sodass sich dies perfekt für Szenarios mit der Schaltfläche „Jetzt Beenden“ eignet. - C++/C#/Java/JavaScript: Sorgen Sie dafür, dass Ihr Sprach-Assistent oder Bot besser auf zugrunde liegende Systemfehler reagiert.
DialogServiceConnector
(C++, C#, Java, JavaScript) verfügt jetzt über einen neuenTurnStatusReceived
-Ereignishandler. Diese optionalen Ereignisse entsprechen allenITurnContext
-Auflösungen im Zusammenhang mit dem Bot und melden ggf. Ausführungsfehler (z. B. als Ergebnis eines Ausnahmefehlers, Timeouts oder Netzwerkfehlers zwischen Direct Line Speech und dem Bot).TurnStatusReceived
erleichtert das Reagieren auf Fehlerbedingungen. Wenn ein Bot beispielsweise zu viel Zeit für eine Back-End-Datenbankabfrage benötigt (z. B. bei der Suche nach einem Produkt), kann dem Client mitTurnStatusReceived
und einer Nachricht wie „Entschuldigung, ich habe das nicht verstanden. Probieren Sie es später noch mal.“ mitgeteilt werden, dass er die Aufforderung später noch mal durchführen soll. - C++/C# : Verwenden Sie das Speech-SDK auf mehreren Plattformen. Das NuGet-Paket für das Speech SDK unterstützt jetzt native Windows ARM-/Arm64-Desktopbinärdateien (UWP wurde bereits unterstützt), damit das Speech SDK für mehr Computertypen verwendet werden kann.
- Java:
DialogServiceConnector
verfügt jetzt über einesetSpeechActivityTemplate()
-Methode, die zuvor versehentlich von der Sprache ausgeschlossen wurde. Dies entspricht dem Festlegen derConversation_Speech_Activity_Template
-Eigenschaft und erfordert, dass alle zukünftigen Bot Framework-Aktivitäten, die vom Direct Line Speech-Dienst stammen, den bereitgestellten Inhalt in ihre JSON-Nutzdaten zusammenführen. - Java: Das Debuggen auf niedriger Ebene wurde verbessert. Die
Connection
-Klasse verfügt jetzt ähnlich wie andere Programmiersprachen (C++, C#) über einMessageReceived
-Ereignis. Dieses Ereignis ermöglicht den Zugriff auf vom Dienst eingehende Daten auf niedriger Ebene und kann bei der Diagnose und beim Debuggen hilfreich sein. - JavaScript: Das Einrichten von Sprach-Assistenten und Bots über die
BotFrameworkConfig
-Klasse wird einfacher, da diese nun über die FactorymethodenfromHost()
undfromEndpoint()
verfügt, die die Verwendung von benutzerdefinierten Dienstidentifizierungen im Vergleich zum manuellen Festlegen von Eigenschaften vereinfachen. Die optionale Angabe vonbotId
wurde für die Verwendung eines nicht dem Standard entsprechenden Bots in den Konfigurationsfactorys ebenfalls standardisiert. - JavaScript: Die Geräteleistung wurde durch das Hinzufügen der Zeichenfolgensteuerungseigenschaft für die WebSocket-Komprimierung verbessert. Aus Leistungsgründen wurde die WebSocket-Komprimierung standardmäßig deaktiviert. Diese kann für Szenarios mit geringer Bandbreite erneut aktiviert werden. Ausführlichere Informationen finden Sie hier. Dies bezieht sich auf das GitHub-Issue 242.
- JavaScript: Die Unterstützung für die Bewertung der Aussprache wurde hinzugefügt, um die Auswertung der Aussprache zu ermöglichen. Den Schnellstart finden Sie hier.
Behebung von Programmfehlern
- Alle (mit Ausnahme von JavaScript): Es wurde eine Regression in Version 1.14 korrigiert, bei der das Erkennungsmodul zu viel Speicher belegt hat.
- C++: Es wurde ein Problem mit der automatischen Speicherbereinigung mit
DialogServiceConnector
behoben, auf das sich das GitHub-Issue 794 bezieht. - C# : Es wurde ein Problem mit dem Herunterfahren des Threads behoben, das dazu geführt hat, dass Objekte beim Verwerfen ungefähr eine Sekunde blockiert wurden.
- C++/C#/Java: Es wurde eine Ausnahme korrigiert, die verhindert, dass eine Anwendung das Sprachautorisierungstoken oder die Aktivitätsvorlage mehr als einmal auf einem
DialogServiceConnector
festlegt. - C++/C#/Java: Es wurde ein Problem behoben, das dazu geführt hat, dass das Erkennungsmodul aufgrund einer Racebedingung beim Löschen abgestürzt ist.
- JavaScript:
DialogServiceConnector
hat den optionalenbotId
-Parameter, der in den Factorys vonBotFrameworkConfig
angegebenen wurde, zuvor nicht berücksichtigt. Dadurch ist es notwendig, den AbfragezeichenfolgenparameterbotId
manuell festzulegen, um einen nicht dem Standard entsprechenden Bot zu verwenden. Der Fehler wurde korrigiert, undbotId
-Werte, die in den Factorys vonBotFrameworkConfig
bereitgestellt werden, werden einschließlich der neuen ErgänzungenfromHost()
undfromEndpoint()
berücksichtigt und verwendet. Dies gilt auch für denapplicationId
-Parameter fürCustomCommandsConfig
. - JavaScript: Das GitHub Issue 881 wurde behoben, sodass das Erkennungsmodul Objekten wiederverwenden kann.
- JavaScript: Es wurde ein Problem behoben, bei dem das SKD mehrmals in einer TTS-Sitzung
speech.config
gesendet wurde und somit Bandbreite verschwendet hat. - JavaScript: Die Fehlerbehandlung bei der Mikrofonautorisierung wurde vereinfacht, sodass mehr beschreibende Meldungen angezeigt werden können, wenn ein Benutzer die Mikrofoneingabe im Browser nicht zugelassen hat.
- JavaScript: Das GitHub-Issue 249 wurde behoben, bei dem Typfehler in
ConversationTranslator
undConversationTranscriber
einen Kompilierungsfehler für TypeScript-Benutzer verursacht haben. - Objective-C: Es wurde ein Problem behoben, bei dem der GStreamer-Build für iOS in Xcode 11.4 nicht ausgeführt werden konnte. Das GitHub-Issue 911 bezieht sich auf dieses Problem.
- Python: Das GitHub-Issue 870 wurde behoben, indem „DeprecationWarning: the imp module is deprecated in favor of importlib“ (DeprecationWarning: Das imp-Modul für importlib ist veraltet.) entfernt wurde.
Beispiele
- Das „from-file“-Beispiel für den JavaScript-Browser verwendet jetzt Dateien für die Spracherkennung. GitHub-Issue 884 bezieht sich auf dieses Problem.
Speech SDK 1.14.0: Release vom Oktober 2020
Hinweis
Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können sie hierherunterladen.
Neue Funktionen
- Linux: Unterstützung für Debian 10 und Ubuntu 20.04 LTS wurde hinzugefügt.
- Python/Objective-C: Die Unterstützung für die
KeywordRecognizer
-API wurde hinzugefügt. Die Dokumentation finden Sie hier. - C++/Java/C# : Die Unterstützung zum Festlegen beliebiger
HttpHeader
-Schlüssel/-Werte überServicePropertyChannel::HttpHeader
wurde hinzugefügt. - JavaScript: Die Unterstützung für die
ConversationTranscriber
-API wurde hinzugefügt. Die zugehörige Dokumentation finden Sie hier. - C++/C# : Die neue
AudioDataStream FromWavFileInput
-Methode (zum Lesen von WAV-Dateien) wurde hier (C++) und hier (C#) hinzugefügt. - C++/C#/Java/Python/Objective-C/Swift: Es wurde eine
stopSpeakingAsync()
-Methode zum Beenden der Sprachsynthese hinzugefügt. Die Referenzdokumentation finden Sie hier (C++), hier (C#), hier (Java), hier (Python) und hier (Objective-C/Swift). - C#, C++, Java: Es wurde eine
FromDialogServiceConnector()
-Funktion zur KlasseConnection
hinzugefügt, mit der Ereignisse fürDialogServiceConnector
zum Herstellen oder Aufheben von Verbindungen überwacht werden können. Die Referenzdokumentation finden Sie hier (C#), hier (C++) und hier (Java). - C++/C#/Java/Python/Objective-C/Swift: Die Unterstützung für die Aussprachebewertung wurde hinzugefügt. Diese bewertet die Aussprache und gibt den Rednern Feedback zur Genauigkeit und zum Redefluss der gesprochenen Audioinformationen. Lesen Sie die Dokumentation.
Unterbrechende Änderung
- JavaScript: Der Rückgabetyp von PullAudioOutputStream.read() wurde von einer internen Zusage in eine native JavaScript-Zusage geändert.
Behebung von Programmfehlern
- All: Die 1.13-Regression wurde in
SetServiceProperty
behoben, bei der Werte mit bestimmten Zeichen ignoriert wurden. - C# : Windows-Konsolenbeispiele in Visual Studio 2019 wurden behoben, in denen bei der Suche von nativen DLLs Fehler aufgetreten sind.
- C# : Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als
KeywordRecognizer
-Eingabe verwendet wurde. - ObjectiveC/Swift: Der Absturz bei der Arbeitsspeicherverwaltung wurde behoben, wenn ein Datenstrom als Eingabe des Erkennungsmoduls verwendet wurde.
- Windows: Es wurde ein Problem mit der Koexistenz von BT HFP/A2DP auf der universellen Windows-Plattform behoben.
- JavaScript: Die Zuordnung von Sitzungs-IDs wurde behoben, um die Protokollierung zu verbessern und bei internen Debug-/Dienstkorrelationen zu helfen.
- JavaScript: Es wurde eine Fehlerbehebung für
DialogServiceConnector
hinzugefügt, dieListenOnce
-Aufrufe nach dem Ausführen des ersten Aufrufs deaktiviert. - JavaScript: Es wurde ein Problem behoben, bei dem die Ergebnisausgabe immer nur „simple“ (einfach) ergibt.
- JavaScript: Ein Problem bei der fortlaufenden Erkennung wurde in Safari unter macOS behoben.
- JavaScript: Es wurde eine Risikominderung für die CPU-Last für das Szenario mit hohem Anforderungsdurchsatz durchgeführt.
- JavaScript: Der Zugriff auf Details des Ergebnisses der Sprachprofilregistrierung wurde zugelassen.
- JavaScript: Ein Fehler bei der fortlaufenden Erkennung in
IntentRecognizer
wurde behoben. - C++/C#/Java/Python/Swift/ObjectiveC: Eine falsche URL für „australiaeast“ und „brazilsouth“ in
IntentRecognizer
wurde behoben. - C++/C# : Es wurde
VoiceProfileType
als Argument beim Erstellen einesVoiceProfile
-Objekts hinzugefügt. - C++/C#/Java/Python/Swift/ObjectiveC: Es wurde ein Problem für das potenzielle
SPX_INVALID_ARG
beim Versuch behoben,AudioDataStream
von einer angegebenen Position zu lesen. - IOS: Es wurde der Absturz bei der Spracherkennung unter Unity behoben.
Beispiele
- ObjectiveC: Ein Beispiel für die Schlüsselworterkennung wurde hier hinzugefügt.
- C#/JavaScript: Ein Schnellstart für die Unterhaltungstranskription wurde hier (C#) und hier (JavaScript) hinzugefügt.
- C++/C#/Java/Python/Swift/ObjectiveC: Hier wurde ein Beispiel für die Bewertung der Aussprache hinzugefügt.
Bekanntes Problem
- Das DigiCert Global Root G2-Zertifikat wird in HoloLens 2 und Android 4.4 (KitKat) nicht standardmäßig unterstützt und muss zum System hinzugefügt werden, damit das Speech SDK funktioniert. Das Zertifikat wird in naher Zukunft den Betriebssystemimages von HoloLens 2 hinzugefügt werden. Kunden von Android 4.4 müssen das aktualisierte Zertifikat dem System hinzufügen.
Abgekürzte Tests aufgrund von COVID-19
Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!
Speech SDK 1.13.0: Release 2020-July
Hinweis
Für das Speech SDK unter Windows muss das freigegebene Microsoft Visual C++ Redistributable für Visual Studio 2015, 2017 und 2019 installiert sein. Sie können die Software hier herunterladen und installieren.
Neue Funktionen
- C# : Unterstützung für asynchrone Unterhaltungstranskription hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
- JavaScript: Unterstützung für Sprechererkennung für Browser und Node.js hinzugefügt.
- JavaScript: Unterstützung für Sprachenerkennung/Sprach-ID hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
- Objective-C: Unterstützung für die Unterhaltung auf mehreren Geräten und Unterhaltungstranskription hinzugefügt.
- Python: Unterstützung für komprimierte Audiodaten für Python unter Windows und Linux hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
Behebung von Programmfehlern
- All: Es wurde ein Problem behoben, durch das der KeywordRecognizer die Streams nach einer Erkennung nicht weiterleitete.
- All: Es wurde ein Problem behoben, durch das der aus einem KeywordRecognitionResult abgeleitete Stream nicht das Schlüsselwort enthielt.
- All: Es wurde ein Problem behoben, durch das SendMessageAsync die Nachricht nicht wirklich über das Netzwerk gesendet hat, nachdem die Benutzer darauf warteten.
- All: Es wurde ein Absturz in den Sprechererkennungs-APIs korrigiert, wenn Benutzer VoiceProfileClient::SpeakerRecEnrollProfileAsync mehrfach aufgerufen haben und nicht darauf warteten, dass die Aufrufe beendet wurden.
- All: Die Aktivierung der Dateiprotokollierung in der VoiceProfileClient- und der SpeakerRecognizer-Klasse wurde korrigiert.
- JavaScript: Es wurde ein Problem mit der Drosselung behoben, wenn der Browser minimiert wird.
- JavaScript: Es wurde ein Problem mit einem Arbeitsspeicherverlust in Streams behoben.
- JavaScript: Zwischenspeicherung für OCSP-Antworten von Node.js hinzugefügt.
- Java: Es wurde ein Problem behoben, durch das BigInteger-Felder immer „0“ zurückgaben.
- iOS: Es wurde ein Problem beim Veröffentlichen von Apps, die auf dem Speech SDK basieren, im iOS App Store behoben.
Beispiele
- C++: Beispielcode für Sprechererkennung hier hinzugefügt.
Abgekürzte Tests aufgrund von COVID-19
Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!
Speech SDK 1.12.1: Release von Juni 2020
Neue Funktionen
- C#, C++: Sprechererkennung (Vorschauversion): Dieses Feature ermöglicht die Sprecheridentifikation („Wer spricht?“) und Sprecherüberprüfung („Ist der Sprecher die angegebene Person?“). Weitere Informationen finden Sie in der Übersichtsdokumentation.
Fehlerkorrekturen
- C#, C++: Die Mikrofonaufzeichnung funktionierte in 1.12 bei der Sprechererkennung nicht. Dies wurde behoben.
- JavaScript: Fehler bei der Sprachsynthese in Firefox und Safari unter macOS und iOS wurden behoben.
- Ein Fehler wurde behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Unterhaltungstranskription von 8-Kanal-Datenströmen zu einem Absturz kam.
- Es wurde ein Fehler behoben, bei dem es durch eine Zugriffsverletzung der Windows-Anwendungsüberprüfung bei der Konversationsübersetzung von mehreren Geräten zu einem Absturz kam.
Beispiele
- C++:Codebeispiel für die Sprechererkennung.
- C++:Codebeispiel für die Sprechererkennung.
- Java: Codebeispiel für die Absichtserkennung unter Android.
Abgekürzte Tests aufgrund von COVID-19
Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!
Speech SDK 1.12.0: Release von Mai 2020
Neue Funktionen
- Goh: Neue Unterstützung der Sprache Go für Spracherkennung und benutzerdefinierten Sprach-Assistenten. Ihre Entwicklungsumgebung können Sie hier einrichten. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“.
- JavaScript: Browserunterstützung für Sprachsynthese hinzugefügt. Die zugehörige Dokumentation finden Sie hier.
- C++, C#, Java: Unterstützung des neuen
KeywordRecognizer
-Objekts sowie neuer APIs unter Windows, Android, Linux und iOS. Lesen Sie die Dokumentation. Beispielcode finden Sie weiter unten im Abschnitt „Beispiele“. - Java: Konversation mit mehreren Geräten mit Übersetzungsunterstützung hinzugefügt. Die zugehörige Referenzdokumentation finden Sie hier.
Verbesserungen und Optimierungen
- JavaScript: Mikrofonimplementierung für Browser optimiert, um die Genauigkeit bei der Spracherkennung zu verbessern.
- Java: Bindungen mit direkter JNI-Implementierung ohne SWIG wurden umgestaltet. Durch diese Änderung wird die Bindungsgröße aller für Windows, Android, Linux und Mac verwendeten Java-Pakete um das Zehnfache verringert und die weitere Entwicklung der Speech SDK-Java-Implementierung vereinfacht.
- Linux: Die unterstützende Dokumentation wurde mit den neuesten RHEL 7-spezifischen Anmerkungen aktualisiert.
- Die Verbindungslogik wurde verbessert, um im Falle von Dienst- oder Netzwerkfehlern mehrere Verbindungsversuche zu unternehmen.
- Die Speech-Schnellstartseite auf portal.azure.com wurde aktualisiert, um Entwickler*innen beim nächsten Schritt der Azure KI Speech-Journey zu unterstützen.
Behebung von Programmfehlern
- C#, Java: Ein Problem beim Laden von SDK-Bibliotheken in Linux ARM wurde behoben (sowohl für die 32-Bit- als auch für die 64-Bit-Version).
- C#: Das explizite Löschen nativer Handles für die TranslationRecognizer-, IntentRecognizer- und Connection-Objekte wurde korrigiert.
- C# : Für das ConversationTranscriber-Objekt wurde die Lebensdauerverwaltung für Audioeingaben korrigiert.
- Es wurde ein Problem behoben, bei dem der Grund für das
IntentRecognizer
-Ergebnis nicht ordnungsgemäß festgelegt wurde, wenn Absichten aus einfachen Ausdrücken erkannt wurden. - Problem behoben, bei dem das
SpeechRecognitionEventArgs
-Ergebnisoffset nicht ordnungsgemäß festgelegt wurde. - Es wurde eine Racebedingung behoben, bei der vom SDK versucht wurde, eine Netzwerknachricht zu senden, bevor die WebSocket-Verbindung hergestellt wurde. Dies war für
TranslationRecognizer
beim Hinzufügen von Teilnehmern reproduzierbar. - Es wurden Arbeitsspeicherverluste in der Schlüsselworterkennungs-Engine korrigiert.
Beispiele
- Go: Schnellstartanleitungen für Spracherkennung und benutzerdefinierten Sprachassistenten hinzugefügt. Beispielcode finden Sie hier.
- JavaScript: Schnellstartanleitungen für Sprachsynthese, Übersetzung und Absichtserkennung hinzugefügt.
- Beispiele für die Schlüsselworterkennung für C# und Java (Android).
Abgekürzte Tests aufgrund von COVID-19
Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Überprüfung nicht im gewohnten Umfang durchführen. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Kompatibilitätsproblemen geführt hätten, und alle unsere automatisierten Tests wurden bestanden. Falls wir etwas übersehen haben sollten, informieren Sie uns bitte auf GitHub.
Bleiben Sie gesund!
Speech SDK 1.11.0: Release von März 2020
Neue Funktionen
- Linux: Unterstützung für Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 wurde hinzugefügt.
- Linux: Unterstützung für .NET Core C# unter Linux ARM32 und Arm64 hinzugefügt. Weitere Informationen finden Sie hier.
- C#, C++:
UtteranceId
inConversationTranscriptionResult
hinzugefügt. Dies ist eine konsistente ID für alle Spracherkennungs-Zwischenergebnisse und -Endergebnisse. Ausführlichere Informationen für C# und C++. - Python: Unterstützung für
Language ID
wurde hinzugefügt. Siehe „speech_sample.py“ im GitHub-Repository - Windows: Unterstützung für komprimierte Audioeingabeformate auf der Windows-Plattform für alle Win32-Konsolenanwendungen hinzugefügt. Ausführlichere Informationen finden Sie hier.
- JavaScript: Unterstützung von Sprachsynthese (Text-zu-Sprache) in NodeJS. Hiererhalten Sie weitere Informationen.
- JavaScript: Fügen Sie neue APIs hinzu, um die Überprüfung aller gesendeten und empfangenen Nachrichten zu ermöglichen. Hiererhalten Sie weitere Informationen.
Behebung von Programmfehlern
- C#, C++: Es wurde ein Problem behoben, sodass
SendMessageAsync
jetzt binäre Nachrichten als binären Typ sendet. Ausführlichere Informationen für C# und C++. - C#, C++: Es wurde das Problem behoben, dass die Verwendung des
Connection MessageReceived
-Ereignisses einen Absturz verursachen kann, wennRecognizer
vor demConnection
-Objekt verworfen wird. Ausführlichere Informationen für C# und C++. - Android: Die Audiopuffergröße des Mikrofons wurde von 800 ms auf 100 ms verringert, um die Wartezeit zu reduzieren.
- Android: Es wurde ein Problem beim x86-Android-Emulator in Android Studio behoben.
- JavaScript: Unterstützung für Regionen in China mit der
fromSubscription
-API hinzugefügt. Ausführlichere Informationen finden Sie hier. - JavaScript: Fügen Sie weitere Fehlerinformationen zu Verbindungsfehlern aus NodeJS hinzu.
Beispiele
- Unity: Problem bei öffentlichem Absichtserkennungsbeispiel ist behoben, bei dem der LUIS-JSON-Import fehlgeschlagen ist. Ausführlichere Informationen finden Sie hier.
- Python: Beispiel für
Language ID
hinzugefügt. Ausführlichere Informationen finden Sie hier.
Abgekürzte Tests aufgrund von COVID-19: Da wir in den letzten Wochen remote gearbeitet haben, konnten wir die manuellen Tests zur Geräteüberprüfung nicht im gewohnten Umfang durchführen. Beispielsweise konnten die Mikrofoneingabe und Lautsprecherausgabe unter Linux, iOS und macOS nicht getestet werden. Wir haben keine Änderungen vorgenommen, die möglicherweise zu Beschädigungen auf diesen Plattformen geführt haben, und alle unsere automatisierten Tests wurden bestanden. Falls wir doch entgegen aller Wahrscheinlichkeit etwas übersehen haben sollten, informieren Sie uns auf GitHub.
Vielen Dank für Ihre Unterstützung. Fragen können Sie wie immer auf GitHub oder in Stack Overflow stellen. Auf diesen Plattformen können Sie auch Feedback geben.
Bleiben Sie gesund!
Speech SDK 1.10.0: Release von Februar 2020
Neue Funktionen
- Python-Pakete zur Unterstützung des neuen Python-Release 3.8 hinzugefügt
- x64-Unterstützung für Red Hat Enterprise Linux (RHEL)/CentOS 8 (C++, C#, Java, Python)
Hinweis
Kunden müssen OpenSSL wie hier beschrieben konfigurieren.
- Linux ARM32-Unterstützung für Debian und Ubuntu
- Von „DialogServiceConnector“ wird jetzt der optionale Parameter „bot ID“ für „BotFrameworkConfig“ unterstützt. Dieser Parameter ermöglicht die Verwendung mehrerer Direct Line Speech-Bots mit einer einzelnen Speech-Ressource. Ohne Angabe des Parameters wird der (auf der Direct Line Speech-Kanalkonfigurationsseite festgelegte) Standardbot verwendet.
- „DialogServiceConnector“ verfügt nun über die Eigenschaft „SpeechActivityTemplate“. Der Inhalt dieser JSON-Zeichenfolge wird von Direct Line Speech verwendet, um ein breites Spektrum an unterstützten Feldern in allen Aktivitäten vorab aufzufüllen, die einen Direct Line Speech-Bot erreichen. Hierzu zählen auch Aktivitäten, die als Reaktion auf Ereignisse wie die Spracherkennung automatisch generiert werden.
- Von der Sprachsynthese wird nun der Abonnementschlüssel für die Authentifizierung verwendet. Dadurch verringert sich die Wartezeit für das erste Byte des ersten Syntheseergebnisses nach der Erstellung eines Synthesizers.
- Verringerung der durchschnittlichen Wortfehlerrate um 18,6 Prozent dank aktualisierter Spracherkennungsmodelle für 19 Gebietsschemas (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Die neuen Modelle führen zu erheblichen Verbesserungen in verschiedenen Bereichen. Hierzu zählen unter anderem Diktat, Callcentertranskription und Videoindizierung.
Behebung von Programmfehlern
- Fehler behoben, der dazu führte, dass von der Unterhaltungstranskription in Java-APIs nicht ordnungsgemäß gewartet wurde
- Xamarin-bezogenes GitHub-Problem mit dem Android-x86-Emulator behoben
- Fehlende (Get|Set)Property-Methoden zu „AudioConfig“ hinzugefügt
- Fehler bei der Sprachsynthese behoben, der dazu führte, dass der Audiodatenstrom (audioDataStream) im Falle eines Verbindungsfehlers nicht beendet werden konnte
- Die Verwendung eines Endpunkts ohne Region hatte USP-Fehler für die Konversationsübersetzung zur Folge.
- Für die ID-Generierung in universellen Windows-Anwendungen wird nun ein Algorithmus für eine angemessen eindeutige GUID verwendet. Zuvor wurde ungewollt standardmäßig eine Stubimplementierung verwendet, die bei umfangreichen Interaktionen häufig zu Konflikten führte.
Beispiele
- Unity-Beispiel für die Verwendung des Speech SDK mit Unity-Mikrofon und Pushmodusstreaming
Weitere Änderungen
Speech SDK 1.9.0: Release 2020-January
Neue Funktionen
- Mehrgerätekonversation: Verbinden Sie mehrere Geräte mit derselben sprach- oder textbasierten Konversation, und übersetzen Sie optional die zwischen ihnen gesendeten Nachrichten. Weitere Informationen finden Sie in diesem Artikel.
- Unterstützung für die Schlüsselworterkennung wurde für das
.aar
-Paket für Android und für x86- und x64-Versionen hinzugefügt. - Objective-C: Methoden
SendMessage
undSetMessageProperty
wurden demConnection
-Objekt hinzugefügt. Die zugehörige Dokumentation finden Sie hier. - Die TTS-API in C++ unterstützt jetzt
std::wstring
als Texteingabe für die Synthese. Dadurch ist es nicht mehr erforderlich, den Typ wstring vor der Übergabe an das SDK in string zu konvertieren. Ausführlichere Informationen finden Sie hier. - C#: Sprach-ID und Ausgangssprachenkonfiguration sind jetzt verfügbar.
- JavaScript: Dem
Connection
-Objekt wurde eine Funktion für die Weiterleitung benutzerdefinierter Nachrichten vom Speech-Dienst als Rückruf vonreceivedServiceMessage
zu hinzugefügt. - JavaScript: Unterstützung für
FromHost API
wurde hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen. Die zugehörige Dokumentation finden Sie hier. - JavaScript:
NODE_TLS_REJECT_UNAUTHORIZED
wird nun dank eines Beitrags von orgads berücksichtigt. Ausführlichere Informationen finden Sie hier.
Wichtige Änderungen
OpenSSL
wurde auf Version 1.1.1b aktualisiert und ist statisch mit der Kernbibliothek des Speech SDK für Linux verknüpft. Dies kann zu einer Unterbrechung führen, wennOpenSSL
für Ihren Posteingang nicht im Verzeichnis/usr/lib/ssl
im System installiert wurde. In unserer Dokumentation zum Speech SDK finden Sie Möglichkeiten, wie Sie das Problem umgehen können.- Wir haben den in C# für
WordLevelTimingResult.Offset
zurückgegebenen Datentyp vonint
inlong
geändert, um den Zugriff aufWordLevelTimingResults
zu ermöglichen, wenn Sprachdaten länger als 2 Minuten sind. PushAudioInputStream
undPullAudioInputStream
senden nun WAV-Headerinformationen an den Speech-Dienst basierend auf demAudioStreamFormat
, das bei der Erstellung optional angegeben werden kann. Kunden müssen nun das unterstützte Audioeingabeformat verwenden. Alle anderen Formate führen zu weniger guten Erkennungsergebnissen oder anderen Problemen.
Behebung von Programmfehlern
- Weitere Informationen finden Sie im obigen
OpenSSL
-Update unter „Wichtige Änderungen“. Wir haben sowohl einen zeitweiligen Absturz als auch ein Leistungsproblem (Sperrkonflikte bei hoher Auslastung) in Linux und Java korrigiert. - Java: Es wurden Verbesserungen am Objektabschluss in Szenarien mit hoher Parallelität vorgenommen.
- Das NuGet-Paket wurde umstrukturiert. Wir haben die drei Kopien von
Microsoft.CognitiveServices.Speech.core.dll
undMicrosoft.CognitiveServices.Speech.extension.kws.dll
im Ordner „lib“ entfernt, sodass das NuGet-Paket nun kleiner ist und schneller heruntergeladen werden kann. Außerdem haben wir Header hinzugefügt, die zum Kompilieren einiger nativer C++-Apps benötigt werden. - Die korrigierten Schnellstartbeispiele finden Sie hier. Diese wurden ohne Anzeige der Ausnahme „Mikrofon wurde nicht gefunden“ unter Linux, macOS und Windows beendet.
- Ein SDK-Absturz bei langen Spracherkennungsergebnissen für bestimmte Codepfade wie in diesem Beispiel wurde korrigiert.
- Ein Fehler bei der SDK-Bereitstellung in Azure-Web-App-Umgebungen wurde behoben, um dieses Kundenproblem zu beseitigen.
- Ein TTS-Fehler bei der Verwendung mehrerer
<voice>
- oder<audio>
-Tags wurde behoben, um dieses Kundenproblems zu beseitigen. - Ein TTS 401-Fehler beim Wiederherstellen des SDK nach dem Anhalten wurde behoben.
- JavaScript: Ein zirkulärer Import von Audiodaten wurde dank eines Beitrags von euirim korrigiert.
- JavaScript: Unterstützung für das Festlegen von Diensteigenschaften wurde wie in 1.7 hinzugefügt.
- JavaScript: Ein Problem wurde behoben, bei dem ein Verbindungsfehler zu kontinuierlichen erfolglosen WebSocket-Verbindungsversuchen führen konnte.
Beispiele
- Es wurde ein Beispiel für die Schlüsselworterkennung für Android hinzugefügt.
- Es wurde ein TTS-Beispiel für das Serverszenario hinzugefügt.
- Es wurden Schnellstarts für die Mehrgerätekonversation in C# und C++ hinzugefügt.
Weitere Änderungen
- Die Größe der SDK-Kernbibliothek unter Android wurde optimiert.
- Das SDK ab Version 1.9.0 unterstützt sowohl
int
- als auchstring
-Typen im Feld für die Stimmensignaturversion für die Unterhaltungstranskription.
Speech SDK 1.8.0: Release von November 2019
Neue Funktionen
FromHost()
-API hinzugefügt, um die Verwendung mit lokalen Containern und Sovereign Clouds zu vereinfachen.- Quellsprachenerkennung für die Spracherkennung hinzugefügt (in Java und C++)
SourceLanguageConfig
-Objekt zur Angabe erwarteter Ausgangssprachen für die Spracherkennung hinzugefügt (in Java und C++)KeywordRecognizer
-Unterstützung unter Windows (UWP), Android und iOS über die NuGet- und Unity-Pakete hinzugefügt- Java-Remoteunterhaltungs-API für die Unterhaltungstranskription in asynchronen Batches hinzugefügt
Wichtige Änderungen
- Die Funktionen für die Unterhaltungstranskription wurden unter den Namespace
Microsoft.CognitiveServices.Speech.Transcription
verschoben. - Ein Teil der Unterhaltungstranskriptionsmethoden wurde in die neue
Conversation
-Klasse verschoben. - Die Unterstützung für 32-Bit-iOS (ARMv7 und x86) wurde eingestellt.
Behebung von Programmfehlern
- Ein Absturz wurde behoben, der auftrat, wenn die lokale
KeywordRecognizer
-Instanz ohne gültigen Abonnementschlüssel für den Speech-Dienst verwendet wurde.
Beispiele
- Xamarin-Beispiel für
KeywordRecognizer
- Unity-Beispiel für
KeywordRecognizer
- C++- und Java-Beispiele für die automatische Erkennung der Ausgangssprache
Speech SDK 1.7.0: Release von September 2019
Neue Funktionen
- Unterstützung der Betaversion für Xamarin unter der universellen Windows-Plattform (UWP), Android und iOS wurde hinzugefügt
- iOS-Unterstützung für Unity wurde hinzugefügt
- Unterstützung von
Compressed
-Eingaben für ALaw, Mulaw, FLAC unter Android, iOS und Linux wurde hinzugefügt. SendMessageAsync
in der KlasseConnection
zum Senden einer Nachricht an einen Dienst hinzugefügtSetMessageProperty
in der KlasseConnection
zum Festlegen der Eigenschaft einer Nachricht hinzugefügt- Die Sprachsynthese hat Bindungen für Java (JRE und Android), Python, Swift und Objective-C hinzugefügt.
- TTS hat die Unterstützung der Wiedergabe für macOS, iOS und Android hinzugefügt
- Es wurden Informationen zur „Wortgrenze“ für TTS hinzugefügt
Behebung von Programmfehlern
- IL2CPP-Buildproblem in Unity 2019 für Android wurde behoben
- Es wurde ein Problem behoben, bei dem falsch formatierte Header in der Eingabe von WAV-Dateien falsch verarbeitet wurden
- Es wurde ein Problem behoben, bei dem UUIDs in einigen Verbindungseigenschaften nicht eindeutig waren
- Es wurden einige Warnungen bezüglich Spezifizierer für die NULL-Zulässigkeit in den Swift-Bindungen behoben (möglicherweise sind kleine Codeänderungen erforderlich)
- Es wurde ein Fehler behoben, der dazu führte, dass WebSocket-Verbindungen unter Netzwerklast nicht ordnungsgemäß geschlossen wurden
- Problem unter Android behoben, das gelegentlich dazu führt, dass
DialogServiceConnector
doppelte Eindruck-IDs verwendet - Es wurden Verbesserungen an der Stabilität von Verbindungen über Interaktionen mit Mehrfachdurchläufen und an der Berichterstellung bei Fehlern vorgenommen (über Ereignisse vom Typ
Canceled
), wenn sie mitDialogServiceConnector
auftreten. DialogServiceConnector
-Sitzungsstarts stellen jetzt ordnungsgemäß Ereignisse bereit, einschließlich des Aufrufs vonListenOnceAsync()
, währendStartKeywordRecognitionAsync()
aktiv ist.- Es wurde ein Absturzproblem behoben, das mit dem Empfangen von
DialogServiceConnector
-Aktivitäten verbunden war.
Beispiele
- Schnellstart für Xamarin
- Aktualisierte CPP-Schnellstartanleitung mit Linux Arm64-Informationen
- Aktualisierter Unity-Schnellstart mit iOS-Informationen
Speech SDK 1.6.0: Release von Juni 2019
Beispiele
- Schnellstartbeispiele für Sprachsynthese auf UWP und Unity
- Schnellstartbeispiel für Swift unter iOS
- Unity-Beispiele für Sprach- und Absichtserkennung sowie Übersetzung
- Schnellstartbeispiele für
DialogServiceConnector
aktualisiert
Verbesserungen/Änderungen
- Dialog „Namespace“:
SpeechBotConnector
wurde inDialogServiceConnector
umbenannt.BotConfig
wurde inDialogServiceConfig
umbenannt.BotConfig::FromChannelSecret()
wurdeDialogServiceConfig::FromBotSecret()
neu zugeordnet.- Alle vorhandenen Direct Line Speech-Clients werden nach der Umbenennung weiterhin unterstützt.
- Aktualisierung des TTS-REST-Adapter zur Unterstützung von Proxys, dauerhafte Verbindung
- Verbesserung von Fehlermeldungen, wenn eine ungültige Region übergeben wird.
- Swift/Objective-C:
- Verbesserte Fehlerberichterstellung: Methoden, die zu einem Fehler führen können, sind jetzt in zwei Versionen vorhanden: Eine, die ein
NSError
-Objekt für die Fehlerbehandlung bereitstellt, und eine, das eine Ausnahme auslöst. Das erste wird für Swift verfügbar gemacht. Diese Änderung erfordert Anpassungen an vorhandenem Swift-Code. - Verbesserte Behandlung von Ereignissen
- Verbesserte Fehlerberichterstellung: Methoden, die zu einem Fehler führen können, sind jetzt in zwei Versionen vorhanden: Eine, die ein
Behebung von Programmfehlern
- Korrektur für TTS: Hierbei führte
SpeakTextAsync
die Rückgabe aus, ohne zu warten, bis das Audiorendering abgeschlossen war. - Korrektur für das Marshalling von Zeichenfolgen in C#, um vollständige Sprachunterstützung zu ermöglichen.
- Korrektur für ein .NET Core-App-Problem beim Laden der Core-Bibliothek mit dem Zielframework net461 in Beispielen.
- Korrektur für gelegentlich Probleme beim Bereitstellen nativer Bibliotheken im Ausgabeordner in Beispielen.
- Korrektur für das zuverlässige Schließen von WebSockets.
- Korrektur für mögliche Abstürze beim Öffnen einer Verbindung bei hoher Auslastung unter Linux
- Korrektur für fehlende Metadaten im Frameworkbündel für macOS.
- Korrektur für Probleme mit
pip install --user
unter Windows.
Speech SDK 1.5.1
Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.
Behebung von Programmfehlern
- Fehlerbehebung bei FromSubscription bei Verwendung mit Unterhaltungstranskription.
- Fehlerbehebung bei der Schlüsselworterkennung für Sprach-Assistenten.
Speech SDK 1.5.0: Release von Mai 2019
Neue Funktionen
- Die Schlüsselworterkennung (Keyword Spotting Functionality, KWS) ist für Windows und Linux verfügbar. Die KWS-Funktionalität kann u. U. mit jedem Mikrofontyp verwendet werden, offiziell wird KWS derzeit jedoch nur für die Mikrofonarrays in der Azure Kinect DK-Hardware oder im Speech Devices SDK unterstützt.
- Begriffshinweisfunktionalität ist über das SDK verfügbar. Weitere Informationen finden Sie hier.
- Unterhaltungstranskriptionsfunktionalität ist über das SDK verfügbar.
- Unterstützung für Sprach-Assistenten über den Direct Line Speech-Kanal wurde hinzugefügt.
Beispiele
- Beispiele für neue Funktionen oder neue Dienste, die vom SDK unterstützt werden, wurden hinzugefügt.
Verbesserungen/Änderungen
- Verschiedene Erkennungseigenschaften wurden hinzugefügt, um das Dienstverhalten oder Dienstergebnisse anzupassen (z. B. Maskieren von Obszönitäten).
- Sie können die Erkennung jetzt über die Standardkonfigurationseigenschaften konfigurieren, auch wenn Sie den Erkenner
FromEndpoint
erstellt haben. - Objective-C: Die Eigenschaft
OutputFormat
wurde zuSPXSpeechConfiguration
hinzugefügt. - Das SDK unterstützt jetzt Debian 9 als Linux-Distribution.
Behebung von Programmfehlern
- Ein Problem wurde behoben, bei dem die Sprecherressource in der Sprachsynthese zu früh zerstört wurde.
Speech SDK 1.4.2
Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.
Speech SDK 1.4.1
Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:
- Verhindern Sie das Laden von „https-proxy-agent“ durch Webpack.
Speech SDK 1.4.0: Release von April 2019
Neue Funktionen
- Das SDK unterstützt jetzt den Sprachsynthese-Dienst als Betaversion. Dies wird unter Windows- und Linux-Desktops für C++ und C# unterstützt. Weitere Informationen finden Sie in der Übersicht über die Sprachsynthese.
- Das SDK unterstützt jetzt MP3- und Opus/OGG-Audiodateien als Streameingabedateien. Dieses Feature steht nur unter Linux mit C++ und C# zur Verfügung und befindet sich derzeit in der Betaversion (weitere Details finden Sie hier).
- Das Speech SDK für Java, .NET Core, C++ und Objective-C unterstützt nun auch macOS. Die Objective-C-Unterstützung für macOS befindet sich derzeit in der Betaphase.
- iOS: Das Speech SDK für iOS (Objective-C) wird jetzt auch als ein CocoaPod veröffentlicht.
- JavaScript: Unterstützung von nicht standardisierten Mikrofonen als Eingabegeräte.
- JavaScript: Proxyunterstützung für Node.js.
Beispiele
- Beispiele für die Verwendung des Speech SDK mit C++ und Objective-C unter macOS wurden hinzugefügt.
- Beispiele zur Veranschaulichung der Verwendung des Sprachsynthese-Diensts wurden hinzugefügt.
Verbesserungen/Änderungen
- Python: Zusätzliche Eigenschaften der Erkennungsergebnisse werden jetzt über die
properties
-Eigenschaft verfügbar gemacht. - Zur weiteren Unterstützung beim Entwickeln und Debuggen können Sie die Informationen aus SDK-Protokollierung und Diagnose in eine Protokolldatei umleiten (weitere Details finden Sie hier).
- JavaScript: Verbesserte Prozessleistung bei Audiodaten.
Behebung von Programmfehlern
- Mac/iOS: Ein Fehler, der zu einer langen Wartezeit geführt hat, wenn keine Verbindung mit Speech Services hergestellt werden konnte, wurde behoben.
- Python: verbesserte Fehlerbehandlung für Argumente in Python-Rückrufen.
- JavaScript: Ein Fehler bei Statusmeldungen nach dem Ende der Spracheingabe mit RequestSession wurde behoben.
Sprach-SDK 1.3.1: Aktualisierung von Februar 2019
Dies ist ein Fehlerbehebungsrelease und betrifft nur das native/verwaltete SDK. Es betrifft nicht die JavaScript-Version des SDK.
Fehlerbehebung
- Korrigiert einen Speicherverlust bei der Verwendung von Mikrofoneingabe. Streambasierte oder Dateieingaben sind nicht betroffen.
Speech SDK 1.3.0: Version von Februar 2019
Neue Funktionen
- Das Speech SDK unterstützt die Auswahl des Eingangsmikrofons über die
AudioConfig
-Klasse. Dadurch können Sie Audiodaten über ein anderes als das Standardmikrofon an den Spracherkennungsdienst streamen. Weitere Informationen finden Sie in der Dokumentation, in der die Auswahl eines Audioeingabegeräts beschrieben wird. Für JavaScript ist diese Funktion noch nicht verfügbar. - Das Speech SDK unterstützt jetzt Unity in einer Betaversion. Senden Sie uns Feedback über den Abschnitt „Issue“ im GitHub-Beispielrepository. Dieses Release unterstützt Unity unter Windows x86 und x64 (Desktopanwendungen oder Anwendungen der universellen Windows-Plattform) und unter Android (ARM32/64, x86). Weitere Informationen finden Sie in unserem Unity-Schnellstart.
- Die Datei
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(im Lieferumfang von früheren Releases enthalten) ist nicht mehr erforderlich. Die Funktion ist jetzt in das Core-SDK integriert.
Beispiele
Die folgenden neuen Inhalte stehen in unserem Beispielrepository zur Verfügung:
- Weitere Beispiele für
AudioConfig.FromMicrophoneInput
- Weitere Python-Beispiele für Absichtserkennung und Übersetzung.
- Weitere Beispiele für die Verwendung des Objekts
Connection
in iOS - Weitere Java-Beispiele für die Übersetzung mit Audioausgabe.
- Neues Beispiel für die Verwendung der REST-API zur Batchtranskription.
Verbesserungen/Änderungen
- Python
- Verbesserte Parameterüberprüfung und Fehlermeldungen in
SpeechConfig
- Unterstützung für das Objekt
Connection
hinzugefügt - Unterstützung für 32-Bit-Python (x86) unter Windows.
- Das Speech SDK für Python befindet sich nicht mehr in der Betaversion.
- Verbesserte Parameterüberprüfung und Fehlermeldungen in
- iOS
- Das SDK wird jetzt für das iOS SDK, Version 12.1, erstellt.
- Das SDK unterstützt jetzt die iOS-Versionen 9.2 und höher.
- Verbesserte Referenzdokumentation und Korrektur mehrerer Eigenschaftsnamen.
- JavaScript
- Unterstützung für das Objekt
Connection
hinzugefügt - Hinzugefügte Typdefinitionsdateien für JavaScript-Pakete
- Anfangsunterstützung und Implementierung für Phrasenhinweise.
- Rückgabe der Eigenschaftensammlung mit Dienst-JSON für die Erkennung.
- Unterstützung für das Objekt
- Windows-DLLs enthalten jetzt eine Versionsressource.
- Wenn Sie eine
FromEndpoint
-Erkennung erstellen, können Sie der Endpunkt-URL direkt Parameter hinzufügen. Mithilfe vonFromEndpoint
können Sie die Erkennung nicht über die Standardkonfigurationseigenschaften konfigurieren.
Behebung von Programmfehlern
- Leere Angaben für Proxybenutzername und Proxykennwort wurden nicht ordnungsgemäß behandelt. Wenn Sie in diesem Release den Proxybenutzernamen und das Proxykennwort auf eine leere Zeichenfolge festlegen, werden diese bei der Herstellung einer Verbindung mit dem Proxy nicht übermittelt.
- Vom SDK erstellte SessionId-Angaben waren für einige Sprachen/Umgebungen nicht immer wirklich zufällig vergeben. Es wurde eine Initialisierung des Zufallsgenerators hinzugefügt, um dieses Problem zu beheben.
- Verbesserte Verarbeitung des Autorisierungstokens. Wenn Sie ein Autorisierungstoken verwenden möchten, geben Sie es in
SpeechConfig
an, und lassen Sie den Abonnementschlüssel leer. Erstellen Sie die Erkennung dann wie gewohnt. - In einigen Fällen wurde das
Connection
-Objekt nicht ordnungsgemäß freigegeben. Dieses Problem wurde behoben. - Das JavaScript-Beispiel wurde korrigiert, um die Audioausgabe für die Übersetzungssynthese auch in Safari zu unterstützen.
Speech SDK 1.2.1
Dieses Release gilt nur für JavaScript. Es wurden keine Features hinzugefügt. Die folgenden Fehler wurden behoben:
- Ende des Datenstroms wird bei turn.end und nicht bei speech.end ausgelöst.
- In Audiopump wurde der Fehler behoben, dass der nächste Sendevorgang nicht geplant wurde, wenn beim aktuellen Sendevorgang ein Fehler auftrat.
- Die kontinuierliche Erkennung mit Authentifizierungstoken wurde korrigiert.
- Programmfehlerbehebung für verschiedene Erkennungen/Endpunkte.
- Verbesserungen bei der Dokumentation.
Speech SDK 1.2.0: Release von Dezember 2018
Neue Funktionen
- Python
- Die Betaversion der Python-Unterstützung (ab 3.5) ist mit diesem Release verfügbar. Weitere Informationen finden Sie hier] (../../quickstart-python.md).
- JavaScript
- Das Speech SDK für JavaScript wird jetzt als Open-Source-Code bereitgestellt. Der Quellcode steht auf GitHubzur Verfügung.
- Node.js wird jetzt unterstützt. Weitere Informationen finden Sie hier.
- Die Längenbeschränkung für Audiositzungen wurde entfernt. Die Verbindungswiederherstellung erfolgt automatisch im Hintergrund.
Connection
-Objekt- Über
Recognizer
kann auf ein Objekt vom TypConnection
zugegriffen werden. Mit diesem Objekt können Sie die Dienstverbindung explizit initiieren und Verbindungsherstellungs- und Verbindungstrennungsereignisse abonnieren. (Für JavaScript und Python ist diese Funktion noch nicht verfügbar.)
- Über
- Unterstützung von Ubuntu 18.04
- Android
- ProGuard-Unterstützung während der APK-Generierung aktiviert
Verbesserungen
- Verbesserungen bei der internen Threadverwendung (weniger Threads, Sperren, Mutexe)
- Verbesserte Fehlerberichterstellung/-informationen. In einigen Fällen wurden Fehlermeldungen nicht ordnungsgemäß weitergegeben.
- Entwicklungsabhängigkeiten in JavaScript wurden für die Verwendung aktueller Module aktualisiert.
Behebung von Programmfehlern
- Arbeitsspeicherverluste aufgrund eines Typenkonflikts in
RecognizeAsync
behoben - In einigen Fällen sind Ausnahmen verloren gegangen.
- Behebung des Arbeitsspeicherverlusts in Übersetzungsereignisargumenten
- Sperrproblem bei der Verbindungswiederherstellung in langen Sitzungen behoben
- Problem behoben, dass dazu führen konnte, dass das Endergebnis für fehlerhafte Übersetzungen verpasst wird.
- C#: Wenn im Hauptthread nicht auf einen Vorgang vom Typ
async
gewartet wurde, konnte es vorkommen, dass die Erkennung vor Abschluss der asynchronen Aufgabe entfernt wurde. - Java: Problem behoben, das zum Absturz des virtuellen Java-Computers geführt hat
- Objective-C: Enumerationszuordnung korrigiert. Anstelle von
RecognizingIntent
wurde „RecognizedIntent“ zurückgegeben. - JavaScript: Standardausgabeformat in
SpeechConfig
auf „einfach“ festgelegt - JavaScript: Beseitigung der Inkonsistenz zwischen Eigenschaften des Konfigurationsobjekts in JavaScript und anderen Sprachen
Beispiele
- Mehrere Beispiele aktualisiert und korrigiert (z.B. die Ausgabestimmen für die Übersetzung).
- Node.js-Beispiele zum Beispielrepository hinzugefügt
Speech SDK 1.1.0
Neue Funktionen
- Unterstützung für Android x86/x64.
- Proxyunterstützung: Im
SpeechConfig
-Objekt können Sie jetzt eine Funktion aufrufen, um die Proxyinformationen (Hostname, Port, Benutzername und Kennwort) festzulegen. Dieses Feature ist in iOS noch nicht verfügbar. - Verbesserte Fehlercodes und Meldungen. Wenn eine Erkennung einen Fehler zurückgab, wurde dadurch bereits
Reason
(im abgebrochenen Ereignis) oderCancellationDetails
(im Erkennungsergebnis) aufError
festgelegt. Das abgebrochene Ereignis enthält jetzt zwei zusätzliche Member:ErrorCode
undErrorDetails
. Wenn der Server zusätzliche Fehlerinformationen mit dem Fehler zurückgibt, sind diese jetzt in den neuen Membern verfügbar.
Verbesserungen
- In der Konfiguration der Erkennung wurde eine zusätzliche Überprüfung hinzugefügt, und es wurde eine zusätzliche Fehlermeldung hinzugefügt.
- Die Verarbeitung von langen Pausen mitten in einer Audiodatei wurde verbessert.
- NuGet-Paket: Für .NET Framework-Projekte wird die Erstellung mit AnyCPU-Konfiguration verhindert.
Behebung von Programmfehlern
- In Erkennungen wurden verschiedene Ausnahmen behoben. Darüber hinaus werden Ausnahmen abgefangen und in Ereignisse vom Typ
Canceled
konvertiert. - Ein Arbeitsspeicherverlust in der Eigenschaftenverwaltung wurde behoben.
- Es wurde ein Fehler behoben, bei dem eine Audioeingabedatei zum Absturz der Erkennung führen konnte.
- Es wurde ein Fehler behoben, bei dem nach dem Ereignis zum Beenden einer Sitzung weiter Ereignisse empfangen werden konnten.
- Einige Racebedingungen im Threading wurden korrigiert.
- Ein iOS-Kompatibilitätsproblem wurde behoben, das zu einem Absturz führen konnte.
- Verbesserungen bei der Stabilität für die Android-Mikrofonunterstützung.
- Es wurde ein Fehler behoben, bei dem eine Erkennung in JavaScript die Erkennungssprache ignorierte.
- Es wurde ein Fehler behoben, der (in einigen Fällen) das Festlegen von
EndpointId
in JavaScript verhinderte. - Die Parameterreihenfolge in AddIntent in JavaScript wurde geändert, und es wurde eine fehlende JavaScript-Signatur für
AddIntent
hinzugefügt.
Beispiele
- Dem Beispielrepository wurden C++- und C#-Beispiele für die Verwendung von Pull- und Pushstreams hinzugefügt.
Speech SDK 1.0.1
Verbesserte Zuverlässigkeit und Fehlerbehebungen:
- Ein potenziell schwerwiegender Fehler aufgrund einer Racebedingung bei der Löscherkennung wurde behoben.
- Ein potenziell schwerwiegender Fehler bei nicht festgelegten Eigenschaften wurde behoben.
- Zusätzliche Fehler- und Parameterüberprüfungen wurden hinzugefügt.
- Objective-C: Ein potenziell schwerwiegender Fehler durch Namensüberschreibungen in NSString wurde behoben.
- Objective-C: Sichtbarkeit der API wurde angepasst
- JavaScript: Korrektur in Bezug auf Ereignisse und deren Nutzlasten.
- Verbesserungen bei der Dokumentation.
Im Beispielrepository wurde ein neues Beispiel für JavaScript hinzugefügt.
Azure KI Speech SDK 1.0.0: Release von September 2018
Neue Funktionen
- Unterstützung für Objective-C unter iOS. Sehen Sie sich unseren Objective-C-Schnellstart für iOS an.
- Unterstützung für JavaScript im Browser. Sehen Sich unseren JavaScript-Schnellstart an.
Wichtige Änderungen
- Mit diesem Release werden einige Breaking Changes eingeführt. Ausführliche Informationen finden Sie auf dieser Seite.
Azure KI Speech SDK 0.6.0: Release von August 2018
Neue Funktionen
- Mit dem Speech SDK erstellte UWP-Apps erfüllen nun die Anforderungen des Windows App Certification Kit (WACK). Sehen Sie sich den UWP-Schnellstart an.
- Unterstützung für .NET Standard 2.0 unter Linux (Ubuntu 16.04 x 64)
- Experimentell: Unterstützung für Java 8 unter Windows (64 Bit) und Linux (Ubuntu 16.04 x64). Sehen Sie sich den Schnellstart zur Java Runtime Environment an.
Funktionale Änderung
- Es werden weitere Detailinformationen zu Verbindungsfehlern verfügbar gemacht.
Wichtige Änderungen
- In Java (Android) erfordert die
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
-Funktion keinen Path-Parameter mehr. Der Pfad wird nun auf allen unterstützten Plattformen automatisch erkannt. - Der get-Accessor der
EndpointUrl
-Eigenschaft in Java und C# wurde entfernt.
Behebung von Programmfehlern
- In Java werden die Ergebnisse der Audiosynthese in der Übersetzungserkennung jetzt implementiert.
- Ein Problem wurde behoben, das inaktive Threads und eine erhöhte Anzahl von offenen und nicht verwendeten Sockets verursachen konnte.
- Ein Problem wurde behoben, das dazu führen konnte, dass lange ausgeführte Erkennungen während der Übertragung beendet wurden.
- Eine Racebedingung beim Herunterfahren der Erkennung wurde behoben.
Azure KI Speech SDK 0.5.0: Release von Juli 2018
Neue Funktionen
- Unterstützung für Android-Plattform (API 23: Android 6.0 Marshmallow oder höher). Sehen Sie sich den Android-Schnellstart an.
- Unterstützung für .NET Standard 2.0 unter Windows. Sehen Sie sich den .NET Core-Schnellstart an.
- Experimentell: Unterstützung für UWP unter Windows (Version 1709 oder höher).
- Sehen Sie sich den UWP-Schnellstart an.
- Beachten Sie, dass mit dem Speech SDK erstellte UWP-Apps die Anforderungen des Windows App Certification Kit (WACK) noch nicht erfüllen.
- Unterstützung einer lang andauernden Erkennung mit automatischer erneuter Verbindungsherstellung.
Funktionale Änderungen
StartContinuousRecognitionAsync()
unterstützt eine lang andauernde Erkennung.- Das Erkennungsergebnis enthält mehr Felder. Versatz vom Audiobeginn und Dauer (beides in Takten) des erkannten Texts und weitere Werte, die den Erkennungsstatus darstellen, z.B.
InitialSilenceTimeout
undInitialBabbleTimeout
. - Unterstützung für AuthorizationToken zum Erstellen von Factoryinstanzen.
Wichtige Änderungen
- Erkennungsereignisse: Der
NoMatch
-Ereignistyp wurde mit demError
-Ereignis zusammengeführt. - SpeechOutputFormat in C# wurde in
OutputFormat
umbenannt, um mit C++ konsistent zu bleiben. - Der Rückgabetyp einiger Methoden der
AudioInputStream
-Schnittstelle wurde geringfügig geändert:- In Java gibt die
read
-Methode jetztlong
anstelle vonint
zurück. - In C# gibt die
Read
-Methode jetztuint
anstelle vonint
zurück. - In C++ geben die
Read
- und dieGetFormat
-Methoden jetztsize_t
anstelle vonint
zurück.
- In Java gibt die
- C++: Instanzen von Audioeingabestreams können jetzt nur als
shared_ptr
übergeben werden.
Behebung von Programmfehlern
- Korrektur falscher Rückgabewerte im Ergebnis, wenn bei
RecognizeAsync()
ein Timeout auftritt. - Die Abhängigkeit von Media Foundation-Bibliotheken für Windows wurde entfernt. Das SDK verwendet jetzt die Core Audio-APIs.
- Korrektur der Dokumentation: Eine Seite Regionen wurde hinzugefügt, um die unterstützten Regionen zu beschreiben.
Bekanntes Problem
- Das Speech SDK für Android meldet die Ergebnisse der Sprachsynthese für Übersetzungen nicht. Dieses Problem wird im nächsten Release behoben.
Azure KI Speech SDK 0.4.0: Release von Juni 2018
Funktionale Änderungen
AudioInputStream
Eine Erkennung kann jetzt einen Stream als Audioquelle nutzen. Weitere Informationen finden Sie in der zugehörigen Schrittanleitung.
Detailliertes Ausgabeformat
Beim Erstellen von
SpeechRecognizer
können Sie das AusgabeformatDetailed
oderSimple
anfordern.DetailedSpeechRecognitionResult
enthält eine Zuverlässigkeitsbewertung, erkannten Text, eine lexikalische Rohform, eine normalisierte Form und eine normalisierte Form mit maskierten anstößigen Ausdrücken.
Unterbrechende Änderung
- Änderung von
SpeechRecognitionResult.RecognizedText
inSpeechRecognitionResult.Text
in C#.
Behebung von Programmfehlern
- Ein mögliches Rückrufproblem auf USP-Ebene beim Herunterfahren wurde behoben.
- Wenn eine Audioeingabedatei von einer Erkennung genutzt wurde, wurde das Dateihandle länger als erforderlich gespeichert.
- Mehrere Deadlocks zwischen dem Nachrichtensystem und der Erkennung wurden entfernt.
- Ein
NoMatch
-Ergebnis wird ausgelöst, wenn bei der Antwort vom Dienst ein Timeout auftritt. - Die Media Foundation-Bibliotheken unter Windows werden verzögert geladen. Diese Bibliothek ist nur für die Mikrofoneingabe erforderlich.
- Die Uploadgeschwindigkeit für Audiodaten ist auf das Doppelte der ursprünglichen Audiogeschwindigkeit beschränkt.
- C# .NET-Assemblys haben unter Windows nun einen starken Namen.
- Korrektur der Dokumentation:
Region
ist eine erforderliche Information zum Erstellen einer Erkennung.
Weitere Beispiele wurden hinzugefügt und werden regelmäßig aktualisiert. Die Sammlung der aktuellsten Beispiele finden Sie im GitHub-Repository mit Beispielen für das Speech SDK.
Azure KI Speech SDK 0.2.12733: Release von Mai 2018
Dieses Release ist das erste öffentliche Vorschaurelease des Azure KI Speech SDK.