Vad är nytt i Azure AI Speech?
Azure AI Speech uppdateras kontinuerligt. För att hålla dig uppdaterad om den senaste utvecklingen får du information om nya versioner och funktioner i den här artikeln.
Senaste markeringar
- Snabb transkription är nu allmänt tillgänglig. Det kan transkribera ljud mycket snabbare än den faktiska ljudvaraktigheten. Mer information finns i api-guiden för snabb transkription.
- Azure AI Speech Toolkit-tillägget är nu tillgängligt för Visual Studio Code-användare. Den innehåller en lista över snabbstarter för tal och scenarioexempel som enkelt kan skapas och köras med enkla klick. Mer information finns i Azure AI Speech Toolkit i Visual Studio Code Marketplace.
- Hd-röster (Azure AI Speech High Definition) är tillgängliga i offentlig förhandsversion. HD-rösterna kan förstå innehållet, automatiskt identifiera känslor i indatatexten och justera talartonen i realtid för att matcha sentimentet. Mer information finns i Vad är HD-röster (High Definition) för Azure AI Speech?.
- Videoöversättning är nu tillgängligt i Azure AI Speech-tjänsten. Mer information finns i Vad är videoöversättning?.
- Azure AI Speech-tjänsten stöder OpenAI-text till talröster. Mer information finns i Vad är OpenAI-text till talröster?.
- Det anpassade röst-API:et är tillgängligt för att skapa och hantera professionella och personliga anpassade neurala röstmodeller.
Viktig information
Välj en tjänst eller resurs
Version 2024–november
Azure AI Speech Toolkit-tillägget för Visual Studio Code
Azure AI Speech Toolkit-tillägget är nu tillgängligt för Visual Studio Code-användare. Den innehåller en lista över snabbstarter för tal och scenarioexempel som enkelt kan skapas och köras med enkla klick. Mer information finns i Azure AI Speech Toolkit i Visual Studio Code Marketplace.
Kodexempel för text till tal-avatar
Vi har lagt till text i kodexempel för talavatar för Android och iOS. De här exemplen visar hur du använder text i realtid till talavatarer i dina mobilprogram.
Speech SDK 1.41.1: 2024–oktober
Nya funktioner
- Stöd har lagts till för Amazon Linux 2023 och Azure Linux 3.0.
- Det offentliga egenskaps-ID:t har lagts till SpeechServiceConnection_ProxyHostBypass för att ange värdar för vilka proxyn inte används.
- Egenskaper har lagts till för att styra nya strategier för frassegmentering.
Felkorrigeringar
- Fast ofullständigt stöd för nyckelordsigenkänning Avancerade modeller som producerades efter augusti 2024.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Observera att med Swift i iOS måste projektet antingen använda MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (från https://aka.ms/csspeech/iosbinaryembedded) eller MicrosoftCognitiveServicesSpeechEmbedded-iOS-podden som innehåller stöd för avancerad modell.
- En minnesläcka i C# som rör stränganvändning har åtgärdats.
- Det gick inte att hämta SPXAutoDetectSourceLanguageResult från SPXConversationTranscriptionResult i Objective-C och Swift.
- En tillfällig krasch har åtgärdats vid användning av Microsoft Audio Stack som igenkänning.
- Tips av typen har åtgärdats i Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Det gick inte att hämta listan över TTS-röster när en anpassad slutpunkt används.
- En inbäddad TTS-ominitiering har åtgärdats för varje talarbegäran när rösten anges med ett kort namn.
- Api-referensdokumentationen har åtgärdats för maximal varaktighet för RecognizeOnce-ljud.
- Fel vid hantering av arbitary-samplingsfrekvenser i JavaScript har åtgärdats
- Tack till rseanhall för detta bidrag.
- Ett fel har åtgärdats vid beräkning av ljudförskjutningen i JavaScript
- Tack vare motamed för detta bidrag.
Icke-bakåtkompatibla ändringar
- Stöd för nyckelordsigenkänning i Windows ARM 32-bitars har tagits bort på grund av att den nödvändiga ONNX-körningen inte är tillgänglig för den här plattformen.
Speech SDK 1.40: 2024–augusti
Kommentar
Speech SDK version 1.39.0 var en intern version och saknas inte.
Nya funktioner
- Stöd har lagts till för strömning av
G.722
komprimerat ljud i taligenkänning. - Stöd har lagts till för inställning av tonhöjd, frekvens och volym i indatatextströmning i talsyntes.
- Stöd har lagts till för direktuppspelning av röstinmatningstext genom introduktion
PersonalVoiceSynthesisRequest
i talsyntes. Det här API:et är i förhandsversion och kan komma att ändras i framtida versioner. - Stöd har lagts till för diarisering av mellanliggande resultat när
ConversationTranscriber
det används. - CentOS/RHEL 7-stöd har tagits bort på grund av CentOS 7 EOL och slutet av RHEL 7 Underhållssupport 2.
- Användning av inbäddade talmodeller kräver nu en modelllicens i stället för en modellnyckel. Om du är en befintlig inbäddad talkund och vill uppgradera kontaktar du supporten på Microsoft för mer information om modelluppdateringar.
Felkorrigeringar
- Skapade Speech SDK-binärfiler för Windows med flaggan _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR som åtgärd för Visual C++-körningsproblemet Åtkomstöverträdelse med std::mutex::lock efter uppgradering till VS 2022 version 17.10.0 – Developer Community (visualstudio.com). Windows C++-program som använder Speech SDK kan behöva använda samma byggkonfigurationsflagga om koden använder std::mutex (se information i det länkade problemet).
- OpenSSL 3.x-identifieringen fungerade inte på Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- Åtgärdat problemet med att när du distribuerar en UWP-app kopieras inte bibliotek och modeller från MAS NuGet-paketet till distributionsplatsen.
- En innehållsleverantörskonflikt har åtgärdats i Android-paket (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Alternativ för efterbearbetning som inte tillämpas på mellanliggande taligenkänningsresultat har åtgärdats.
- En .NET 8-varning om distributionsspecifika körningsidentifierare (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).
Exempel
- Uppdaterade inbäddade talexempel för att använda en modelllicens i stället för en nyckel.
Speech SDK 1.38.0: 2024–juni
Nya funktioner
- Uppgradera Krav för Speech SDK Linux-plattformen:
- Den nya minimibaslinjen är Ubuntu 20.04 LTS eller kompatibel med
glibc
2.31 eller senare. - Binärfiler för Linux x86 tas bort i enlighet med stöd för Ubuntu 20.04-plattformen.
- Observera att RHEL/CentOS 7 fortfarande stöds fram till den 30 juni (slutet av CentOS 7 och slutet av RHEL 7 Underhållssupport 2). Binärfiler för dem tas bort i Speech SDK 1.39.0-versionen.
- Den nya minimibaslinjen är Ubuntu 20.04 LTS eller kompatibel med
- Lägg till stöd för OpenSSL 3 i Linux.
- Lägg till stöd för g722-16khz-64kbps ljudutdataformat med talsyntes.
- Lägg till stöd för att skicka meddelanden via ett anslutningsobjekt med talsyntes.
- Lägg till API:er för Start/StopKeywordRecognition i Objective-C och Swift.
- Lägg till API för att välja en anpassad översättningsmodellkategori.
- Uppdatera GStreamer-användning med talsyntes.
Felkorrigeringar
- Åtgärda felet "Websocket message size can't exceed 65,536 bytes" under Start/StopKeywordRecognition.
- Åtgärda ett Python-segmenteringsfel under talsyntesen.
Exempel
- Uppdatera C#-exempel så att de använder .NET 6.0 som standard.
Speech SDK 1.37.0: 2024–april
Nya funktioner
- Lägg till stöd för indatatextströmning i talsyntesen.
- Ändra standardtalsyntesrösten till en-US-AvaMultilingualNeural.
- Uppdatera Android-versioner för att använda OpenSSL 3.x.
Felkorrigeringar
- Åtgärda enstaka JVM-krascher under SpeechRecognizer-bortskaffande när du använder MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Förbättra identifieringen av standardljudenheter i Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Exempel
- Uppdaterad för nya funktioner.
Speech SDK 1.36.0: 2024–mars
Nya funktioner
- Lägg till stöd för språkidentifiering i flerspråkig översättning på v2-slutpunkter med autodetectSourceLanguageConfig::FromOpenRange().
Felkorrigeringar
Åtgärda att en SynthesisCanceled-händelse inte utlöses om stopp anropas under en SynthesisStarted-händelse.
Åtgärda ett brusproblem i inbäddad talsyntes.
Åtgärda en krasch i inbäddad taligenkänning när du kör flera identifierare parallellt.
Åtgärda inställningen för frasidentifieringsläge på v1/v2-slutpunkter.
Åtgärdar olika problem med Microsoft Audio Stack.
Exempel
- Uppdateringar för nya funktioner.
Speech SDK 1.35.0: Februari 2024
Nya funktioner
- Ändra standardtexten till talröst från en-US-JennyMultilingualNeural till en-US-AvaNeural.
- Stöd för information på ordnivå i inbäddade talöversättningsresultat med hjälp av det detaljerade utdataformatet.
Felkorrigeringar
- Åtgärda API:et för AudioDataStream-positions getter i Python.
- Åtgärda talöversättning med v2-slutpunkter utan språkidentifiering.
- Åtgärda en slumpmässig krasch och duplicera ordgränshändelser i inbäddad text till tal.
- Returnera en korrekt felkod för annullering för ett internt serverfel på WebSocket-anslutningar.
- Åtgärda misslyckandet med att läsa in FPIEProcessor.dll-biblioteket när MAS används med C#.
Exempel
- Mindre formateringsuppdateringar för inbäddade igenkänningsexempel.
Speech SDK 1.34.1: Januari 2024
Icke-bakåtkompatibla ändringar
- Endast buggkorrigeringar
Nya funktioner
- Endast buggkorrigeringar
Felkorrigeringar
- Åtgärda regression som introducerades i 1.34.0 där url:en för tjänstslutpunkten skapades med felaktig språkinformation för användare i flera Kina-regioner.
Speech SDK 1.34.0: November 2023
Icke-bakåtkompatibla ändringar
SpeechRecognizer
uppdateras för att använda en ny slutpunkt som standard (dvs. när du inte uttryckligen anger en URL) som inte längre stöder frågesträngsparametrar för de flesta egenskaperna. Använd motsvarande API-funktioner i stället för att ställa in frågesträngsparametrar direkt med ServicePropertyChannel.UriQueryParameter.
Nya funktioner
- Kompatibilitet med .NET 8 (Korrigering med undantag för https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 varning om centos7-x64)
- Stöd för inbäddade talprestandamått som kan användas för att utvärdera en enhets förmåga att köra inbäddat tal.
- Stöd för källspråkidentifiering i inbäddad flerspråkig översättning.
- Stöd för inbäddad tal till text, text till tal och översättning för iOS och Swift/Objective-C som släppts i förhandsversion.
- Inbäddad support tillhandahålls i MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.
Felkorrigeringar
- Korrigering för iOS SDK x2 gånger binär storlek tillväxt · Problem #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Korrigering för Det går inte att hämta tidsstämplar på ordnivå från Azure-tal till text-API · Problem #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Korrigering för DialogServiceAnslutningsfas för att koppla från händelser på rätt sätt. Detta orsakade krascher ibland.
- Korrigering för undantag när en identifierare skapas när MAS används.
- FPIEProcessor.dll från Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-paketet för Windows UWP x64 och Arm64 var beroende av VC-körningsbibliotek för inbyggd C++. Problemet har åtgärdats genom att uppdatera beroendet till rätt VC-körningsbibliotek (för UWP).
- Korrigering för [MAS] Återkommande anrop till recognizeOnceAsync leder till SPXERR_ALREADY_INITIALIZED vid användning av MAS · Ärende nr 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Korrigering för inbäddad taligenkänning kraschar när fraslistor används.
Exempel
- Inbäddade iOS-exempel för tal till text, text till tal och översättning.
Speech CLI 1.34.0: November 2023
Nya funktioner
- Stöd för ordgränshändelser vid syntetisera tal.
Felkorrigeringar
- JMESPath-beroendet har uppdaterats till den senaste versionen, förbättrar strängutvärderingar
Speech SDK 1.33.0: Oktober 2023
Meddelande om icke-bakåtkompatibel ändring
- Det nya NuGet-paketet som lagts till för Microsoft Audio Stack (MAS) måste nu inkluderas av program som använder MAS i sina paketkonfigurationsfiler.
Nya funktioner
- Det nya NuGet-paketet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg har lagts till, vilket ger bättre ekoreduceringsprestanda när du använder Microsoft Audio Stack
- Uttalsbedömning: stöd för prosody- och innehållsutvärdering har lagts till, vilket kan utvärdera det talade talet när det gäller prosodi, vokabulär, grammatik och ämne.
Felkorrigeringar
- Ett resultat för nyckelordsigenkänning har korrigerats så att de matchar indataljudströmmen sedan början. Korrigeringen gäller både fristående nyckelordsigenkänning och nyckelordsutlöst taligenkänning.
- Fixed Synthesizer stopSpeaking returnerar inte omedelbart SPXSpeechSynthesizer stopSpeaking()-metoden kan inte returnera omedelbart på iOS 17 – Problem #2081
- Problem med import av Mac-katalysator på Swift-modulen Stöd för mac-katalysator med apple-kisel har åtgärdats. Problem #1948
- JS: AudioWorkletNode-modulen läses in använder nu en betrodd URL, med återställning för CDN-webbläsare.
- JS: Packade lib-filer riktar sig nu till ES6 JS, med stöd för ES5 JS borttaget.
- JS: mellanliggande händelser för översättningsscenario för v2-slutpunkt hanteras korrekt
- JS: Språkegenskapen för TranslationRecognitionEventArgs har nu angetts för translation.hypoteshändelser.
- Talsyntes: En synthesisCompleted-händelse genereras garanterat efter alla metadatahändelser, så den kan användas för att indikera händelseslutet. Hur identifierar jag när visemes tas emot helt? Problem #2093 Azure-Samples/cognitive-services-speech-sdk
Exempel
- Exempel har lagts till för att demonstrera MULAW-strömning med Python)
- Korrigering för NAudio-exempel med tal till text
Speech CLI 1.33.0: Oktober 2023
Nya funktioner
- Stöd för ordgränshändelser vid syntetisera tal.
Felkorrigeringar
- inget
Speech SDK 1.32.1: september 2023
Felkorrigeringar
- Android-paketuppdateringar med de senaste säkerhetskorrigeringarna från OpenSSL1.1.1v
- JS – Egenskapen WebWorkerLoadType har lagts till för att tillåta förbikoppling av data-URL-inläsning för timeout-arbetare
- JS – Åtgärda frånkoppling av konversationsöversättning efter 10 minuter
- JS – Autentiseringstoken för konversationsöversättning från konversation sprids nu till översättningstjänstens anslutning
Exempel
Speech SDK 1.31.0: Augusti 2023
Nya funktioner
Stöd för realtidsdiarisering är tillgängligt i offentlig förhandsversion med Speech SDK 1.31.0. Den här funktionen är tillgänglig i följande SDK:er: C#, C++, Java, JavaScript, Python och Objective-C/Swift.
Synkroniserad talsyntes ordgräns och viseme-händelser med ljuduppspelning
Icke-bakåtkompatibla ändringar
- Det tidigare scenariot "konversationstranskription" har bytt namn till "mötestranskription". Använd till exempel
MeetingTranscriber
i stället förConversationTranscriber
och användCreateMeetingAsync
i stället förCreateConversationAsync
. Även om namnen på SDK-objekt och -metoder har ändrats ändras inte själva funktionen. Använd mötestranskriptionsobjekt för transkription av möten med användarprofiler och röstsignaturer. Mer information finns i Mötestranskription . Objekten och metoderna för konversationsöversättning påverkas inte av dessa ändringar. Du kan fortfarande användaConversationTranslator
objektet och dess metoder för att uppfylla översättningsscenarier.
- För diarisering i realtid introduceras ett nytt
ConversationTranscriber
objekt. Den nya objektmodellen "konversationstranskription" och anropsmönster liknar kontinuerlig igenkänning medSpeechRecognizer
objektet. En viktig skillnad är attConversationTranscriber
objektet är utformat för att användas i ett konversationsscenario där du vill särskilja flera talare (diarisering). Användarprofiler och röstsignaturer är inte tillämpliga. Mer information finns i snabbstarten för diarisering i realtid.
Den här tabellen visar tidigare och nya objektnamn för diarisering i realtid och mötestranskription. Scenarionamnet finns i den första kolumnen, de tidigare objektnamnen finns i den andra kolumnen och de nya objektnamnen finns i den tredje kolumnen.
Scenarionamn | Tidigare objektnamn | Nya objektnamn |
---|---|---|
Diarisering i realtid | Ej tillämpligt | ConversationTranscriber |
Mötestranskription | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1 Objekten Participant
, ParticipantChangedReason
och User
gäller både för mötestranskription och mötesöversättningsscenarier.
2 Objektet Meeting
är nytt och används med objektet MeetingTranscriber
.
Felkorrigeringar
- Minsta version som stöds av macOS har åtgärdats https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Bugg för utvärdering av uttal har åtgärdats:
- Åtgärdat problem med fonetikpoäng, vilket säkerställer att de nu korrekt endast återspeglar det specifika felaktigt uttalade telefonnumret. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Löste ett problem där uttalsbedömningsfunktionen felaktigt identifierade helt korrekta uttal som felaktiga, särskilt i situationer där ord kunde ha flera giltiga uttal. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Exempel
CSharp
JavaScript
Speech SDK 1.30.0: Juli 2023-versionen
Nya funktioner
- C++, C#, Java – Stöd har lagts till för
DisplayWords
i Den inbäddade taligenkänningens detaljerade resultat. - Objective-C/Swift – Stöd har lagts till för
ConnectionMessageReceived
händelse i Objective-C/Swift. - Objective-C/Swift – Förbättrade nyckelords-spotting-modeller för iOS. Den här ändringen har ökat storleken på vissa paket, som innehåller iOS-binärfiler (till exempel NuGet, XCFramework). Vi arbetar för att minska storleken på framtida versioner.
Felkorrigeringar
- En minnesläcka har åtgärdats vid användning av taligenkänning med PhraseListGrammar, enligt rapporter från en kund (GitHub-problem).
- Ett dödläge har åtgärdats i API:et för talöppningsanslutning i text till tal.
Fler anteckningar
- Java – Vissa internt använda
public
Java API-metoder har ändrats till att paketerainternal
,protected
ellerprivate
. Den här ändringen bör inte påverka utvecklare eftersom vi inte förväntar oss att program ska använda dem. Noteras här för transparens.
Exempel
- Nya uttalsutvärderingsexempel på hur du anger ett inlärningsspråk i ditt eget program
- C#: Se exempelkod.
- C++: Se exempelkod.
- JavaScript: Se exempelkod.
- Objective-C: Se exempelkod.
- Python: Se exempelkod.
- Swift: Se exempelkod.
Speech SDK 1.29.0: Juni 2023
Nya funktioner
- C++, C#, Java – förhandsversion av API:er för inbäddad talöversättning. Nu kan du göra talöversättning utan molnanslutning!
- JavaScript – Kontinuerlig språkidentifiering (LID) har nu aktiverats för talöversättning.
- JavaScript – Community-bidrag för att lägga till
LocaleName
egenskapen iVoiceInfo
klassen. Tack GitHub-användaren shivsarthak för pull-begäran. - C++, C#, Java – Stöd för omsampling av inbäddad text till talutdata från 16 kHz till 48 kHz har lagts till.
- Stöd har lagts till för
hi-IN
språkvariant i Intent Recognizer med enkel mönstermatchning.
Felkorrigeringar
- Åtgärdade en krasch orsakad av ett konkurrenstillstånd i Speech Recognizer under objektförstörelse, vilket visas i några av våra Android-tester
- Åtgärdade möjliga dödlägen i Intent Recognizer med Simple Pattern Matcher
Exempel
- Nya exempel på inbäddad talöversättning
Speech SDK 1.28.0: maj 2023
Icke-bakåtkompatibel ändring
- JavaScript SDK: OCSP (Online Certificate Status Protocol) har tagits bort. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.28 och senare innehåller inte längre vår anpassade OCSP-modul.
Nya funktioner
- Inbäddad taligenkänning returneras
NoMatchReason::EndSilenceTimeout
nu när en tidsgräns för tystnad inträffar i slutet av ett yttrande. Detta matchar beteendet när du gör igenkänning med hjälp av taltjänsten i realtid. - JavaScript SDK: Ange egenskaper för
SpeechTranslationConfig
användning avPropertyId
uppräkningsvärden.
Felkorrigeringar
- C# på Windows – Åtgärda potentiellt konkurrenstillstånd/dödläge i Windows-ljudtillägget. I scenarier som både gör sig av med ljudåtergivningen snabbt och även använder synthesizermetoden för att sluta tala, återställdes inte den underliggande händelsen av stopp och kan leda till att återgivningsobjektet aldrig tas bort, samtidigt som det kan hålla ett globalt lås för bortskaffande, vilket fryser dotnet GC-tråden.
Exempel
- Lade till ett inbäddat talexempel för MAUI.
- Det inbäddade talexemplet för Android Java har uppdaterats så att det innehåller text till tal.
Speech SDK 1.27.0: April 2023
Meddelande om kommande ändringar
- Vi planerar att ta bort OCSP (Online Certificate Status Protocol) i nästa JavaScript SDK-version. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.27 är den senaste versionen som innehåller vår anpassade OCSP-modul.
Nya funktioner
- JavaScript – Stöd har lagts till för mikrofoninmatning från webbläsaren med talaridentifiering och verifiering.
- Inbäddad taligenkänning – Uppdateringsstöd för
PropertyId::Speech_SegmentationSilenceTimeoutMs
inställning.
Felkorrigeringar
- Allmänt – Tillförlitlighetsuppdateringar i tjänståteranslutningslogik (alla programmeringsspråk utom JavaScript).
- Allmänt – Åtgärda strängkonverteringar som läcker minne i Windows (alla relevanta programmeringsspråk utom JavaScript).
- Inbäddad taligenkänning – Åtgärda krasch i fransk taligenkänning när vissa poster i grammatiklistan används.
- Källkodsdokumentation – Kommentarer om korrigeringar av SDK-referensdokumentation som rör ljudloggning på tjänsten.
- Avsiktsigenkänning – Åtgärda mönstermatchningsprioriteringar relaterade till listentiteter.
Exempel
- Hantera autentiseringsfel korrekt i C#-exempel på konversationstranskription (CTS).
- Lade till exempel på utvärdering av uttal för direktuppspelning för Python, JavaScript, Objective-C och Swift.
Speech SDK 1.26.0: version mars 2023
Icke-bakåtkompatibla ändringar
- Bitcode har inaktiverats i alla iOS-mål i följande paket: Cocoapod med xcframework, NuGet (för Xamarin och MAUI) och Unity. Ändringen beror på Apples utfasning av bitkodsstöd från Xcode 14 och senare. Den här ändringen innebär också att om du använder Xcode 13-versionen eller om du uttryckligen har aktiverat bitkoden i ditt program med hjälp av Speech SDK kan det uppstå ett fel som säger "ramverket innehåller inte bitkod och du måste återskapa det". Lös problemet genom att kontrollera att dina mål har bitkod inaktiverats.
- Det lägsta iOS-distributionsmålet uppgraderas till 11.0 i den här versionen, vilket innebär att armv7 HW inte längre stöds.
Nya funktioner
- Inbäddad taligenkänning (på enheten) stöder nu både 8- och 16 kHz samplingsfrekvens för indataljud (16 bitar per exempel, mono PCM).
- Speech Synthesis rapporterar nu anslutnings-, nätverks- och tjänstfördröjningar i resultatet för att hjälpa optimering av svarstid från slutpunkt till slutpunkt.
- Nya regler för bindningsbrott för avsiktsigenkänning med enkel mönstermatchning. Ju fler teckenbyte som matchas, vinner över mönstermatchningar med lägre antal teckenbyte. Exempel: Mönstret "Välj {something} längst upp till höger" vinner över "Välj {something}"
Felkorrigeringar
- Talsyntes: Åtgärda en bugg där emojin inte är korrekt i ordgränshändelser.
- Avsiktsigenkänning med CONVERSATIONAL Language Understanding (CLU):
- Avsikter från CLU Orchestrator-arbetsflödet visas nu korrekt.
- JSON-resultatet är nu tillgängligt via egenskaps-ID:t
LanguageUnderstandingServiceResponse_JsonResult
.
- Taligenkänning med nyckelordsaktivering: Korrigering för saknade ~150 ms ljud efter en nyckelordsigenkänning.
- Korrigering för Speech SDK NuGet iOS MAUI Release build, rapporterad av kunden (GitHub-problem)
Exempel
- Korrigering för Swift iOS-exempel, rapporterat av kunden (GitHub-problem)
Speech SDK 1.25.0: Januari 2023
Icke-bakåtkompatibla ändringar
- API:er för språkidentifiering (förhandsversion) har förenklats. Om du uppdaterar till Speech SDK 1.25 och ser en versionspaus går du till sidan Språkidentifiering för att lära dig mer om den nya egenskapen
SpeechServiceConnection_LanguageIdMode
. Den här enskilda egenskapen ersätter de två föregåendeSpeechServiceConnection_SingleLanguageIdPriority
ochSpeechServiceConnection_ContinuousLanguageIdPriority
. Det är inte längre nödvändigt att prioritera mellan låg svarstid och hög noggrannhet efter de senaste modellförbättringarna. Nu behöver du bara välja om du vill köra i början eller kontinuerlig språkidentifiering när du utför kontinuerlig taligenkänning eller översättning.
Nya funktioner
- C#/C++/Java: Embedded Speech SDK släpps nu under gated public preview. Se dokumentationen om Inbäddat tal (förhandsversion). Nu kan du göra tal till text och text till tal på enheten när molnanslutningen är tillfällig eller otillgänglig. Stöds på Android-, Linux-, macOS- och Windows-plattformar
- C# MAUI: Stöd har lagts till för iOS- och Mac Catalyst-mål i Speech SDK NuGet (kundproblem)
- Unity: Android x86_64-arkitektur har lagts till i Unity-paketet (kundproblem)
- Gå:
- Direktuppspelningsstöd för ALAW/MULAW har lagts till för taligenkänning (kundproblem)
- Stöd har lagts till för PhraseListGrammar. Tack GitHub-användaren czkoko för communityns bidrag!
- C#/C++: Intent Recognizer stöder nu modeller för konversationsspråkstolkning i C++ och C# med orkestrering i Microsoft-tjänsten
Felkorrigeringar
- Åtgärda en tillfällig låsning i KeywordRecognizer när du försöker stoppa den
- Python:
- Korrigering för att hämta uttalsutvärderingsresultat när
PronunciationAssessmentGranularity.FullText
har angetts (kundproblem) - Korrigering för könsegenskap för manliga röster som inte hämtas, när talsyntesröster hämtas
- Korrigering för att hämta uttalsutvärderingsresultat när
- JavaScript
- Korrigering för parsning av vissa WAV-filer som har registrerats på iOS-enheter (kundproblem)
- JS SDK bygger nu utan att använda npm-force-resolutions (kundproblem)
- Konversationsöversättaren ställer nu in tjänstslutpunkten korrekt när du använder en speechConfig-instans som skapats med SpeechConfig.fromEndpoint()
Exempel
Exempel som visar hur du använder Inbäddat tal har lagts till
Tal i textexempel har lagts till för MAUI
Se Lagringsplatsen för Speech SDK-exempel.
Speech SDK 1.24.2: November 2022-version
Nya funktioner
- Inga nya funktioner, bara en inbäddad motorkorrigering för att stödja nya modellfiler.
Felkorrigeringar
- Alla programmeringsspråk
- Ett problem med kryptering av inbäddade taligenkänningsmodeller har åtgärdats.
Speech SDK 1.24.1: November 2022-version
Nya funktioner
- Publicerade paket för förhandsversionen av Embedded Speech. Mer information finns i https://aka.ms/embedded-speech.
Felkorrigeringar
- Alla programmeringsspråk
- Åtgärda inbäddad TTS-krasch när röstteckensnitt inte stöds
- Korrigering av stopSpeaking() kan inte stoppa uppspelning på Linux (#1686)
- JavaScript SDK
- Fast regression i hur konversation transkribering gated ljud.
- Java
- Tillfälligt publicerade uppdaterade POM- och Javadocs-filer till Maven Central för att göra det möjligt för docs-pipelinen att uppdatera onlinereferensdokument.
- Python
- Åtgärda regression där Python speak_text(ssml) returnerar void.
Speech SDK 1.24.0: oktober 2022
Nya funktioner
- Alla programmeringsspråk: AMR-WB (16khz) har lagts till i listan över text-till-tal-ljudutdataformat som stöds
- Python: Paketet har lagts till för Linux Arm64 för Linux-distributioner som stöds.
- C#/C++/Java/Python: Stöd har lagts till för direktuppspelning av ALAW och MULAW till taltjänsten (förutom befintlig PCM-ström) med hjälp av
AudioStreamWaveFormat
. - C# MAUI: NuGet-paketet har uppdaterats för att stödja Android-mål för .NET MAUI-utvecklare (kundproblem)
- Mac: Lade till separat XCframework för Mac, som inte innehåller några iOS-binärfiler. Detta erbjuder ett alternativ för utvecklare som bara behöver Mac-binärfiler med ett mindre XCframework-paket.
- Microsoft Audio Stack (MAS):
- När strålformningsvinklar anges ignoreras ljud som kommer utanför angivet intervall bättre.
- Ungefär 70 % minskning av
libMicrosoft.CognitiveServices.Speech.extension.mas.so
storleken på för Linux ARM32 och Linux Arm64.
- Avsiktsigenkänning med mönstermatchning:
- Lägga till ortografistöd för språken
fr
,de
,es
,jp
- Fördefinierade heltalsstöd har lagts till för språket
es
.
- Lägga till ortografistöd för språken
Felkorrigeringar
- iOS: Åtgärda talsyntesfel på iOS 16 som orsakas av komprimerat ljud avkodningsfel (kundproblem).
- JavaScript:
- Åtgärda att autentiseringstoken inte fungerar när röstlistan för talsyntes hämtas (kundproblem).
- Använd data-URL för arbetsinläsning (kundproblem).
- Skapa endast en ljudprocessorarbetslet när AudioWorklet stöds i webbläsaren (kundproblem). Detta var ett samhällsbidrag av William Wong. Tack William!
- Åtgärda igenkända motringningar när LUIS-svaret
connectionMessage
är tomt (kundproblem). - Ange tidsgränsen för talsegmentering korrekt.
- Avsiktsigenkänning med mönstermatchning:
- Icke-json-tecken i modeller läses nu in korrekt.
- Åtgärda hängande problem när
recognizeOnceAsync(text)
anropades under kontinuerlig igenkänning.
Speech SDK 1.23.0: Juli 2022-versionen
Nya funktioner
- C#, C++, Java: Stöd har lagts till för språk
zh-cn
ochzh-hk
i Avsiktsigenkänning med mönstermatchning. - C#: Stöd för
AnyCPU
.NET Framework-versioner har lagts till
Felkorrigeringar
- Android: Åtgärdat OpenSSL-sårbarhets-CVE-2022-2068 genom att uppdatera OpenSSL till 1.1.1q
- Python: Åtgärda krasch när du använder PushAudioInputStream
- iOS: Åtgärda "EXC_BAD_ACCESS: Försökte avreferera nullpekaren" enligt rapporten om iOS (GitHub-problem)
Speech SDK 1.22.0: Juni 2022
Nya funktioner
- Java: IntentRecognitionResult API för getEntities(), applyLanguageModels() och recognizeOnceAsync(text) har lagts till för att stödja motorn "enkel mönstermatchning".
- Unity: Stöd har lagts till för Mac M1 (Apple Silicon) för Unity-paket (GitHub-problem)
- C#: Stöd för x86_64 för Xamarin Android (GitHub-problem) har lagts till
- C#: .NET Framework lägsta version uppdaterad till v4.6.2 för SDK C#-paketet eftersom v4.6.1 har dragits tillbaka (se Microsoft .NET Framework Component Lifecycle Policy)
- Linux: Stöd har lagts till för Debian 11 och Ubuntu 22.04 LTS. Ubuntu 22.04 LTS kräver manuell installation av libssl1.1 antingen som ett binärt paket härifrån (till exempel libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb eller senare för x64) eller genom kompilering från källor.
Felkorrigeringar
- UWP: OpenSSL-beroendet har tagits bort från UWP-bibliotek och ersatts med WinRT-websocket- och HTTP-API:er för att uppfylla säkerhetsefterlevnad och mindre binärt fotavtryck.
- Mac: Problemet "MicrosoftCognitiveServicesSpeech Module Not Found" har åtgärdats vid användning av Swift-projekt som riktar sig till macOS-plattformen
- Windows, Mac: Åtgärdat ett plattformsspecifikt problem där ljudkällor som konfigurerats via egenskaper för att strömma i realtid ibland hamnade efter och så småningom överskred kapaciteten
Exempel (GitHub)
- C#: .NET Framework-exempel har uppdaterats för användning av v4.6.2
- Unity: Virtuell assistentexempel har åtgärdats för Android och UWP
- Unity: Unity-exempel uppdaterade för Unity 2020 LTS-version
Speech SDK 1.21.0: April 2022-version
Nya funktioner
- Java & JavaScript: Stöd för kontinuerlig språkidentifiering har lagts till när du använder SpeechRecognizer-objektet
- JavaScript: Api:er för diagnostik har lagts till för att aktivera loggningsnivå för konsolen och filloggning (endast nod) för att hjälpa Microsoft att felsöka kundrapporterade problem
- Python: Stöd för konversationstranskription har lagts till
- Go: Stöd för talarigenkänning har lagts till
- C++ & C#: Stöd har lagts till för en obligatorisk grupp ord i avsiktsigenkänningen (enkel mönstermatchning). Till exempel: "(set|start|begin) a timer" där antingen "set", "start" eller "begin" måste finnas för att avsikten ska kunna identifieras.
- Alla programmeringsspråk, Speech Synthesis: Egenskapen duration har lagts till i ordgränshändelser. Stöd har lagts till för skiljeteckengräns och meningsgräns
- Objective-C/Swift/Java: Lade till resultat på ordnivå i resultatobjektet Uttalsbedömning (liknar C#). Programmet behöver inte längre parsa en JSON-resultatsträng för att få information på ordnivå (GitHub-problem)
- iOS-plattform: Lade till experimentellt stöd för ARMv7-arkitektur
Felkorrigeringar
- iOS-plattform: Korrigering för att tillåta att målet "Alla iOS-enheter" skapas när du använder CocoaPod (GitHub-problem)
- Android-plattform: OpenSSL-versionen har uppdaterats till 1.1.1n för att åtgärda säkerhetsrisker CVE-2022-0778
- JavaScript: Åtgärda problem där wav-huvudet inte uppdaterades med filstorlek (GitHub-problem)
- JavaScript: Åtgärda problem med att felöversättningsscenarier för begärande-ID desynkroniseras (GitHub-problem)
- JavaScript: Åtgärda problem när du instansierar SpeakerAudioDestination utan ström (GitHub-problem]
- C++: Åtgärda C++-huvuden för att ta bort en varning vid kompilering för C++17 eller senare
Exempel på GitHub
- Nya Java-exempel för taligenkänning med språkidentifiering
- Nya Python - och Java-exempel för konversationstranskription
- Nytt Go-exempel för talarigenkänning
- Nytt C++ och C#- verktyg för Windows som räknar upp alla enheter för ljudinspelning och återgivning för att hitta deras enhets-ID. Det här ID:t krävs av Speech SDK om du planerar att spela in ljud från eller återge ljud till en nondefault-enhet.
Speech SDK 1.20.0: Januari 2022
Nya funktioner
- Objective-C, Swift och Python: Stöd har lagts till för DialogServiceConnector, som används för röstassistentscenarier.
- Python: Stöd för Python 3.10 har lagts till. Stöd för Python 3.6 har tagits bort per Pythons livslängd för 3,6.
- Unity: Speech SDK stöds nu för Unity-program i Linux.
- C++, C#: IntentRecognizer med mönstermatchning stöds nu i C#. Dessutom stöds scenarier med anpassade entiteter, valfria grupper och entitetsroller i C++ och C#.
- C++, C#: Förbättrad spårningsloggning för diagnostik med hjälp av de nya klasserna FileLogger, MemoryLogger och EventLogger. SDK-loggar är ett viktigt verktyg för Microsoft för att diagnostisera kundrapporterade problem. Dessa nya klasser gör det enklare för kunder att integrera Speech SDK-loggar i sitt eget loggningssystem.
- Alla programmeringsspråk: PronunciationAssessmentConfig har nu egenskaper för att ange önskat fonem-alfabet (IPA eller SAPI) och N-Best Phoneme Count (undvika behovet av att skapa en konfigurations-JSON enligt GitHub-problem 1284). Utdata på stavelsenivå stöds nu också.
- Android, iOS och macOS (alla programmeringsspråk): GStreamer behövs inte längre för att stödja nätverk med begränsad bandbredd. SpeechSynthesizer använder nu operativsystemets ljudavkodningsfunktioner för att avkoda komprimerat ljud som strömmas från text till taltjänst.
- Alla programmeringsspråk: SpeechSynthesizer har nu stöd för tre nya Opus-format för råutdata (utan container), som ofta används i scenarier med liveuppspelning.
- JavaScript: Api:et getVoicesAsync() har lagts till i SpeechSynthesizer för att hämta listan över syntesröster som stöds (GitHub-nummer 1350)
- JavaScript: Api:et getWaveFormat() har lagts till i AudioStreamFormat för att stödja icke-PCM-vågformat (GitHub-problem 452)
- JavaScript: Volym getter/setter och mute()/unmute() API:er har lagts till i SpeakerAudioDestination (GitHub-nummer 463)
Felkorrigeringar
- C++, C#, Java, JavaScript, Objective-C och Swift: Åtgärda för att ta bort en 10-sekunders fördröjning när du stoppar en taligenkänning som använder en PushAudioInputStream. Detta gäller för de fall då inget nytt ljud skickas in efter att StopContinuousRecognition anropats (GitHub-problem 1318, 331)
- Unity på Android och UWP: Unity-metafiler har åtgärdats för UWP, Android Arm64 och Windows-undersystem för Android (WSA) Arm64 (GitHub-problem 1360)
- iOS: Kompilera ditt Speech SDK-program på valfri iOS-enhet när du använder CocoaPods är nu åtgärdat (GitHub-problem 1320)
- iOS: När SpeechSynthesizer har konfigurerats för att mata ut ljud direkt till en högtalare stoppades uppspelningen i början under sällsynta förhållanden. Det här har åtgärdats.
- JavaScript: Använd tillbakafall för skriptprocessor för mikrofonindata om ingen ljudarbetspunkt hittas (GitHub-problem 455)
- JavaScript: Lägg till protokoll till agenten för att åtgärda buggar som hittats med Sentry-integrering (GitHub-problem 465)
Exempel på GitHub
- C++-, C#-, Python- och Java-exempel som visar hur du får detaljerade igenkänningsresultat. Informationen omfattar alternativa igenkänningsresultat, konfidenspoäng, lexikalt formulär, Normaliserat formulär, Maskerat normaliserat formulär, med tidsinställning på ordnivå för var och en.
- iOS-exempel har lagts till med AVFoundation som extern ljudkälla.
- Java-exempel har lagts till för att visa hur du hämtar SRT-format (SubRip Text) med hjälp av WordBoundary-händelsen.
- Android-exempel för uttalsutvärdering.
- C++, C# som visar användningen av de nya diagnostikloggningsklasserna.
Speech SDK 1.19.0: 2021-Nov-version
Höjdpunkter
Tjänsten för talarigenkänning är allmänt tillgänglig (GA) nu. Speech SDK-API:er är tillgängliga på C++, C#, Java och JavaScript. Med talarigenkänning kan du korrekt verifiera och identifiera talare med hjälp av deras unika röstegenskaper. Mer information om det här avsnittet finns i dokumentationen.
Vi har tagit bort stödet för Ubuntu 16.04 tillsammans med Azure DevOps och GitHub. Ubuntu 16.04 nådde slutet av livet redan i april 2021. Migrera dina Ubuntu 16.04-arbetsflöden till Ubuntu 18.04 eller senare.
OpenSSL-länkning i Linux-binärfiler har ändrats till dynamisk. Binär Linux-storlek har minskat med cirka 50 %.
Stöd för Mac M1 ARM-baserat kisel har lagts till.
Nya funktioner
C++/C#/Java: Nya API:er har lagts till för att aktivera stöd för ljudbearbetning för talinmatning med Microsoft Audio Stack. Dokumentation här.
C++: Nya API:er för avsiktsigenkänning för att underlätta mer avancerad mönstermatchning. Detta inkluderar entiteter för list- och fördefinierade heltal samt stöd för gruppering av avsikter och entiteter som modeller (dokumentation, uppdateringar och exempel är under utveckling och kommer att publiceras inom en snar framtid).
Mac: Stöd för Arm64-baserade (M1) kisel för CocoaPod-, Python-, Java- och NuGet-paket relaterade till GitHub-problem 1244.
iOS/Mac: iOS- och macOS-binärfiler paketeras nu i xcframework relaterade till GitHub-problem 919.
iOS/Mac: Stöd för Mac-katalysator som rör GitHub-problem 1171.
Linux: Nytt tjärpaket har lagts till för CentOS7 Om Speech SDK. Linux-.tar-paketet innehåller nu specifika bibliotek för RHEL/CentOS 7 i
lib/centos7-x64
. Speech SDK-bibliotek i lib/x64 gäller fortfarande för alla andra Linux x64-distributioner som stöds (inklusive RHEL/CentOS 8) och fungerar inte på RHEL/CentOS 7.JavaScript: VoiceProfile & SpeakerRecognizer API:er har gjorts asynkrona/väntande.
JavaScript: Stöd har lagts till för azure-regioner för amerikanska myndigheter.
Windows: Stöd har lagts till för uppspelning på Universell Windows-plattform (UWP).
Felkorrigeringar
Android: OpenSSL-säkerhetsuppdatering (uppdaterad till version 1.1.1l) för Android-paket.
Python: Åtgärdat fel där det inte går att välja högtalarenhet i Python.
Kärna: Återanslut automatiskt när ett anslutningsförsök misslyckas.
iOS: Ljudkomprimering inaktiveras på iOS-paket på grund av instabilitet och problem med bitkodsgenerering när du använder GStreamer. Information finns tillgänglig via GitHub-problem 1209.
Exempel på GitHub
Mac/iOS: Uppdaterade exempel och snabbstarter för att använda xcframework-paketet.
.NET: Exempel har uppdaterats för att använda .NET Core 3.1-versionen.
JavaScript: Ett exempel har lagts till för röstassistenter.
Speech SDK 1.18.0: 2021–juli
Obs! Kom igång med Speech SDK här.
Sammanfattning av markeringar
- Ubuntu 16.04 nådde slutet av livet i april 2021. Med Azure DevOps och GitHub släpper vi supporten för 16.04 i september 2021. Migrera ubuntu-16.04-arbetsflöden till ubuntu-18.04 eller senare innan dess.
Nya funktioner
- C++: Enkel språkmönstermatchning med intent recognizer gör det nu enklare att implementera enkla scenarier för avsiktsigenkänning.
- C++/C#/Java: Vi har lagt till ett nytt API i
GetActivationPhrasesAsync()
klassen för attVoiceProfileClient
ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier.- Viktigt: Funktionen talarigenkänning finns i förhandsversion. Alla röstprofiler som skapats i förhandsversionen upphör 90 dagar efter att funktionen Talarigenkänning har flyttats från förhandsversionen till Allmän tillgänglighet. Då slutar röstprofilerna för förhandsversionen att fungera.
- Python: Stöd har lagts till för kontinuerlig språkidentifiering (LID) för befintliga
SpeechRecognizer
objekt ochTranslationRecognizer
objekt. - Python: Lade till ett nytt Python-objekt med namnet
SourceLanguageRecognizer
för att göra enstaka eller kontinuerlig LID (utan igenkänning eller översättning). - JavaScript:
getActivationPhrasesAsync
API har lagts till i klassen för attVoiceProfileClient
ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier. - JavaScripts
VoiceProfileClient
enrollProfileAsync
API är nu asynkront. Se den här oberoende identifieringskoden, till exempel användning.
Förbättringar
- Java: AutoCloseable-stöd har lagts till i många Java-objekt. Nu stöds try-with-resources-modellen för att frigöra resurser. Se det här exemplet som använder try-with-resources. Se även dokumentationsguiden för Oracle Java för instruktionen try-with-resources för att lära dig mer om det här mönstret.
- Diskavtrycket har minskat avsevärt för många plattformar och arkitekturer. Exempel för
Microsoft.CognitiveServices.Speech.core
binärfilen: x64 Linux är 475 KB mindre (8,0 % minskning); Arm64 Windows UWP är 464 KB mindre (11,5 % minskning); x86 Windows är 343 KB mindre (17,5 % minskning); och x64 Windows är 451 KB mindre (19,4 % minskning).
Felkorrigeringar
- Java: Åtgärdat syntesfel när syntestexten innehåller surrogattecken. Information här.
- JavaScript: Ljudbearbetning i webbläsarens mikrofon används
AudioWorkletNode
nu i stället för inaktuellScriptProcessorNode
. Information här. - JavaScript: Håll konversationerna vid liv under långvariga scenarier för konversationsöversättning. Information här.
- JavaScript: Åtgärdat problem med att identifieraren återansluter till en mediastream i kontinuerlig igenkänning. Information här.
- JavaScript: Åtgärdat problem med att identifieraren återansluter till en pushStream i kontinuerlig igenkänning. Information här.
- JavaScript: Korrigerad förskjutningsberäkning på ordnivå i detaljerade igenkänningsresultat. Information här.
Exempel
- Java-snabbstartsexempel uppdaterade här.
- JavaScript-talarigenkänningsexempel har uppdaterats för att visa ny användning av
enrollProfileAsync()
. Se exempel här.
Speech SDK 1.17.0: 2021-may release
Kommentar
Kom igång med Speech SDK här.
Sammanfattning av markeringar
- Mindre fotavtryck – vi fortsätter att minska minnet och diskavtrycket för Speech SDK och dess komponenter.
- Med ett nytt fristående API för språkidentifiering kan du känna igen vilket språk som talas.
- Utveckla talaktiverade appar för mixad verklighet och spel med Unity på macOS.
- Nu kan du använda Text till tal utöver taligenkänning från programmeringsspråket Go.
- Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Håll feedbacken kommer!
Nya funktioner
- C++/C#: Ny fristående at-start och kontinuerlig språkidentifiering via API:et
SourceLanguageRecognizer
. Om du bara vill identifiera språk som talas i ljudinnehåll är detta API:et för att göra det. Mer information finns i C++ och C#. - C++/C#: Taligenkänning och översättningsigenkänning stöder nu både start- och kontinuerlig språkidentifiering så att du programmatiskt kan avgöra vilka språk som talas innan de transkriberas eller översätts. Se dokumentationen här för Taligenkänning och här för Talöversättning.
- C#: Stöd för Unity-stöd för macOS (x64) har lagts till. Detta låser upp användningsfall för taligenkänning och talsyntes i mixad verklighet och spel!
- Go: Vi har lagt till stöd för talsyntestext till tal till programmeringsspråket Go för att göra talsyntes tillgänglig i ännu fler användningsfall. Se vår snabbstart eller vår referensdokumentation.
- C++/C#/Java/Python/Objective-C/Go: Talsyntesen stöder nu objektet
connection
. Detta hjälper dig att hantera och övervaka anslutningen till Speech-tjänsten och är särskilt användbart för att föransluta för att minska svarstiden. Se dokumentationen här. - C++/C#/Java/Python/Objective-C/Go: Nu exponerar vi svarstiden och underkörningstiden för
SpeechSynthesisResult
att hjälpa dig att övervaka och diagnostisera problem med svarstid för talsyntes. Mer information finns i C++, C#, Java, Python, Objective-C och Go. - C++/C#/Java/Python/Objective-C: Text till tal använder nu neurala röster som standard när du inte anger en röst som ska användas. Detta ger dig högre återgivningsutdata som standard, men ökar även standardpriset. Du kan ange någon av våra över 70 standardröster eller över 130 neurala röster för att ändra standardvärdet.
- C++/C#/Java/Python/Objective-C/Go: Vi har lagt till en könsegenskap i röstinformationen för syntes för att göra det enklare att välja röster baserat på kön. Detta åtgärdar GitHub-problem #1055.
- C++, C#, Java, JavaScript: Vi stöder
retrieveEnrollmentResultAsync
nu ,getAuthorizationPhrasesAsync
ochgetAllProfilesAsync()
i talarigenkänning för att underlätta användarhanteringen av alla röstprofiler för ett visst konto. Se dokumentationen för C++, C#, Java, JavaScript. Detta åtgärdar GitHub-problem #338. - JavaScript: Vi har lagt till ett nytt försök för anslutningsfel som gör dina JavaScript-baserade talprogram mer robusta.
Förbättringar
- Linux- och Android Speech SDK-binärfiler har uppdaterats för att använda den senaste versionen av OpenSSL (1.1.1k)
- Förbättringar av kodstorlek:
- Language Understanding är nu uppdelat i ett separat "lu"-bibliotek.
- Binär storlek för Windows x64-kärnor minskade med 14,4 %.
- Android Arm64 core binär storlek minskade med 13,7%.
- andra komponenter minskade också i storlek.
Felkorrigeringar
- Alla: GitHub-problem #842 för ServiceTimeout har åtgärdats. Nu kan du transkribera långa ljudfiler med hjälp av Speech SDK utan att anslutningen till tjänsten avslutas med det här felet. Vi rekommenderar dock fortfarande att du använder batch-transkription för långa filer.
- C#: GitHub-problemet #947 har åtgärdats där inga talindata kunde lämna appen i ett felaktigt tillstånd.
- Java: GitHub-problem #997 har åtgärdats där Speech SDK för Java 1.16 kraschar när du använder DialogServiceConnector utan nätverksanslutning eller en ogiltig prenumerationsnyckel.
- En krasch har åtgärdats när taligenkänningen plötsligt stoppades (till exempel genom att använda CTRL+C i konsolappen).
- Java: En korrigering har lagts till för att ta bort temporära filer i Windows när du använder Speech SDK för Java.
- Java: GitHub-problem #994 har åtgärdats där anrop
DialogServiceConnector.stopListeningAsync
kan resultera i ett fel. - Java: Ett kundproblem har åtgärdats i snabbstarten för den virtuella assistenten.
- JavaScript: GitHub-problemet #366 har åtgärdats där
ConversationTranslator
ett felmeddelande om att "this.cancelSpeech inte är en funktion". - JavaScript: GitHub-problemet #298 har åtgärdats där exemplet "Get result as an in-memory stream" spelades upp högt.
- JavaScript: GitHub-problem #350 har åtgärdats där anrop
AudioConfig
kan resultera i att "ReferenceError: MediaStream inte har definierats". - JavaScript: En UnhandledPromiseRejection-varning har åtgärdats i Node.js för långvariga sessioner.
Exempel
- Dokumentationen om Unity-exempel för macOS har uppdaterats här.
- Ett React Native-exempel för Azure AI Speech-igenkänningstjänsten är nu tillgängligt här.
Speech SDK 1.16.0: 2021–mars
Kommentar
Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned den här.
Nya funktioner
- C++/C#/Java/Python: Flyttade till den senaste versionen av GStreamer (1.18.3) för att lägga till stöd för transkribering av medieformat i Windows, Linux och Android. Se dokumentationen här.
- C++/C#/Java/Objective-C/Python: Stöd har lagts till för avkodning av komprimerat TTS/syntetiserat ljud till SDK. Om du ställer in utdataljudformatet på PCM och GStreamer är tillgängligt i systemet begär SDK automatiskt komprimerat ljud från tjänsten för att spara bandbredd och avkoda ljudet på klienten. Du kan ställa in
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
på för attfalse
inaktivera den här funktionen. Information om C++, C#, Java, Objective-C, Python. - JavaScript: Node.js användare kan nu använda API:et
AudioConfig.fromWavFileInput
. Detta åtgärdar GitHub-problem #252. - C++/C#/Java/Objective-C/Python: Metoden för TTS har lagts
GetVoicesAsync()
till för att returnera alla tillgängliga syntesröster. Information om C++, C#, Java, Objective-C och Python. - C++/C#/Java/JavaScript/Objective-C/Python: Händelsen har lagts till
VisemeReceived
för TTS/talsyntes för att returnera synkron viseme-animering. Se dokumentationen här. - C++/C#/Java/JavaScript/Objective-C/Python: Händelsen har lagts till
BookmarkReached
för TTS. Du kan ange bokmärken i indata-SSML och få ljudförskjutningar för varje bokmärke. Se dokumentationen här. - Java: Stöd för API:er för talarigenkänning har lagts till. Information här.
- C++/C#/Java/JavaScript/Objective-C/Python: Lade till två nya utdataljudformat med WebM-container för TTS (Webm16Khz16BitMonoOpus och Webm24Khz16BitMonoOpus). Det här är bättre format för direktuppspelning av ljud med Opus codec. Information om C++, C#, Java, JavaScript, Objective-C, Python.
- C++/C#/Java: Stöd har lagts till för att hämta röstprofilen för scenariot talarigenkänning. Information om C++, C#och Java.
- C++/C#/Java/Objective-C/Python: Stöd har lagts till för separat delat bibliotek för ljudmikrofon och talarkontroll. På så sätt kan utvecklaren använda SDK:t i miljöer som inte har nödvändiga beroenden för ljudbibliotek.
- Objective-C/Swift: Stöd har lagts till för modulramverk med paraplyrubrik. På så sätt kan utvecklaren importera Speech SDK som en modul i iOS/Mac Objective-C/Swift-appar. Detta åtgärdar GitHub-problem #452.
- Python: Stöd för Python 3.9 har lagts till och stöd för Python 3.5 har tagits bort per Pythons livslängd för 3,5.
Kända problem
- C++/C#/Java:
DialogServiceConnector
kan inte använda enCustomCommandsConfig
för att komma åt ett program för anpassade kommandon och kommer i stället att stöta på ett anslutningsfel. Du kan kringgå detta genom att manuellt lägga till ditt program-ID i begäran medconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. Det förväntade beteendetCustomCommandsConfig
för återställs i nästa version.
Förbättringar
- Som en del av vårt arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskfotavtryck är Android-binärfiler nu 3 till 5 % mindre.
- Förbättrad noggrannhet, läsbarhet och se-även-avsnitt i vår C#-referensdokumentation här.
Felkorrigeringar
- JavaScript: Stora WAV-filhuvuden parsas nu korrekt (ökar rubriksegmentet till 512 byte). Detta åtgärdar GitHub-problem #962.
- JavaScript: Korrigerat problem med mikrofontidsinställning om mikrofonströmmen slutar att fungera innan igenkänningen stoppas, vilket åtgärdar ett problem med att taligenkänning inte fungerar i Firefox.
- JavaScript: Vi hanterar nu initieringslöftet korrekt när webbläsaren tvingar mikrofonen av innan turnOn slutförs.
- JavaScript: Vi ersatte URL-beroendet med url-parse. Detta åtgärdar GitHub-problem #264.
- Android: Fasta återanrop fungerar inte när
minifyEnabled
är inställt på sant. - C++/C#/Java/Objective-C/Python:
TCP_NODELAY
är korrekt inställt på underliggande socket-I/O för TTS för att minska svarstiden. - C++/C#/Java/Python/Objective-C/Go: Åtgärdade en tillfällig krasch när identifieraren förstördes strax efter att en igenkänning påbörjats.
- C++/C#/Java: En tillfällig krasch i förstörelsen av talarigenkänningen har åtgärdats.
Exempel
- JavaScript: Webbläsarexempel kräver inte längre separat nedladdning av JavaScript-biblioteksfil.
Speech SDK 1.15.0: 2021–januari
Kommentar
Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned den här.
Sammanfattning av markeringar
- Mindre minne och diskfotavtryck gör SDK:et mer effektivt.
- Utdataformat med högre återgivning är tillgängliga för privat förhandsversion av anpassad neural röst.
- Avsiktsigenkänning kan nu få mer avkastning än den främsta avsikten, vilket ger dig möjlighet att göra en separat utvärdering av kundens avsikt.
- Röstassistenter och robotar är nu enklare att konfigurera, och du kan få det att sluta lyssna direkt och utöva större kontroll över hur det svarar på fel.
- Förbättrad enhetsprestanda genom att göra komprimering valfritt.
- Använd Speech SDK på Windows ARM/Arm64.
- Förbättrad felsökning på låg nivå.
- Uttalsbedömningsfunktionen är nu mer allmänt tillgänglig.
- Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Håll feedbacken kommer!
Förbättringar
- Speech SDK är nu effektivare och enklare. Vi har påbörjat ett arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskavtryck. Som ett första steg gjorde vi betydande filstorleksminskningar i delade bibliotek på de flesta plattformar. Jämfört med 1.14-versionen:
- 64-bitars UWP-kompatibla Windows-bibliotek är cirka 30 % mindre.
- 32-bitars Windows-bibliotek ser ännu ingen storleksförbättring.
- Linux-bibliotek är 20–25 % mindre.
- Android-bibliotek är 3–5 % mindre.
Nya funktioner
- Alla: Nya utdataformat på 48 KHz som är tillgängliga för den privata förhandsversionen av anpassad neural röst via TTS-talsyntes-API:et: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- Alla: Anpassad röst är också enklare att använda. Stöd har lagts till för att ställa in anpassad röst via
EndpointId
(C++, C#, Java, JavaScript, Objective-C, Python). Innan den här ändringen behövde anpassade röstanvändare ange slutpunkts-URL:en viaFromEndpoint
-metoden. Nu kan kunderna användaFromSubscription
metoden precis som fördefinierade röster och sedan ange distributions-ID:t genom att angeEndpointId
. Detta förenklar konfigurationen av anpassade röster. - C++/C#/Java/Objective-C/Python: Hämta mer än den främsta avsikten från
IntentRecognizer
. Nu har den stöd för att konfigurera JSON-resultatet som innehåller alla avsikter och inte bara avsikten med högsta poäng viaLanguageUnderstandingModel FromEndpoint
metoden med hjälp av URI-parameternverbose=true
. Detta åtgärdar GitHub-problem #880. Se uppdaterad dokumentation här. - C++/C#/Java: Gör så att röstassistenten eller roboten slutar lyssna direkt.
DialogServiceConnector
(C++, C#, Java) har nu enStopListeningAsync()
metod att följa medListenOnceAsync()
. Detta stoppar omedelbart ljudinspelningen och väntar graciöst på ett resultat, vilket gör det perfekt för användning med knapptryckningsscenarier "stoppa nu". - C++/C#/Java/JavaScript: Få röstassistenten eller roboten att reagera bättre på underliggande systemfel.
DialogServiceConnector
(C++, C#, Java, JavaScript) har nu en nyTurnStatusReceived
händelsehanterare. Dessa valfria händelser motsvarar varjeITurnContext
lösning på roboten och rapporterar körningsfel när de inträffar, till exempel som ett resultat av ett ohanterat undantag, en timeout eller en nätverksminskning mellan Direct Line Speech och roboten.TurnStatusReceived
gör det enklare att svara på feltillstånd. Om en robot till exempel tar för lång tid på en serverdelsdatabasfråga (till exempel om du letar upp en produkt),TurnStatusReceived
kan klienten veta att den kan reprompt med "ledsen, jag fick inte riktigt det, kan du försöka igen" eller något liknande. - C++/C#: Använd Speech SDK på fler plattformar. NuGet-paketet för Speech SDK stöder nu interna binärfiler för Windows ARM/Arm64-skrivbord (UWP stöds redan) för att göra Speech SDK mer användbart för fler datortyper.
- Java:
DialogServiceConnector
har nu ensetSpeechActivityTemplate()
metod som oavsiktligt exkluderades från språket tidigare. Detta motsvarar att angeConversation_Speech_Activity_Template
egenskapen och begär att alla framtida Bot Framework-aktiviteter som kommer från Direct Line Speech-tjänsten sammanfogar det angivna innehållet i deras JSON-nyttolaster. - Java: Förbättrad felsökning på låg nivå. Klassen
Connection
har nu enMessageReceived
händelse som liknar andra programmeringsspråk (C++, C#). Den här händelsen ger åtkomst på låg nivå till inkommande data från tjänsten och kan vara användbar för diagnostik och felsökning. - JavaScript: Enklare installation för röstassistenter och robotar via
BotFrameworkConfig
, som nu harfromHost()
ochfromEndpoint()
fabriksmetoder som förenklar användningen av anpassade tjänstplatser jämfört med att ange egenskaper manuellt. Vi har också standardiserat valfri specifikation förbotId
att använda en robot som inte är standard i konfigurationsfabrikerna. - JavaScript: Förbättrad enhetsprestanda genom att lägga till strängkontrollegenskap för websocket-komprimering. Av prestandaskäl inaktiverade vi websocket-komprimering som standard. Detta kan återanvändas för scenarier med låg bandbredd. Mer information finns här. Detta åtgärdar GitHub-problem #242.
- JavaScript: Stöd för lPronunciation Assessment har lagts till för att möjliggöra utvärdering av tal uttal. Se snabbstarten här.
Felkorrigeringar
- Alla (utom JavaScript): Korrigerade en regression i version 1.14, där för mycket minne allokerades av identifieraren.
- C++: Ett problem med skräpinsamling har åtgärdats med
DialogServiceConnector
, vilket åtgärdar GitHub-problemet #794. - C#: Åtgärdat ett problem med trådavstängning som gjorde att objekt blockerades i ungefär en sekund när de kasserades.
- C++/C#/Java: Ett undantag som hindrar ett program från att ange token för talauktorisering eller aktivitetsmall mer än en gång på en
DialogServiceConnector
. - C++/C#/Java: En identifieringskrasch har åtgärdats på grund av ett konkurrenstillstånd i teardown.
- JavaScript:
DialogServiceConnector
uppfyllde inte tidigare den valfriabotId
parametern som anges iBotFrameworkConfig
fabrikerna. Detta gjorde det nödvändigt att angebotId
frågesträngsparametern manuellt för att använda en robot som inte är standard. Buggen har korrigerats ochbotId
värden som tillhandahålls tillBotFrameworkConfig
"s fabriker kommer att respekteras och användas, inklusive nyafromHost()
ochfromEndpoint()
tillägg. Detta gäller även för parameternapplicationId
förCustomCommandsConfig
. - JavaScript: GitHub-problem #881 har åtgärdats, vilket tillåter återanvändning av identifierarobjekt.
- JavaScript: Ett problem där SKD skickades
speech.config
flera gånger i en TTS-session har åtgärdats och bandbredden slösats bort. - JavaScript: Förenklad felhantering vid mikrofonauktorisering, vilket gör att mer beskrivande meddelande kan bubbla upp när användaren inte har tillåtit mikrofoninmatning i webbläsaren.
- JavaScript: GitHub-problem #249 har åtgärdats där typfel i
ConversationTranslator
ochConversationTranscriber
orsakade ett kompileringsfel för TypeScript-användare. - Objective-C: Åtgärdade ett problem där GStreamer-versionen misslyckades för iOS på Xcode 11.4 och åtgärdade GitHub-problem #911.
- Python: GitHub-problemet #870 har åtgärdats, vilket tar bort "DeprecationWarning: the imp module is deprecated in favor of importlib".
Exempel
- Exempel från fil för JavaScript-webbläsaren använder nu filer för taligenkänning. Detta åtgärdar GitHub-problem #884.
Speech SDK 1.14.0: 2020–oktober
Kommentar
Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned den här.
Nya funktioner
- Linux: Stöd har lagts till för Debian 10 och Ubuntu 20.04 LTS.
- Python/Objective-C: Stöd har lagts till för API:et
KeywordRecognizer
. Dokumentationen kommer att finnas här. - C++/Java/C#: Stöd har lagts till för att ange valfri
HttpHeader
nyckel/värde viaServicePropertyChannel::HttpHeader
. - JavaScript: Stöd för API:et har lagts till
ConversationTranscriber
. Läs dokumentationen här. - C++/C#: Ny metod har lagts till
AudioDataStream FromWavFileInput
(för att läsa . WAV-filer) här (C++) och här (C#). - C++/C#/Java/Python/Objective-C/Swift: Lade till en
stopSpeakingAsync()
metod för att stoppa text till talsyntes. Läs referensdokumentationen här (C++), här (C#), här (Java), här (Python)och här (Objective-C/Swift). - C#, C++, Java: En funktion har lagts
FromDialogServiceConnector()
till iConnection
klassen som kan användas för att övervaka anslutnings- och frånkopplingshändelser förDialogServiceConnector
. Läs referensdokumentationen här (C#), här (C++), och här (Java). - C++/C#/Java/Python/Objective-C/Swift: Stöd för uttalsbedömning har lagts till, vilket utvärderar tal uttal och ger talare feedback om noggrannhet och flyt i talat ljud. Läs dokumentationen här.
Icke-bakåtkompatibel ändring
- JavaScript: PullAudioOutputStream.read() har en returtypsändring från ett internt promise till ett internt JavaScript-löfte.
Felkorrigeringar
- Alla: Fast 1,13-regression där
SetServiceProperty
värden med vissa specialtecken ignorerades. - C#: Windows-konsolexempel på Visual Studio 2019 kunde inte hitta interna DLL:er.
- C#: En krasch med minneshantering har åtgärdats om dataström används som
KeywordRecognizer
indata. - ObjectiveC/Swift: En krasch med minneshantering har åtgärdats om dataström används som indata för identifierare.
- Windows: Problem med samexistens med BT HFP/A2DP på UWP har åtgärdats.
- JavaScript: Fast mappning av sessions-ID:er för att förbättra loggning och hjälp vid interna felsöknings-/tjänstkorrelationer.
- JavaScript: Korrigering har lagts till för
DialogServiceConnector
att inaktiveraListenOnce
anrop efter att det första anropet har gjorts. - JavaScript: Ett problem har åtgärdats där resultatutdata bara skulle vara "enkla".
- JavaScript: Problem med kontinuerlig igenkänning har åtgärdats i Safari på macOS.
- JavaScript: Processorbelastningsreducering för scenario med dataflöde med höga begäranden.
- JavaScript: Tillåt åtkomst till information om röstprofilregistreringsresultat.
- JavaScript: Korrigering har lagts till för kontinuerlig igenkänning i
IntentRecognizer
. - C++/C#/Java/Python/Swift/ObjectiveC: Korrigerade felaktig URL för australiaeast och brazilsouth i
IntentRecognizer
. - C++/C#: Har lagts till
VoiceProfileType
som ett argument när ettVoiceProfile
objekt skapas. - C++/C#/Java/Python/Swift/ObjectiveC: Fast potential
SPX_INVALID_ARG
vid försök att läsaAudioDataStream
från en viss position. - IOS: En krasch med taligenkänning på Unity har åtgärdats
Exempel
- ObjectiveC: Exempel för nyckelordsigenkänning har lagts till här.
- C#/JavaScript: Snabbstart för konversationstranskription har lagts till här (C#) och här (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: Exempel för uttalsutvärdering har lagts till här
Känt problem
- DigiCert Global Root G2-certifikat stöds inte som standard i HoloLens 2 och Android 4.4 (KitKat) och måste läggas till i systemet för att Speech SDK ska fungera. Certifikatet läggs till i HoloLens 2 OS-avbildningar inom en snar framtid. Android 4.4-kunder måste lägga till det uppdaterade certifikatet i systemet.
COVID-19-förkortad testning
På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!
Speech SDK 1.13.0: 2020–juli
Kommentar
Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned och installera den härifrån.
Nya funktioner
- C#: Stöd för asynkron konversationstranskription har lagts till. Se dokumentationen här.
- JavaScript: Stöd för talarigenkänning har lagts till för både webbläsare och Node.js.
- JavaScript: Stöd för språkidentifiering/språk-ID har lagts till. Se dokumentationen här.
- Objective-C: Stöd har lagts till för konversation och konversationstranskription med flera enheter.
- Python: Stöd för komprimerat ljud har lagts till för Python i Windows och Linux. Se dokumentationen här.
Felkorrigeringar
- Alla: Åtgärdat ett problem som gjorde att KeywordRecognizer inte gick vidare med strömmarna efter en igenkänning.
- Alla: Ett problem som gjorde att dataströmmen från keywordRecognitionResult inte innehöll nyckelordet har åtgärdats.
- Alla: Åtgärdat ett problem som SendMessageAsync inte riktigt skickar meddelandet via tråden när användarna har väntat på det.
- Alla: En krasch i API:er för talarigenkänning har åtgärdats när användare anropar Metoden VoiceProfileClient::SpeakerRecEnrollProfileAsync flera gånger och väntade inte på att anropen skulle slutföras.
- Alla: Aktivera filloggning i VoiceProfileClient- och SpeakerRecognizer-klasser har åtgärdats.
- JavaScript: Ett problem med begränsningen har åtgärdats när webbläsaren minimeras.
- JavaScript: Ett problem med en minnesläcka har åtgärdats i strömmar.
- JavaScript: Cachelagring har lagts till för OCSP-svar från NodeJS.
- Java: Ett problem som gjorde att BigInteger-fält alltid returnerades 0 har åtgärdats.
- iOS: Ett problem med att publicera Speech SDK-baserade appar i iOS App Store har åtgärdats.
Exempel
- C++: Exempelkoden för talarigenkänning har lagts till här.
COVID-19-förkortad testning
På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!
Speech SDK 1.12.1: 2020–juni
Nya funktioner
- C#, C++: Förhandsversion av talarigenkänning: Den här funktionen möjliggör talaridentifiering (vem talar?) och talarverifiering (är talaren den som de påstår sig vara?). Se översiktsdokumentationen.
Felkorrigeringar
- C#, C++: Fast mikrofoninspelning fungerade inte i 1.12 i talarigenkänning.
- JavaScript: Korrigeringar för text till tal i Firefox och Safari på macOS och iOS.
- Korrigering för åtkomstöverträdelse för Windows-programverifierare kraschar vid konversationstranskription vid användning av åttakanalsström.
- Korrigering för åtkomstöverträdelse för Windows-programverifierare kraschar vid konversationsöversättning med flera enheter.
Exempel
- C#: Kodexempel för talarigenkänning.
- C++: Kodexempel för talarigenkänning.
- Java: Kodexempel för avsiktsigenkänning på Android.
COVID-19-förkortad testning
På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!
Speech SDK 1.12.0: 2020-may release
Nya funktioner
- Go: Nytt Go-språkstöd för taligenkänning och anpassad röstassistent. Konfigurera utvecklingsmiljön här. Exempelkod finns i avsnittet Exempel nedan.
- JavaScript: Stöd för text till tal har lagts till i webbläsaren. Se dokumentationen här.
- C++, C#, Java: Nya
KeywordRecognizer
objekt och API:er som stöds på Windows-, Android-, Linux- och iOS-plattformar. Läs dokumentationen här. Exempelkod finns i avsnittet Exempel nedan. - Java: Konversation med flera enheter har lagts till med översättningsstöd. Se referensdokumentet här.
Förbättringar och optimeringar
- JavaScript: Optimerad implementering av webbläsarens mikrofon förbättrar taligenkänningens noggrannhet.
- Java: Omstrukturerade bindningar med direkt JNI-implementering utan SWIG. Den här ändringen minskar med 10 x bindningsstorleken för alla Java-paket som används för Windows, Android, Linux och Mac och underlättar ytterligare utveckling av Speech SDK Java-implementeringen.
- Linux: Uppdaterad supportdokumentation med de senaste RHEL 7-specifika anteckningarna.
- Förbättrad anslutningslogik för att försöka ansluta flera gånger när tjänst- och nätverksfel inträffar.
- Uppdaterade snabbstartssidan för portal.azure.com Speech för att hjälpa utvecklare att ta nästa steg i Azure AI Speech-resan.
Felkorrigeringar
- C#, Java: Åtgärdat ett problem med att läsa in SDK-bibliotek i Linux ARM (både 32-bitars och 64-bitars).
- C#: Fast explicit bortskaffande av interna referenser för TranslationRecognizer, IntentRecognizer och Anslutningsobjekt.
- C#: Livslängdshantering för fast ljudinmatning för ConversationTranscriber-objekt.
- Ett problem där
IntentRecognizer
resultatorsaken inte angavs korrekt vid identifiering av avsikter från enkla fraser har åtgärdats. - Ett problem där
SpeechRecognitionEventArgs
resultatförskjutningen inte har angetts korrekt har åtgärdats. - Ett konkurrenstillstånd där SDK försökte skicka ett nätverksmeddelande innan websocket-anslutningen öppnades har åtgärdats. Var reproducerbar för
TranslationRecognizer
när deltagarna lades till. - Åtgärdade minnesläckor i nyckelordsigenkänningsmotorn.
Exempel
- Go: Snabbstarter för taligenkänning och anpassad röstassistent har lagts till. Hitta exempelkod här.
- JavaScript: Snabbstarter för text till tal, översättning och avsiktsigenkänning har lagts till.
- Exempel på nyckelordsigenkänning för C# och Java (Android).
COVID-19-förkortad testning
På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. Om vi har missat något kan du meddela oss på GitHub.
Håll dig frisk!
Speech SDK 1.11.0: 2020–mars
Nya funktioner
- Linux: Stöd har lagts till för Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: Stöd har lagts till för .NET Core C# på Linux ARM32 och Arm64. Läs mer här.
- C#, C++: Har lagts till
UtteranceId
iConversationTranscriptionResult
, ett konsekvent ID för alla mellanliggande och slutligt taligenkänningsresultat. Information om C#, C++. - Python: Stöd har lagts till för
Language ID
. Se speech_sample.py i GitHub-lagringsplatsen. - Windows: Stöd för komprimerat ljudinmatningsformat har lagts till på Windows-plattformen för alla win32-konsolprogram. Information här.
- JavaScript: Stöd för talsyntes (text till tal) i NodeJS. Läs mer här.
- JavaScript: Lägg till nya API:er för att aktivera kontroll av alla skicka och mottagna meddelanden. Läs mer här.
Felkorrigeringar
- C#, C++: Ett problem har åtgärdats, så
SendMessageAsync
nu skickas binärt meddelande som binär typ. Information om C#, C++. - C#, C++: Ett problem har åtgärdats där en händelse
Connection MessageReceived
kan orsaka krasch omRecognizer
den tas bort föreConnection
objektet. Information om C#, C++. - Android: Ljudbuffertstorleken från mikrofonen minskade från 800 ms till 100 ms för att förbättra svarstiden.
- Android: Ett problem med x86 Android-emulatorn i Android Studio har åtgärdats.
- JavaScript: Stöd har lagts till för regioner i Kina med API:et
fromSubscription
. Information här. - JavaScript: Lägg till mer felinformation för anslutningsfel från NodeJS.
Exempel
- Unity: Det offentliga exemplet för avsiktsigenkänning har åtgärdats, där LUIS json-importen misslyckades. Information här.
- Python: Exempel har lagts till för
Language ID
. Information här.
Covid19-förkortad testning: På grund av fjärrarbete under de senaste veckorna kunde vi inte utföra så mycket manuell enhetsverifieringstestning som normalt. Vi kunde till exempel inte testa mikrofonindata och högtalarutdata i Linux, iOS och macOS. Vi har inte gjort några ändringar som vi tror kan ha brutit något på dessa plattformar, och våra automatiserade tester har alla godkänts. I det osannolika fallet att vi missade något meddelar du oss på GitHub.
Tack för ditt fortsatta stöd. Som alltid kan du skicka frågor eller feedback på GitHub eller Stack Overflow.
Håll dig frisk!
Speech SDK 1.10.0: 2020–februari
Nya funktioner
- Python-paket har lagts till för att stödja den nya 3.8-versionen av Python.
- Stöd för Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).
Kommentar
Kunder måste konfigurera OpenSSL enligt dessa instruktioner.
- Linux ARM32-stöd för Debian och Ubuntu.
- DialogServiceConnector stöder nu en valfri "bot ID"-parameter på BotFrameworkConfig. Den här parametern tillåter användning av flera Direct Line Speech-robotar med en enda Speech-resurs. Utan den angivna parametern används standardroboten (enligt konfigurationssidan för Direct Line Speech-kanalen).
- DialogServiceConnector har nu en SpeechActivityTemplate-egenskap. Innehållet i den här JSON-strängen används av Direct Line Speech för att fylla i en mängd olika fält som stöds i alla aktiviteter som når en Direct Line Speech-robot, inklusive aktiviteter som genereras automatiskt som svar på händelser som taligenkänning.
- TTS använder nu prenumerationsnyckel för autentisering, vilket minskar den första bytefördröjningen för det första syntesresultatet när du har skapat en synthesizer.
- Uppdaterade taligenkänningsmodeller för 19 språk för en genomsnittlig minskning av ordfelfrekvensen med 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). De nya modellerna medför betydande förbättringar i flera domäner, inklusive diktering, callcenter-transkription och videoindexeringsscenarier.
Felkorrigeringar
- En bugg har åtgärdats där konversationstranskriberaren inte väntade korrekt i JAVA-API:er
- Android x86-emulatorkorrigering för Xamarin GitHub-problem
- Lägg till saknas (Get|Ange)Egenskapsmetoder till AudioConfig
- Åtgärda en TTS-bugg där audioDataStream inte kunde stoppas när anslutningen misslyckas
- Att använda en slutpunkt utan en region skulle orsaka USP-fel för konversationsöversättaren
- ID-generering i Universella Windows-program använder nu en lämpligt unik GUID-algoritm. det tidigare och oavsiktligt försummade en stubbad implementering som ofta orsakade kollisioner över stora uppsättningar interaktioner.
Exempel
- Unity-exempel för användning av Speech SDK med Unity-mikrofon och direktuppspelning i push-läge
Andra ändringar
Speech SDK 1.9.0: 2020–januari
Nya funktioner
- Konversation med flera enheter: Anslut flera enheter till samma tal- eller textbaserade konversation och om du vill översätta meddelanden som skickas mellan dem. Läs mer i den här artikeln.
- Stöd för nyckelordsigenkänning har lagts till för Android-paket
.aar
och stöd för x86- och x64-smaker har lagts till. - Objective-C:
SendMessage
ochSetMessageProperty
metoder som lagts tillConnection
i objektet. Se dokumentationen här. - TTS C++ api stöder
std::wstring
nu som syntestextindata, vilket tar bort behovet av att konvertera en wstring till sträng innan den skickas till SDK:n. Mer information finns här - C#: Språk-ID och källspråkkonfiguration är nu tillgängliga.
- JavaScript: Lade till en funktion i
Connection
objektet för att skicka anpassade meddelanden från Speech-tjänsten som motringningreceivedServiceMessage
. - JavaScript: Stöd har lagts till för
FromHost API
att underlätta användningen med lokala containrar och nationella moln. Se dokumentationen här. - JavaScript: Vi hedrar
NODE_TLS_REJECT_UNAUTHORIZED
nu tack vare ett bidrag från orgads. Mer information finns här
Icke-bakåtkompatibla ändringar
OpenSSL
har uppdaterats till version 1.1.1b och är statiskt länkad till Speech SDK-kärnbiblioteket för Linux. Detta kan orsaka avbrott om inkorgenOpenSSL
inte har installerats i/usr/lib/ssl
katalogen i systemet. Läs vår dokumentation under Speech SDK-dokument för att lösa problemet.- Vi har ändrat datatypen som returneras för C#
WordLevelTimingResult.Offset
frånint
tilllong
för att tillåta åtkomst tillWordLevelTimingResults
när taldata är längre än 2 minuter. PushAudioInputStream
ochPullAudioInputStream
skicka nu wav-rubrikinformation till Speech-tjänsten baserat påAudioStreamFormat
, som du kan ange när de skapades. Kunder måste nu använda det ljudinmatningsformat som stöds. Andra format får resultat av ooptimal igenkänning eller kan orsaka andra problem.
Felkorrigeringar
OpenSSL
Se uppdateringen under Icke-bakåtkompatibla ändringar ovan. Vi har åtgärdat både en tillfällig krasch och ett prestandaproblem (låskonkurration under hög belastning) i Linux och Java.- Java: Förbättrade objektstängning i scenarier med hög samtidighet.
- Omstrukturerade vårt NuGet-paket. Vi har tagit bort de tre kopiorna av
Microsoft.CognitiveServices.Speech.core.dll
ochMicrosoft.CognitiveServices.Speech.extension.kws.dll
under lib-mappar, vilket gör NuGet-paketet mindre och snabbare att ladda ned, och vi har lagt till rubriker som behövs för att kompilera vissa C++-interna appar. - Snabbstartsexempel har åtgärdats här. Dessa avslutades utan att visa undantaget "mikrofon hittades inte" i Linux, macOS, Windows.
- SDK-krasch med långa taligenkänningsresultat har åtgärdats på vissa kodsökvägar som det här exemplet.
- SDK-distributionsfel har åtgärdats i Azure Web App-miljön för att åtgärda det här kundproblemet.
- Ett TTS-fel har åtgärdats vid användning av flera
<voice>
taggar eller<audio>
taggar för att åtgärda det här kundproblemet. - Ett TTS 401-fel har åtgärdats när SDK:t återställs från paus.
- JavaScript: En cirkulär import av ljuddata har åtgärdats tack vare ett bidrag från euirim.
- JavaScript: stöd har lagts till för att ange tjänstegenskaper, som lagts till i 1.7.
- JavaScript: Åtgärdade ett problem där ett anslutningsfel kan leda till kontinuerliga, misslyckade websocket-återanslutningsförsök.
Exempel
- Exempel på nyckelordsigenkänning har lagts till för Android här.
- TTS-exempel har lagts till för serverscenariot här.
- Snabbstarter för konversationer med flera enheter har lagts till för C# och C++ här.
Andra ändringar
- Optimerad SDK-kärnbiblioteksstorlek på Android.
- SDK i 1.9.0 och senare stöder både
int
ochstring
typer i fältet version av röstsignatur för Conversation Transcriber.
Speech SDK 1.8.0: 2019–november
Nya funktioner
- Lade till ett
FromHost()
API för att underlätta användningen med lokala containrar och nationella moln. - Källspråksidentifiering har lagts till för taligenkänning (i Java och C++)
- Objekt har lagts
SourceLanguageConfig
till för taligenkänning som används för att ange förväntade källspråk (i Java och C++) - Stöd har lagts till
KeywordRecognizer
för Windows (UWP), Android och iOS via NuGet- och Unity-paketen - Java-API:et för fjärrkonversation har lagts till för att göra konversationstranskription i asynkrona batchar.
Icke-bakåtkompatibla ändringar
- Funktioner för konversationstranskriberare som flyttas under namnområdet
Microsoft.CognitiveServices.Speech.Transcription
. - Delar av metoderna för konversationstranskribering flyttas till en ny
Conversation
klass. - Stöd för 32-bitars (ARMv7 och x86) iOS har tagits bort
Felkorrigeringar
- Korrigering för krasch om lokal
KeywordRecognizer
används utan en giltig prenumerationsnyckel för Speech-tjänsten
Exempel
- Xamarin-exempel för
KeywordRecognizer
- Unity-exempel för
KeywordRecognizer
- C++ och Java-exempel för automatisk källspråkidentifiering.
Speech SDK 1.7.0: 2019–september
Nya funktioner
- Betastöd har lagts till för Xamarin på Universell Windows-plattform (UWP), Android och iOS
- IOS-stöd har lagts till för Unity
- Stöd för indata har lagts till
Compressed
för ALaw, Mulaw, FLAC, på Android, iOS och Linux - Har lagts till
SendMessageAsync
iConnection
klassen för att skicka ett meddelande till tjänsten - Har lagts till
SetMessageProperty
iConnection
klassen för att ange egenskapen för ett meddelande - TTS har lagt till bindningar för Java (JRE och Android), Python, Swift och Objective-C
- TTS har lagt till uppspelningsstöd för macOS, iOS och Android.
- Information om "ordgräns" har lagts till för TTS.
Felkorrigeringar
- Problem med IL2CPP-build på Unity 2019 för Android har åtgärdats
- Åtgärdat problem med felaktiga rubriker i wav-filindata som bearbetas felaktigt
- Problem med att UUID:erna inte är unika i vissa anslutningsegenskaper har åtgärdats
- Några varningar om nullabilitetsspecificerare i Swift-bindningar har åtgärdats (kan kräva små kodändringar)
- Åtgärdade en bugg som gjorde att websocket-anslutningar stängdes felaktigt under nätverksbelastning
- Åtgärdat ett problem på Android som ibland resulterar i duplicerade visnings-ID:t som används av
DialogServiceConnector
- Förbättringar av anslutningens stabilitet i interaktioner med flera svängar och rapportering av fel (via
Canceled
händelser) när de inträffar medDialogServiceConnector
DialogServiceConnector
sessionsstarter tillhandahåller nu händelser korrekt, inklusive när du anroparListenOnceAsync()
under en aktivStartKeywordRecognitionAsync()
- Åtgärdat en krasch som är associerad med
DialogServiceConnector
aktiviteter som tas emot
Exempel
- Snabbstart för Xamarin
- Uppdaterad CPP-snabbstart med Linux Arm64-information
- Uppdaterad Unity-snabbstart med iOS-information
Speech SDK 1.6.0: 2019–juni
Exempel
- Snabbstartsexempel för Text till tal på UWP och Unity
- Snabbstartsexempel för Swift i iOS
- Unity-exempel för tal- och avsiktsigenkänning och översättning
- Uppdaterade snabbstartsexempel för
DialogServiceConnector
Förbättringar/ändringar
- Dialognamnområde:
SpeechBotConnector
har bytt namn tillDialogServiceConnector
BotConfig
har bytt namn tillDialogServiceConfig
BotConfig::FromChannelSecret()
har mappats om tillDialogServiceConfig::FromBotSecret()
- Alla befintliga Direct Line Speech-klienter fortsätter att stödjas efter namnbytet
- Uppdatera TTS REST-adaptern för att stödja proxy, beständig anslutning
- Förbättra felmeddelandet när en ogiltig region skickas
- Swift/Objective-C:
- Förbättrad felrapportering: Metoder som kan resultera i ett fel finns nu i två versioner: En som exponerar ett
NSError
objekt för felhantering och en som skapar ett undantag. Den förra är exponerad för Swift. Den här ändringen kräver anpassningar av befintlig Swift-kod. - Förbättrad händelsehantering
- Förbättrad felrapportering: Metoder som kan resultera i ett fel finns nu i två versioner: En som exponerar ett
Felkorrigeringar
- Korrigering för TTS: där
SpeakTextAsync
framtiden returnerades utan att vänta tills ljudet har slutfört renderingen - Korrigering för att konvertera strängar i C# för att aktivera fullständigt språkstöd
- Korrigering för problem med .NET Core-appen för att läsa in kärnbibliotek med net461-målramverk i exempel
- Korrigering för tillfälliga problem med att distribuera interna bibliotek till utdatamappen i exempel
- Korrigering för att stänga web socket på ett tillförlitligt sätt
- Korrigering för eventuell krasch när du öppnar en anslutning under hög belastning på Linux
- Korrigering för saknade metadata i ramverkspaketet för macOS
- Åtgärda problem med
pip install --user
i Windows
Speech SDK 1.5.1
Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.
Felkorrigeringar
- Åtgärda FromSubscription när det används med konversationstranskription.
- Åtgärda bugg i nyckelordsfläckar för röstassistenter.
Speech SDK 1.5.0: 2019-may release
Nya funktioner
- KWS (Keyword Spotting) är nu tillgängligt för Windows och Linux. KWS-funktioner kan fungera med alla mikrofontyper, men det officiella KWS-stödet är för närvarande begränsat till mikrofonmatriserna som finns i Azure Kinect DK-maskinvaran eller Speech Devices SDK.
- Funktioner för frastips är tillgängliga via SDK. Mer information finns här.
- Funktionen för transkription av konversationer är tillgänglig via SDK:et.
- Lägg till stöd för röstassistenter med hjälp av Direct Line Speech-kanalen.
Exempel
- Exempel har lagts till för nya funktioner eller nya tjänster som stöds av SDK.
Förbättringar/ändringar
- Olika egenskaper för identifierare har lagts till för att justera tjänstens beteende eller tjänstresultat (till exempel maskering av svordomar och andra).
- Nu kan du konfigurera identifieraren via standardkonfigurationsegenskaperna, även om du har skapat identifieraren
FromEndpoint
. - Objective-C:
OutputFormat
egenskapen lades till iSPXSpeechConfiguration
. - SDK stöder nu Debian 9 som en Linux-distribution.
Felkorrigeringar
- Ett problem där talarresursen förstördes för tidigt i text till tal har åtgärdats.
Speech SDK 1.4.2
Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.
Speech SDK 1.4.1
Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:
- Förhindra att webbpaketet läser in https-proxy-agent.
Speech SDK 1.4.0: 2019–april
Nya funktioner
- SDK stöder nu text till tal-tjänsten som en betaversion. Det stöds i Windows och Linux Desktop från C++ och C#. Mer information finns i översikten text till tal.
- SDK stöder nu MP3- och Opus/OGG-ljudfiler som strömma indatafiler. Den här funktionen är endast tillgänglig i Linux från C++ och C# och är för närvarande i betaversion (mer information här).
- Speech SDK för Java, .NET Core, C++ och Objective-C har fått stöd för macOS. Objective-C-stödet för macOS är för närvarande i betaversion.
- iOS: Speech SDK för iOS (Objective-C) publiceras nu också som en CocoaPod.
- JavaScript: Stöd för mikrofon som inte är standard som indataenhet.
- JavaScript: Proxystöd för Node.js.
Exempel
- Exempel för att använda Speech SDK med C++ och Objective-C på macOS har lagts till.
- Exempel som visar användningen av text-till-tal-tjänsten har lagts till.
Förbättringar/ändringar
- Python: Ytterligare egenskaper för igenkänningsresultat exponeras nu via egenskapen
properties
. - Om du vill ha ytterligare stöd för utveckling och felsökning kan du omdirigera SDK-loggning och diagnostikinformation till en loggfil (mer information här).
- JavaScript: Förbättra prestanda för ljudbearbetning.
Felkorrigeringar
- Mac/iOS: En bugg som ledde till lång väntan när en anslutning till Speech-tjänsten inte kunde upprättas har åtgärdats.
- Python: Förbättra felhanteringen för argument i Python-motringningar.
- JavaScript: Fel tillståndsrapportering för tal avslutades på RequestSession.
Speech SDK 1.3.1: uppdatering 2019–februari
Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.
Felkorrigering
- En minnesläcka har åtgärdats vid användning av mikrofonindata. Dataströmbaserade indata eller filindata påverkas inte.
Speech SDK 1.3.0: 2019–februari
Nya funktioner
- Speech SDK stöder val av indatamikrofon via
AudioConfig
klassen. På så sätt kan du strömma ljuddata till Speech-tjänsten från en mikrofon som inte är standard. Mer information finns i dokumentationen som beskriver valet av ljudinmatningsenhet. Den här funktionen är ännu inte tillgänglig från JavaScript. - Speech SDK stöder nu Unity i en betaversion. Ge feedback via avsnittet med problem i GitHub-exempellagringsplatsen. Den här versionen stöder Unity i Windows x86 och x64 (skrivbords- eller Universell Windows-plattform-program) och Android (ARM32/64, x86). Mer information finns i vår Unity-snabbstart.
- Filen
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(som levererades i tidigare versioner) behövs inte längre. Funktionerna är nu integrerade i SDK:et.
Exempel
Följande nya innehåll är tillgängligt i vår exempellagringsplats:
- Ytterligare exempel för
AudioConfig.FromMicrophoneInput
. - Ytterligare Python-exempel för avsiktsigenkänning och översättning.
- Ytterligare exempel för att använda objektet
Connection
i iOS. - Ytterligare Java-exempel för översättning med ljudutdata.
- Nytt exempel för användning av REST-API:et för Batch-transkription.
Förbättringar/ändringar
- Pytonorm
- Förbättrad parameterverifiering och felmeddelanden i
SpeechConfig
. - Lägg till stöd för objektet
Connection
. - Stöd för 32-bitars Python (x86) i Windows.
- Speech SDK för Python är inte beta.
- Förbättrad parameterverifiering och felmeddelanden i
- Ios
- SDK:n har nu skapats mot iOS SDK version 12.1.
- SDK stöder nu iOS-versionerna 9.2 och senare.
- Förbättra referensdokumentationen och åtgärda flera egenskapsnamn.
- JavaScript
- Lägg till stöd för objektet
Connection
. - Lägg till typdefinitionsfiler för paketerade JavaScript
- Inledande stöd och implementering för frastips.
- Returnera egenskapssamling med tjänst-JSON för igenkänning
- Lägg till stöd för objektet
- Windows DLL:er innehåller nu en versionsresurs.
- Om du skapar en identifierare
FromEndpoint
kan du lägga till parametrar direkt till slutpunkts-URL:en. Med hjälp avFromEndpoint
kan du inte konfigurera identifieraren via standardkonfigurationsegenskaperna.
Felkorrigeringar
- Tomt proxyanvändarnamn och proxylösenord hanterades inte korrekt. Med den här versionen, om du anger proxyanvändarnamn och proxylösenord till en tom sträng, skickas de inte när du ansluter till proxyn.
- SessionId som skapats av SDK:t var inte alltid slumpmässigt för vissa språk/miljöer. Slumpmässig generatorinitiering har lagts till för att åtgärda problemet.
- Förbättra hanteringen av auktoriseringstoken. Om du vill använda en auktoriseringstoken anger du i
SpeechConfig
och lämnar prenumerationsnyckeln tom. Skapa sedan identifieraren som vanligt. - I vissa fall
Connection
släpptes inte objektet korrekt. Det här problemet har åtgärdats. - JavaScript-exemplet har åtgärdats för att stödja ljudutdata för översättningssyntes även i Safari.
Speech SDK 1.2.1
Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:
- Utlös strömmens slut på turn.end, inte på speech.end.
- Åtgärda bugg i ljudpumpen som inte schemalagt nästa sändning om den aktuella sändningen misslyckades.
- Åtgärda kontinuerlig igenkänning med autentiseringstoken.
- Felkorrigering för olika identifierare/slutpunkter.
- Dokumentationsförbättringar.
Speech SDK 1.2.0: 2018–december
Nya funktioner
- Pytonorm
- Betaversionen av Python-stöd (3.5 och senare) är tillgänglig med den här versionen. Mer information finns här](.. /.. /quickstart-python.md).
- JavaScript
Connection
objektRecognizer
Från kan du komma åt ettConnection
objekt. Med det här objektet kan du uttryckligen initiera tjänstanslutningen och prenumerera på anslutnings- och frånkopplingshändelser. (Den här funktionen är ännu inte tillgänglig från JavaScript och Python.)
- Stöd för Ubuntu 18.04.
- Android
- ProGuard-stöd har aktiverats under APK-genereringen.
Förbättringar
- Förbättringar i den interna trådanvändningen, vilket minskar antalet trådar, lås, mutexes.
- Förbättrad felrapportering/information. I flera fall har felmeddelanden inte spridits hela vägen ut.
- Uppdaterade utvecklingsberoenden i JavaScript för att använda aktuella moduler.
Felkorrigeringar
- Minnesläckor har åtgärdats på grund av en typmatchningsfel i
RecognizeAsync
. - I vissa fall läckte undantag ut.
- Åtgärda minnesläcka i översättningshändelseargument.
- Ett låsningsproblem har åtgärdats vid återanslutning i långvariga sessioner.
- Ett problem som kan leda till att slutresultatet för misslyckade översättningar saknas har åtgärdats.
- C#: Om en
async
åtgärd inte väntades i huvudtråden var det möjligt att identifieraren kunde tas bort innan asynkroniseringsuppgiften slutfördes. - Java: Ett problem som resulterade i en krasch på den virtuella Java-datorn har åtgärdats.
- Objective-C: Fast uppräkningsmappning; RecognizedIntent returnerades i stället för
RecognizingIntent
. - JavaScript: Ange standardutdataformatet till "enkelt" i
SpeechConfig
. - JavaScript: Ta bort inkonsekvens mellan egenskaper på konfigurationsobjektet i JavaScript och andra språk.
Exempel
- Uppdaterade och fixade flera exempel (till exempel utdataröster för översättning osv.).
- Lade till Node.js exempel på exempellagringsplatsen.
Speech SDK 1.1.0
Nya funktioner
- Stöd för Android x86/x64.
- Proxysupport: I
SpeechConfig
objektet kan du nu anropa en funktion för att ange proxyinformationen (värdnamn, port, användarnamn och lösenord). Den här funktionen är ännu inte tillgänglig i iOS. - Förbättrad felkod och meddelanden. Om en igenkänning returnerade ett fel har detta redan angett
Reason
(i avbruten händelse) ellerCancellationDetails
(i igenkänningsresultatet) tillError
. Den avbrutna händelsen innehåller nu ytterligare två medlemmar ochErrorCode
ErrorDetails
. Om servern returnerade ytterligare felinformation med det rapporterade felet blir den nu tillgänglig i de nya medlemmarna.
Förbättringar
- Ytterligare verifiering har lagts till i konfigurationen av identifieraren och ytterligare felmeddelande har lagts till.
- Förbättrad hantering av långvarig tystnad mitt i en ljudfil.
- NuGet-paket: För .NET Framework-projekt förhindrar det att du skapar med AnyCPU-konfiguration.
Felkorrigeringar
- Flera undantag hittades i identifierare. Dessutom fångas undantag och konverteras till
Canceled
händelse. - Åtgärda en minnesläcka i egenskapshantering.
- Ett fel har åtgärdats där en ljudindatafil kan krascha igenkänningen.
- En bugg där händelser kunde tas emot efter en sessionsstopphändelse har åtgärdats.
- Vissa tävlingsförhållanden i trådning har åtgärdats.
- Ett iOS-kompatibilitetsproblem som kan leda till en krasch har åtgärdats.
- Stabilitetsförbättringar för Stöd för Android-mikrofon.
- En bugg där en identifierare i JavaScript skulle ignorera igenkänningsspråket har åtgärdats.
- En bugg som förhindrade inställningen
EndpointId
(i vissa fall) i JavaScript har åtgärdats. - Parameterordningen ändrades i AddIntent i JavaScript och JavaScript-signaturen saknades
AddIntent
.
Exempel
- C++ och C#-exempel har lagts till för användning av pull- och push-dataström på exempellagringsplatsen.
Speech SDK 1.0.1
Tillförlitlighetsförbättringar och felkorrigeringar:
- Åtgärdat potentiellt allvarligt fel på grund av konkurrenstillstånd i disponerande identifierare
- Ett potentiellt allvarligt fel har åtgärdats när oeterade egenskaper inträffar.
- Ytterligare fel- och parameterkontroll har lagts till.
- Objective-C: Åtgärdat möjligt allvarligt fel som orsakats av att namnet åsidosätts i NSString.
- Objective-C: Justerad synlighet för API
- JavaScript: Åtgärdat gällande händelser och deras nyttolaster.
- Dokumentationsförbättringar.
I vår exempellagringsplats lades ett nytt exempel för JavaScript till.
Azure AI Speech SDK 1.0.0: 2018–september
Nya funktioner
- Stöd för Objective-C på iOS. Kolla in vår Objective-C-snabbstart för iOS.
- Stöd för JavaScript i webbläsaren. Kolla in vår JavaScript-snabbstart.
Icke-bakåtkompatibla ändringar
- Med den här versionen introduceras ett antal icke-bakåtkompatibla ändringar. Mer information finns på den här sidan .
Azure AI Speech SDK 0.6.0: 2018–augusti
Nya funktioner
- UWP-appar som skapats med Speech SDK kan nu skicka Windows App Certification Kit (WACK). Kolla in UWP-snabbstarten.
- Stöd för .NET Standard 2.0 på Linux (Ubuntu 16.04 x64).
- Experimentell: Stöd för Java 8 i Windows (64-bitars) och Linux (Ubuntu 16.04 x64). Läs snabbstarten för Java Runtime Environment.
Funktionsändring
- Visa ytterligare information om felinformation om anslutningsfel.
Icke-bakåtkompatibla ändringar
- I Java (Android)
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
kräver funktionen inte längre en sökvägsparameter. Nu identifieras sökvägen automatiskt på alla plattformar som stöds. - Get-accessor för egenskapen
EndpointUrl
i Java och C# har tagits bort.
Felkorrigeringar
- I Java implementeras ljudsyntesresultatet på översättningsigenkänningen nu.
- En bugg som kan orsaka inaktiva trådar och ett ökat antal öppna och oanvända socketar har åtgärdats.
- Ett problem har åtgärdats, där en långvarig igenkänning kunde avslutas mitt i överföringen.
- Ett konkurrenstillstånd har åtgärdats vid avstängning av igenkännare.
Azure AI Speech SDK 0.5.0: 2018–juli
Nya funktioner
- Stöd för Android-plattform (API 23: Android 6.0 Marshmallow eller senare). Kolla in Android-snabbstarten.
- Stöd för .NET Standard 2.0 i Windows. Kolla in .NET Core-snabbstarten.
- Experimentell: Stöd för UWP i Windows (version 1709 eller senare).
- Stöd för långvarig igenkänning med automatisk återanslutning.
Funktionella ändringar
StartContinuousRecognitionAsync()
stöder långvarig igenkänning.- Igenkänningsresultatet innehåller fler fält. De förskjuts från ljudstarten och varaktigheten (båda i tick) för den identifierade texten och ytterligare värden som representerar igenkänningsstatus,
InitialSilenceTimeout
till exempel ochInitialBabbleTimeout
. - Support AuthorizationToken för att skapa fabriksinstanser.
Icke-bakåtkompatibla ändringar
- Igenkänningshändelser:
NoMatch
händelsetypen sammanfogades tillError
händelsen. - SpeechOutputFormat i C# har bytt namn till för
OutputFormat
att hålla sig i linje med C++. - Returtypen för vissa metoder i
AudioInputStream
gränssnittet ändrades något:- I Java
read
returnerarlong
metoden nu i ställetint
för . - I C#
Read
returneraruint
metoden nu i ställetint
för . - I C++returnerar
size_t
metoderna ochGetFormat
nu i stället förint
.Read
- I Java
- C++: Instanser av ljudindataströmmar kan nu endast skickas som en
shared_ptr
.
Felkorrigeringar
- Korrigerade felaktiga returvärden i resultatet när
RecognizeAsync()
tidsgränsen överskrids. - Beroendet av media foundation-bibliotek i Windows har tagits bort. SDK använder nu Core Audio API:er.
- Dokumentationskorrigering: En regionssida har lagts till för att beskriva de regioner som stöds.
Känt problem
- Speech SDK för Android rapporterar inte talsyntesresultat för översättning. Det här problemet åtgärdas i nästa version.
Azure AI Speech SDK 0.4.0: 2018–juni
Funktionella ändringar
AudioInputStream
En identifierare kan nu använda en ström som ljudkälla. Mer information finns i den relaterade instruktioner-guiden.
Detaljerat utdataformat
När du skapar ett
SpeechRecognizer
kan du begäraDetailed
ellerSimple
utdataformat. InnehållerDetailedSpeechRecognitionResult
en konfidenspoäng, igenkänd text, rå lexikal form, normaliserad form och normaliserat formulär med maskerade svordomar.
Icke-bakåtkompatibel ändring
- Har ändrats till
SpeechRecognitionResult.Text
frånSpeechRecognitionResult.RecognizedText
i C#.
Felkorrigeringar
- Ett möjligt återanropsproblem har åtgärdats i USP-lagret under avstängningen.
- Om en identifierare förbrukade en ljudindatafil höll den fast vid filhandtaget längre än nödvändigt.
- Flera dödlägen mellan meddelandepumpen och identifieraren har tagits bort.
- Utlös ett
NoMatch
resultat när svaret från tjänsten överskrids. - Media Foundation-biblioteken i Windows är fördröjda. Det här biblioteket krävs endast för mikrofoninmatning.
- Uppladdningshastigheten för ljuddata är begränsad till ungefär dubbelt så mycket som den ursprungliga ljudhastigheten.
- I Windows är C# .NET-sammansättningar nu starka med namnet.
- Dokumentationskorrigering:
Region
krävs information för att skapa en identifierare.
Fler exempel har lagts till och uppdateras ständigt. Den senaste uppsättningen exempel finns i GitHub-lagringsplatsen för Speech SDK-exempel.
Azure AI Speech SDK 0.2.12733: 2018–maj
Den här versionen är den första offentliga förhandsversionen av Azure AI Speech SDK.