Dela via


Vad är nytt i Azure AI Speech?

Azure AI Speech uppdateras kontinuerligt. För att hålla dig uppdaterad om den senaste utvecklingen får du information om nya versioner och funktioner i den här artikeln.

Senaste markeringar

  • Snabb transkription är nu allmänt tillgänglig. Det kan transkribera ljud mycket snabbare än den faktiska ljudvaraktigheten. Mer information finns i api-guiden för snabb transkription.
  • Azure AI Speech Toolkit-tillägget är nu tillgängligt för Visual Studio Code-användare. Den innehåller en lista över snabbstarter för tal och scenarioexempel som enkelt kan skapas och köras med enkla klick. Mer information finns i Azure AI Speech Toolkit i Visual Studio Code Marketplace.
  • Hd-röster (Azure AI Speech High Definition) är tillgängliga i offentlig förhandsversion. HD-rösterna kan förstå innehållet, automatiskt identifiera känslor i indatatexten och justera talartonen i realtid för att matcha sentimentet. Mer information finns i Vad är HD-röster (High Definition) för Azure AI Speech?.
  • Videoöversättning är nu tillgängligt i Azure AI Speech-tjänsten. Mer information finns i Vad är videoöversättning?.
  • Azure AI Speech-tjänsten stöder OpenAI-text till talröster. Mer information finns i Vad är OpenAI-text till talröster?.
  • Det anpassade röst-API:et är tillgängligt för att skapa och hantera professionella och personliga anpassade neurala röstmodeller.

Viktig information

Välj en tjänst eller resurs

Version 2024–november

Azure AI Speech Toolkit-tillägget för Visual Studio Code

Azure AI Speech Toolkit-tillägget är nu tillgängligt för Visual Studio Code-användare. Den innehåller en lista över snabbstarter för tal och scenarioexempel som enkelt kan skapas och köras med enkla klick. Mer information finns i Azure AI Speech Toolkit i Visual Studio Code Marketplace.

Kodexempel för text till tal-avatar

Vi har lagt till text i kodexempel för talavatar för Android och iOS. De här exemplen visar hur du använder text i realtid till talavatarer i dina mobilprogram.

Speech SDK 1.41.1: 2024–oktober

Nya funktioner

  • Stöd har lagts till för Amazon Linux 2023 och Azure Linux 3.0.
  • Det offentliga egenskaps-ID:t har lagts till SpeechServiceConnection_ProxyHostBypass för att ange värdar för vilka proxyn inte används.
  • Egenskaper har lagts till för att styra nya strategier för frassegmentering.

Felkorrigeringar

Icke-bakåtkompatibla ändringar

  • Stöd för nyckelordsigenkänning i Windows ARM 32-bitars har tagits bort på grund av att den nödvändiga ONNX-körningen inte är tillgänglig för den här plattformen.

Speech SDK 1.40: 2024–augusti

Kommentar

Speech SDK version 1.39.0 var en intern version och saknas inte.

Nya funktioner

  • Stöd har lagts till för strömning av G.722 komprimerat ljud i taligenkänning.
  • Stöd har lagts till för inställning av tonhöjd, frekvens och volym i indatatextströmning i talsyntes.
  • Stöd har lagts till för direktuppspelning av röstinmatningstext genom introduktion PersonalVoiceSynthesisRequest i talsyntes. Det här API:et är i förhandsversion och kan komma att ändras i framtida versioner.
  • Stöd har lagts till för diarisering av mellanliggande resultat när ConversationTranscriber det används.
  • CentOS/RHEL 7-stöd har tagits bort på grund av CentOS 7 EOL och slutet av RHEL 7 Underhållssupport 2.
  • Användning av inbäddade talmodeller kräver nu en modelllicens i stället för en modellnyckel. Om du är en befintlig inbäddad talkund och vill uppgradera kontaktar du supporten på Microsoft för mer information om modelluppdateringar.

Felkorrigeringar

Exempel

  • Uppdaterade inbäddade talexempel för att använda en modelllicens i stället för en nyckel.

Speech SDK 1.38.0: 2024–juni

Nya funktioner

  • Uppgradera Krav för Speech SDK Linux-plattformen:
    • Den nya minimibaslinjen är Ubuntu 20.04 LTS eller kompatibel med glibc 2.31 eller senare.
    • Binärfiler för Linux x86 tas bort i enlighet med stöd för Ubuntu 20.04-plattformen.
    • Observera att RHEL/CentOS 7 fortfarande stöds fram till den 30 juni (slutet av CentOS 7 och slutet av RHEL 7 Underhållssupport 2). Binärfiler för dem tas bort i Speech SDK 1.39.0-versionen.
  • Lägg till stöd för OpenSSL 3 i Linux.
  • Lägg till stöd för g722-16khz-64kbps ljudutdataformat med talsyntes.
  • Lägg till stöd för att skicka meddelanden via ett anslutningsobjekt med talsyntes.
  • Lägg till API:er för Start/StopKeywordRecognition i Objective-C och Swift.
  • Lägg till API för att välja en anpassad översättningsmodellkategori.
  • Uppdatera GStreamer-användning med talsyntes.

Felkorrigeringar

  • Åtgärda felet "Websocket message size can't exceed 65,536 bytes" under Start/StopKeywordRecognition.
  • Åtgärda ett Python-segmenteringsfel under talsyntesen.

Exempel

  • Uppdatera C#-exempel så att de använder .NET 6.0 som standard.

Speech SDK 1.37.0: 2024–april

Nya funktioner

  • Lägg till stöd för indatatextströmning i talsyntesen.
  • Ändra standardtalsyntesrösten till en-US-AvaMultilingualNeural.
  • Uppdatera Android-versioner för att använda OpenSSL 3.x.

Felkorrigeringar

Exempel

  • Uppdaterad för nya funktioner.

Speech SDK 1.36.0: 2024–mars

Nya funktioner

  • Lägg till stöd för språkidentifiering i flerspråkig översättning på v2-slutpunkter med autodetectSourceLanguageConfig::FromOpenRange().

Felkorrigeringar

  • Åtgärda att en SynthesisCanceled-händelse inte utlöses om stopp anropas under en SynthesisStarted-händelse.

  • Åtgärda ett brusproblem i inbäddad talsyntes.

  • Åtgärda en krasch i inbäddad taligenkänning när du kör flera identifierare parallellt.

  • Åtgärda inställningen för frasidentifieringsläge på v1/v2-slutpunkter.

  • Åtgärdar olika problem med Microsoft Audio Stack.

Exempel

  • Uppdateringar för nya funktioner.

Speech SDK 1.35.0: Februari 2024

Nya funktioner

  • Ändra standardtexten till talröst från en-US-JennyMultilingualNeural till en-US-AvaNeural.
  • Stöd för information på ordnivå i inbäddade talöversättningsresultat med hjälp av det detaljerade utdataformatet.

Felkorrigeringar

  • Åtgärda API:et för AudioDataStream-positions getter i Python.
  • Åtgärda talöversättning med v2-slutpunkter utan språkidentifiering.
  • Åtgärda en slumpmässig krasch och duplicera ordgränshändelser i inbäddad text till tal.
  • Returnera en korrekt felkod för annullering för ett internt serverfel på WebSocket-anslutningar.
  • Åtgärda misslyckandet med att läsa in FPIEProcessor.dll-biblioteket när MAS används med C#.

Exempel

  • Mindre formateringsuppdateringar för inbäddade igenkänningsexempel.

Speech SDK 1.34.1: Januari 2024

Icke-bakåtkompatibla ändringar

  • Endast buggkorrigeringar

Nya funktioner

  • Endast buggkorrigeringar

Felkorrigeringar

  • Åtgärda regression som introducerades i 1.34.0 där url:en för tjänstslutpunkten skapades med felaktig språkinformation för användare i flera Kina-regioner.

Speech SDK 1.34.0: November 2023

Icke-bakåtkompatibla ändringar

  • SpeechRecognizer uppdateras för att använda en ny slutpunkt som standard (dvs. när du inte uttryckligen anger en URL) som inte längre stöder frågesträngsparametrar för de flesta egenskaperna. Använd motsvarande API-funktioner i stället för att ställa in frågesträngsparametrar direkt med ServicePropertyChannel.UriQueryParameter.

Nya funktioner

  • Kompatibilitet med .NET 8 (Korrigering med undantag för https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 varning om centos7-x64)
  • Stöd för inbäddade talprestandamått som kan användas för att utvärdera en enhets förmåga att köra inbäddat tal.
  • Stöd för källspråkidentifiering i inbäddad flerspråkig översättning.
  • Stöd för inbäddad tal till text, text till tal och översättning för iOS och Swift/Objective-C som släppts i förhandsversion.
  • Inbäddad support tillhandahålls i MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.

Felkorrigeringar

  • Korrigering för iOS SDK x2 gånger binär storlek tillväxt · Problem #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Korrigering för Det går inte att hämta tidsstämplar på ordnivå från Azure-tal till text-API · Problem #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Korrigering för DialogServiceAnslutningsfas för att koppla från händelser på rätt sätt. Detta orsakade krascher ibland.
  • Korrigering för undantag när en identifierare skapas när MAS används.
  • FPIEProcessor.dll från Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-paketet för Windows UWP x64 och Arm64 var beroende av VC-körningsbibliotek för inbyggd C++. Problemet har åtgärdats genom att uppdatera beroendet till rätt VC-körningsbibliotek (för UWP).
  • Korrigering för [MAS] Återkommande anrop till recognizeOnceAsync leder till SPXERR_ALREADY_INITIALIZED vid användning av MAS · Ärende nr 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
  • Korrigering för inbäddad taligenkänning kraschar när fraslistor används.

Exempel

  • Inbäddade iOS-exempel för tal till text, text till tal och översättning.

Speech CLI 1.34.0: November 2023

Nya funktioner

  • Stöd för ordgränshändelser vid syntetisera tal.

Felkorrigeringar

  • JMESPath-beroendet har uppdaterats till den senaste versionen, förbättrar strängutvärderingar

Speech SDK 1.33.0: Oktober 2023

Meddelande om icke-bakåtkompatibel ändring

  • Det nya NuGet-paketet som lagts till för Microsoft Audio Stack (MAS) måste nu inkluderas av program som använder MAS i sina paketkonfigurationsfiler.

Nya funktioner

  • Det nya NuGet-paketet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg har lagts till, vilket ger bättre ekoreduceringsprestanda när du använder Microsoft Audio Stack
  • Uttalsbedömning: stöd för prosody- och innehållsutvärdering har lagts till, vilket kan utvärdera det talade talet när det gäller prosodi, vokabulär, grammatik och ämne.

Felkorrigeringar

Exempel

Speech CLI 1.33.0: Oktober 2023

Nya funktioner

  • Stöd för ordgränshändelser vid syntetisera tal.

Felkorrigeringar

  • inget

Speech SDK 1.32.1: september 2023

Felkorrigeringar

  • Android-paketuppdateringar med de senaste säkerhetskorrigeringarna från OpenSSL1.1.1v
  • JS – Egenskapen WebWorkerLoadType har lagts till för att tillåta förbikoppling av data-URL-inläsning för timeout-arbetare
  • JS – Åtgärda frånkoppling av konversationsöversättning efter 10 minuter
  • JS – Autentiseringstoken för konversationsöversättning från konversation sprids nu till översättningstjänstens anslutning

Exempel

Speech SDK 1.31.0: Augusti 2023

Nya funktioner

  • Stöd för realtidsdiarisering är tillgängligt i offentlig förhandsversion med Speech SDK 1.31.0. Den här funktionen är tillgänglig i följande SDK:er: C#, C++, Java, JavaScript, Python och Objective-C/Swift.

  • Synkroniserad talsyntes ordgräns och viseme-händelser med ljuduppspelning

Icke-bakåtkompatibla ändringar

  • Det tidigare scenariot "konversationstranskription" har bytt namn till "mötestranskription". Använd till exempel MeetingTranscriber i stället för ConversationTranscriberoch använd CreateMeetingAsync i stället för CreateConversationAsync. Även om namnen på SDK-objekt och -metoder har ändrats ändras inte själva funktionen. Använd mötestranskriptionsobjekt för transkription av möten med användarprofiler och röstsignaturer. Mer information finns i Mötestranskription . Objekten och metoderna för konversationsöversättning påverkas inte av dessa ändringar. Du kan fortfarande använda ConversationTranslator objektet och dess metoder för att uppfylla översättningsscenarier.
  • För diarisering i realtid introduceras ett nytt ConversationTranscriber objekt. Den nya objektmodellen "konversationstranskription" och anropsmönster liknar kontinuerlig igenkänning med SpeechRecognizer objektet. En viktig skillnad är att ConversationTranscriber objektet är utformat för att användas i ett konversationsscenario där du vill särskilja flera talare (diarisering). Användarprofiler och röstsignaturer är inte tillämpliga. Mer information finns i snabbstarten för diarisering i realtid.

Den här tabellen visar tidigare och nya objektnamn för diarisering i realtid och mötestranskription. Scenarionamnet finns i den första kolumnen, de tidigare objektnamnen finns i den andra kolumnen och de nya objektnamnen finns i den tredje kolumnen.
Scenarionamn Tidigare objektnamn Nya objektnamn
Diarisering i realtid Ej tillämpligt ConversationTranscriber
Mötestranskription ConversationTranscriber
ConversationTranscriptionEventArgs
ConversationTranscriptionCanceledEventArgs
ConversationTranscriptionResult
RemoteConversationTranscriptionResult
RemoteConversationTranscriptionClient
RemoteConversationTranscriptionResult
Participant1
ParticipantChangedReason1
User1
MeetingTranscriber
MeetingTranscriptionEventArgs
MeetingTranscriptionCanceledEventArgs
MeetingTranscriptionResult
RemoteMeetingTranscriptionResult
RemoteMeetingTranscriptionClient
RemoteMeetingTranscriptionResult
Participant
ParticipantChangedReason
User
Meeting2

1 Objekten Participant, ParticipantChangedReasonoch User gäller både för mötestranskription och mötesöversättningsscenarier.

2 Objektet Meeting är nytt och används med objektet MeetingTranscriber .

Felkorrigeringar

Exempel

Speech SDK 1.30.0: Juli 2023-versionen

Nya funktioner

  • C++, C#, Java – Stöd har lagts till för DisplayWords i Den inbäddade taligenkänningens detaljerade resultat.
  • Objective-C/Swift – Stöd har lagts till för ConnectionMessageReceived händelse i Objective-C/Swift.
  • Objective-C/Swift – Förbättrade nyckelords-spotting-modeller för iOS. Den här ändringen har ökat storleken på vissa paket, som innehåller iOS-binärfiler (till exempel NuGet, XCFramework). Vi arbetar för att minska storleken på framtida versioner.

Felkorrigeringar

  • En minnesläcka har åtgärdats vid användning av taligenkänning med PhraseListGrammar, enligt rapporter från en kund (GitHub-problem).
  • Ett dödläge har åtgärdats i API:et för talöppningsanslutning i text till tal.

Fler anteckningar

  • Java – Vissa internt använda public Java API-metoder har ändrats till att paketera internal, protected eller private. Den här ändringen bör inte påverka utvecklare eftersom vi inte förväntar oss att program ska använda dem. Noteras här för transparens.

Exempel

Speech SDK 1.29.0: Juni 2023

Nya funktioner

  • C++, C#, Java – förhandsversion av API:er för inbäddad talöversättning. Nu kan du göra talöversättning utan molnanslutning!
  • JavaScript – Kontinuerlig språkidentifiering (LID) har nu aktiverats för talöversättning.
  • JavaScript – Community-bidrag för att lägga till LocaleName egenskapen i VoiceInfo klassen. Tack GitHub-användaren shivsarthak för pull-begäran.
  • C++, C#, Java – Stöd för omsampling av inbäddad text till talutdata från 16 kHz till 48 kHz har lagts till.
  • Stöd har lagts till för hi-IN språkvariant i Intent Recognizer med enkel mönstermatchning.

Felkorrigeringar

  • Åtgärdade en krasch orsakad av ett konkurrenstillstånd i Speech Recognizer under objektförstörelse, vilket visas i några av våra Android-tester
  • Åtgärdade möjliga dödlägen i Intent Recognizer med Simple Pattern Matcher

Exempel

  • Nya exempel på inbäddad talöversättning

Speech SDK 1.28.0: maj 2023

Icke-bakåtkompatibel ändring

  • JavaScript SDK: OCSP (Online Certificate Status Protocol) har tagits bort. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.28 och senare innehåller inte längre vår anpassade OCSP-modul.

Nya funktioner

  • Inbäddad taligenkänning returneras NoMatchReason::EndSilenceTimeout nu när en tidsgräns för tystnad inträffar i slutet av ett yttrande. Detta matchar beteendet när du gör igenkänning med hjälp av taltjänsten i realtid.
  • JavaScript SDK: Ange egenskaper för SpeechTranslationConfig användning av PropertyId uppräkningsvärden.

Felkorrigeringar

  • C# på Windows – Åtgärda potentiellt konkurrenstillstånd/dödläge i Windows-ljudtillägget. I scenarier som både gör sig av med ljudåtergivningen snabbt och även använder synthesizermetoden för att sluta tala, återställdes inte den underliggande händelsen av stopp och kan leda till att återgivningsobjektet aldrig tas bort, samtidigt som det kan hålla ett globalt lås för bortskaffande, vilket fryser dotnet GC-tråden.

Exempel

  • Lade till ett inbäddat talexempel för MAUI.
  • Det inbäddade talexemplet för Android Java har uppdaterats så att det innehåller text till tal.

Speech SDK 1.27.0: April 2023

Meddelande om kommande ändringar

  • Vi planerar att ta bort OCSP (Online Certificate Status Protocol) i nästa JavaScript SDK-version. Detta gör det möjligt för klienter att bättre följa webbläsar- och nodstandarder för certifikathantering. Version 1.27 är den senaste versionen som innehåller vår anpassade OCSP-modul.

Nya funktioner

  • JavaScript – Stöd har lagts till för mikrofoninmatning från webbläsaren med talaridentifiering och verifiering.
  • Inbäddad taligenkänning – Uppdateringsstöd för PropertyId::Speech_SegmentationSilenceTimeoutMs inställning.

Felkorrigeringar

  • Allmänt – Tillförlitlighetsuppdateringar i tjänståteranslutningslogik (alla programmeringsspråk utom JavaScript).
  • Allmänt – Åtgärda strängkonverteringar som läcker minne i Windows (alla relevanta programmeringsspråk utom JavaScript).
  • Inbäddad taligenkänning – Åtgärda krasch i fransk taligenkänning när vissa poster i grammatiklistan används.
  • Källkodsdokumentation – Kommentarer om korrigeringar av SDK-referensdokumentation som rör ljudloggning på tjänsten.
  • Avsiktsigenkänning – Åtgärda mönstermatchningsprioriteringar relaterade till listentiteter.

Exempel

  • Hantera autentiseringsfel korrekt i C#-exempel på konversationstranskription (CTS).
  • Lade till exempel på utvärdering av uttal för direktuppspelning för Python, JavaScript, Objective-C och Swift.

Speech SDK 1.26.0: version mars 2023

Icke-bakåtkompatibla ändringar

  • Bitcode har inaktiverats i alla iOS-mål i följande paket: Cocoapod med xcframework, NuGet (för Xamarin och MAUI) och Unity. Ändringen beror på Apples utfasning av bitkodsstöd från Xcode 14 och senare. Den här ändringen innebär också att om du använder Xcode 13-versionen eller om du uttryckligen har aktiverat bitkoden i ditt program med hjälp av Speech SDK kan det uppstå ett fel som säger "ramverket innehåller inte bitkod och du måste återskapa det". Lös problemet genom att kontrollera att dina mål har bitkod inaktiverats.
  • Det lägsta iOS-distributionsmålet uppgraderas till 11.0 i den här versionen, vilket innebär att armv7 HW inte längre stöds.

Nya funktioner

  • Inbäddad taligenkänning (på enheten) stöder nu både 8- och 16 kHz samplingsfrekvens för indataljud (16 bitar per exempel, mono PCM).
  • Speech Synthesis rapporterar nu anslutnings-, nätverks- och tjänstfördröjningar i resultatet för att hjälpa optimering av svarstid från slutpunkt till slutpunkt.
  • Nya regler för bindningsbrott för avsiktsigenkänning med enkel mönstermatchning. Ju fler teckenbyte som matchas, vinner över mönstermatchningar med lägre antal teckenbyte. Exempel: Mönstret "Välj {something} längst upp till höger" vinner över "Välj {something}"

Felkorrigeringar

  • Talsyntes: Åtgärda en bugg där emojin inte är korrekt i ordgränshändelser.
  • Avsiktsigenkänning med CONVERSATIONAL Language Understanding (CLU):
    • Avsikter från CLU Orchestrator-arbetsflödet visas nu korrekt.
    • JSON-resultatet är nu tillgängligt via egenskaps-ID:t LanguageUnderstandingServiceResponse_JsonResult.
  • Taligenkänning med nyckelordsaktivering: Korrigering för saknade ~150 ms ljud efter en nyckelordsigenkänning.
  • Korrigering för Speech SDK NuGet iOS MAUI Release build, rapporterad av kunden (GitHub-problem)

Exempel

  • Korrigering för Swift iOS-exempel, rapporterat av kunden (GitHub-problem)

Speech SDK 1.25.0: Januari 2023

Icke-bakåtkompatibla ändringar

  • API:er för språkidentifiering (förhandsversion) har förenklats. Om du uppdaterar till Speech SDK 1.25 och ser en versionspaus går du till sidan Språkidentifiering för att lära dig mer om den nya egenskapen SpeechServiceConnection_LanguageIdMode. Den här enskilda egenskapen ersätter de två föregående SpeechServiceConnection_SingleLanguageIdPriority och SpeechServiceConnection_ContinuousLanguageIdPriority. Det är inte längre nödvändigt att prioritera mellan låg svarstid och hög noggrannhet efter de senaste modellförbättringarna. Nu behöver du bara välja om du vill köra i början eller kontinuerlig språkidentifiering när du utför kontinuerlig taligenkänning eller översättning.

Nya funktioner

  • C#/C++/Java: Embedded Speech SDK släpps nu under gated public preview. Se dokumentationen om Inbäddat tal (förhandsversion). Nu kan du göra tal till text och text till tal på enheten när molnanslutningen är tillfällig eller otillgänglig. Stöds på Android-, Linux-, macOS- och Windows-plattformar
  • C# MAUI: Stöd har lagts till för iOS- och Mac Catalyst-mål i Speech SDK NuGet (kundproblem)
  • Unity: Android x86_64-arkitektur har lagts till i Unity-paketet (kundproblem)
  • :
    • Direktuppspelningsstöd för ALAW/MULAW har lagts till för taligenkänning (kundproblem)
    • Stöd har lagts till för PhraseListGrammar. Tack GitHub-användaren czkoko för communityns bidrag!
  • C#/C++: Intent Recognizer stöder nu modeller för konversationsspråkstolkning i C++ och C# med orkestrering i Microsoft-tjänsten

Felkorrigeringar

  • Åtgärda en tillfällig låsning i KeywordRecognizer när du försöker stoppa den
  • Python:
    • Korrigering för att hämta uttalsutvärderingsresultat när PronunciationAssessmentGranularity.FullText har angetts (kundproblem)
    • Korrigering för könsegenskap för manliga röster som inte hämtas, när talsyntesröster hämtas
  • JavaScript
    • Korrigering för parsning av vissa WAV-filer som har registrerats på iOS-enheter (kundproblem)
    • JS SDK bygger nu utan att använda npm-force-resolutions (kundproblem)
    • Konversationsöversättaren ställer nu in tjänstslutpunkten korrekt när du använder en speechConfig-instans som skapats med SpeechConfig.fromEndpoint()

Exempel

  • Exempel som visar hur du använder Inbäddat tal har lagts till

  • Tal i textexempel har lagts till för MAUI

    Se Lagringsplatsen för Speech SDK-exempel.

Speech SDK 1.24.2: November 2022-version

Nya funktioner

  • Inga nya funktioner, bara en inbäddad motorkorrigering för att stödja nya modellfiler.

Felkorrigeringar

  • Alla programmeringsspråk
    • Ett problem med kryptering av inbäddade taligenkänningsmodeller har åtgärdats.

Speech SDK 1.24.1: November 2022-version

Nya funktioner

Felkorrigeringar

  • Alla programmeringsspråk
    • Åtgärda inbäddad TTS-krasch när röstteckensnitt inte stöds
    • Korrigering av stopSpeaking() kan inte stoppa uppspelning på Linux (#1686)
  • JavaScript SDK
    • Fast regression i hur konversation transkribering gated ljud.
  • Java
    • Tillfälligt publicerade uppdaterade POM- och Javadocs-filer till Maven Central för att göra det möjligt för docs-pipelinen att uppdatera onlinereferensdokument.
  • Python
    • Åtgärda regression där Python speak_text(ssml) returnerar void.

Speech SDK 1.24.0: oktober 2022

Nya funktioner

  • Alla programmeringsspråk: AMR-WB (16khz) har lagts till i listan över text-till-tal-ljudutdataformat som stöds
  • Python: Paketet har lagts till för Linux Arm64 för Linux-distributioner som stöds.
  • C#/C++/Java/Python: Stöd har lagts till för direktuppspelning av ALAW och MULAW till taltjänsten (förutom befintlig PCM-ström) med hjälp av AudioStreamWaveFormat.
  • C# MAUI: NuGet-paketet har uppdaterats för att stödja Android-mål för .NET MAUI-utvecklare (kundproblem)
  • Mac: Lade till separat XCframework för Mac, som inte innehåller några iOS-binärfiler. Detta erbjuder ett alternativ för utvecklare som bara behöver Mac-binärfiler med ett mindre XCframework-paket.
  • Microsoft Audio Stack (MAS):
    • När strålformningsvinklar anges ignoreras ljud som kommer utanför angivet intervall bättre.
    • Ungefär 70 % minskning av libMicrosoft.CognitiveServices.Speech.extension.mas.so storleken på för Linux ARM32 och Linux Arm64.
  • Avsiktsigenkänning med mönstermatchning:
    • Lägga till ortografistöd för språken fr, de, es, jp
    • Fördefinierade heltalsstöd har lagts till för språket es.

Felkorrigeringar

  • iOS: Åtgärda talsyntesfel på iOS 16 som orsakas av komprimerat ljud avkodningsfel (kundproblem).
  • JavaScript:
    • Åtgärda att autentiseringstoken inte fungerar när röstlistan för talsyntes hämtas (kundproblem).
    • Använd data-URL för arbetsinläsning (kundproblem).
    • Skapa endast en ljudprocessorarbetslet när AudioWorklet stöds i webbläsaren (kundproblem). Detta var ett samhällsbidrag av William Wong. Tack William!
    • Åtgärda igenkända motringningar när LUIS-svaret connectionMessage är tomt (kundproblem).
    • Ange tidsgränsen för talsegmentering korrekt.
  • Avsiktsigenkänning med mönstermatchning:
    • Icke-json-tecken i modeller läses nu in korrekt.
    • Åtgärda hängande problem när recognizeOnceAsync(text) anropades under kontinuerlig igenkänning.

Speech SDK 1.23.0: Juli 2022-versionen

Nya funktioner

  • C#, C++, Java: Stöd har lagts till för språk zh-cn och zh-hk i Avsiktsigenkänning med mönstermatchning.
  • C#: Stöd för AnyCPU .NET Framework-versioner har lagts till

Felkorrigeringar

  • Android: Åtgärdat OpenSSL-sårbarhets-CVE-2022-2068 genom att uppdatera OpenSSL till 1.1.1q
  • Python: Åtgärda krasch när du använder PushAudioInputStream
  • iOS: Åtgärda "EXC_BAD_ACCESS: Försökte avreferera nullpekaren" enligt rapporten om iOS (GitHub-problem)

Speech SDK 1.22.0: Juni 2022

Nya funktioner

  • Java: IntentRecognitionResult API för getEntities(), applyLanguageModels() och recognizeOnceAsync(text) har lagts till för att stödja motorn "enkel mönstermatchning".
  • Unity: Stöd har lagts till för Mac M1 (Apple Silicon) för Unity-paket (GitHub-problem)
  • C#: Stöd för x86_64 för Xamarin Android (GitHub-problem) har lagts till
  • C#: .NET Framework lägsta version uppdaterad till v4.6.2 för SDK C#-paketet eftersom v4.6.1 har dragits tillbaka (se Microsoft .NET Framework Component Lifecycle Policy)
  • Linux: Stöd har lagts till för Debian 11 och Ubuntu 22.04 LTS. Ubuntu 22.04 LTS kräver manuell installation av libssl1.1 antingen som ett binärt paket härifrån (till exempel libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb eller senare för x64) eller genom kompilering från källor.

Felkorrigeringar

  • UWP: OpenSSL-beroendet har tagits bort från UWP-bibliotek och ersatts med WinRT-websocket- och HTTP-API:er för att uppfylla säkerhetsefterlevnad och mindre binärt fotavtryck.
  • Mac: Problemet "MicrosoftCognitiveServicesSpeech Module Not Found" har åtgärdats vid användning av Swift-projekt som riktar sig till macOS-plattformen
  • Windows, Mac: Åtgärdat ett plattformsspecifikt problem där ljudkällor som konfigurerats via egenskaper för att strömma i realtid ibland hamnade efter och så småningom överskred kapaciteten

Exempel (GitHub)

  • C#: .NET Framework-exempel har uppdaterats för användning av v4.6.2
  • Unity: Virtuell assistentexempel har åtgärdats för Android och UWP
  • Unity: Unity-exempel uppdaterade för Unity 2020 LTS-version

Speech SDK 1.21.0: April 2022-version

Nya funktioner

  • Java & JavaScript: Stöd för kontinuerlig språkidentifiering har lagts till när du använder SpeechRecognizer-objektet
  • JavaScript: Api:er för diagnostik har lagts till för att aktivera loggningsnivå för konsolen och filloggning (endast nod) för att hjälpa Microsoft att felsöka kundrapporterade problem
  • Python: Stöd för konversationstranskription har lagts till
  • Go: Stöd för talarigenkänning har lagts till
  • C++ & C#: Stöd har lagts till för en obligatorisk grupp ord i avsiktsigenkänningen (enkel mönstermatchning). Till exempel: "(set|start|begin) a timer" där antingen "set", "start" eller "begin" måste finnas för att avsikten ska kunna identifieras.
  • Alla programmeringsspråk, Speech Synthesis: Egenskapen duration har lagts till i ordgränshändelser. Stöd har lagts till för skiljeteckengräns och meningsgräns
  • Objective-C/Swift/Java: Lade till resultat på ordnivå i resultatobjektet Uttalsbedömning (liknar C#). Programmet behöver inte längre parsa en JSON-resultatsträng för att få information på ordnivå (GitHub-problem)
  • iOS-plattform: Lade till experimentellt stöd för ARMv7-arkitektur

Felkorrigeringar

  • iOS-plattform: Korrigering för att tillåta att målet "Alla iOS-enheter" skapas när du använder CocoaPod (GitHub-problem)
  • Android-plattform: OpenSSL-versionen har uppdaterats till 1.1.1n för att åtgärda säkerhetsrisker CVE-2022-0778
  • JavaScript: Åtgärda problem där wav-huvudet inte uppdaterades med filstorlek (GitHub-problem)
  • JavaScript: Åtgärda problem med att felöversättningsscenarier för begärande-ID desynkroniseras (GitHub-problem)
  • JavaScript: Åtgärda problem när du instansierar SpeakerAudioDestination utan ström (GitHub-problem]
  • C++: Åtgärda C++-huvuden för att ta bort en varning vid kompilering för C++17 eller senare

Exempel på GitHub

  • Nya Java-exempel för taligenkänning med språkidentifiering
  • Nya Python - och Java-exempel för konversationstranskription
  • Nytt Go-exempel för talarigenkänning
  • Nytt C++ och C#- verktyg för Windows som räknar upp alla enheter för ljudinspelning och återgivning för att hitta deras enhets-ID. Det här ID:t krävs av Speech SDK om du planerar att spela in ljud från eller återge ljud till en nondefault-enhet.

Speech SDK 1.20.0: Januari 2022

Nya funktioner

  • Objective-C, Swift och Python: Stöd har lagts till för DialogServiceConnector, som används för röstassistentscenarier.
  • Python: Stöd för Python 3.10 har lagts till. Stöd för Python 3.6 har tagits bort per Pythons livslängd för 3,6.
  • Unity: Speech SDK stöds nu för Unity-program i Linux.
  • C++, C#: IntentRecognizer med mönstermatchning stöds nu i C#. Dessutom stöds scenarier med anpassade entiteter, valfria grupper och entitetsroller i C++ och C#.
  • C++, C#: Förbättrad spårningsloggning för diagnostik med hjälp av de nya klasserna FileLogger, MemoryLogger och EventLogger. SDK-loggar är ett viktigt verktyg för Microsoft för att diagnostisera kundrapporterade problem. Dessa nya klasser gör det enklare för kunder att integrera Speech SDK-loggar i sitt eget loggningssystem.
  • Alla programmeringsspråk: PronunciationAssessmentConfig har nu egenskaper för att ange önskat fonem-alfabet (IPA eller SAPI) och N-Best Phoneme Count (undvika behovet av att skapa en konfigurations-JSON enligt GitHub-problem 1284). Utdata på stavelsenivå stöds nu också.
  • Android, iOS och macOS (alla programmeringsspråk): GStreamer behövs inte längre för att stödja nätverk med begränsad bandbredd. SpeechSynthesizer använder nu operativsystemets ljudavkodningsfunktioner för att avkoda komprimerat ljud som strömmas från text till taltjänst.
  • Alla programmeringsspråk: SpeechSynthesizer har nu stöd för tre nya Opus-format för råutdata (utan container), som ofta används i scenarier med liveuppspelning.
  • JavaScript: Api:et getVoicesAsync() har lagts till i SpeechSynthesizer för att hämta listan över syntesröster som stöds (GitHub-nummer 1350)
  • JavaScript: Api:et getWaveFormat() har lagts till i AudioStreamFormat för att stödja icke-PCM-vågformat (GitHub-problem 452)
  • JavaScript: Volym getter/setter och mute()/unmute() API:er har lagts till i SpeakerAudioDestination (GitHub-nummer 463)

Felkorrigeringar

  • C++, C#, Java, JavaScript, Objective-C och Swift: Åtgärda för att ta bort en 10-sekunders fördröjning när du stoppar en taligenkänning som använder en PushAudioInputStream. Detta gäller för de fall då inget nytt ljud skickas in efter att StopContinuousRecognition anropats (GitHub-problem 1318, 331)
  • Unity på Android och UWP: Unity-metafiler har åtgärdats för UWP, Android Arm64 och Windows-undersystem för Android (WSA) Arm64 (GitHub-problem 1360)
  • iOS: Kompilera ditt Speech SDK-program på valfri iOS-enhet när du använder CocoaPods är nu åtgärdat (GitHub-problem 1320)
  • iOS: När SpeechSynthesizer har konfigurerats för att mata ut ljud direkt till en högtalare stoppades uppspelningen i början under sällsynta förhållanden. Det här har åtgärdats.
  • JavaScript: Använd tillbakafall för skriptprocessor för mikrofonindata om ingen ljudarbetspunkt hittas (GitHub-problem 455)
  • JavaScript: Lägg till protokoll till agenten för att åtgärda buggar som hittats med Sentry-integrering (GitHub-problem 465)

Exempel på GitHub

  • C++-, C#-, Python- och Java-exempel som visar hur du får detaljerade igenkänningsresultat. Informationen omfattar alternativa igenkänningsresultat, konfidenspoäng, lexikalt formulär, Normaliserat formulär, Maskerat normaliserat formulär, med tidsinställning på ordnivå för var och en.
  • iOS-exempel har lagts till med AVFoundation som extern ljudkälla.
  • Java-exempel har lagts till för att visa hur du hämtar SRT-format (SubRip Text) med hjälp av WordBoundary-händelsen.
  • Android-exempel för uttalsutvärdering.
  • C++, C# som visar användningen av de nya diagnostikloggningsklasserna.

Speech SDK 1.19.0: 2021-Nov-version

Höjdpunkter

  • Tjänsten för talarigenkänning är allmänt tillgänglig (GA) nu. Speech SDK-API:er är tillgängliga på C++, C#, Java och JavaScript. Med talarigenkänning kan du korrekt verifiera och identifiera talare med hjälp av deras unika röstegenskaper. Mer information om det här avsnittet finns i dokumentationen.

  • Vi har tagit bort stödet för Ubuntu 16.04 tillsammans med Azure DevOps och GitHub. Ubuntu 16.04 nådde slutet av livet redan i april 2021. Migrera dina Ubuntu 16.04-arbetsflöden till Ubuntu 18.04 eller senare.

  • OpenSSL-länkning i Linux-binärfiler har ändrats till dynamisk. Binär Linux-storlek har minskat med cirka 50 %.

  • Stöd för Mac M1 ARM-baserat kisel har lagts till.

Nya funktioner

  • C++/C#/Java: Nya API:er har lagts till för att aktivera stöd för ljudbearbetning för talinmatning med Microsoft Audio Stack. Dokumentation här.

  • C++: Nya API:er för avsiktsigenkänning för att underlätta mer avancerad mönstermatchning. Detta inkluderar entiteter för list- och fördefinierade heltal samt stöd för gruppering av avsikter och entiteter som modeller (dokumentation, uppdateringar och exempel är under utveckling och kommer att publiceras inom en snar framtid).

  • Mac: Stöd för Arm64-baserade (M1) kisel för CocoaPod-, Python-, Java- och NuGet-paket relaterade till GitHub-problem 1244.

  • iOS/Mac: iOS- och macOS-binärfiler paketeras nu i xcframework relaterade till GitHub-problem 919.

  • iOS/Mac: Stöd för Mac-katalysator som rör GitHub-problem 1171.

  • Linux: Nytt tjärpaket har lagts till för CentOS7 Om Speech SDK. Linux-.tar-paketet innehåller nu specifika bibliotek för RHEL/CentOS 7 i lib/centos7-x64. Speech SDK-bibliotek i lib/x64 gäller fortfarande för alla andra Linux x64-distributioner som stöds (inklusive RHEL/CentOS 8) och fungerar inte på RHEL/CentOS 7.

  • JavaScript: VoiceProfile & SpeakerRecognizer API:er har gjorts asynkrona/väntande.

  • JavaScript: Stöd har lagts till för azure-regioner för amerikanska myndigheter.

  • Windows: Stöd har lagts till för uppspelning på Universell Windows-plattform (UWP).

Felkorrigeringar

  • Android: OpenSSL-säkerhetsuppdatering (uppdaterad till version 1.1.1l) för Android-paket.

  • Python: Åtgärdat fel där det inte går att välja högtalarenhet i Python.

  • Kärna: Återanslut automatiskt när ett anslutningsförsök misslyckas.

  • iOS: Ljudkomprimering inaktiveras på iOS-paket på grund av instabilitet och problem med bitkodsgenerering när du använder GStreamer. Information finns tillgänglig via GitHub-problem 1209.

Exempel på GitHub

  • Mac/iOS: Uppdaterade exempel och snabbstarter för att använda xcframework-paketet.

  • .NET: Exempel har uppdaterats för att använda .NET Core 3.1-versionen.

  • JavaScript: Ett exempel har lagts till för röstassistenter.

Speech SDK 1.18.0: 2021–juli

Obs! Kom igång med Speech SDK här.

Sammanfattning av markeringar

  • Ubuntu 16.04 nådde slutet av livet i april 2021. Med Azure DevOps och GitHub släpper vi supporten för 16.04 i september 2021. Migrera ubuntu-16.04-arbetsflöden till ubuntu-18.04 eller senare innan dess.

Nya funktioner

  • C++: Enkel språkmönstermatchning med intent recognizer gör det nu enklare att implementera enkla scenarier för avsiktsigenkänning.
  • C++/C#/Java: Vi har lagt till ett nytt API i GetActivationPhrasesAsync() klassen för att VoiceProfileClient ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier.
    • Viktigt: Funktionen talarigenkänning finns i förhandsversion. Alla röstprofiler som skapats i förhandsversionen upphör 90 dagar efter att funktionen Talarigenkänning har flyttats från förhandsversionen till Allmän tillgänglighet. Då slutar röstprofilerna för förhandsversionen att fungera.
  • Python: Stöd har lagts till för kontinuerlig språkidentifiering (LID) för befintliga SpeechRecognizer objekt och TranslationRecognizer objekt.
  • Python: Lade till ett nytt Python-objekt med namnet SourceLanguageRecognizer för att göra enstaka eller kontinuerlig LID (utan igenkänning eller översättning).
  • JavaScript: getActivationPhrasesAsync API har lagts till i klassen för att VoiceProfileClient ta emot en lista över giltiga aktiveringsfraser i registreringsfasen för talarigenkänning för oberoende igenkänningsscenarier.
  • JavaScripts VoiceProfileClientenrollProfileAsync API är nu asynkront. Se den här oberoende identifieringskoden, till exempel användning.

Förbättringar

  • Java: AutoCloseable-stöd har lagts till i många Java-objekt. Nu stöds try-with-resources-modellen för att frigöra resurser. Se det här exemplet som använder try-with-resources. Se även dokumentationsguiden för Oracle Java för instruktionen try-with-resources för att lära dig mer om det här mönstret.
  • Diskavtrycket har minskat avsevärt för många plattformar och arkitekturer. Exempel för Microsoft.CognitiveServices.Speech.core binärfilen: x64 Linux är 475 KB mindre (8,0 % minskning); Arm64 Windows UWP är 464 KB mindre (11,5 % minskning); x86 Windows är 343 KB mindre (17,5 % minskning); och x64 Windows är 451 KB mindre (19,4 % minskning).

Felkorrigeringar

  • Java: Åtgärdat syntesfel när syntestexten innehåller surrogattecken. Information här.
  • JavaScript: Ljudbearbetning i webbläsarens mikrofon används AudioWorkletNode nu i stället för inaktuell ScriptProcessorNode. Information här.
  • JavaScript: Håll konversationerna vid liv under långvariga scenarier för konversationsöversättning. Information här.
  • JavaScript: Åtgärdat problem med att identifieraren återansluter till en mediastream i kontinuerlig igenkänning. Information här.
  • JavaScript: Åtgärdat problem med att identifieraren återansluter till en pushStream i kontinuerlig igenkänning. Information här.
  • JavaScript: Korrigerad förskjutningsberäkning på ordnivå i detaljerade igenkänningsresultat. Information här.

Exempel

  • Java-snabbstartsexempel uppdaterade här.
  • JavaScript-talarigenkänningsexempel har uppdaterats för att visa ny användning av enrollProfileAsync(). Se exempel här.

Speech SDK 1.17.0: 2021-may release

Kommentar

Kom igång med Speech SDK här.

Sammanfattning av markeringar

  • Mindre fotavtryck – vi fortsätter att minska minnet och diskavtrycket för Speech SDK och dess komponenter.
  • Med ett nytt fristående API för språkidentifiering kan du känna igen vilket språk som talas.
  • Utveckla talaktiverade appar för mixad verklighet och spel med Unity på macOS.
  • Nu kan du använda Text till tal utöver taligenkänning från programmeringsspråket Go.
  • Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Håll feedbacken kommer!

Nya funktioner

  • C++/C#: Ny fristående at-start och kontinuerlig språkidentifiering via API:et SourceLanguageRecognizer . Om du bara vill identifiera språk som talas i ljudinnehåll är detta API:et för att göra det. Mer information finns i C++ och C#.
  • C++/C#: Taligenkänning och översättningsigenkänning stöder nu både start- och kontinuerlig språkidentifiering så att du programmatiskt kan avgöra vilka språk som talas innan de transkriberas eller översätts. Se dokumentationen här för Taligenkänning och här för Talöversättning.
  • C#: Stöd för Unity-stöd för macOS (x64) har lagts till. Detta låser upp användningsfall för taligenkänning och talsyntes i mixad verklighet och spel!
  • Go: Vi har lagt till stöd för talsyntestext till tal till programmeringsspråket Go för att göra talsyntes tillgänglig i ännu fler användningsfall. Se vår snabbstart eller vår referensdokumentation.
  • C++/C#/Java/Python/Objective-C/Go: Talsyntesen stöder nu objektet connection . Detta hjälper dig att hantera och övervaka anslutningen till Speech-tjänsten och är särskilt användbart för att föransluta för att minska svarstiden. Se dokumentationen här.
  • C++/C#/Java/Python/Objective-C/Go: Nu exponerar vi svarstiden och underkörningstiden för SpeechSynthesisResult att hjälpa dig att övervaka och diagnostisera problem med svarstid för talsyntes. Mer information finns i C++, C#, Java, Python, Objective-C och Go.
  • C++/C#/Java/Python/Objective-C: Text till tal använder nu neurala röster som standard när du inte anger en röst som ska användas. Detta ger dig högre återgivningsutdata som standard, men ökar även standardpriset. Du kan ange någon av våra över 70 standardröster eller över 130 neurala röster för att ändra standardvärdet.
  • C++/C#/Java/Python/Objective-C/Go: Vi har lagt till en könsegenskap i röstinformationen för syntes för att göra det enklare att välja röster baserat på kön. Detta åtgärdar GitHub-problem #1055.
  • C++, C#, Java, JavaScript: Vi stöder retrieveEnrollmentResultAsyncnu , getAuthorizationPhrasesAsyncoch getAllProfilesAsync() i talarigenkänning för att underlätta användarhanteringen av alla röstprofiler för ett visst konto. Se dokumentationen för C++, C#, Java, JavaScript. Detta åtgärdar GitHub-problem #338.
  • JavaScript: Vi har lagt till ett nytt försök för anslutningsfel som gör dina JavaScript-baserade talprogram mer robusta.

Förbättringar

  • Linux- och Android Speech SDK-binärfiler har uppdaterats för att använda den senaste versionen av OpenSSL (1.1.1k)
  • Förbättringar av kodstorlek:
    • Language Understanding är nu uppdelat i ett separat "lu"-bibliotek.
    • Binär storlek för Windows x64-kärnor minskade med 14,4 %.
    • Android Arm64 core binär storlek minskade med 13,7%.
    • andra komponenter minskade också i storlek.

Felkorrigeringar

  • Alla: GitHub-problem #842 för ServiceTimeout har åtgärdats. Nu kan du transkribera långa ljudfiler med hjälp av Speech SDK utan att anslutningen till tjänsten avslutas med det här felet. Vi rekommenderar dock fortfarande att du använder batch-transkription för långa filer.
  • C#: GitHub-problemet #947 har åtgärdats där inga talindata kunde lämna appen i ett felaktigt tillstånd.
  • Java: GitHub-problem #997 har åtgärdats där Speech SDK för Java 1.16 kraschar när du använder DialogServiceConnector utan nätverksanslutning eller en ogiltig prenumerationsnyckel.
  • En krasch har åtgärdats när taligenkänningen plötsligt stoppades (till exempel genom att använda CTRL+C i konsolappen).
  • Java: En korrigering har lagts till för att ta bort temporära filer i Windows när du använder Speech SDK för Java.
  • Java: GitHub-problem #994 har åtgärdats där anrop DialogServiceConnector.stopListeningAsync kan resultera i ett fel.
  • Java: Ett kundproblem har åtgärdats i snabbstarten för den virtuella assistenten.
  • JavaScript: GitHub-problemet #366 har åtgärdats där ConversationTranslator ett felmeddelande om att "this.cancelSpeech inte är en funktion".
  • JavaScript: GitHub-problemet #298 har åtgärdats där exemplet "Get result as an in-memory stream" spelades upp högt.
  • JavaScript: GitHub-problem #350 har åtgärdats där anrop AudioConfig kan resultera i att "ReferenceError: MediaStream inte har definierats".
  • JavaScript: En UnhandledPromiseRejection-varning har åtgärdats i Node.js för långvariga sessioner.

Exempel

  • Dokumentationen om Unity-exempel för macOS har uppdaterats här.
  • Ett React Native-exempel för Azure AI Speech-igenkänningstjänsten är nu tillgängligt här.

Speech SDK 1.16.0: 2021–mars

Kommentar

Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned den här.

Nya funktioner

  • C++/C#/Java/Python: Flyttade till den senaste versionen av GStreamer (1.18.3) för att lägga till stöd för transkribering av medieformat i Windows, Linux och Android. Se dokumentationen här.
  • C++/C#/Java/Objective-C/Python: Stöd har lagts till för avkodning av komprimerat TTS/syntetiserat ljud till SDK. Om du ställer in utdataljudformatet på PCM och GStreamer är tillgängligt i systemet begär SDK automatiskt komprimerat ljud från tjänsten för att spara bandbredd och avkoda ljudet på klienten. Du kan ställa in SpeechServiceConnection_SynthEnableCompressedAudioTransmission på för att false inaktivera den här funktionen. Information om C++, C#, Java, Objective-C, Python.
  • JavaScript: Node.js användare kan nu använda API:etAudioConfig.fromWavFileInput. Detta åtgärdar GitHub-problem #252.
  • C++/C#/Java/Objective-C/Python: Metoden för TTS har lagts GetVoicesAsync() till för att returnera alla tillgängliga syntesröster. Information om C++, C#, Java, Objective-C och Python.
  • C++/C#/Java/JavaScript/Objective-C/Python: Händelsen har lagts till VisemeReceived för TTS/talsyntes för att returnera synkron viseme-animering. Se dokumentationen här.
  • C++/C#/Java/JavaScript/Objective-C/Python: Händelsen har lagts till BookmarkReached för TTS. Du kan ange bokmärken i indata-SSML och få ljudförskjutningar för varje bokmärke. Se dokumentationen här.
  • Java: Stöd för API:er för talarigenkänning har lagts till. Information här.
  • C++/C#/Java/JavaScript/Objective-C/Python: Lade till två nya utdataljudformat med WebM-container för TTS (Webm16Khz16BitMonoOpus och Webm24Khz16BitMonoOpus). Det här är bättre format för direktuppspelning av ljud med Opus codec. Information om C++, C#, Java, JavaScript, Objective-C, Python.
  • C++/C#/Java: Stöd har lagts till för att hämta röstprofilen för scenariot talarigenkänning. Information om C++, C#och Java.
  • C++/C#/Java/Objective-C/Python: Stöd har lagts till för separat delat bibliotek för ljudmikrofon och talarkontroll. På så sätt kan utvecklaren använda SDK:t i miljöer som inte har nödvändiga beroenden för ljudbibliotek.
  • Objective-C/Swift: Stöd har lagts till för modulramverk med paraplyrubrik. På så sätt kan utvecklaren importera Speech SDK som en modul i iOS/Mac Objective-C/Swift-appar. Detta åtgärdar GitHub-problem #452.
  • Python: Stöd för Python 3.9 har lagts till och stöd för Python 3.5 har tagits bort per Pythons livslängd för 3,5.

Kända problem

  • C++/C#/Java: DialogServiceConnector kan inte använda en CustomCommandsConfig för att komma åt ett program för anpassade kommandon och kommer i stället att stöta på ett anslutningsfel. Du kan kringgå detta genom att manuellt lägga till ditt program-ID i begäran med config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter). Det förväntade beteendet CustomCommandsConfig för återställs i nästa version.

Förbättringar

  • Som en del av vårt arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskfotavtryck är Android-binärfiler nu 3 till 5 % mindre.
  • Förbättrad noggrannhet, läsbarhet och se-även-avsnitt i vår C#-referensdokumentation här.

Felkorrigeringar

  • JavaScript: Stora WAV-filhuvuden parsas nu korrekt (ökar rubriksegmentet till 512 byte). Detta åtgärdar GitHub-problem #962.
  • JavaScript: Korrigerat problem med mikrofontidsinställning om mikrofonströmmen slutar att fungera innan igenkänningen stoppas, vilket åtgärdar ett problem med att taligenkänning inte fungerar i Firefox.
  • JavaScript: Vi hanterar nu initieringslöftet korrekt när webbläsaren tvingar mikrofonen av innan turnOn slutförs.
  • JavaScript: Vi ersatte URL-beroendet med url-parse. Detta åtgärdar GitHub-problem #264.
  • Android: Fasta återanrop fungerar inte när minifyEnabled är inställt på sant.
  • C++/C#/Java/Objective-C/Python: TCP_NODELAY är korrekt inställt på underliggande socket-I/O för TTS för att minska svarstiden.
  • C++/C#/Java/Python/Objective-C/Go: Åtgärdade en tillfällig krasch när identifieraren förstördes strax efter att en igenkänning påbörjats.
  • C++/C#/Java: En tillfällig krasch i förstörelsen av talarigenkänningen har åtgärdats.

Exempel

  • JavaScript: Webbläsarexempel kräver inte längre separat nedladdning av JavaScript-biblioteksfil.

Speech SDK 1.15.0: 2021–januari

Kommentar

Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned den här.

Sammanfattning av markeringar

  • Mindre minne och diskfotavtryck gör SDK:et mer effektivt.
  • Utdataformat med högre återgivning är tillgängliga för privat förhandsversion av anpassad neural röst.
  • Avsiktsigenkänning kan nu få mer avkastning än den främsta avsikten, vilket ger dig möjlighet att göra en separat utvärdering av kundens avsikt.
  • Röstassistenter och robotar är nu enklare att konfigurera, och du kan få det att sluta lyssna direkt och utöva större kontroll över hur det svarar på fel.
  • Förbättrad enhetsprestanda genom att göra komprimering valfritt.
  • Använd Speech SDK på Windows ARM/Arm64.
  • Förbättrad felsökning på låg nivå.
  • Uttalsbedömningsfunktionen är nu mer allmänt tillgänglig.
  • Flera buggkorrigeringar för att åtgärda problem som du, våra värdefulla kunder, har flaggat på GitHub! TACK! Håll feedbacken kommer!

Förbättringar

  • Speech SDK är nu effektivare och enklare. Vi har påbörjat ett arbete med flera versioner för att minska Speech SDK:s minnesanvändning och diskavtryck. Som ett första steg gjorde vi betydande filstorleksminskningar i delade bibliotek på de flesta plattformar. Jämfört med 1.14-versionen:
    • 64-bitars UWP-kompatibla Windows-bibliotek är cirka 30 % mindre.
    • 32-bitars Windows-bibliotek ser ännu ingen storleksförbättring.
    • Linux-bibliotek är 20–25 % mindre.
    • Android-bibliotek är 3–5 % mindre.

Nya funktioner

  • Alla: Nya utdataformat på 48 KHz som är tillgängliga för den privata förhandsversionen av anpassad neural röst via TTS-talsyntes-API:et: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
  • Alla: Anpassad röst är också enklare att använda. Stöd har lagts till för att ställa in anpassad röst via EndpointId (C++, C#, Java, JavaScript, Objective-C, Python). Innan den här ändringen behövde anpassade röstanvändare ange slutpunkts-URL:en via FromEndpoint -metoden. Nu kan kunderna använda FromSubscription metoden precis som fördefinierade röster och sedan ange distributions-ID:t genom att ange EndpointId. Detta förenklar konfigurationen av anpassade röster.
  • C++/C#/Java/Objective-C/Python: Hämta mer än den främsta avsikten frånIntentRecognizer. Nu har den stöd för att konfigurera JSON-resultatet som innehåller alla avsikter och inte bara avsikten med högsta poäng via LanguageUnderstandingModel FromEndpoint metoden med hjälp av URI-parametern verbose=true . Detta åtgärdar GitHub-problem #880. Se uppdaterad dokumentation här.
  • C++/C#/Java: Gör så att röstassistenten eller roboten slutar lyssna direkt. DialogServiceConnector (C++, C#, Java) har nu en StopListeningAsync() metod att följa med ListenOnceAsync(). Detta stoppar omedelbart ljudinspelningen och väntar graciöst på ett resultat, vilket gör det perfekt för användning med knapptryckningsscenarier "stoppa nu".
  • C++/C#/Java/JavaScript: Få röstassistenten eller roboten att reagera bättre på underliggande systemfel. DialogServiceConnector (C++, C#, Java, JavaScript) har nu en ny TurnStatusReceived händelsehanterare. Dessa valfria händelser motsvarar varje ITurnContext lösning på roboten och rapporterar körningsfel när de inträffar, till exempel som ett resultat av ett ohanterat undantag, en timeout eller en nätverksminskning mellan Direct Line Speech och roboten. TurnStatusReceived gör det enklare att svara på feltillstånd. Om en robot till exempel tar för lång tid på en serverdelsdatabasfråga (till exempel om du letar upp en produkt), TurnStatusReceived kan klienten veta att den kan reprompt med "ledsen, jag fick inte riktigt det, kan du försöka igen" eller något liknande.
  • C++/C#: Använd Speech SDK på fler plattformar. NuGet-paketet för Speech SDK stöder nu interna binärfiler för Windows ARM/Arm64-skrivbord (UWP stöds redan) för att göra Speech SDK mer användbart för fler datortyper.
  • Java: DialogServiceConnector har nu en setSpeechActivityTemplate() metod som oavsiktligt exkluderades från språket tidigare. Detta motsvarar att ange Conversation_Speech_Activity_Template egenskapen och begär att alla framtida Bot Framework-aktiviteter som kommer från Direct Line Speech-tjänsten sammanfogar det angivna innehållet i deras JSON-nyttolaster.
  • Java: Förbättrad felsökning på låg nivå. Klassen Connection har nu en MessageReceived händelse som liknar andra programmeringsspråk (C++, C#). Den här händelsen ger åtkomst på låg nivå till inkommande data från tjänsten och kan vara användbar för diagnostik och felsökning.
  • JavaScript: Enklare installation för röstassistenter och robotar via BotFrameworkConfig, som nu har fromHost() och fromEndpoint() fabriksmetoder som förenklar användningen av anpassade tjänstplatser jämfört med att ange egenskaper manuellt. Vi har också standardiserat valfri specifikation för botId att använda en robot som inte är standard i konfigurationsfabrikerna.
  • JavaScript: Förbättrad enhetsprestanda genom att lägga till strängkontrollegenskap för websocket-komprimering. Av prestandaskäl inaktiverade vi websocket-komprimering som standard. Detta kan återanvändas för scenarier med låg bandbredd. Mer information finns här. Detta åtgärdar GitHub-problem #242.
  • JavaScript: Stöd för lPronunciation Assessment har lagts till för att möjliggöra utvärdering av tal uttal. Se snabbstarten här.

Felkorrigeringar

  • Alla (utom JavaScript): Korrigerade en regression i version 1.14, där för mycket minne allokerades av identifieraren.
  • C++: Ett problem med skräpinsamling har åtgärdats med DialogServiceConnector, vilket åtgärdar GitHub-problemet #794.
  • C#: Åtgärdat ett problem med trådavstängning som gjorde att objekt blockerades i ungefär en sekund när de kasserades.
  • C++/C#/Java: Ett undantag som hindrar ett program från att ange token för talauktorisering eller aktivitetsmall mer än en gång på en DialogServiceConnector.
  • C++/C#/Java: En identifieringskrasch har åtgärdats på grund av ett konkurrenstillstånd i teardown.
  • JavaScript: DialogServiceConnector uppfyllde inte tidigare den valfria botId parametern som anges i BotFrameworkConfigfabrikerna. Detta gjorde det nödvändigt att ange botId frågesträngsparametern manuellt för att använda en robot som inte är standard. Buggen har korrigerats och botId värden som tillhandahålls till BotFrameworkConfig"s fabriker kommer att respekteras och användas, inklusive nya fromHost() och fromEndpoint() tillägg. Detta gäller även för parametern applicationId för CustomCommandsConfig.
  • JavaScript: GitHub-problem #881 har åtgärdats, vilket tillåter återanvändning av identifierarobjekt.
  • JavaScript: Ett problem där SKD skickades speech.config flera gånger i en TTS-session har åtgärdats och bandbredden slösats bort.
  • JavaScript: Förenklad felhantering vid mikrofonauktorisering, vilket gör att mer beskrivande meddelande kan bubbla upp när användaren inte har tillåtit mikrofoninmatning i webbläsaren.
  • JavaScript: GitHub-problem #249 har åtgärdats där typfel i ConversationTranslator och ConversationTranscriber orsakade ett kompileringsfel för TypeScript-användare.
  • Objective-C: Åtgärdade ett problem där GStreamer-versionen misslyckades för iOS på Xcode 11.4 och åtgärdade GitHub-problem #911.
  • Python: GitHub-problemet #870 har åtgärdats, vilket tar bort "DeprecationWarning: the imp module is deprecated in favor of importlib".

Exempel

Speech SDK 1.14.0: 2020–oktober

Kommentar

Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned den här.

Nya funktioner

  • Linux: Stöd har lagts till för Debian 10 och Ubuntu 20.04 LTS.
  • Python/Objective-C: Stöd har lagts till för API:et KeywordRecognizer . Dokumentationen kommer att finnas här.
  • C++/Java/C#: Stöd har lagts till för att ange valfri HttpHeader nyckel/värde via ServicePropertyChannel::HttpHeader.
  • JavaScript: Stöd för API:et har lagts till ConversationTranscriber . Läs dokumentationen här.
  • C++/C#: Ny metod har lagts till AudioDataStream FromWavFileInput (för att läsa . WAV-filer) här (C++) och här (C#).
  • C++/C#/Java/Python/Objective-C/Swift: Lade till en stopSpeakingAsync() metod för att stoppa text till talsyntes. Läs referensdokumentationen här (C++), här (C#), här (Java), här (Python)och här (Objective-C/Swift).
  • C#, C++, Java: En funktion har lagts FromDialogServiceConnector() till i Connection klassen som kan användas för att övervaka anslutnings- och frånkopplingshändelser för DialogServiceConnector. Läs referensdokumentationen här (C#), här (C++), och här (Java).
  • C++/C#/Java/Python/Objective-C/Swift: Stöd för uttalsbedömning har lagts till, vilket utvärderar tal uttal och ger talare feedback om noggrannhet och flyt i talat ljud. Läs dokumentationen här.

Icke-bakåtkompatibel ändring

  • JavaScript: PullAudioOutputStream.read() har en returtypsändring från ett internt promise till ett internt JavaScript-löfte.

Felkorrigeringar

  • Alla: Fast 1,13-regression där SetServiceProperty värden med vissa specialtecken ignorerades.
  • C#: Windows-konsolexempel på Visual Studio 2019 kunde inte hitta interna DLL:er.
  • C#: En krasch med minneshantering har åtgärdats om dataström används som KeywordRecognizer indata.
  • ObjectiveC/Swift: En krasch med minneshantering har åtgärdats om dataström används som indata för identifierare.
  • Windows: Problem med samexistens med BT HFP/A2DP på UWP har åtgärdats.
  • JavaScript: Fast mappning av sessions-ID:er för att förbättra loggning och hjälp vid interna felsöknings-/tjänstkorrelationer.
  • JavaScript: Korrigering har lagts till för DialogServiceConnector att inaktivera ListenOnce anrop efter att det första anropet har gjorts.
  • JavaScript: Ett problem har åtgärdats där resultatutdata bara skulle vara "enkla".
  • JavaScript: Problem med kontinuerlig igenkänning har åtgärdats i Safari på macOS.
  • JavaScript: Processorbelastningsreducering för scenario med dataflöde med höga begäranden.
  • JavaScript: Tillåt åtkomst till information om röstprofilregistreringsresultat.
  • JavaScript: Korrigering har lagts till för kontinuerlig igenkänning i IntentRecognizer.
  • C++/C#/Java/Python/Swift/ObjectiveC: Korrigerade felaktig URL för australiaeast och brazilsouth i IntentRecognizer.
  • C++/C#: Har lagts till VoiceProfileType som ett argument när ett VoiceProfile objekt skapas.
  • C++/C#/Java/Python/Swift/ObjectiveC: Fast potential SPX_INVALID_ARG vid försök att läsa AudioDataStream från en viss position.
  • IOS: En krasch med taligenkänning på Unity har åtgärdats

Exempel

Känt problem

  • DigiCert Global Root G2-certifikat stöds inte som standard i HoloLens 2 och Android 4.4 (KitKat) och måste läggas till i systemet för att Speech SDK ska fungera. Certifikatet läggs till i HoloLens 2 OS-avbildningar inom en snar framtid. Android 4.4-kunder måste lägga till det uppdaterade certifikatet i systemet.

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.13.0: 2020–juli

Kommentar

Speech SDK för Windows beror på den delade Microsoft Visual C++ Redistributable för Visual Studio 2015, 2017 och 2019. Ladda ned och installera den härifrån.

Nya funktioner

  • C#: Stöd för asynkron konversationstranskription har lagts till. Se dokumentationen här.
  • JavaScript: Stöd för talarigenkänning har lagts till för både webbläsare och Node.js.
  • JavaScript: Stöd för språkidentifiering/språk-ID har lagts till. Se dokumentationen här.
  • Objective-C: Stöd har lagts till för konversation och konversationstranskription med flera enheter.
  • Python: Stöd för komprimerat ljud har lagts till för Python i Windows och Linux. Se dokumentationen här.

Felkorrigeringar

  • Alla: Åtgärdat ett problem som gjorde att KeywordRecognizer inte gick vidare med strömmarna efter en igenkänning.
  • Alla: Ett problem som gjorde att dataströmmen från keywordRecognitionResult inte innehöll nyckelordet har åtgärdats.
  • Alla: Åtgärdat ett problem som SendMessageAsync inte riktigt skickar meddelandet via tråden när användarna har väntat på det.
  • Alla: En krasch i API:er för talarigenkänning har åtgärdats när användare anropar Metoden VoiceProfileClient::SpeakerRecEnrollProfileAsync flera gånger och väntade inte på att anropen skulle slutföras.
  • Alla: Aktivera filloggning i VoiceProfileClient- och SpeakerRecognizer-klasser har åtgärdats.
  • JavaScript: Ett problem med begränsningen har åtgärdats när webbläsaren minimeras.
  • JavaScript: Ett problem med en minnesläcka har åtgärdats i strömmar.
  • JavaScript: Cachelagring har lagts till för OCSP-svar från NodeJS.
  • Java: Ett problem som gjorde att BigInteger-fält alltid returnerades 0 har åtgärdats.
  • iOS: Ett problem med att publicera Speech SDK-baserade appar i iOS App Store har åtgärdats.

Exempel

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.12.1: 2020–juni

Nya funktioner

  • C#, C++: Förhandsversion av talarigenkänning: Den här funktionen möjliggör talaridentifiering (vem talar?) och talarverifiering (är talaren den som de påstår sig vara?). Se översiktsdokumentationen.

Felkorrigeringar

  • C#, C++: Fast mikrofoninspelning fungerade inte i 1.12 i talarigenkänning.
  • JavaScript: Korrigeringar för text till tal i Firefox och Safari på macOS och iOS.
  • Korrigering för åtkomstöverträdelse för Windows-programverifierare kraschar vid konversationstranskription vid användning av åttakanalsström.
  • Korrigering för åtkomstöverträdelse för Windows-programverifierare kraschar vid konversationsöversättning med flera enheter.

Exempel

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. I det osannolika fallet att vi missade något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.12.0: 2020-may release

Nya funktioner

  • Go: Nytt Go-språkstöd för taligenkänning och anpassad röstassistent. Konfigurera utvecklingsmiljön här. Exempelkod finns i avsnittet Exempel nedan.
  • JavaScript: Stöd för text till tal har lagts till i webbläsaren. Se dokumentationen här.
  • C++, C#, Java: Nya KeywordRecognizer objekt och API:er som stöds på Windows-, Android-, Linux- och iOS-plattformar. Läs dokumentationen här. Exempelkod finns i avsnittet Exempel nedan.
  • Java: Konversation med flera enheter har lagts till med översättningsstöd. Se referensdokumentet här.

Förbättringar och optimeringar

  • JavaScript: Optimerad implementering av webbläsarens mikrofon förbättrar taligenkänningens noggrannhet.
  • Java: Omstrukturerade bindningar med direkt JNI-implementering utan SWIG. Den här ändringen minskar med 10 x bindningsstorleken för alla Java-paket som används för Windows, Android, Linux och Mac och underlättar ytterligare utveckling av Speech SDK Java-implementeringen.
  • Linux: Uppdaterad supportdokumentation med de senaste RHEL 7-specifika anteckningarna.
  • Förbättrad anslutningslogik för att försöka ansluta flera gånger när tjänst- och nätverksfel inträffar.
  • Uppdaterade snabbstartssidan för portal.azure.com Speech för att hjälpa utvecklare att ta nästa steg i Azure AI Speech-resan.

Felkorrigeringar

  • C#, Java: Åtgärdat ett problem med att läsa in SDK-bibliotek i Linux ARM (både 32-bitars och 64-bitars).
  • C#: Fast explicit bortskaffande av interna referenser för TranslationRecognizer, IntentRecognizer och Anslutningsobjekt.
  • C#: Livslängdshantering för fast ljudinmatning för ConversationTranscriber-objekt.
  • Ett problem där IntentRecognizer resultatorsaken inte angavs korrekt vid identifiering av avsikter från enkla fraser har åtgärdats.
  • Ett problem där SpeechRecognitionEventArgs resultatförskjutningen inte har angetts korrekt har åtgärdats.
  • Ett konkurrenstillstånd där SDK försökte skicka ett nätverksmeddelande innan websocket-anslutningen öppnades har åtgärdats. Var reproducerbar för TranslationRecognizer när deltagarna lades till.
  • Åtgärdade minnesläckor i nyckelordsigenkänningsmotorn.

Exempel

COVID-19-förkortad testning

På grund av att vi har arbetat via fjärranslutning under de senaste veckorna kunde vi inte göra så mycket manuell verifieringstestning som vi normalt gör. Vi har inte gjort några ändringar som vi tror kan ha brutit något, och våra automatiserade tester har godkänts. Om vi har missat något kan du meddela oss på GitHub.
Håll dig frisk!

Speech SDK 1.11.0: 2020–mars

Nya funktioner

  • Linux: Stöd har lagts till för Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
  • Linux: Stöd har lagts till för .NET Core C# på Linux ARM32 och Arm64. Läs mer här.
  • C#, C++: Har lagts till UtteranceId i ConversationTranscriptionResult, ett konsekvent ID för alla mellanliggande och slutligt taligenkänningsresultat. Information om C#, C++.
  • Python: Stöd har lagts till för Language ID. Se speech_sample.py i GitHub-lagringsplatsen.
  • Windows: Stöd för komprimerat ljudinmatningsformat har lagts till på Windows-plattformen för alla win32-konsolprogram. Information här.
  • JavaScript: Stöd för talsyntes (text till tal) i NodeJS. Läs mer här.
  • JavaScript: Lägg till nya API:er för att aktivera kontroll av alla skicka och mottagna meddelanden. Läs mer här.

Felkorrigeringar

  • C#, C++: Ett problem har åtgärdats, så SendMessageAsync nu skickas binärt meddelande som binär typ. Information om C#, C++.
  • C#, C++: Ett problem har åtgärdats där en händelse Connection MessageReceived kan orsaka krasch om Recognizer den tas bort före Connection objektet. Information om C#, C++.
  • Android: Ljudbuffertstorleken från mikrofonen minskade från 800 ms till 100 ms för att förbättra svarstiden.
  • Android: Ett problem med x86 Android-emulatorn i Android Studio har åtgärdats.
  • JavaScript: Stöd har lagts till för regioner i Kina med API:et fromSubscription . Information här.
  • JavaScript: Lägg till mer felinformation för anslutningsfel från NodeJS.

Exempel

  • Unity: Det offentliga exemplet för avsiktsigenkänning har åtgärdats, där LUIS json-importen misslyckades. Information här.
  • Python: Exempel har lagts till för Language ID. Information här.

Covid19-förkortad testning: På grund av fjärrarbete under de senaste veckorna kunde vi inte utföra så mycket manuell enhetsverifieringstestning som normalt. Vi kunde till exempel inte testa mikrofonindata och högtalarutdata i Linux, iOS och macOS. Vi har inte gjort några ändringar som vi tror kan ha brutit något på dessa plattformar, och våra automatiserade tester har alla godkänts. I det osannolika fallet att vi missade något meddelar du oss på GitHub.
Tack för ditt fortsatta stöd. Som alltid kan du skicka frågor eller feedback på GitHub eller Stack Overflow.
Håll dig frisk!

Speech SDK 1.10.0: 2020–februari

Nya funktioner

  • Python-paket har lagts till för att stödja den nya 3.8-versionen av Python.
  • Stöd för Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).

    Kommentar

    Kunder måste konfigurera OpenSSL enligt dessa instruktioner.

  • Linux ARM32-stöd för Debian och Ubuntu.
  • DialogServiceConnector stöder nu en valfri "bot ID"-parameter på BotFrameworkConfig. Den här parametern tillåter användning av flera Direct Line Speech-robotar med en enda Speech-resurs. Utan den angivna parametern används standardroboten (enligt konfigurationssidan för Direct Line Speech-kanalen).
  • DialogServiceConnector har nu en SpeechActivityTemplate-egenskap. Innehållet i den här JSON-strängen används av Direct Line Speech för att fylla i en mängd olika fält som stöds i alla aktiviteter som når en Direct Line Speech-robot, inklusive aktiviteter som genereras automatiskt som svar på händelser som taligenkänning.
  • TTS använder nu prenumerationsnyckel för autentisering, vilket minskar den första bytefördröjningen för det första syntesresultatet när du har skapat en synthesizer.
  • Uppdaterade taligenkänningsmodeller för 19 språk för en genomsnittlig minskning av ordfelfrekvensen med 18,6 % (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). De nya modellerna medför betydande förbättringar i flera domäner, inklusive diktering, callcenter-transkription och videoindexeringsscenarier.

Felkorrigeringar

  • En bugg har åtgärdats där konversationstranskriberaren inte väntade korrekt i JAVA-API:er
  • Android x86-emulatorkorrigering för Xamarin GitHub-problem
  • Lägg till saknas (Get|Ange)Egenskapsmetoder till AudioConfig
  • Åtgärda en TTS-bugg där audioDataStream inte kunde stoppas när anslutningen misslyckas
  • Att använda en slutpunkt utan en region skulle orsaka USP-fel för konversationsöversättaren
  • ID-generering i Universella Windows-program använder nu en lämpligt unik GUID-algoritm. det tidigare och oavsiktligt försummade en stubbad implementering som ofta orsakade kollisioner över stora uppsättningar interaktioner.

Exempel

Andra ändringar

Speech SDK 1.9.0: 2020–januari

Nya funktioner

  • Konversation med flera enheter: Anslut flera enheter till samma tal- eller textbaserade konversation och om du vill översätta meddelanden som skickas mellan dem. Läs mer i den här artikeln.
  • Stöd för nyckelordsigenkänning har lagts till för Android-paket .aar och stöd för x86- och x64-smaker har lagts till.
  • Objective-C: SendMessage och SetMessageProperty metoder som lagts till Connection i objektet. Se dokumentationen här.
  • TTS C++ api stöder std::wstring nu som syntestextindata, vilket tar bort behovet av att konvertera en wstring till sträng innan den skickas till SDK:n. Mer information finns här
  • C#: Språk-ID och källspråkkonfiguration är nu tillgängliga.
  • JavaScript: Lade till en funktion i Connection objektet för att skicka anpassade meddelanden från Speech-tjänsten som motringning receivedServiceMessage.
  • JavaScript: Stöd har lagts till för FromHost API att underlätta användningen med lokala containrar och nationella moln. Se dokumentationen här.
  • JavaScript: Vi hedrar NODE_TLS_REJECT_UNAUTHORIZED nu tack vare ett bidrag från orgads. Mer information finns här

Icke-bakåtkompatibla ändringar

  • OpenSSL har uppdaterats till version 1.1.1b och är statiskt länkad till Speech SDK-kärnbiblioteket för Linux. Detta kan orsaka avbrott om inkorgen OpenSSL inte har installerats i /usr/lib/ssl katalogen i systemet. Läs vår dokumentation under Speech SDK-dokument för att lösa problemet.
  • Vi har ändrat datatypen som returneras för C# WordLevelTimingResult.Offset från int till long för att tillåta åtkomst till WordLevelTimingResults när taldata är längre än 2 minuter.
  • PushAudioInputStream och PullAudioInputStream skicka nu wav-rubrikinformation till Speech-tjänsten baserat på AudioStreamFormat, som du kan ange när de skapades. Kunder måste nu använda det ljudinmatningsformat som stöds. Andra format får resultat av ooptimal igenkänning eller kan orsaka andra problem.

Felkorrigeringar

  • OpenSSL Se uppdateringen under Icke-bakåtkompatibla ändringar ovan. Vi har åtgärdat både en tillfällig krasch och ett prestandaproblem (låskonkurration under hög belastning) i Linux och Java.
  • Java: Förbättrade objektstängning i scenarier med hög samtidighet.
  • Omstrukturerade vårt NuGet-paket. Vi har tagit bort de tre kopiorna av Microsoft.CognitiveServices.Speech.core.dll och Microsoft.CognitiveServices.Speech.extension.kws.dll under lib-mappar, vilket gör NuGet-paketet mindre och snabbare att ladda ned, och vi har lagt till rubriker som behövs för att kompilera vissa C++-interna appar.
  • Snabbstartsexempel har åtgärdats här. Dessa avslutades utan att visa undantaget "mikrofon hittades inte" i Linux, macOS, Windows.
  • SDK-krasch med långa taligenkänningsresultat har åtgärdats på vissa kodsökvägar som det här exemplet.
  • SDK-distributionsfel har åtgärdats i Azure Web App-miljön för att åtgärda det här kundproblemet.
  • Ett TTS-fel har åtgärdats vid användning av flera <voice> taggar eller <audio> taggar för att åtgärda det här kundproblemet.
  • Ett TTS 401-fel har åtgärdats när SDK:t återställs från paus.
  • JavaScript: En cirkulär import av ljuddata har åtgärdats tack vare ett bidrag från euirim.
  • JavaScript: stöd har lagts till för att ange tjänstegenskaper, som lagts till i 1.7.
  • JavaScript: Åtgärdade ett problem där ett anslutningsfel kan leda till kontinuerliga, misslyckade websocket-återanslutningsförsök.

Exempel

  • Exempel på nyckelordsigenkänning har lagts till för Android här.
  • TTS-exempel har lagts till för serverscenariot här.
  • Snabbstarter för konversationer med flera enheter har lagts till för C# och C++ här.

Andra ändringar

  • Optimerad SDK-kärnbiblioteksstorlek på Android.
  • SDK i 1.9.0 och senare stöder både int och string typer i fältet version av röstsignatur för Conversation Transcriber.

Speech SDK 1.8.0: 2019–november

Nya funktioner

  • Lade till ett FromHost() API för att underlätta användningen med lokala containrar och nationella moln.
  • Källspråksidentifiering har lagts till för taligenkänning (i Java och C++)
  • Objekt har lagts SourceLanguageConfig till för taligenkänning som används för att ange förväntade källspråk (i Java och C++)
  • Stöd har lagts till KeywordRecognizer för Windows (UWP), Android och iOS via NuGet- och Unity-paketen
  • Java-API:et för fjärrkonversation har lagts till för att göra konversationstranskription i asynkrona batchar.

Icke-bakåtkompatibla ändringar

  • Funktioner för konversationstranskriberare som flyttas under namnområdet Microsoft.CognitiveServices.Speech.Transcription.
  • Delar av metoderna för konversationstranskribering flyttas till en ny Conversation klass.
  • Stöd för 32-bitars (ARMv7 och x86) iOS har tagits bort

Felkorrigeringar

  • Korrigering för krasch om lokal KeywordRecognizer används utan en giltig prenumerationsnyckel för Speech-tjänsten

Exempel

  • Xamarin-exempel för KeywordRecognizer
  • Unity-exempel för KeywordRecognizer
  • C++ och Java-exempel för automatisk källspråkidentifiering.

Speech SDK 1.7.0: 2019–september

Nya funktioner

  • Betastöd har lagts till för Xamarin på Universell Windows-plattform (UWP), Android och iOS
  • IOS-stöd har lagts till för Unity
  • Stöd för indata har lagts till Compressed för ALaw, Mulaw, FLAC, på Android, iOS och Linux
  • Har lagts till SendMessageAsync i Connection klassen för att skicka ett meddelande till tjänsten
  • Har lagts till SetMessageProperty i Connection klassen för att ange egenskapen för ett meddelande
  • TTS har lagt till bindningar för Java (JRE och Android), Python, Swift och Objective-C
  • TTS har lagt till uppspelningsstöd för macOS, iOS och Android.
  • Information om "ordgräns" har lagts till för TTS.

Felkorrigeringar

  • Problem med IL2CPP-build på Unity 2019 för Android har åtgärdats
  • Åtgärdat problem med felaktiga rubriker i wav-filindata som bearbetas felaktigt
  • Problem med att UUID:erna inte är unika i vissa anslutningsegenskaper har åtgärdats
  • Några varningar om nullabilitetsspecificerare i Swift-bindningar har åtgärdats (kan kräva små kodändringar)
  • Åtgärdade en bugg som gjorde att websocket-anslutningar stängdes felaktigt under nätverksbelastning
  • Åtgärdat ett problem på Android som ibland resulterar i duplicerade visnings-ID:t som används av DialogServiceConnector
  • Förbättringar av anslutningens stabilitet i interaktioner med flera svängar och rapportering av fel (via Canceled händelser) när de inträffar med DialogServiceConnector
  • DialogServiceConnector sessionsstarter tillhandahåller nu händelser korrekt, inklusive när du anropar ListenOnceAsync() under en aktiv StartKeywordRecognitionAsync()
  • Åtgärdat en krasch som är associerad med DialogServiceConnector aktiviteter som tas emot

Exempel

  • Snabbstart för Xamarin
  • Uppdaterad CPP-snabbstart med Linux Arm64-information
  • Uppdaterad Unity-snabbstart med iOS-information

Speech SDK 1.6.0: 2019–juni

Exempel

  • Snabbstartsexempel för Text till tal på UWP och Unity
  • Snabbstartsexempel för Swift i iOS
  • Unity-exempel för tal- och avsiktsigenkänning och översättning
  • Uppdaterade snabbstartsexempel för DialogServiceConnector

Förbättringar/ändringar

  • Dialognamnområde:
    • SpeechBotConnector har bytt namn till DialogServiceConnector
    • BotConfig har bytt namn till DialogServiceConfig
    • BotConfig::FromChannelSecret() har mappats om till DialogServiceConfig::FromBotSecret()
    • Alla befintliga Direct Line Speech-klienter fortsätter att stödjas efter namnbytet
  • Uppdatera TTS REST-adaptern för att stödja proxy, beständig anslutning
  • Förbättra felmeddelandet när en ogiltig region skickas
  • Swift/Objective-C:
    • Förbättrad felrapportering: Metoder som kan resultera i ett fel finns nu i två versioner: En som exponerar ett NSError objekt för felhantering och en som skapar ett undantag. Den förra är exponerad för Swift. Den här ändringen kräver anpassningar av befintlig Swift-kod.
    • Förbättrad händelsehantering

Felkorrigeringar

  • Korrigering för TTS: där SpeakTextAsync framtiden returnerades utan att vänta tills ljudet har slutfört renderingen
  • Korrigering för att konvertera strängar i C# för att aktivera fullständigt språkstöd
  • Korrigering för problem med .NET Core-appen för att läsa in kärnbibliotek med net461-målramverk i exempel
  • Korrigering för tillfälliga problem med att distribuera interna bibliotek till utdatamappen i exempel
  • Korrigering för att stänga web socket på ett tillförlitligt sätt
  • Korrigering för eventuell krasch när du öppnar en anslutning under hög belastning på Linux
  • Korrigering för saknade metadata i ramverkspaketet för macOS
  • Åtgärda problem med pip install --user i Windows

Speech SDK 1.5.1

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Felkorrigeringar

  • Åtgärda FromSubscription när det används med konversationstranskription.
  • Åtgärda bugg i nyckelordsfläckar för röstassistenter.

Speech SDK 1.5.0: 2019-may release

Nya funktioner

  • KWS (Keyword Spotting) är nu tillgängligt för Windows och Linux. KWS-funktioner kan fungera med alla mikrofontyper, men det officiella KWS-stödet är för närvarande begränsat till mikrofonmatriserna som finns i Azure Kinect DK-maskinvaran eller Speech Devices SDK.
  • Funktioner för frastips är tillgängliga via SDK. Mer information finns här.
  • Funktionen för transkription av konversationer är tillgänglig via SDK:et.
  • Lägg till stöd för röstassistenter med hjälp av Direct Line Speech-kanalen.

Exempel

  • Exempel har lagts till för nya funktioner eller nya tjänster som stöds av SDK.

Förbättringar/ändringar

  • Olika egenskaper för identifierare har lagts till för att justera tjänstens beteende eller tjänstresultat (till exempel maskering av svordomar och andra).
  • Nu kan du konfigurera identifieraren via standardkonfigurationsegenskaperna, även om du har skapat identifieraren FromEndpoint.
  • Objective-C: OutputFormat egenskapen lades till i SPXSpeechConfiguration.
  • SDK stöder nu Debian 9 som en Linux-distribution.

Felkorrigeringar

  • Ett problem där talarresursen förstördes för tidigt i text till tal har åtgärdats.

Speech SDK 1.4.2

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Speech SDK 1.4.1

Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:

  • Förhindra att webbpaketet läser in https-proxy-agent.

Speech SDK 1.4.0: 2019–april

Nya funktioner

  • SDK stöder nu text till tal-tjänsten som en betaversion. Det stöds i Windows och Linux Desktop från C++ och C#. Mer information finns i översikten text till tal.
  • SDK stöder nu MP3- och Opus/OGG-ljudfiler som strömma indatafiler. Den här funktionen är endast tillgänglig i Linux från C++ och C# och är för närvarande i betaversion (mer information här).
  • Speech SDK för Java, .NET Core, C++ och Objective-C har fått stöd för macOS. Objective-C-stödet för macOS är för närvarande i betaversion.
  • iOS: Speech SDK för iOS (Objective-C) publiceras nu också som en CocoaPod.
  • JavaScript: Stöd för mikrofon som inte är standard som indataenhet.
  • JavaScript: Proxystöd för Node.js.

Exempel

  • Exempel för att använda Speech SDK med C++ och Objective-C på macOS har lagts till.
  • Exempel som visar användningen av text-till-tal-tjänsten har lagts till.

Förbättringar/ändringar

  • Python: Ytterligare egenskaper för igenkänningsresultat exponeras nu via egenskapen properties .
  • Om du vill ha ytterligare stöd för utveckling och felsökning kan du omdirigera SDK-loggning och diagnostikinformation till en loggfil (mer information här).
  • JavaScript: Förbättra prestanda för ljudbearbetning.

Felkorrigeringar

  • Mac/iOS: En bugg som ledde till lång väntan när en anslutning till Speech-tjänsten inte kunde upprättas har åtgärdats.
  • Python: Förbättra felhanteringen för argument i Python-motringningar.
  • JavaScript: Fel tillståndsrapportering för tal avslutades på RequestSession.

Speech SDK 1.3.1: uppdatering 2019–februari

Det här är en felkorrigeringsversion som endast påverkar den interna/hanterade SDK:en. Det påverkar inte JavaScript-versionen av SDK:t.

Felkorrigering

  • En minnesläcka har åtgärdats vid användning av mikrofonindata. Dataströmbaserade indata eller filindata påverkas inte.

Speech SDK 1.3.0: 2019–februari

Nya funktioner

  • Speech SDK stöder val av indatamikrofon via AudioConfig klassen. På så sätt kan du strömma ljuddata till Speech-tjänsten från en mikrofon som inte är standard. Mer information finns i dokumentationen som beskriver valet av ljudinmatningsenhet. Den här funktionen är ännu inte tillgänglig från JavaScript.
  • Speech SDK stöder nu Unity i en betaversion. Ge feedback via avsnittet med problem i GitHub-exempellagringsplatsen. Den här versionen stöder Unity i Windows x86 och x64 (skrivbords- eller Universell Windows-plattform-program) och Android (ARM32/64, x86). Mer information finns i vår Unity-snabbstart.
  • Filen Microsoft.CognitiveServices.Speech.csharp.bindings.dll (som levererades i tidigare versioner) behövs inte längre. Funktionerna är nu integrerade i SDK:et.

Exempel

Följande nya innehåll är tillgängligt i vår exempellagringsplats:

  • Ytterligare exempel för AudioConfig.FromMicrophoneInput.
  • Ytterligare Python-exempel för avsiktsigenkänning och översättning.
  • Ytterligare exempel för att använda objektet Connection i iOS.
  • Ytterligare Java-exempel för översättning med ljudutdata.
  • Nytt exempel för användning av REST-API:et för Batch-transkription.

Förbättringar/ändringar

  • Pytonorm
    • Förbättrad parameterverifiering och felmeddelanden i SpeechConfig.
    • Lägg till stöd för objektet Connection .
    • Stöd för 32-bitars Python (x86) i Windows.
    • Speech SDK för Python är inte beta.
  • Ios
    • SDK:n har nu skapats mot iOS SDK version 12.1.
    • SDK stöder nu iOS-versionerna 9.2 och senare.
    • Förbättra referensdokumentationen och åtgärda flera egenskapsnamn.
  • JavaScript
    • Lägg till stöd för objektet Connection .
    • Lägg till typdefinitionsfiler för paketerade JavaScript
    • Inledande stöd och implementering för frastips.
    • Returnera egenskapssamling med tjänst-JSON för igenkänning
  • Windows DLL:er innehåller nu en versionsresurs.
  • Om du skapar en identifierare FromEndpointkan du lägga till parametrar direkt till slutpunkts-URL:en. Med hjälp av FromEndpoint kan du inte konfigurera identifieraren via standardkonfigurationsegenskaperna.

Felkorrigeringar

  • Tomt proxyanvändarnamn och proxylösenord hanterades inte korrekt. Med den här versionen, om du anger proxyanvändarnamn och proxylösenord till en tom sträng, skickas de inte när du ansluter till proxyn.
  • SessionId som skapats av SDK:t var inte alltid slumpmässigt för vissa språk/miljöer. Slumpmässig generatorinitiering har lagts till för att åtgärda problemet.
  • Förbättra hanteringen av auktoriseringstoken. Om du vill använda en auktoriseringstoken anger du i SpeechConfig och lämnar prenumerationsnyckeln tom. Skapa sedan identifieraren som vanligt.
  • I vissa fall Connection släpptes inte objektet korrekt. Det här problemet har åtgärdats.
  • JavaScript-exemplet har åtgärdats för att stödja ljudutdata för översättningssyntes även i Safari.

Speech SDK 1.2.1

Det här är en version med endast JavaScript. Inga funktioner har lagts till. Följande korrigeringar har gjorts:

  • Utlös strömmens slut på turn.end, inte på speech.end.
  • Åtgärda bugg i ljudpumpen som inte schemalagt nästa sändning om den aktuella sändningen misslyckades.
  • Åtgärda kontinuerlig igenkänning med autentiseringstoken.
  • Felkorrigering för olika identifierare/slutpunkter.
  • Dokumentationsförbättringar.

Speech SDK 1.2.0: 2018–december

Nya funktioner

  • Pytonorm
    • Betaversionen av Python-stöd (3.5 och senare) är tillgänglig med den här versionen. Mer information finns här](.. /.. /quickstart-python.md).
  • JavaScript
    • Speech SDK för JavaScript har öppen källkod. Källkoden är tillgänglig på GitHub.
    • Vi stöder nu Node.js, mer information finns här.
    • Längdbegränsningen för ljudsessioner har tagits bort, återanslutning sker automatiskt under omslaget.
  • Connection objekt
    • RecognizerFrån kan du komma åt ett Connection objekt. Med det här objektet kan du uttryckligen initiera tjänstanslutningen och prenumerera på anslutnings- och frånkopplingshändelser. (Den här funktionen är ännu inte tillgänglig från JavaScript och Python.)
  • Stöd för Ubuntu 18.04.
  • Android
    • ProGuard-stöd har aktiverats under APK-genereringen.

Förbättringar

  • Förbättringar i den interna trådanvändningen, vilket minskar antalet trådar, lås, mutexes.
  • Förbättrad felrapportering/information. I flera fall har felmeddelanden inte spridits hela vägen ut.
  • Uppdaterade utvecklingsberoenden i JavaScript för att använda aktuella moduler.

Felkorrigeringar

  • Minnesläckor har åtgärdats på grund av en typmatchningsfel i RecognizeAsync.
  • I vissa fall läckte undantag ut.
  • Åtgärda minnesläcka i översättningshändelseargument.
  • Ett låsningsproblem har åtgärdats vid återanslutning i långvariga sessioner.
  • Ett problem som kan leda till att slutresultatet för misslyckade översättningar saknas har åtgärdats.
  • C#: Om en async åtgärd inte väntades i huvudtråden var det möjligt att identifieraren kunde tas bort innan asynkroniseringsuppgiften slutfördes.
  • Java: Ett problem som resulterade i en krasch på den virtuella Java-datorn har åtgärdats.
  • Objective-C: Fast uppräkningsmappning; RecognizedIntent returnerades i stället för RecognizingIntent.
  • JavaScript: Ange standardutdataformatet till "enkelt" i SpeechConfig.
  • JavaScript: Ta bort inkonsekvens mellan egenskaper på konfigurationsobjektet i JavaScript och andra språk.

Exempel

  • Uppdaterade och fixade flera exempel (till exempel utdataröster för översättning osv.).
  • Lade till Node.js exempel på exempellagringsplatsen.

Speech SDK 1.1.0

Nya funktioner

  • Stöd för Android x86/x64.
  • Proxysupport: I SpeechConfig objektet kan du nu anropa en funktion för att ange proxyinformationen (värdnamn, port, användarnamn och lösenord). Den här funktionen är ännu inte tillgänglig i iOS.
  • Förbättrad felkod och meddelanden. Om en igenkänning returnerade ett fel har detta redan angett Reason (i avbruten händelse) eller CancellationDetails (i igenkänningsresultatet) till Error. Den avbrutna händelsen innehåller nu ytterligare två medlemmar och ErrorCode ErrorDetails. Om servern returnerade ytterligare felinformation med det rapporterade felet blir den nu tillgänglig i de nya medlemmarna.

Förbättringar

  • Ytterligare verifiering har lagts till i konfigurationen av identifieraren och ytterligare felmeddelande har lagts till.
  • Förbättrad hantering av långvarig tystnad mitt i en ljudfil.
  • NuGet-paket: För .NET Framework-projekt förhindrar det att du skapar med AnyCPU-konfiguration.

Felkorrigeringar

  • Flera undantag hittades i identifierare. Dessutom fångas undantag och konverteras till Canceled händelse.
  • Åtgärda en minnesläcka i egenskapshantering.
  • Ett fel har åtgärdats där en ljudindatafil kan krascha igenkänningen.
  • En bugg där händelser kunde tas emot efter en sessionsstopphändelse har åtgärdats.
  • Vissa tävlingsförhållanden i trådning har åtgärdats.
  • Ett iOS-kompatibilitetsproblem som kan leda till en krasch har åtgärdats.
  • Stabilitetsförbättringar för Stöd för Android-mikrofon.
  • En bugg där en identifierare i JavaScript skulle ignorera igenkänningsspråket har åtgärdats.
  • En bugg som förhindrade inställningen EndpointId (i vissa fall) i JavaScript har åtgärdats.
  • Parameterordningen ändrades i AddIntent i JavaScript och JavaScript-signaturen saknades AddIntent .

Exempel

Speech SDK 1.0.1

Tillförlitlighetsförbättringar och felkorrigeringar:

  • Åtgärdat potentiellt allvarligt fel på grund av konkurrenstillstånd i disponerande identifierare
  • Ett potentiellt allvarligt fel har åtgärdats när oeterade egenskaper inträffar.
  • Ytterligare fel- och parameterkontroll har lagts till.
  • Objective-C: Åtgärdat möjligt allvarligt fel som orsakats av att namnet åsidosätts i NSString.
  • Objective-C: Justerad synlighet för API
  • JavaScript: Åtgärdat gällande händelser och deras nyttolaster.
  • Dokumentationsförbättringar.

I vår exempellagringsplats lades ett nytt exempel för JavaScript till.

Azure AI Speech SDK 1.0.0: 2018–september

Nya funktioner

Icke-bakåtkompatibla ändringar

Azure AI Speech SDK 0.6.0: 2018–augusti

Nya funktioner

  • UWP-appar som skapats med Speech SDK kan nu skicka Windows App Certification Kit (WACK). Kolla in UWP-snabbstarten.
  • Stöd för .NET Standard 2.0 på Linux (Ubuntu 16.04 x64).
  • Experimentell: Stöd för Java 8 i Windows (64-bitars) och Linux (Ubuntu 16.04 x64). Läs snabbstarten för Java Runtime Environment.

Funktionsändring

  • Visa ytterligare information om felinformation om anslutningsfel.

Icke-bakåtkompatibla ändringar

  • I Java (Android) SpeechFactory.configureNativePlatformBindingWithDefaultCertificate kräver funktionen inte längre en sökvägsparameter. Nu identifieras sökvägen automatiskt på alla plattformar som stöds.
  • Get-accessor för egenskapen EndpointUrl i Java och C# har tagits bort.

Felkorrigeringar

  • I Java implementeras ljudsyntesresultatet på översättningsigenkänningen nu.
  • En bugg som kan orsaka inaktiva trådar och ett ökat antal öppna och oanvända socketar har åtgärdats.
  • Ett problem har åtgärdats, där en långvarig igenkänning kunde avslutas mitt i överföringen.
  • Ett konkurrenstillstånd har åtgärdats vid avstängning av igenkännare.

Azure AI Speech SDK 0.5.0: 2018–juli

Nya funktioner

  • Stöd för Android-plattform (API 23: Android 6.0 Marshmallow eller senare). Kolla in Android-snabbstarten.
  • Stöd för .NET Standard 2.0 i Windows. Kolla in .NET Core-snabbstarten.
  • Experimentell: Stöd för UWP i Windows (version 1709 eller senare).
    • Kolla in UWP-snabbstarten.
    • Observera att UWP-appar som skapats med Speech SDK ännu inte klarar Windows App Certification Kit (WACK).
  • Stöd för långvarig igenkänning med automatisk återanslutning.

Funktionella ändringar

  • StartContinuousRecognitionAsync() stöder långvarig igenkänning.
  • Igenkänningsresultatet innehåller fler fält. De förskjuts från ljudstarten och varaktigheten (båda i tick) för den identifierade texten och ytterligare värden som representerar igenkänningsstatus, InitialSilenceTimeout till exempel och InitialBabbleTimeout.
  • Support AuthorizationToken för att skapa fabriksinstanser.

Icke-bakåtkompatibla ändringar

  • Igenkänningshändelser: NoMatch händelsetypen sammanfogades till Error händelsen.
  • SpeechOutputFormat i C# har bytt namn till för OutputFormat att hålla sig i linje med C++.
  • Returtypen för vissa metoder i AudioInputStream gränssnittet ändrades något:
    • I Java read returnerar long metoden nu i stället intför .
    • I C# Read returnerar uint metoden nu i stället intför .
    • I C++returnerar size_t metoderna och GetFormat nu i stället för int.Read
  • C++: Instanser av ljudindataströmmar kan nu endast skickas som en shared_ptr.

Felkorrigeringar

  • Korrigerade felaktiga returvärden i resultatet när RecognizeAsync() tidsgränsen överskrids.
  • Beroendet av media foundation-bibliotek i Windows har tagits bort. SDK använder nu Core Audio API:er.
  • Dokumentationskorrigering: En regionssida har lagts till för att beskriva de regioner som stöds.

Känt problem

  • Speech SDK för Android rapporterar inte talsyntesresultat för översättning. Det här problemet åtgärdas i nästa version.

Azure AI Speech SDK 0.4.0: 2018–juni

Funktionella ändringar

  • AudioInputStream

    En identifierare kan nu använda en ström som ljudkälla. Mer information finns i den relaterade instruktioner-guiden.

  • Detaljerat utdataformat

    När du skapar ett SpeechRecognizerkan du begära Detailed eller Simple utdataformat. Innehåller DetailedSpeechRecognitionResult en konfidenspoäng, igenkänd text, rå lexikal form, normaliserad form och normaliserat formulär med maskerade svordomar.

Icke-bakåtkompatibel ändring

  • Har ändrats till SpeechRecognitionResult.Text från SpeechRecognitionResult.RecognizedText i C#.

Felkorrigeringar

  • Ett möjligt återanropsproblem har åtgärdats i USP-lagret under avstängningen.
  • Om en identifierare förbrukade en ljudindatafil höll den fast vid filhandtaget längre än nödvändigt.
  • Flera dödlägen mellan meddelandepumpen och identifieraren har tagits bort.
  • Utlös ett NoMatch resultat när svaret från tjänsten överskrids.
  • Media Foundation-biblioteken i Windows är fördröjda. Det här biblioteket krävs endast för mikrofoninmatning.
  • Uppladdningshastigheten för ljuddata är begränsad till ungefär dubbelt så mycket som den ursprungliga ljudhastigheten.
  • I Windows är C# .NET-sammansättningar nu starka med namnet.
  • Dokumentationskorrigering: Region krävs information för att skapa en identifierare.

Fler exempel har lagts till och uppdateras ständigt. Den senaste uppsättningen exempel finns i GitHub-lagringsplatsen för Speech SDK-exempel.

Azure AI Speech SDK 0.2.12733: 2018–maj

Den här versionen är den första offentliga förhandsversionen av Azure AI Speech SDK.