Wat is er nieuw in Azure AI Speech?
Azure AI Speech wordt doorlopend bijgewerkt. Om op de hoogte te blijven van recente ontwikkelingen, vindt u in dit artikel informatie over nieuwe releases en functies.
Recente hoogtepunten
- Snelle transcriptie is nu algemeen beschikbaar. Het kan audio veel sneller transcriberen dan de werkelijke audioduur. Zie de handleiding voor de snelle transcriptie-API voor meer informatie.
- De Azure AI Speech Toolkit-extensie is nu beschikbaar voor Visual Studio Code-gebruikers. Het bevat een lijst met snelstartgidsen voor spraak en scenariovoorbeelden die eenvoudig kunnen worden gebouwd en uitgevoerd met eenvoudige klikken. Zie Azure AI Speech Toolkit in Visual Studio Code Marketplace voor meer informatie.
- Hd-stemmen (Speech High Definition) van Azure AI zijn beschikbaar in openbare preview. De HD-stemmen kunnen de inhoud begrijpen, emoties automatisch detecteren in de invoertekst en de spreektoon in realtime aanpassen aan het gevoel. Zie Wat zijn HD-stemmen (Azure AI Speech high definition) voor meer informatie.
- Videoomzetting is nu beschikbaar in de Azure AI Speech-service. Zie Wat is videovertaling? voor meer informatie.
- De Azure AI Speech-service ondersteunt OpenAI-tekst naar spraakstemmen. Zie Wat zijn OpenAI-tekst voor spraakstemmen? voor meer informatie.
- De aangepaste spraak-API is beschikbaar voor het maken en beheren van professionele en persoonlijke aangepaste neurale spraakmodellen.
Opmerkingen bij de release
Een service of resource kiezen
Speech SDK 1.42.0: release van 2024-december
Nieuwe functies
- Java: Diagnostische logboekregistratie-API's toegevoegd met behulp van klassen FileLogger, MemoryLogger, EventLogger en SpxTrace.
- Ondersteuning voor het verzenden van JSON-eigenschap 'details' van de deelnemer aan de vergadering naar de service
- Go: Openbare eigenschaps-id toegevoegd SpeechServiceConnection_ProxyHostBypass om hosts op te geven waarvoor de proxy niet wordt gebruikt.
- JavaScript, Go: Openbare eigenschaps-id toegevoegd Speech_SegmentationStrategy om te bepalen wanneer een gesproken woordgroep is beëindigd en er een definitief herkend resultaat moet worden gegenereerd (inclusief semantische segmentatie)
- JavaScript, Go: Id van openbare eigenschap toegevoegd Speech_SegmentationMaximumTimeMs het einde van een gesproken woordgroep bepalen op basis van tijd in Java, Python, C#, C++
Bugfixes
- Er is een vaste ingesloten TTS-spraak (opnieuw) geladen voor elke synthese als de naam van de stem niet is ingesteld.
- Er zijn offsetberekeningsproblemen opgelost bij het gebruik van MeetingTranscriber in sommige scenario's.
- Er is een mogelijke impasse opgelost bij het gelijktijdig registreren van meerdere listeners voor diagnostische gebeurtenissen.
- (JavaScript) Mogelijke verloren NoMatch-resultaten opgelost aan het einde van de audio. Deze oplossing is ook afgestemd op het gedrag aan het einde van de spraak met de andere SDK-talen en kan ertoe leiden dat sommige lege gebeurtenissen niet meer worden gegenereerd.
- (JavaScript) Fixup-verschuivingen in resultaat-JSON om te worden uitgelijnd met de offset op resultaatobjecten. Voorheen werd alleen de offset-eigenschap van het resultaatobject opgelost om rekening te houden met opnieuw verbinding maken van de service.
- Go-taal: er is een compilatiefout opgelost https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639
- Vaste resultaatverschuivingen in transcriptie van vergaderingen wanneer er opnieuw verbinding wordt gemaakt met de service.
- Er is een impasse opgelost in logboekregistratie.
Voorbeelden
- C#-voorbeelden bijgewerkt voor gebruik van .NET 8.0.
- Java-voorbeeld maakt gebruik van de API voor diagnostische logboekregistratie met het gebruik van de nieuwe klassen Diagnostische logboekregistratie.
Release van 2024-november
Azure AI Speech Toolkit-extensie voor Visual Studio Code
De Azure AI Speech Toolkit-extensie is nu beschikbaar voor Visual Studio Code-gebruikers. Het bevat een lijst met snelstartgidsen voor spraak en scenariovoorbeelden die eenvoudig kunnen worden gebouwd en uitgevoerd met eenvoudige klikken. Zie Azure AI Speech Toolkit in Visual Studio Code Marketplace voor meer informatie.
Codevoorbeelden voor tekst-naar-spraak-avatar
We hebben tekst toegevoegd aan voorbeelden van avatarcode voor spraak voor Android en iOS. Deze voorbeelden laten zien hoe u realtime tekst gebruikt voor spraak avatars in uw mobiele toepassingen.
Speech SDK 1.41.1: release van 2024-oktober
Nieuwe functies
- Ondersteuning toegevoegd voor Amazon Linux 2023 en Azure Linux 3.0.
- Openbare eigenschaps-id SpeechServiceConnection_ProxyHostBypass toegevoegd om hosts op te geven waarvoor de proxy niet wordt gebruikt.
- Eigenschappen toegevoegd om nieuwe woordgroepensegmentatiestrategieën te beheren.
Bugfixes
- Er is een probleem opgelost met onvolledige ondersteuning voor geavanceerde modellen voor trefwoordherkenning die na augustus 2024 zijn geproduceerd.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Houd er rekening mee dat uw project met Swift op iOS MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (van https://aka.ms/csspeech/iosbinaryembedded) of de MicrosoftCognitiveServicesSpeechEmbedded-iOS-pod moet gebruiken die de ondersteuning van het geavanceerde model bevat.
- Er is een geheugenlek in C# opgelost met betrekking tot het gebruik van tekenreeksen.
- Kan SPXAutoDetectSourceLanguageResult niet ophalen van SPXConversationTranscriptionResult in Objective-C en Swift.
- Er is een incidentele crash opgelost bij het gebruik van de Microsoft Audio Stack in herkenning.
- Hints voor vaste typen in Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- De lijst met TTS-stemmen kan niet worden opgehaald bij het gebruik van een aangepast eindpunt.
- Er is een probleem opgelost met het opnieuw initialiseren van ingesloten TTS voor elke spreekaanvraag wanneer de stem wordt opgegeven met een korte naam.
- De API-referentiedocumentatie is opgelost voor de maximale duur van RecognizeOnce-audio.
- Foutafhandeling van willekeurige steekproeven in JavaScript opgelost
- Dankzij rseanhall voor deze bijdrage.
- Er is een fout opgelost bij het berekenen van de audio-offset in JavaScript
- Dankzij motamed voor deze bijdrage.
Wijzigingen die fouten veroorzaken
- Ondersteuning voor trefwoordherkenning in Windows ARM 32-bits is verwijderd omdat de vereiste ONNX-runtime niet beschikbaar is voor dit platform.
Speech SDK 1.40: release van 2024 augustus
Notitie
Speech SDK versie 1.39.0 was een interne release en ontbreekt niet.
Nieuwe functies
- Ondersteuning toegevoegd voor streaming van
G.722
gecomprimeerde audio in spraakherkenning. - Ondersteuning toegevoegd voor pitch, rate en volume-instelling in invoertekststreaming in spraaksynthese.
- Ondersteuning toegevoegd voor het streamen van persoonlijke spraakinvoertekst door introductie
PersonalVoiceSynthesisRequest
in spraaksynthese. Deze API is in preview en kan worden gewijzigd in toekomstige versies. - Er is ondersteuning toegevoegd voor het diariseren van tussenliggende resultaten wanneer
ConversationTranscriber
deze wordt gebruikt. - CentOS/RHEL 7-ondersteuning is verwijderd vanwege CentOS 7 EOL en het einde van RHEL 7 Onderhoudsondersteuning 2.
- Voor het gebruik van ingesloten spraakmodellen is nu een modellicentie vereist in plaats van een modelsleutel. Als u een bestaande ingesloten spraakklant bent en een upgrade wilt uitvoeren, neemt u contact op met uw ondersteuningsmedewerker bij Microsoft voor meer informatie over modelupdates.
Bugfixes
- Ingebouwde binaire Speech SDK-bestanden voor Windows met de vlag _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR als beperking voor de Visual C++-runtimeprobleem Toegangsfout met std::mutex::lock na een upgrade naar VS 2022 versie 17.10.0 - Developer Community (visualstudio.com). Windows C++-toepassingen die de Speech SDK gebruiken, moeten mogelijk dezelfde buildconfiguratievlag toepassen als de code std::mutex gebruikt (zie de details in het gekoppelde probleem).
- Detectie van OpenSSL 3.x werkt niet op Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- Er is een probleem opgelost waarbij bij het implementeren van een UWP-app, -bibliotheken en -model uit het MAS NuGet-pakket niet naar de implementatielocatie werd gekopieerd.
- Er is een conflict opgelost met een inhoudsprovider in Android-pakketten (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Naverwerkingsopties zijn niet van toepassing op tussenliggende spraakherkenningsresultaten opgelost.
- Er is een .NET 8-waarschuwing over distributiespecifieke runtime-id's (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244) opgelost.
Voorbeelden
- Ingesloten spraakvoorbeelden bijgewerkt om een modellicentie te gebruiken in plaats van een sleutel.
Speech SDK 1.38.0: release van 2024-juni
Nieuwe functies
- Vereisten voor het Linux-platform voor Speech SDK upgraden:
- De nieuwe minimumbasislijn is Ubuntu 20.04 LTS of compatibel met
glibc
2.31 of hoger. - Binaire bestanden voor Linux x86 worden verwijderd overeenkomstig de ondersteuning van het Ubuntu 20.04-platform.
- Houd er rekening mee dat RHEL/CentOS 7 tot 30 juni wordt ondersteund (het einde van CentOS 7 en het einde van de ondersteuning voor ONDERHOUD van RHEL 7 2). Binaire bestanden voor deze bestanden worden verwijderd in de Speech SDK 1.39.0-release.
- De nieuwe minimumbasislijn is Ubuntu 20.04 LTS of compatibel met
- Voeg ondersteuning toe voor OpenSSL 3 op Linux.
- Voeg ondersteuning toe voor g722-16khz-64kbps audio-uitvoerindeling met spraaksynthese.
- Voeg ondersteuning toe voor het verzenden van berichten via een verbindingsobject met spraaksynthese.
- Voeg Start/StopKeywordRecognition-API's toe in Objective-C en Swift.
- Voeg API toe voor het selecteren van een categorie voor een aangepast vertaalmodel.
- Werk GStreamer-gebruik bij met spraaksynthese.
Bugfixes
- De fout 'Websocket-berichtgrootte mag niet groter zijn dan 65.536 bytes' tijdens de start-/StopKeywordRecognition.
- Los een Python-segmentatiefout op tijdens spraaksynthese.
Voorbeelden
- Werk C#-voorbeelden bij om standaard .NET 6.0 te gebruiken.
Speech SDK 1.37.0: release van 2024-april
Nieuwe functies
- Voeg ondersteuning toe voor invoertekststreaming in spraaksynthese.
- Wijzig de standaard spraaksynthesestem in en-US-AvaMultiavelNeural.
- Android-builds bijwerken voor gebruik van OpenSSL 3.x.
Bugfixes
- Corrigeer incidentele JVM-crashes tijdens het verwijderen van SpeechRecognizer bij gebruik van MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Verbeter de detectie van standaardaudioapparaten in Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Voorbeelden
- Bijgewerkt voor nieuwe functies.
Speech SDK 1.36.0: release van 2024-maart
Nieuwe functies
- Voeg ondersteuning toe voor taalidentificatie in meertalige vertaling op v2-eindpunten met behulp van AutoDetectSourceLanguageConfig::FromOpenRange().
Bugfixes
Fix SynthesisCanceled-gebeurtenis niet geactiveerd als stop wordt aangeroepen tijdens de SynthesisStarted-gebeurtenis.
Los een ruisprobleem op ingesloten spraaksynthese.
Herstel een crash in ingesloten spraakherkenning bij het parallel uitvoeren van meerdere recognizers.
Herstel de instelling voor de woordgroepsdetectiemodus op v1/v2-eindpunten.
Oplossingen voor verschillende problemen met Microsoft Audio Stack.
Voorbeelden
- Updates voor nieuwe functies.
Speech SDK 1.35.0: release van februari 2024
Nieuwe functies
- Wijzig de standaardtekst in spraakstem van en-US-JennyMultiplicalNeural in en-US-AvaNeural.
- Ondersteuning voor detail op woordniveau in ingesloten spraakomzettingsresultaten met behulp van de gedetailleerde uitvoerindeling.
Bugfixes
- Herstel de getter-API voor audioDataStream-posities in Python.
- Herstel spraakomzetting met v2-eindpunten zonder taaldetectie.
- Corrigeer een willekeurige crash en dubbele woordgrensgebeurtenissen in ingesloten tekst naar spraak.
- Retourneert een juiste annuleringsfoutcode voor een interne serverfout in WebSocket-verbindingen.
- Los de fout op bij het laden van FPIEProcessor.dll bibliotheek wanneer MAS wordt gebruikt met C#.
Voorbeelden
- Kleine opmaakupdates voor voorbeelden van ingesloten herkenning.
Speech SDK 1.34.1: release van januari 2024
Wijzigingen die fouten veroorzaken
- Alleen oplossingen voor fouten
Nieuwe functies
- Alleen oplossingen voor fouten
Bugfixes
- Regressie opgelost die is geïntroduceerd in 1.34.0, waarbij de URL van het service-eindpunt is samengesteld met slechte landinstellingen voor gebruikers in verschillende Regio's in China.
Speech SDK 1.34.0: release van november 2023
Wijzigingen die fouten veroorzaken
SpeechRecognizer
wordt bijgewerkt om standaard een nieuw eindpunt te gebruiken (dat wil gezegd, wanneer u niet expliciet een URL opgeeft) die geen queryreeksparameters meer ondersteunt voor de meeste eigenschappen. Gebruik de bijbehorende API-functies in plaats van queryreeksparameters rechtstreeks in te stellen met ServicePropertyChannel.UriQueryParameter.
Nieuwe functies
- Compatibiliteit met .NET 8 (Oplossing voor https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 behalve waarschuwing over centos7-x64)
- Ondersteuning voor metrische gegevens over ingesloten spraakprestaties die kunnen worden gebruikt om de mogelijkheid van een apparaat voor het uitvoeren van ingesloten spraak te evalueren.
- Ondersteuning voor brontaalidentificatie in ingesloten meertalige vertaling.
- Ondersteuning voor ingesloten spraak-naar-tekst, tekst naar spraak en vertaling voor iOS en Swift/Objective-C die in de preview-versie zijn uitgebracht.
- Embedded-ondersteuning wordt geboden in MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.
Bugfixes
- Oplossing voor groei van binaire grootte van iOS SDK x2 maal · Probleem #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Oplossing voor het niet ophalen van tijdstempels op woordniveau van Azure-spraak-naar-tekst-API · Probleem 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Oplossing voor de vernietigingsfase van DialogServiceConnector om gebeurtenissen correct te verbreken. Dit veroorzaakte af en toe crashes.
- Oplossing voor uitzondering tijdens het maken van een recognizer wanneer MAS wordt gebruikt.
- FPIEProcessor.dll van Microsoft.CognitiveServices.Speech.Extension.MAS NuGet-pakket voor Windows UWP x64 en Arm64 was afhankelijk van VC-runtimebibliotheken voor systeemeigen C++. Het probleem is opgelost door de afhankelijkheid bij te werken om VC-runtimebibliotheken (voor UWP) te corrigeren.
- Oplossing voor [MAS] Terugkerende aanroepen om Te herkennenOnceAsync leiden tot SPXERR_ALREADY_INITIALIZED bij het gebruik van MAS · Probleem 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Oplossing voor ingesloten spraakherkenning loopt vast wanneer woordgroepenlijsten worden gebruikt.
Voorbeelden
- Ingesloten iOS-voorbeelden voor spraak-naar-tekst, tekst naar spraak en vertaling.
Speech CLI 1.34.0: release van november 2023
Nieuwe functies
- Ondersteuning voor woordgrensgebeurtenissen die worden uitgevoerd bij het synthetiseren van spraak.
Bugfixes
- JMESPath-afhankelijkheid bijgewerkt naar de nieuwste versie, verbetert tekenreeksevaluaties
Speech SDK 1.33.0: release van oktober 2023
Wijzigingsmelding die fouten veroorzaken
- Het nieuwe NuGet-pakket dat is toegevoegd voor Microsoft Audio Stack (MAS) moet nu worden opgenomen door toepassingen die MAS gebruiken in hun pakketconfiguratiebestanden.
Nieuwe functies
- Het nieuwe NuGet-pakket Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg toegevoegd, dat verbeterde echoannuleringsprestaties biedt bij het gebruik van Microsoft Audio Stack
- Uitspraakbeoordeling: ondersteuning toegevoegd voor prosody en inhoudsevaluatie, waarmee de gesproken spraak kan worden beoordeeld in termen van prosody, vocabulaire, grammatica en onderwerp.
Bugfixes
- Het resultaat van trefwoordherkenning is opgelost, zodat deze correct overeenkomen met de invoeraudiostream sinds het begin. De oplossing is van toepassing op zowel zelfstandige trefwoordherkenning als door trefwoorden geactiveerde spraakherkenning.
- Opgeloste Synthesizer stopSpeaking retourneert niet onmiddellijk SPXSpeechSynthesizer stopSpeaking() methode kan niet direct retourneren op iOS 17 - Probleem #2081
- Er is een probleem opgelost met het importeren van Mac-katalysatoren op Swift-moduleOndersteuning voor mac-katalysator met apple silicon. Probleem 1948
- JS: De module AudioWorkletNode wordt nu geladen met een vertrouwde URL, met terugval voor de CDN-browser.
- JS: Verpakte lib-bestanden richten zich nu op ES6 JS, met ondersteuning voor ES5 JS verwijderd.
- JS: tussenliggende gebeurtenissen voor vertaalscenario's die gericht zijn op het v2-eindpunt, worden correct verwerkt
- JS: De taaleigenschap voor TranslationRecognitionEventArgs is nu ingesteld voor translation.hypothese-gebeurtenissen.
- Spraaksynthese: SynthesisCompleted-gebeurtenis wordt gegarandeerd verzonden na alle metagegevensgebeurtenissen, zodat deze kan worden gebruikt om aan het einde van gebeurtenissen aan te geven. Hoe kan ik detecteren wanneer visemes volledig worden ontvangen? Probleem #2093 Azure-Samples/cognitive-services-speech-sdk
Voorbeelden
- Voorbeeld toegevoegd om MULAW-streaming te demonstreren met behulp van Python)
- Oplossing voor NAudio-voorbeeld voor spraak-naar-tekst
Speech CLI 1.33.0: release van oktober 2023
Nieuwe functies
- Ondersteuning voor woordgrensgebeurtenissen die worden uitgevoerd bij het synthetiseren van spraak.
Bugfixes
- Geen
Speech SDK 1.32.1: release van september 2023
Bugfixes
- Updates voor Android-pakketten met de nieuwste beveiligingsoplossingen van OpenSSL1.1.1v
- JS : eigenschap WebWorkerLoadType toegevoegd om het laden van gegevens-URL's voor time-outwerkrol toe te staan
- JS: verbinding met gespreksomzetting na 10 minuten oplossen
- JS: verificatietoken voor gespreksomzetting van gesprek wordt nu doorgegeven aan de verbinding van de vertaalservice
Voorbeelden
Speech SDK 1.31.0: release van augustus 2023
Nieuwe functies
Ondersteuning voor realtime-diarisatie is beschikbaar in openbare preview met de Speech SDK 1.31.0. Deze functie is beschikbaar in de volgende SDK's: C#, C++, Java, JavaScript, Python en Objective-C/Swift.
Gesynchroniseerde spraaksynthese woordgrens en visemegebeurtenissen met audio afspelen
Wijzigingen die fouten veroorzaken
- De naam van het voormalige scenario voor gesprektranscriptie wordt gewijzigd in 'transcriptie van vergadering'. Gebruik bijvoorbeeld
MeetingTranscriber
in plaats vanConversationTranscriber
, en gebruikCreateMeetingAsync
in plaats vanCreateConversationAsync
. Hoewel de namen van SDK-objecten en -methoden zijn gewijzigd, verandert de naam van de functie zelf niet. Gebruik transcriptieobjecten voor vergaderingen voor transcriptie van vergaderingen met gebruikersprofielen en spraakhandtekeningen. Zie Transcriptie van vergaderingen voor meer informatie. De 'gespreksomzetting'-objecten en -methoden worden niet beïnvloed door deze wijzigingen. U kunt het object en deConversationTranslator
bijbehorende methoden nog steeds gebruiken voor het vergaderen van vertaalscenario's.
- Voor realtime-diarisatie wordt een nieuw
ConversationTranscriber
object geïntroduceerd. Het nieuwe objectmodel voor gesprektranscriptie en gesprekspatronen zijn vergelijkbaar met continue herkenning met hetSpeechRecognizer
object. Een belangrijk verschil is dat hetConversationTranscriber
object is ontworpen om te worden gebruikt in een gespreksscenario waarin u meerdere sprekers wilt onderscheiden (diarisatie). Gebruikersprofielen en spraakhandtekeningen zijn niet van toepassing. Zie de quickstart voor realtime diarization voor meer informatie.
In deze tabel ziet u de vorige en nieuwe objectnamen voor realtime diarisatie en transcriptie van vergaderingen. De scenarionaam bevindt zich in de eerste kolom, de vorige objectnamen bevinden zich in de tweede kolom en de nieuwe objectnamen bevinden zich in de derde kolom.
Scenarionaam | Vorige objectnamen | Nieuwe objectnamen |
---|---|---|
Realtime diarisatie | N.v.t. | ConversationTranscriber |
Transcriptie van vergadering | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1 De Participant
, ParticipantChangedReason
en User
objecten zijn van toepassing op zowel transcriptie van vergaderingen als scenario's voor het vertalen van vergaderingen.
2 Het Meeting
object is nieuw en wordt gebruikt met het MeetingTranscriber
object.
Bugfixes
- Minimaal ondersteunde macOS-versie opgelost https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Er is een bug opgelost in de beoordeling van de uitspraak:
- Er is een probleem opgelost met de nauwkeurigheidsscores van het telefoonme, zodat deze nu alleen het specifieke verkeerd aangekondigde foneme weerspiegelen. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Er is een probleem opgelost waarbij de functie Uitspraakbeoordeling onnauwkeurig de juiste uitspraak identificeerde als onjuist, met name in situaties waarin woorden meerdere geldige uitspraken konden hebben. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Voorbeelden
CSharp
JavaScript
Speech SDK 1.30.0: release van juli 2023
Nieuwe functies
- C++, C#, Java - Ondersteuning toegevoegd voor
DisplayWords
het gedetailleerde resultaat van Embedded Speech Recognition. - Objective-C/Swift - Ondersteuning toegevoegd voor
ConnectionMessageReceived
gebeurtenissen in Objective-C/Swift. - Objective-C/Swift - Verbeterde modellen voor trefwoordspotting voor iOS. Deze wijziging heeft de grootte van bepaalde pakketten vergroot, die binaire iOS-bestanden bevatten (zoals NuGet, XCFramework). We werken eraan om de grootte voor toekomstige releases te verkleinen.
Bugfixes
- Er is een geheugenlek opgelost bij het gebruik van spraakherkenning met PhraseListGrammar, zoals gerapporteerd door een klant (GitHub-probleem).
- Er is een impasse opgelost in tekst naar de open verbindings-API voor spraak.
Meer notities
- Java : sommige intern gebruikte
public
Java-API-methoden zijn gewijzigd in het pakketinternal
ofprotected
private
. Deze wijziging mag geen effect hebben op ontwikkelaars, omdat we niet verwachten dat toepassingen deze gebruiken. Hier vermeld voor transparantie.
Voorbeelden
- Nieuwe voorbeelden van uitspraakbeoordeling over het opgeven van een leertaal in uw eigen toepassing
- C#: Zie voorbeeldcode.
- C++: Zie voorbeeldcode.
- JavaScript: Zie voorbeeldcode.
- Objective-C: Zie voorbeeldcode.
- Python: Zie voorbeeldcode.
- Swift: Zie voorbeeldcode.
Speech SDK 1.29.0: release van juni 2023
Nieuwe functies
- C++, C#, Java - Preview van ingesloten spraakomzettings-API's. U kunt nu spraakomzetting uitvoeren zonder cloudverbinding.
- JavaScript - Continuous Language Identification (LID) is nu ingeschakeld voor spraakomzetting.
- JavaScript : communitybijdrage voor het toevoegen van
LocaleName
eigenschap aanVoiceInfo
klasse. Bedankt gitHub-gebruiker shivsarthak voor de pull-aanvraag. - C++, C#, Java - Ondersteuning toegevoegd voor het opnieuwamplen van ingesloten tekst naar spraakuitvoer van 16 kHz tot 48 kHz sample rate.
- Er is ondersteuning toegevoegd voor
hi-IN
landinstellingen in Intent Recognizer met Simple Pattern Matching.
Bugfixes
- Een crash opgelost die wordt veroorzaakt door een racevoorwaarde in Speech Recognizer tijdens objectvernietiging, zoals te zien is in sommige van onze Android-tests
- Mogelijke impasses in Intent Recognizer opgelost met Simple Pattern Matcher
Voorbeelden
- Nieuwe voorbeelden van ingesloten spraakomzetting
Speech SDK 1.28.0: release van mei 2023
Wijziging die fouten veroorzaken
- JavaScript SDK: OcSP (Online Certificate Status Protocol) is verwijderd. Hierdoor kunnen clients beter voldoen aan browser- en Node-standaarden voor certificaatafhandeling. Versie 1.28 en hoger bevatten niet langer onze aangepaste OCSP-module.
Nieuwe functies
- Ingesloten spraakherkenning wordt nu geretourneerd
NoMatchReason::EndSilenceTimeout
wanneer er een time-out voor stilte optreedt aan het einde van een utterance. Dit komt overeen met het gedrag bij het uitvoeren van herkenning met behulp van de realtime spraakservice. - JavaScript SDK: eigenschappen instellen voor
SpeechTranslationConfig
het gebruik vanPropertyId
enum-waarden.
Bugfixes
- C# in Windows - Mogelijke racevoorwaarde/impasse oplossen in de Windows-audio-extensie. In scenario's die zowel de audio-renderer snel verwijderen als ook de Synthesizer-methode gebruiken om te stoppen met spreken, werd de onderliggende gebeurtenis niet opnieuw ingesteld door stop, en kon ervoor zorgen dat het rendererobject nooit wordt verwijderd, allemaal terwijl het een globale vergrendeling voor verwijdering zou kunnen bevatten, de dotnet GC-thread blokkeert.
Voorbeelden
- Er is een ingesloten spraakvoorbeeld toegevoegd voor MAUI.
- Het ingesloten spraakvoorbeeld voor Android Java bijgewerkt om tekst naar spraak op te nemen.
Speech SDK 1.27.0: release van april 2023
Melding over aanstaande wijzigingen
- We zijn van plan om OCSP (Online Certificate Status Protocol) te verwijderen in de volgende JavaScript SDK-release. Hierdoor kunnen clients beter voldoen aan browser- en Node-standaarden voor certificaatafhandeling. Versie 1.27 is de laatste release die onze aangepaste OCSP-module bevat.
Nieuwe functies
- JavaScript : ondersteuning toegevoegd voor microfooninvoer vanuit de browser met sprekeridentificatie en verificatie.
- Embedded Speech Recognition - Update-ondersteuning voor
PropertyId::Speech_SegmentationSilenceTimeoutMs
instelling.
Bugfixes
- Algemeen : betrouwbaarheidsupdates in serviceherconnectielogica (alle programmeertalen behalve JavaScript).
- Algemeen : corrigeer tekenreeksconversies die geheugen in Windows lekken (alle relevante programmeertalen behalve JavaScript).
- Ingesloten spraakherkenning : herstel crash in Franse spraakherkenning bij het gebruik van bepaalde vermeldingen in de grammaticalijst.
- Broncodedocumentatie : correcties voor SDK-referentiedocumentatieopmerkingen met betrekking tot audiologboekregistratie in de service.
- Intentieherkenning : corrigeer prioriteiten van Pattern Matcher met betrekking tot lijstentiteiten.
Voorbeelden
- De verificatiefout in het C#-voorbeeld van gesprektranscriptie (CTS) correct afhandelen.
- Voorbeeld van streaming-uitspraakbeoordeling toegevoegd voor Python, JavaScript, Objective-C en Swift.
Speech SDK 1.26.0: release van maart 2023
Wijzigingen die fouten veroorzaken
- Bitcode is uitgeschakeld in alle iOS-doelen in de volgende pakketten: Cocoapod met xcframework, NuGet (voor Xamarin en MAUI) en Unity. De wijziging wordt veroorzaakt door de afschaffing van bitcodeondersteuning van Apple vanaf Xcode 14 en hoger. Deze wijziging betekent ook dat als u Xcode 13-versie gebruikt of als u de bitcode expliciet hebt ingeschakeld voor uw toepassing met behulp van de Speech SDK, er mogelijk een fout optreedt met de tekst 'framework bevat geen bitcode en u moet deze opnieuw opbouwen'. U kunt dit probleem oplossen door ervoor te zorgen dat de doelen bitcode hebben uitgeschakeld.
- Het minimale iOS-implementatiedoel wordt bijgewerkt naar 11.0 in deze release, wat betekent dat armv7 HW niet meer wordt ondersteund.
Nieuwe functies
- Ingesloten (on-device) Spraakherkenning ondersteunt nu zowel 8 als 16 kHz sampling rate input audio (16-bits per sample, mono PCM).
- Spraaksynthese rapporteert nu verbindings-, netwerk- en servicelatenties in het resultaat om end-to-end latentieoptimalisatie te helpen.
- Nieuwe regels voor het verbreken van bindingen voor intentieherkenning met eenvoudige patroonkoppelingen. Hoe meer tekenbytes die overeenkomen, winnen patroonovereenkomsten met een lager aantal tekens byte. Voorbeeld: Het patroon 'Select {something} in de rechterbovenhoek' wint over 'Select {something}'
Bugfixes
- Spraaksynthese: los een fout op waarbij de emoji niet juist is in woordgrensgebeurtenissen.
- Intentieherkenning met Conversational Language Understanding (CLU):
- Intenties uit de CLU Orchestrator-werkstroom worden nu correct weergegeven.
- Het JSON-resultaat is nu beschikbaar via de eigenschaps-id
LanguageUnderstandingServiceResponse_JsonResult
.
- Spraakherkenning met trefwoordactivering: Oplossing voor ontbrekende ~150 ms audio na een trefwoordherkenning.
- Oplossing voor Speech SDK NuGet iOS SDK Release-build, gerapporteerd door de klant (GitHub-probleem)
Voorbeelden
- Oplossing voor Swift iOS-voorbeeld, gerapporteerd door klant (GitHub-probleem)
Speech SDK 1.25.0: release van januari 2023
Wijzigingen die fouten veroorzaken
- Taalidentificatie-API's (preview) zijn vereenvoudigd. Als u bijwerkt naar Speech SDK 1.25 en een build-einde ziet, gaat u naar de pagina Taalidentificatie voor meer informatie over de nieuwe eigenschap
SpeechServiceConnection_LanguageIdMode
. Deze enkele eigenschap vervangt de twee vorige enSpeechServiceConnection_SingleLanguageIdPriority
SpeechServiceConnection_ContinuousLanguageIdPriority
. Prioriteit geven tussen lage latentie en hoge nauwkeurigheid is niet meer nodig na recente modelverbeteringen. Nu hoeft u alleen te selecteren of u aan het begin of continue taalidentificatie wilt uitvoeren bij het uitvoeren van continue spraakherkenning of vertaling.
Nieuwe functies
- C#/C++/Java: Embedded Speech SDK wordt nu uitgebracht onder beperkte openbare preview. Zie de documentatie over Embedded Speech (preview). U kunt nu spraak op het apparaat naar tekst en tekst naar spraak uitvoeren wanneer de cloudverbinding onregelmatig of niet beschikbaar is. Ondersteund op Android-, Linux-, macOS- en Windows-platforms
- C# MAUI: Ondersteuning toegevoegd voor iOS- en Mac Catalyst-doelen in Speech SDK NuGet (probleem van de klant)
- Unity: Android x86_64-architectuur toegevoegd aan Unity-pakket (probleem met klant)
- Ga naar:
- Directe streamingondersteuning voor ALAW/MULAW toegevoegd voor spraakherkenning (probleem van de klant)
- Ondersteuning toegevoegd voor PhraseListGrammar. Bedankt GitHub-gebruiker opgegevenoko voor de bijdrage van de community!
- C#/C++: Intent Recognizer biedt nu ondersteuning voor Conversational Language Understanding-modellen in C++ en C# met indeling in de Microsoft-service
Bugfixes
- Een incidentele vastloper in KeywordRecognizer oplossen wanneer u deze probeert te stoppen
- Python:
- Oplossing voor het ophalen van de resultaten van de uitspraakbeoordeling wanneer
PronunciationAssessmentGranularity.FullText
deze is ingesteld (probleem van de klant) - Oplossing voor geslachtseigenschap voor mannelijke stemmen die niet worden opgehaald, wanneer spraaksynthesestemmen worden opgehaald
- Oplossing voor het ophalen van de resultaten van de uitspraakbeoordeling wanneer
- JavaScript
- Oplossing voor het parseren van sommige WAV-bestanden die zijn vastgelegd op iOS-apparaten (probleem van de klant)
- JS SDK bouwt nu zonder npm-force-oplossingen te gebruiken (probleem van de klant)
- Conversation Translator stelt nu het service-eindpunt correct in wanneer u een speechConfig-exemplaar gebruikt dat is gemaakt met SpeechConfig.fromEndpoint()
Voorbeelden
Voorbeelden toegevoegd die laten zien hoe u Ingesloten spraak gebruikt
Spraak toegevoegd aan tekstvoorbeeld voor MAUI
Zie de opslagplaats met voorbeelden van speech-SDK.
Speech SDK 1.24.2: release van november 2022
Nieuwe functies
- Geen nieuwe functies, alleen een ingesloten engineoplossing ter ondersteuning van nieuwe modelbestanden.
Bugfixes
- Alle programmeertalen
- Er is een probleem opgelost met versleuteling van ingesloten spraakherkenningsmodellen.
Speech SDK 1.24.1: release van november 2022
Nieuwe functies
- Gepubliceerde pakketten voor de preview-versie van Embedded Speech. Zie https://aka.ms/embedded-speech voor meer informatie.
Bugfixes
- Alle programmeertalen
- Ingesloten TTS-crash herstellen wanneer spraaklettertype niet wordt ondersteund
- Fix stopSpeaking() kan het afspelen niet stoppen in Linux (#1686)
- JavaScript SDK
- Regressie opgelost in de wijze waarop audio van gesprekstranscriber wordt verholpen.
- Java
- Tijdelijk bijgewerkte POM- en Javadocs-bestanden gepubliceerd naar Maven Central om de docs-pijplijn in staat te stellen online referentiedocumenten bij te werken.
- Python
- Regressie herstellen waarbij Python speak_text(ssml) ongeldigheid retourneert.
Speech SDK 1.24.0: release van oktober 2022
Nieuwe functies
- Alle programmeertalen: AMR-WB (16khz) toegevoegd aan de ondersteunde lijst met tekst-naar-spraak audio-uitvoerindelingen
- Python: Pakket toegevoegd voor Linux Arm64 voor ondersteunde Linux-distributies.
- C#/C++/Java/Python: ondersteuning toegevoegd voor directe streaming van ALAW & MULAW naar de spraakservice (naast de bestaande PCM-stream) met behulp van
AudioStreamWaveFormat
. - C# MAUI: NuGet-pakket bijgewerkt ter ondersteuning van Android-doelen voor .NET MAUI-ontwikkelaars (probleem van de klant)
- Mac: Afzonderlijke XCframework voor Mac toegevoegd, die geen binaire iOS-bestanden bevat. Dit biedt een optie voor ontwikkelaars die alleen binaire Mac-bestanden nodig hebben met behulp van een kleiner XCframework-pakket.
- Microsoft Audio Stack (MAS):
- Wanneer straalvormende hoeken worden opgegeven, wordt het geluid dat buiten het opgegeven bereik afkomstig is beter onderdrukt.
- Ongeveer 70% vermindering van de grootte van
libMicrosoft.CognitiveServices.Speech.extension.mas.so
Linux ARM32 en Linux Arm64.
- Intentieherkenning met behulp van patroonkoppeling:
- Ondersteuning voor orthografie toevoegen voor de talen
fr
, ,de
es
jp
- Vooraf samengestelde gehele getallen voor taal
es
toegevoegd.
- Ondersteuning voor orthografie toevoegen voor de talen
Bugfixes
- iOS: oplossing voor spraaksynthesefout in iOS 16 veroorzaakt door gecomprimeerde audiodecoderingsfout (probleem van de klant).
- JavaScript:
- Verificatietoken werkt niet wanneer spraaksynthese spraaklijst wordt opgehaald (probleem van de klant).
- Gegevens-URL gebruiken voor het laden van werkrollen (probleem met klant).
- Maak alleen een worklet voor audioprocessor wanneer AudioWorklet wordt ondersteund in de browser (probleem van de klant). Dit was een bijdrage van william Wong. Bedankt William!
- Er is een herkende callback opgelost wanneer het LUIS-antwoord
connectionMessage
leeg is (klantprobleem). - Time-out voor spraaksegmentatie juist instellen.
- Intentieherkenning met behulp van patroonkoppeling:
- Niet-json-tekens in modellen worden nu correct geladen.
- Los het probleem met vasthangen op wanneer
recognizeOnceAsync(text)
deze werd aangeroepen tijdens continue herkenning.
Speech SDK 1.23.0: release van juli 2022
Nieuwe functies
- C#, C++, Java: ondersteuning toegevoegd voor talen
zh-cn
enzh-hk
in intentieherkenning met patroonkoppeling. - C#: ondersteuning toegevoegd voor
AnyCPU
.NET Framework-builds
Bugfixes
- Android: Opgeloste OpenSSL-beveiligingsprobleem CVE-2022-2068 door OpenSSL bij te werken naar 1.1.1q
- Python: Crash oplossen bij gebruik van PushAudioInputStream
- iOS: Fix "EXC_BAD_ACCESS: Poging om null-aanwijzer te deductie ongedaan te maken" zoals gerapporteerd op iOS (GitHub-probleem)
Speech SDK 1.22.0: release van juni 2022
Nieuwe functies
- Java: IntentRecognitionResult-API voor getEntities(), applyLanguageModels() en recognizeOnceAsync(text) toegevoegd ter ondersteuning van de engine voor eenvoudige patroonkoppeling.
- Unity: Ondersteuning toegevoegd voor Mac M1 (Apple Silicon) voor Unity-pakket (GitHub-probleem)
- C#: ondersteuning toegevoegd voor x86_64 voor Xamarin Android (GitHub-probleem)
- C#: minimaal bijgewerkte versie van .NET Framework naar v4.6.2 voor SDK C#-pakket omdat v4.6.1 buiten gebruik is gesteld (zie levenscyclusbeleid voor Microsoft .NET Framework-onderdelen)
- Linux: Ondersteuning toegevoegd voor Debian 11 en Ubuntu 22.04 LTS. Ubuntu 22.04 LTS vereist handmatige installatie van bibliothekensl1.1 als een binair pakket van hier (bijvoorbeeld libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb of nieuwer voor x64), of door uit bronnen te compileren.
Bugfixes
- UWP: OpenSSL-afhankelijkheid verwijderd uit UWP-bibliotheken en vervangen door WinRT-websocket en HTTP-API's om te voldoen aan de beveiligingsnaleving en een kleinere binaire footprint.
- Mac: Probleem 'MicrosoftCognitiveServicesSpeech Module Niet gevonden' opgelost bij het gebruik van Swift-projecten die gericht zijn op macOS-platform
- Windows, Mac: Er is een platformspecifiek probleem opgelost waarbij audiobronnen die zijn geconfigureerd via eigenschappen om te streamen in realtime soms achter en uiteindelijk de capaciteit overschreden
Voorbeelden (GitHub)
- C#: .NET Framework-voorbeelden bijgewerkt voor gebruik van v4.6.2
- Unity: Voorbeeld van virtuele assistent opgelost voor Android en UWP
- Unity: Unity-voorbeelden bijgewerkt voor unity 2020 LTS-versie
Speech SDK 1.21.0: release van april 2022
Nieuwe functies
- Java & JavaScript: ondersteuning toegevoegd voor continue taalidentificatie bij gebruik van het SpeechRecognizer-object
- JavaScript: Diagnostische API's toegevoegd om logboekregistratie van consolelogboeken en (alleen Node)-bestanden in te schakelen, om Microsoft te helpen bij het oplossen van door de klant gerapporteerde problemen
- Python: ondersteuning toegevoegd voor gesprektranscriptie
- Go: Ondersteuning toegevoegd voor Speaker Recognition
- C++ & C#: ondersteuning toegevoegd voor een vereiste groep woorden in intent recognizer (eenvoudige patroonkoppeling). Bijvoorbeeld: '(set|start|begin) een timer' waarbij 'set', 'start' of 'begin' aanwezig moeten zijn om de intentie te kunnen herkennen.
- Alle programmeertalen, Spraaksynthese: eigenschap Duur toegevoegd in woordgrensgebeurtenissen. Ondersteuning toegevoegd voor interpunctiegrens en zinsgrens
- Objective-C/Swift/Java: Resultaten op woordniveau toegevoegd aan het resultaatobject Uitspraakbeoordeling (vergelijkbaar met C#). De toepassing hoeft geen JSON-resultaattekenreeks meer te parseren om informatie op woordniveau op te halen (GitHub-probleem)
- iOS-platform: experimentele ondersteuning toegevoegd voor ARMv7-architectuur
Bugfixes
- iOS-platform: Oplossing voor het bouwen van het doel 'Elk iOS-apparaat' bij gebruik van CocoaPod (GitHub-probleem)
- Android-platform: OpenSSL-versie is bijgewerkt naar 1.1.1n om beveiligingsprobleem CVE-2022-0778 op te lossen
- JavaScript: Probleem opgelost waarbij wav-header niet is bijgewerkt met de bestandsgrootte (GitHub-probleem)
- JavaScript: Probleem met het oplossen van probleem met de synchronisatie van aanvraag-id's die fouten veroorzaken in vertaalscenario's (GitHub-probleem)
- JavaScript: Probleem oplossen bij het instantiëren van SpeakerAudioDestination zonder stream (GitHub-probleem]
- C++: C++-headers herstellen om een waarschuwing te verwijderen bij het compileren van C++17 of hoger
Voorbeelden van GitHub
- Nieuwe Java-voorbeelden voor spraakherkenning met taalidentificatie
- Nieuwe Python- en Java-voorbeelden voor gesprektranscriptie
- Nieuw Go-voorbeeld voor Speaker Recognition
- Nieuw C++ en C# -hulpprogramma voor Windows waarmee alle audio-opname- en renderapparaten worden opgesomd om hun apparaat-id te vinden. Deze id is nodig voor de Speech SDK als u van plan bent audio van een niet-standaardapparaat vast te leggen of audio weer te geven op een niet-standaardapparaat.
Speech SDK 1.20.0: release van januari 2022
Nieuwe functies
- Objective-C, Swift en Python: ondersteuning toegevoegd voor DialogServiceConnector, die wordt gebruikt voor scenario's met Spraakassistent.
- Python: ondersteuning voor Python 3.10 is toegevoegd. Ondersteuning voor Python 3.6 is verwijderd, per einde van de levensduur van Python voor 3.6.
- Unity: Speech SDK wordt nu ondersteund voor Unity-toepassingen in Linux.
- C++, C#: IntentRecognizer met behulp van patroonkoppeling wordt nu ondersteund in C#. Daarnaast worden scenario's met aangepaste entiteiten, optionele groepen en entiteitsrollen nu ondersteund in C++ en C#.
- C++, C#: Verbeterde logboekregistratie van diagnostische gegevens met behulp van nieuwe klassen FileLogger, MemoryLogger en EventLogger. SDK-logboeken zijn een belangrijk hulpprogramma voor Microsoft om door de klant gerapporteerde problemen vast te stellen. Deze nieuwe klassen maken het eenvoudiger voor klanten om Speech SDK-logboeken te integreren in hun eigen logboekregistratiesysteem.
- Alle programmeertalen: PronunciationAssessmentConfig heeft nu eigenschappen voor het instellen van het gewenste phoneme-alfabet (IPA of SAPI) en N-Best Phoneme Count (om te voorkomen dat een configuratie-JSON moet worden gemaakt volgens GitHub-probleem 1284). Uitvoer op lettergreepniveau wordt nu ook ondersteund.
- Android, iOS en macOS (alle programmeertalen): GStreamer is niet meer nodig om netwerken met beperkte bandbreedte te ondersteunen. SpeechSynthesizer maakt nu gebruik van de audiocoderingsmogelijkheden van het besturingssysteem om gecomprimeerde audio te decoderen die wordt gestreamd van de tekst naar de spraakservice.
- Alle programmeertalen: SpeechSynthesizer ondersteunt nu drie nieuwe opus-indelingen voor onbewerkte uitvoer (zonder container), die veel worden gebruikt in scenario's voor live streamen.
- JavaScript: GetVoicesAsync() API toegevoegd aan SpeechSynthesizer om de lijst met ondersteunde synthesestemmen op te halen (GitHub-probleem 1350)
- JavaScript: GetWaveFormat() API toegevoegd aan AudioStreamFormat ter ondersteuning van niet-PCM-golfindelingen (GitHub-probleem 452)
- JavaScript: volume getter/setter en mute()/unmute() API's toegevoegd aan SpeakerAudioDestination (GitHub-probleem 463)
Bugfixes
- C++, C#, Java, JavaScript, Objective-C en Swift: Oplossing voor het verwijderen van een vertraging van 10 seconden tijdens het stoppen van een spraakherkenningsfunctie die gebruikmaakt van een PushAudioInputStream. Dit is voor het geval dat er geen nieuwe audio wordt gepusht nadat StopContinuousRecognition is aangeroepen (GitHub-problemen 1318, 331)
- Unity op Android en UWP: Unity-metabestanden zijn opgelost voor UWP, Android Arm64 en Windows-subsysteem voor Android (WSA) Arm64 (GitHub-probleem 1360)
- iOS: het compileren van uw Speech SDK-toepassing op elk iOS-apparaat wanneer u CocoaPods gebruikt, is nu opgelost (GitHub-probleem 1320)
- iOS: Wanneer SpeechSynthesizer is geconfigureerd voor het rechtstreeks uitvoeren van audio naar een luidspreker, wordt afspelen gestopt aan het begin in zeldzame omstandigheden. Dit is opgelost.
- JavaScript: Gebruik scriptprocessorback voor microfooninvoer als er geen audiowerklet is gevonden (GitHub-probleem 455)
- JavaScript: Protocol toevoegen aan agent om de fout te beperken die is gevonden met Sentry-integratie (GitHub-probleem 465)
Voorbeelden van GitHub
- C++-, C#-, Python- en Java-voorbeelden die laten zien hoe u gedetailleerde herkenningsresultaten krijgt. De details omvatten alternatieve herkenningsresultaten, betrouwbaarheidsscore, lexicale vorm, genormaliseerd formulier, gemaskeerde genormaliseerde vorm, met tijdsinstellingen op woordniveau voor elk formulier.
- iOS-voorbeeld toegevoegd met AVFoundation als externe audiobron.
- Java-voorbeeld toegevoegd om te laten zien hoe u de SRT-indeling (SubRip Text) kunt ophalen met behulp van wordBoundary-gebeurtenis.
- Android-voorbeelden voor uitspraakbeoordeling.
- C++, C# met het gebruik van de nieuwe klassen Diagnostische logboekregistratie.
Speech SDK 1.19.0: release van 2021-nov
Hoogtepunten
De Speaker Recognition-service is nu algemeen beschikbaar. Speech SDK-API's zijn beschikbaar op C++, C#, Java en JavaScript. Met Speaker Recognition kunt u sprekers nauwkeurig verifiëren en identificeren op basis van hun unieke stemkenmerken. Zie de documentatie voor meer informatie over dit onderwerp.
We hebben ondersteuning voor Ubuntu 16.04 verwijderd in combinatie met Azure DevOps en GitHub. Ubuntu 16.04 bereikte het einde van de levensduur in april 2021. Migreer uw Ubuntu 16.04-werkstromen naar Ubuntu 18.04 of hoger.
OpenSSL-koppeling in binaire Linux-bestanden is gewijzigd in dynamisch. De binaire grootte van Linux is met ongeveer 50% verminderd.
Mac M1 ARM-gebaseerde siliciumondersteuning toegevoegd.
Nieuwe functies
C++/C#/Java: nieuwe API's toegevoegd om ondersteuning voor audioverwerking in te schakelen voor spraakinvoer met Microsoft Audio Stack. Documentatie hier.
C++: Nieuwe API's voor intentieherkenning om geavanceerdere patroonkoppeling mogelijk te maken. Dit omvat lijsten en vooraf gedefinieerde gehele getallen en ondersteuning voor groeperingsintenties en entiteiten als modellen (documentatie, updates en voorbeelden zijn in ontwikkeling en worden in de nabije toekomst gepubliceerd).
Mac: Ondersteuning voor op Arm64 (M1) gebaseerde silicium voor CocoaPod-, Python-, Java- en NuGet-pakketten met betrekking tot GitHub-probleem 1244.
iOS/Mac: binaire iOS- en macOS-bestanden worden nu verpakt in xcframework met betrekking tot GitHub-probleem 919.
iOS/Mac: Ondersteuning voor Mac-katalysator met betrekking tot GitHub-probleem 1171.
Linux: Nieuw tar-pakket toegevoegd voor CentOS7 Over de Speech SDK. Het Linux-.tar-pakket bevat nu specifieke bibliotheken voor RHEL/CentOS 7 in
lib/centos7-x64
. Speech SDK-bibliotheken in lib/x64 zijn nog steeds van toepassing op alle andere ondersteunde Linux x64-distributies (inclusief RHEL/CentOS 8) en werken niet op RHEL/CentOS 7.JavaScript: VoiceProfile & SpeakerRecognizer-API's zijn asynchroon/wachtbaar gemaakt.
JavaScript: ondersteuning toegevoegd voor Azure-regio's voor de Amerikaanse overheid.
Windows: Ondersteuning toegevoegd voor afspelen op Universeel Windows-platform (UWP).
Bugfixes
Android: OpenSSL-beveiligingsupdate (bijgewerkt naar versie 1.1.1l) voor Android-pakketten.
Python: Opgeloste fout waarbij het selecteren van een luidsprekerapparaat in Python mislukt.
Kern: automatisch opnieuw verbinding maken wanneer een verbindingspoging mislukt.
iOS: Audiocompressie uitgeschakeld op iOS-pakketten vanwege instabiliteit en bitcode-buildproblemen bij het gebruik van GStreamer. Details zijn beschikbaar via GitHub-probleem 1209.
Voorbeelden van GitHub
Mac/iOS: Voorbeelden en quickstarts bijgewerkt voor het gebruik van het xcframework-pakket.
.NET: voorbeelden die zijn bijgewerkt voor gebruik van .NET Core 3.1-versie.
JavaScript: Voorbeeld toegevoegd voor Spraakassistenten.
Speech SDK 1.18.0: release van 2021-juli
Opmerking: Ga hier aan de slag met de Speech SDK.
Overzicht van markeringen
- Ubuntu 16.04 bereikte het einde van de levensduur in april 2021. Met Azure DevOps en GitHub wordt in september 2021 ondersteuning voor 16.04 weggeslagen. Migreer ubuntu-16.04-werkstromen naar ubuntu-18.04 of hoger voor die tijd.
Nieuwe functies
- C++: Eenvoudig taalpatroon dat overeenkomt met intent Recognizer maakt het nu eenvoudiger om eenvoudige scenario's voor intentieherkenning te implementeren.
- C++/C#/Java: er is een nieuwe API
GetActivationPhrasesAsync()
toegevoegd aan de klasse voor hetVoiceProfileClient
ontvangen van een lijst met geldige activeringstermen in de registratiefase van Speaker Recognition voor onafhankelijke herkenningsscenario's.- Belangrijk: de functie Speaker Recognition is beschikbaar als preview-versie. Alle spraakprofielen die zijn gemaakt in preview, worden 90 dagen nadat de functie Speaker Recognition uit preview is verplaatst naar Algemene beschikbaarheid. Op dat moment werken de preview-spraakprofielen niet meer.
- Python: Ondersteuning toegevoegd voor continue taalidentificatie (LID) op de bestaande
SpeechRecognizer
enTranslationRecognizer
objecten. - Python: Er is een nieuw Python-object toegevoegd met de naam
SourceLanguageRecognizer
eenmalige of continue LID (zonder herkenning of vertaling). - JavaScript:
getActivationPhrasesAsync
API toegevoegd aanVoiceProfileClient
klasse voor het ontvangen van een lijst met geldige activeringstermen in de registratiefase van Speaker Recognition voor onafhankelijke herkenningsscenario's. - De API van
enrollProfileAsync
JavaScriptVoiceProfileClient
is nu asynchroon te wachten. Zie deze onafhankelijke identificatiecode, bijvoorbeeld het gebruik.
Verbeteringen
- Java: AutoCloseable-ondersteuning toegevoegd aan veel Java-objecten. Nu wordt het model try-with-resources ondersteund om resources vrij te geven. Bekijk dit voorbeeld waarin gebruik wordt gemaakt van try-with-resources. Zie ook de zelfstudie over de Oracle Java-documentatie voor de instructie try-with-resources voor meer informatie over dit patroon.
- De schijfvoetafdruk is aanzienlijk verminderd voor veel platforms en architecturen. Voorbeelden voor het
Microsoft.CognitiveServices.Speech.core
binaire bestand: x64 Linux is kleiner dan 475 kB (8,0% reductie); Arm64 Windows UWP is 464 kB kleiner (11,5% reductie); x86 Windows is kleiner dan 343 kB (17,5% reductie); en x64 Windows is kleiner dan 451 kB (19,4% reductie).
Bugfixes
- Java: Er is een synthesefout opgelost wanneer de synthesetekst surrogaattekens bevat. Details hier.
- JavaScript: Audioverwerking van browsermicrofoon wordt nu gebruikt
AudioWorkletNode
in plaats van afgeschaftScriptProcessorNode
. Details hier. - JavaScript: houd gesprekken correct actief tijdens langdurige gespreksomzettingsscenario's. Details hier.
- JavaScript: Er is een probleem opgelost waarbij recognizer opnieuw verbinding maakt met een mediastream in continue herkenning. Details hier.
- JavaScript: Er is een probleem opgelost waarbij recognizer opnieuw verbinding maakt met een pushStream in continue herkenning. Details hier.
- JavaScript: Gecorrigeerde offsetberekening op woordniveau in gedetailleerde herkenningsresultaten. Details hier.
Voorbeelden
- Java-snelstartvoorbeelden zijn hier bijgewerkt.
- Voorbeelden van JavaScript Speaker Recognition zijn bijgewerkt om nieuw gebruik van
enrollProfileAsync()
. Bekijk hier voorbeelden.
Speech SDK 1.17.0: release van 2021-mei
Notitie
Ga hier aan de slag met de Speech SDK.
Overzicht van markeringen
- Kleinere footprint: we blijven de geheugen- en schijfvoetafdruk van de Speech SDK en de bijbehorende onderdelen verminderen.
- Met een nieuwe zelfstandige Taalidentificatie-API kunt u herkennen welke taal wordt gesproken.
- Ontwikkel mixed reality- en gamingtoepassingen met behulp van Unity in macOS.
- U kunt nu Tekst naar spraak gebruiken naast spraakherkenning vanuit de programmeertaal Go.
- Verschillende oplossingen voor problemen die U, onze gewaardeerde klanten, op GitHub hebben gemarkeerd. BEDANKT! Blijf de feedback ontvangen.
Nieuwe functies
- C++/C#: Nieuwe zelfstandige at-start en continue taaldetectie via de
SourceLanguageRecognizer
API. Als u alleen de taal(en) wilt detecteren die in audio-inhoud worden gesproken, is dit de API om dat te doen. Zie de details voor C++ en C#. - C++/C#: Spraakherkenning en vertaalherkenning ondersteunen nu zowel at-start als continue taalidentificatie, zodat u programmatisch kunt bepalen welke taal(en) worden gesproken voordat ze worden getranscribeerd of vertaald. Zie de documentatie hier voor Spraakherkenning en hier voor Spraakomzetting.
- C#: Ondersteuning voor Unity toegevoegd aan macOS (x64). Dit ontgrendelt gebruiksvoorbeelden voor spraakherkenning en spraaksynthese in mixed reality en gaming.
- Go: We hebben ondersteuning toegevoegd voor spraaksynthesetekst naar spraak naar de programmeertaal Go om spraaksynthese beschikbaar te maken in nog meer gebruiksvoorbeelden. Raadpleeg onze quickstart of onze referentiedocumentatie.
- C++/C#/Java/Python/Objective-C/Go: de spraaksynthese ondersteunt nu het
connection
object. Dit helpt u bij het beheren en bewaken van de verbinding met de Speech-service en is vooral handig om vooraf verbinding te maken om de latentie te verminderen. Zie de documentatie hier. - C++/C#/Java/Python/Objective-C/Go: we maken nu de latentie en onderlooptijd
SpeechSynthesisResult
beschikbaar om u te helpen bij het bewaken en diagnosticeren van latentieproblemen met spraaksynthese. Zie de details voor C++, C#, Java, Python, Objective-C en Go. - C++/C#/Java/Python/Objective-C: voor tekst naar spraak worden nu standaard neurale stemmen gebruikt wanneer u geen stem opgeeft die moet worden gebruikt. Dit biedt standaard een hogere betrouwbaarheidsuitvoer, maar verhoogt ook de standaardprijs. U kunt een van onze meer dan 70 standaardstemmen of meer dan 130 neurale stemmen opgeven om de standaardinstelling te wijzigen.
- C++/C#/Java/Python/Objective-C/Go: We hebben een eigenschap Gender toegevoegd aan de synthesestemgegevens om het gemakkelijker te maken stemmen te selecteren op basis van geslacht. Hiermee wordt het GitHub-probleem #1055 opgelost.
- C++, C#, Java, JavaScript: we bieden nu ondersteuning
retrieveEnrollmentResultAsync
voorgetAllProfilesAsync()
engetAuthorizationPhrasesAsync
in Speaker Recognition om het beheer van alle spraakprofielen voor een bepaald account te vereenvoudigen. Raadpleeg de documentatie voor C++, C#, Java, JavaScript. Hiermee wordt het GitHub-probleem #338 opgelost. - JavaScript: Er is een nieuwe poging toegevoegd voor verbindingsfouten waardoor uw op JavaScript gebaseerde spraaktoepassingen robuuster worden.
Verbeteringen
- Binaire linux- en Android Speech SDK-bestanden zijn bijgewerkt om de nieuwste versie van OpenSSL (1.1.1.1k) te gebruiken
- Verbeteringen in codegrootte:
- Language Understanding is nu gesplitst in een afzonderlijke lu-bibliotheek.
- Binaire grootte van Windows x64-kern is met 14,4% afgenomen.
- Binaire grootte van Android Arm64-kern is met 13,7% gedaald.
- andere onderdelen zijn ook kleiner geworden.
Bugfixes
- Alles: Probleem met GitHub opgelost #842 voor ServiceTimeout. U kunt nu lange audiobestanden transcriberen met behulp van de Speech SDK zonder dat de verbinding met de service wordt beëindigd met deze fout. We raden u echter nog steeds aan batchtranscriptie te gebruiken voor lange bestanden.
- C#: GitHub-probleem #947 opgelost waarbij geen spraakinvoer uw app in een slechte status kon laten.
- Java: GitHub-probleem #997 opgelost waarbij de Speech SDK voor Java 1.16 vastloopt bij het gebruik van DialogServiceConnector zonder een netwerkverbinding of een ongeldige abonnementssleutel.
- Er is een crash opgelost bij het plotseling stoppen van spraakherkenning (bijvoorbeeld met Ctrl+C in de console-app).
- Java: Er is een oplossing toegevoegd voor het verwijderen van tijdelijke bestanden in Windows bij het gebruik van de Speech SDK voor Java.
- Java: Er is een probleem opgelost met GitHub #994 waarbij aanroepen
DialogServiceConnector.stopListeningAsync
een fout kon veroorzaken. - Java: Er is een probleem opgelost met de klant in de quickstart van de virtuele assistent.
- JavaScript: GitHub-probleem #366 opgelost waarbij
ConversationTranslator
een fout 'this.cancelSpeech is geen functie'. - JavaScript: GitHub-probleem #298 opgelost waarbij het voorbeeld 'Resultaat ophalen als een in-memory stream' hardop werd afgespeeld.
- JavaScript: Er is een Probleem opgelost met GitHub #350 waarbij aanroepen
AudioConfig
kon leiden tot een 'ReferenceError: MediaStream is niet gedefinieerd'. - JavaScript: Er is een waarschuwing voor unhandledPromiseRejection opgelost in Node.js voor langdurige sessies.
Voorbeelden
- Hier is de documentatie voor Unity-voorbeelden voor macOS bijgewerkt.
- Een React Native-voorbeeld voor de Azure AI Speech Recognition-service is nu hier beschikbaar.
Speech SDK 1.16.0: release van 2021-maart
Notitie
De Speech SDK in Windows is afhankelijk van het gedeelde Microsoft Visual C++ Redistributable voor Visual Studio 2015, 2017 en 2019. Download het hier.
Nieuwe functies
- C++/C#/Java/Python: verplaatst naar de nieuwste versie van GStreamer (1.18.3) om ondersteuning toe te voegen voor het transcriberen van media-indelingen in Windows, Linux en Android. Zie de documentatie hier.
- C++/C#/Java/Objective-C/Python: ondersteuning toegevoegd voor het decoderen van gecomprimeerde TTS/gesynthetiseerde audio aan de SDK. Als u de uitvoeraudioindeling instelt op PCM en GStreamer beschikbaar is op uw systeem, vraagt de SDK automatisch gecomprimeerde audio aan van de service om bandbreedte te besparen en de audio op de client te decoderen. U kunt instellen
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
om deze functie uit tefalse
schakelen. Details voor C++, C#, Java, Objective-C, Python. - JavaScript: Node.js gebruikers nu de
AudioConfig.fromWavFileInput
API kunnen gebruiken. Hiermee wordt het GitHub-probleem #252 opgelost. - C++/C#/Java/Objective-C/Python: methode
GetVoicesAsync()
toegevoegd voor TTS om alle beschikbare synthesestemmen te retourneren. Details voor C++, C#, Java, Objective-C en Python. - C++/C#/Java/JavaScript/Objective-C/Python: gebeurtenis
VisemeReceived
toegevoegd voor TTS/spraaksynthese om synchrone viseme-animatie te retourneren. Zie de documentatie hier. - C++/C#/Java/JavaScript/Objective-C/Python: gebeurtenis toegevoegd
BookmarkReached
voor TTS. U kunt bladwijzers instellen in de invoer-SSML en de audio-offsets voor elke bladwijzer ophalen. Zie de documentatie hier. - Java: Ondersteuning toegevoegd voor Speaker Recognition-API's. Details hier.
- C++/C#/Java/JavaScript/Objective-C/Python: er zijn twee nieuwe audio-indelingen toegevoegd met WebM-container voor TTS (Webm16Khz16BitMonoOpus en Webm24Khz16BitMonoOpus). Dit zijn betere indelingen voor het streamen van audio met de Opus-codec. Details voor C++, C#, Java, JavaScript, Objective-C, Python.
- C++/C#/Java: ondersteuning toegevoegd voor het ophalen van spraakprofiel voor sprekerherkenningsscenario's. Details voor C++, C# en Java.
- C++/C#/Java/Objective-C/Python: ondersteuning toegevoegd voor afzonderlijke gedeelde bibliotheek voor audiomicrofoon en luidsprekerbesturing. Hierdoor kan de ontwikkelaar de SDK gebruiken in omgevingen waarvoor geen vereiste audiobibliotheekafhankelijkheden zijn vereist.
- Objective-C/Swift: ondersteuning toegevoegd voor moduleframework met parapluheader. Hierdoor kan de ontwikkelaar Speech SDK importeren als een module in iOS-/Mac Objective-C/Swift-apps. Hiermee wordt het GitHub-probleem #452 opgelost.
- Python: Ondersteuning toegevoegd voor Python 3.9 en verwijderde ondersteuning voor Python 3.5 per einde van python voor 3.5.
Bekende problemen
- C++/C#/Java:
DialogServiceConnector
kan geen toegang krijgenCustomCommandsConfig
tot een toepassing voor aangepaste opdrachten en treedt in plaats daarvan een verbindingsfout op. Dit kan worden omzeild door handmatig uw toepassings-id toe te voegen aan de aanvraag metconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. Het verwachte gedrag vanCustomCommandsConfig
wordt hersteld in de volgende release.
Verbeteringen
- Als onderdeel van onze multirelease-inspanning om het geheugengebruik en de schijfvoetafdruk van de Speech SDK te verminderen, zijn binaire Android-bestanden nu 3% tot 5% kleiner.
- Verbeterde nauwkeurigheid, leesbaarheid en secties van onze C#-referentiedocumentatie hier.
Bugfixes
- JavaScript: Grote WAV-bestandsheaders worden nu correct geparseerd (vergroot het koptekstsegment tot 512 bytes). Hiermee wordt het GitHub-probleem #962 opgelost.
- JavaScript: Probleem met timing van microfoon gecorrigeerd als de microfoonstream eindigt voordat de herkenning wordt gestopt, waarbij een probleem wordt opgelost waarbij spraakherkenning niet werkt in Firefox.
- JavaScript: De initialisatiebelofte wordt nu correct verwerkt wanneer de browser microfoon uitschakelt voordat turnOn is voltooid.
- JavaScript: We hebben URL-afhankelijkheid vervangen door URL-parse. Hiermee wordt het GitHub-probleem #264 opgelost.
- Android: Vaste callbacks werken niet wanneer
minifyEnabled
deze is ingesteld op waar. - C++/C#/Java/Objective-C/Python:
TCP_NODELAY
wordt correct ingesteld op onderliggende socket-IO voor TTS om de latentie te verminderen. - C++/C#/Java/Python/Objective-C/Go: er is een incidentele crash opgelost toen de recognizer net na het starten van een herkenning werd vernietigd.
- C++/C#/Java: Er is een incidentele crash opgelost in de vernietiging van speaker recognizer.
Voorbeelden
- JavaScript: voor browservoorbeelden is het downloaden van afzonderlijke JavaScript-bibliotheekbestanden niet meer vereist.
Speech SDK 1.15.0: release van 2021-januari
Notitie
De Speech SDK in Windows is afhankelijk van het gedeelde Microsoft Visual C++ Redistributable voor Visual Studio 2015, 2017 en 2019. Download het hier.
Overzicht van markeringen
- Kleinere geheugen- en schijfvoetafdruk waardoor de SDK efficiënter wordt.
- Uitvoerindelingen met een hogere kwaliteit die beschikbaar zijn voor aangepaste neurale spraak private preview.
- Intent Recognizer kan nu meer retourneren dan de belangrijkste intentie, zodat u een afzonderlijke beoordeling kunt maken over de intentie van uw klant.
- Spraakassistenten en bots zijn nu eenvoudiger in te stellen en u kunt ervoor zorgen dat deze niet meer luistert en meer controle uitoefenen over hoe het reageert op fouten.
- Verbeterde prestaties van het apparaat door het optioneel maken van compressie.
- Gebruik de Speech SDK in Windows ARM/Arm64.
- Verbeterde foutopsporing op laag niveau.
- De functie Uitspraakbeoordeling is nu breder beschikbaar.
- Verschillende oplossingen voor problemen die U, onze gewaardeerde klanten, op GitHub hebben gemarkeerd. BEDANKT! Blijf de feedback ontvangen.
Verbeteringen
- De Speech SDK is nu efficiënter en lichtgewicht. We hebben een multirelease-inspanning gestart om het geheugengebruik en de schijfvoetafdruk van de Speech SDK te verminderen. Als eerste stap hebben we aanzienlijke verminderingen van de bestandsgrootte in gedeelde bibliotheken op de meeste platforms gemaakt. Vergeleken met de release 1.14:
- 64-bits UWP-compatibele Windows-bibliotheken zijn ongeveer 30% kleiner.
- 32-bits Windows-bibliotheken zien nog geen verbetering van de grootte.
- Linux-bibliotheken zijn 20-25% kleiner.
- Android-bibliotheken zijn 3-5% kleiner.
Nieuwe functies
- All: Nieuwe 48 KHz-uitvoerindelingen beschikbaar voor de persoonlijke preview van aangepaste neurale spraak via de TTS-spraaksynthese-API: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- Alles: Aangepaste spraak is ook gemakkelijker te gebruiken. Ondersteuning toegevoegd voor het instellen van aangepaste spraak via
EndpointId
(C++, C#, Java, JavaScript, Objective-C, Python). Vóór deze wijziging moesten aangepaste spraakgebruikers de eindpunt-URL instellen via deFromEndpoint
methode. Klanten kunnen nu dezelfdeFromSubscription
methode gebruiken als vooraf gemaakte stemmen en vervolgens de implementatie-id opgeven door deze in te stellenEndpointId
. Dit vereenvoudigt het instellen van aangepaste stemmen. - C++/C#/Java/Objective-C/Python: Haal meer dan de belangrijkste intentie op
IntentRecognizer
. Het biedt nu ondersteuning voor het configureren van het JSON-resultaat met alle intenties en niet alleen de meest scorende intentie viaLanguageUnderstandingModel FromEndpoint
methode met behulp vanverbose=true
de URI-parameter. Hiermee wordt het GitHub-probleem #880 opgelost. Raadpleeg de bijgewerkte documentatie hier. - C++/C#/Java: zorg ervoor dat uw spraakassistent of bot niet meer luistert.
DialogServiceConnector
(C++, C#, Java) heeft nu eenStopListeningAsync()
methode om bij te horenListenOnceAsync()
. Hierdoor wordt het vastleggen van audio onmiddellijk gestopt en wordt er op een juiste manier gewacht op een resultaat, waardoor het perfect is voor gebruik met 'nu stoppen'-knoppersscenario's. - C++/C#/Java/JavaScript: zorg ervoor dat uw spraakassistent of bot beter reageert op onderliggende systeemfouten.
DialogServiceConnector
(C++, C#, Java, JavaScript) heeft nu een nieuweTurnStatusReceived
gebeurtenis-handler. Deze optionele gebeurtenissen komen overeen met elkeITurnContext
oplossing van de bot en rapporteren uitvoeringsfouten wanneer ze optreden, bijvoorbeeld als gevolg van een niet-verwerkte uitzondering, time-out of netwerkuitval tussen Direct Line Speech en de bot.TurnStatusReceived
maakt het gemakkelijker om te reageren op foutvoorwaarden. Als een bot bijvoorbeeld te lang duurt voor een back-enddatabasequery (bijvoorbeeld om een product op te zoeken),TurnStatusReceived
kan de client weten dat hij of zij kan weten dat hij of zij kan reageren met 'sorry, dat heb ik niet helemaal gedaan, kunt u het opnieuw proberen' of iets dergelijks. - C++/C#: gebruik de Speech SDK op meer platforms. Het NuGet-pakket speech-SDK ondersteunt nu systeemeigen binaire bestanden van Windows ARM/Arm64 (UWP) om de Speech SDK nuttiger te maken voor meer computertypen.
- Java:
DialogServiceConnector
heeft nu eensetSpeechActivityTemplate()
methode die eerder onbedoeld is uitgesloten van de taal. Dit komt overeen met het instellen van deConversation_Speech_Activity_Template
eigenschap en vraagt om alle toekomstige Bot Framework-activiteiten die afkomstig zijn van de Direct Line Speech-service, de opgegeven inhoud samen te voegen in hun JSON-nettoladingen. - Java: Verbeterde foutopsporing op laag niveau. De
Connection
klasse heeft nu eenMessageReceived
gebeurtenis, vergelijkbaar met andere programmeertalen (C++, C#). Deze gebeurtenis biedt toegang op laag niveau tot binnenkomende gegevens van de service en kan nuttig zijn voor diagnostische gegevens en foutopsporing. - JavaScript: Eenvoudiger instellen voor spraakassistenten en bots,
BotFrameworkConfig
die nu methoden hebbenfromHost()
enfromEndpoint()
factory's waarmee het gebruik van aangepaste servicelocaties wordt vereenvoudigd en eigenschappen handmatig worden ingesteld. We hebben ook gestandaardiseerde optionele specificatie van het gebruik vanbotId
een niet-standaardbot in de configuratie factory's. - JavaScript: Verbeterde prestaties van apparaten via toegevoegde eigenschap voor tekenreeksbeheer voor websocket-compressie. Om prestatieredenen hebben we websocket-compressie standaard uitgeschakeld. Dit kan opnieuw worden uitgevoerd voor scenario's met lage bandbreedte. Hier vindt u meer informatie. Hiermee wordt het GitHub-probleem #242 opgelost.
- JavaScript: ondersteuning toegevoegd voor lPronunciation Assessment om de uitspraak van spraak te evalueren. Zie de quickstart hier.
Bugfixes
- Alle (behalve JavaScript): Er is een regressie opgelost in versie 1.14, waarin te veel geheugen werd toegewezen door de recognizer.
- C++: Er is een probleem met de garbagecollection opgelost,
DialogServiceConnector
waarbij gitHub-probleem #794 wordt opgelost. - C#: Er is een probleem opgelost met het afsluiten van threads waardoor objecten ongeveer een seconde worden geblokkeerd wanneer ze worden verwijderd.
- C++/C#/Java: er is een uitzondering opgelost waardoor een toepassing meer dan één keer een spraakautorisatietoken of een activiteitssjabloon kan instellen.
DialogServiceConnector
- C++/C#/Java: een herkenningscrash opgelost vanwege een racevoorwaarde in teardown.
- JavaScript:
DialogServiceConnector
de optionelebotId
parameter die is opgegeven inBotFrameworkConfig
's factory's, werd niet eerder uitgevoerd. Hierdoor is het nodig om debotId
querytekenreeksparameter handmatig in te stellen voor het gebruik van een niet-standaardbot. De bug is gecorrigeerd enbotId
de waarden die aan 's factory's worden verstrektBotFrameworkConfig
, worden gehonoreerd en gebruikt, inclusief de nieuwefromHost()
enfromEndpoint()
toevoegingen. Dit geldt ook voor deapplicationId
parameter voorCustomCommandsConfig
. - JavaScript: GitHub-probleem #881 opgelost, waardoor het herkennen van objecten opnieuw kan worden gebruikt.
- JavaScript: Er is een probleem opgelost waarbij de SKD meerdere keren in één TTS-sessie werd verzonden
speech.config
, bandbreedte verspillen. - JavaScript: Vereenvoudigde foutafhandeling bij microfoonautorisatie, waardoor er meer beschrijvend bericht kan opbellen wanneer de gebruiker geen microfooninvoer heeft toegestaan in de browser.
- JavaScript: GitHub-probleem #249 opgelost waarbij typefouten zich voordoen
ConversationTranslator
enConversationTranscriber
een compilatiefout hebben veroorzaakt voor TypeScript-gebruikers. - Objective-C: Er is een probleem opgelost waarbij GStreamer-build is mislukt voor iOS op Xcode 11.4, waardoor gitHub-probleem #911 wordt opgelost.
- Python: GitHub-probleem #870 opgelost, waarbij 'DeprecationWarning: the imp module is afgeschaft in het voordeel van importlib' wordt verwijderd.
Voorbeelden
- Voorbeeld van bestand voor JavaScript-browser maakt nu gebruik van bestanden voor spraakherkenning. Hiermee wordt het GitHub-probleem #884 opgelost.
Speech SDK 1.14.0: release van 2020-oktober
Notitie
De Speech SDK in Windows is afhankelijk van het gedeelde Microsoft Visual C++ Redistributable voor Visual Studio 2015, 2017 en 2019. Download het hier.
Nieuwe functies
- Linux: Ondersteuning toegevoegd voor Debian 10 en Ubuntu 20.04 LTS.
- Python/Objective-C: ondersteuning toegevoegd voor de
KeywordRecognizer
API. De documentatie is hier. - C++/Java/C#: ondersteuning toegevoegd voor het instellen van een
HttpHeader
sleutel/waarde viaServicePropertyChannel::HttpHeader
. - JavaScript: ondersteuning toegevoegd voor de
ConversationTranscriber
API. Lees hier documentatie. - C++/C#: nieuwe
AudioDataStream FromWavFileInput
methode toegevoegd (om te lezen. WAV-bestanden) hier (C++) en hier (C#). - C++/C#/Java/Python/Objective-C/Swift: er is een
stopSpeakingAsync()
methode toegevoegd om tekst te stoppen met spraaksynthese. Lees hier de referentiedocumentatie (C++), hier (C#), hier (Java), hier (Python) en hier (Objective-C/Swift). - C#, C++, Java: Er is een
FromDialogServiceConnector()
functie toegevoegd aan de klasse die kan worden gebruikt voor hetConnection
bewaken van verbindings- en verbroken gebeurtenissen voorDialogServiceConnector
. Lees hier de referentiedocumentatie (C#), hier (C++) en hier (Java). - C++/C#/Java/Python/Objective-C/Swift: ondersteuning toegevoegd voor uitspraakbeoordeling, waarmee gesproken uitspraak wordt geëvalueerd en sprekers feedback geven over de nauwkeurigheid en de vloeiendheid van gesproken audio. Lees hier de documentatie.
Wijziging die fouten veroorzaken
- JavaScript: PullAudioOutputStream.read() heeft een wijziging van het retourtype van een interne promise in een native JavaScript Promise.
Bugfixes
- Alle: Regressie van 1,13 opgelost waarbij
SetServiceProperty
waarden met bepaalde speciale tekens werden genegeerd. - C#: Opgeloste Windows-consolevoorbeelden in Visual Studio 2019 kunnen geen systeemeigen DLL's vinden.
- C#: Vastlopen met geheugenbeheer opgelost als de stream wordt gebruikt als
KeywordRecognizer
invoer. - ObjectiveC/Swift: Vastlopen met geheugenbeheer opgelost als de stream wordt gebruikt als recognizer-invoer.
- Windows: Er is een probleem opgelost met co-existentie met BT HFP/A2DP op UWP.
- JavaScript: Er is een vaste toewijzing van sessie-id's opgelost om logboekregistratie en hulp te verbeteren in interne foutopsporings-/servicecorrelaties.
- JavaScript: Er is een oplossing toegevoegd voor
DialogServiceConnector
het uitschakelen vanListenOnce
aanroepen nadat de eerste aanroep is uitgevoerd. - JavaScript: Er is een probleem opgelost waarbij resultaatuitvoer slechts 'eenvoudig' zou zijn.
- JavaScript: Er is een probleem opgelost met continue herkenning in Safari in macOS.
- JavaScript: CPU-belastingbeperking voor scenario met hoge aanvraagdoorvoer.
- JavaScript: Toegang tot details van het resultaat van voiceprofielinschrijving toestaan.
- JavaScript: Oplossing toegevoegd voor continue herkenning in
IntentRecognizer
. - C++/C#/Java/Python/Swift/ObjectiveC: onjuiste URL opgelost voor australiaeast en brazilsouth in
IntentRecognizer
. - C++/C#: Toegevoegd
VoiceProfileType
als argument bij het maken van eenVoiceProfile
object. - C++/C#/Java/Python/Swift/ObjectiveC: er is een
SPX_INVALID_ARG
probleem opgelost bij het lezenAudioDataStream
vanaf een bepaalde positie. - IOS: Crash opgelost met spraakherkenning op Unity
Voorbeelden
- ObjectiveC: Voorbeeld toegevoegd voor trefwoordherkenning hier.
- C#/JavaScript: Quickstart toegevoegd voor gesprektranscriptie hier (C#) en hier (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: Voorbeeld toegevoegd voor uitspraakbeoordeling hier
Bekend probleem
- DigiCert Global Root G2-certificaat wordt niet standaard ondersteund in HoloLens 2 en Android 4.4 (KitKat) en moet worden toegevoegd aan het systeem om de Speech SDK functioneel te maken. Het certificaat wordt in de nabije toekomst toegevoegd aan installatiekopieën van het HoloLens 2-besturingssysteem. Android 4.4-klanten moeten het bijgewerkte certificaat toevoegen aan het systeem.
COVID-19 verkorte tests
Omdat we de afgelopen weken op afstand werken, konden we niet zoveel handmatige verificatietests uitvoeren als normaal. We hebben geen wijzigingen aangebracht die we denken te hebben verbroken, en onze geautomatiseerde tests zijn allemaal geslaagd. In het onwaarschijnlijke geval dat we iets hebben gemist, laat het ons dan weten op GitHub.
Blijf gezond!
Speech SDK 1.13.0: release van 2020 juli
Notitie
De Speech SDK in Windows is afhankelijk van het gedeelde Microsoft Visual C++ Redistributable voor Visual Studio 2015, 2017 en 2019. Download en installeer het vanaf hier.
Nieuwe functies
- C#: ondersteuning toegevoegd voor asynchrone gesprektranscriptie. Zie de documentatie hier.
- JavaScript: Ondersteuning voor sprekerherkenning toegevoegd voor zowel browser als Node.js.
- JavaScript: ondersteuning toegevoegd voor taalidentificatie/taal-id. Zie de documentatie hier.
- Objective-C: ondersteuning toegevoegd voor gespreks- en gesprektranscriptie met meerdere apparaten.
- Python: gecomprimeerde audioondersteuning toegevoegd voor Python in Windows en Linux. Zie de documentatie hier.
Bugfixes
- Alles: Er is een probleem opgelost waardoor de KeywordRecognizer de streams niet vooruit zou verplaatsen na een herkenning.
- All: Er is een probleem opgelost waardoor de stroom die is verkregen uit een KeywordRecognitionResult, het trefwoord niet bevatte.
- Alles: Er is een probleem opgelost waarbij sendMessageAsync het bericht niet echt via de kabel verzendt nadat de gebruikers klaar zijn met wachten.
- All: Er is een crash in Speaker Recognition-API's opgelost wanneer gebruikers VoiceProfileClient aanroepen::SpeakerRecEnrollProfileAsync-methode meerdere keren en niet hebben gewacht totdat de aanroepen zijn voltooid.
- Alles: Logboekregistratie van bestanden in VoiceProfileClient en SpeakerRecognizer-klassen is opgelost.
- JavaScript: Er is een probleem opgelost met beperking wanneer de browser wordt geminimaliseerd.
- JavaScript: Er is een probleem opgelost met een geheugenlek op streams.
- JavaScript: caching toegevoegd voor OCSP-antwoorden van NodeJS.
- Java: Er is een probleem opgelost waardoor BigInteger-velden altijd 0 retourneren.
- iOS: Er is een probleem opgelost met het publiceren van op Speech SDK gebaseerde apps in de iOS App Store.
Voorbeelden
COVID-19 verkorte tests
Omdat we de afgelopen weken op afstand werken, konden we niet zoveel handmatige verificatietests uitvoeren als normaal. We hebben geen wijzigingen aangebracht die we denken te hebben verbroken, en onze geautomatiseerde tests zijn allemaal geslaagd. In het onwaarschijnlijke geval dat we iets hebben gemist, laat het ons dan weten op GitHub.
Blijf gezond!
Speech SDK 1.12.1: release van 2020-juni
Nieuwe functies
- C#, C++: Sprekerherkenningsvoorbeeld: met deze functie kunt u sprekeridentificatie (wie spreekt?) en sprekercontrole (is de spreker die ze beweren te zijn?). Zie de overzichtsdocumentatie.
Bugfixes
- C#, C++: Vaste microfoonopname werkte niet in 1.12 in Speaker Recognition.
- JavaScript: Fixes voor tekst-naar-spraak in Firefox en Safari in macOS en iOS.
- Oplossing voor toegangsschending van Windows-toepassingsverificator bij het vastlopen van gesprektranscriptie bij gebruik van een stream met acht kanalen.
- Oplossing voor toegangsschending van Windows-toepassingsverificator bij het vastlopen van gesprekken met meerdere apparaten.
Voorbeelden
- C#: Codevoorbeeld voor Sprekerherkenning.
- C++: Codevoorbeeld voor Sprekerherkenning.
- Java: Codevoorbeeld voor intentieherkenning op Android.
COVID-19 verkorte tests
Omdat we de afgelopen weken op afstand werken, konden we niet zoveel handmatige verificatietests uitvoeren als normaal. We hebben geen wijzigingen aangebracht die we denken te hebben verbroken, en onze geautomatiseerde tests zijn allemaal geslaagd. In het onwaarschijnlijke geval dat we iets hebben gemist, laat het ons dan weten op GitHub.
Blijf gezond!
Speech SDK 1.12.0: release van 2020 mei
Nieuwe functies
- Go: Nieuwe Go-taalondersteuning voor spraakherkenning en aangepaste spraakassistent. Stel hier uw ontwikkelomgeving in. Zie de sectie Voorbeelden hieronder voor voorbeeldcode.
- JavaScript: browserondersteuning toegevoegd voor tekst naar spraak. Zie de documentatie hier.
- C++, C#, Java: Nieuw
KeywordRecognizer
object en API's die worden ondersteund op Windows-, Android-, Linux- en iOS-platforms. Lees hier de documentatie. Zie de sectie Voorbeelden hieronder voor voorbeeldcode. - Java: Gesprek met meerdere apparaten toegevoegd met vertaalondersteuning. Zie het referentiedocument hier.
Verbeteringen en optimalisaties
- JavaScript: De implementatie van de geoptimaliseerde browsermicrofoon verbetert de nauwkeurigheid van spraakherkenning.
- Java: Gerestructureerde bindingen met behulp van directe JNI-implementatie zonder SWIG. Deze wijziging vermindert met 10x de bindingengrootte voor alle Java-pakketten die worden gebruikt voor Windows, Android, Linux en Mac en vereenvoudigt de verdere ontwikkeling van de Java-implementatie van de Speech SDK.
- Linux: ondersteuningsdocumentatie bijgewerkt met de nieuwste specifieke RHEL 7-notities.
- Verbeterde verbindingslogica om meerdere keren verbinding te maken wanneer service- en netwerkfouten optreden.
- De pagina portal.azure.com Speech-quickstart bijgewerkt om ontwikkelaars te helpen de volgende stap in het Azure AI Speech-traject uit te voeren.
Bugfixes
- C#, Java: Er is een probleem opgelost met het laden van SDK-bibliotheken in Linux ARM (zowel 32-bits als 64-bits).
- C#: Expliciete verwijdering van systeemeigen ingangen voor TranslationRecognizer, IntentRecognizer en Verbindingsobjecten opgelost.
- C#: Vast levensduurbeheer voor audio-invoer voor ConversationTranscriber-object.
- Er is een probleem opgelost waarbij
IntentRecognizer
de resultaatreden niet goed werd ingesteld bij het herkennen van intenties uit eenvoudige woordgroepen. - Er is een probleem opgelost waarbij
SpeechRecognitionEventArgs
resultaatverschil niet correct werd ingesteld. - Er is een racevoorwaarde opgelost waarbij SDK een netwerkbericht probeerde te verzenden voordat de websocket-verbinding werd geopend. Was reproduceerbaar voor
TranslationRecognizer
het toevoegen van deelnemers. - Er zijn geheugenlekken opgelost in de engine voor trefwoordherkenning.
Voorbeelden
- Go: Quickstarts toegevoegd voor spraakherkenning en aangepaste spraakassistent. Hier vindt u voorbeeldcode.
- JavaScript: quickstarts toegevoegd voor tekst-naar-spraak-, vertaling- en intentieherkenning.
- Voorbeelden van trefwoordherkenning voor C# en Java (Android).
COVID-19 verkorte tests
Omdat we de afgelopen weken op afstand werken, konden we niet zoveel handmatige verificatietests uitvoeren als normaal. We hebben geen wijzigingen aangebracht die we denken te hebben verbroken, en onze geautomatiseerde tests zijn allemaal geslaagd. Als we iets hebben gemist, laat het ons dan weten op GitHub.
Blijf gezond!
Speech SDK 1.11.0: release van 2020-maart
Nieuwe functies
- Linux: ondersteuning toegevoegd voor Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: ondersteuning toegevoegd voor .NET Core C# in Linux ARM32 en Arm64. Meer informatie is hier beschikbaar.
- C#, C++: Toegevoegd
UtteranceId
aanConversationTranscriptionResult
, een consistente id voor alle tussenliggende en uiteindelijke spraakherkenningsresultaten. Details voor C#, C++. - Python: ondersteuning toegevoegd voor
Language ID
. Zie speech_sample.py in de GitHub-opslagplaats. - Windows: ondersteuning voor gecomprimeerde audio-invoerindeling toegevoegd op het Windows-platform voor alle win32-consoletoepassingen. Details hier.
- JavaScript: ondersteuning voor spraaksynthese (tekst-naar-spraak) in NodeJS. U vindt hier meer informatie.
- JavaScript: voeg nieuwe API's toe om inspectie van alle verzonden en ontvangen berichten mogelijk te maken. U vindt hier meer informatie.
Bugfixes
- C#, C++: er is een probleem opgelost, waardoor
SendMessageAsync
nu binair bericht wordt verzonden als binair type. Details voor C#, C++. - C#, C++: er is een probleem opgelost waarbij het gebruik van
Connection MessageReceived
een gebeurtenis crash kan veroorzaken alsRecognizer
het object wordt verwijderd voordatConnection
het object wordt verwijderd. Details voor C#, C++. - Android: De grootte van de audiobuffer van de microfoon is afgenomen van 800 ms tot 100 ms om de latentie te verbeteren.
- Android: Er is een probleem opgelost met x86 Android Emulator in Android Studio.
- JavaScript: ondersteuning toegevoegd voor regio's in China met de
fromSubscription
API. Details hier. - JavaScript: Voeg meer foutinformatie toe voor verbindingsfouten vanuit NodeJS.
Voorbeelden
- Unity: Openbare sample van intentieherkenning is opgelost, waarbij het importeren van LUIS json mislukt. Details hier.
- Python: Voorbeeld toegevoegd voor
Language ID
. Details hier.
Covid19 verkorte tests: omdat we de afgelopen weken op afstand werken, konden we niet zoveel handmatige tests voor apparaatverificatie uitvoeren als normaal. We kunnen bijvoorbeeld geen microfooninvoer en luidsprekeruitvoer testen in Linux, iOS en macOS. We hebben geen wijzigingen aangebracht die we denken te hebben verbroken op deze platforms en onze geautomatiseerde tests zijn allemaal geslaagd. In het onwaarschijnlijke geval dat we iets hebben gemist, laat het ons dan weten op GitHub.
Bedankt voor uw voortdurende ondersteuning. Zoals altijd kunt u vragen of feedback posten op GitHub of Stack Overflow.
Blijf gezond!
Speech SDK 1.10.0: release van 2020-februari
Nieuwe functies
- Python-pakketten toegevoegd ter ondersteuning van de nieuwe 3.8-versie van Python.
- Red Hat Enterprise Linux (RHEL)/CentOS 8 x64-ondersteuning (C++, C#, Java, Python).
Notitie
Klanten moeten OpenSSL configureren volgens deze instructies.
- Linux ARM32-ondersteuning voor Debian en Ubuntu.
- DialogServiceConnector ondersteunt nu een optionele parameter 'bot-id' in BotFrameworkConfig. Met deze parameter kunt u meerdere Direct Line Speech-bots gebruiken met één Spraak-resource. Zonder de opgegeven parameter wordt de standaardbot (zoals bepaald door de configuratiepagina van het Direct Line Speech-kanaal) gebruikt.
- DialogServiceConnector heeft nu een eigenschap SpeechActivityTemplate. De inhoud van deze JSON-tekenreeks wordt gebruikt door Direct Line Speech om een groot aantal ondersteunde velden vooraf in te vullen in alle activiteiten die een Direct Line Speech-bot bereiken, inclusief activiteiten die automatisch worden gegenereerd als reactie op gebeurtenissen zoals spraakherkenning.
- TTS maakt nu gebruik van abonnementssleutel voor verificatie, waardoor de eerste bytelatentie van het eerste syntheseresultaat na het maken van een synthesizer wordt verminderd.
- Bijgewerkte spraakherkenningsmodellen voor 19 landinstellingen voor een gemiddelde foutpercentage van 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). De nieuwe modellen brengen aanzienlijke verbeteringen in meerdere domeinen met zich mee, waaronder dicteren, callcentertranscriptie en video-indexeringsscenario's.
Bugfixes
- Er is een fout opgelost waarbij gesprekstranscriber niet goed in JAVA-API's wachtte
- Probleem met Android x86-emulator voor Xamarin GitHub
- Ontbrekend toevoegen (Ophalen|Eigenschapsmethoden instellen op AudioConfig
- Er is een TTS-fout opgelost waarbij de audioDataStream niet kon worden gestopt wanneer de verbinding mislukt
- Het gebruik van een eindpunt zonder een regio veroorzaakt USP-fouten voor de gespreksvertaler
- Id-generatie in Universele Windows-toepassingen maakt nu gebruik van een correct uniek GUID-algoritme; voorheen en onbedoeld standaard een gestobbelde implementatie die vaak conflicten veroorzaakten via grote sets interacties.
Voorbeelden
- Unity-voorbeeld voor het gebruik van Speech SDK met Unity-microfoon en pushmodusstreaming
Andere wijzigingen
Speech SDK 1.9.0: release van 2020-januari
Nieuwe functies
- Gesprek met meerdere apparaten: verbind meerdere apparaten met hetzelfde spraak- of tekstgesprek en vertaal eventueel berichten die ertussen worden verzonden. Meer informatie vindt u in dit artikel.
- Ondersteuning voor trefwoordherkenning toegevoegd voor Android-pakket
.aar
en ondersteuning toegevoegd voor x86- en x64-smaken. - Objective-C:
SendMessage
enSetMessageProperty
methoden toegevoegd aanConnection
object. Zie de documentatie hier. - TTS C++ api ondersteunt
std::wstring
nu als synthesetekstinvoer, waardoor het niet meer nodig is om een wstring te converteren naar tekenreeks voordat deze wordt doorgegeven aan de SDK. Hier vindt u meer informatie. - C#: Taal-id en brontaalconfiguratie zijn nu beschikbaar.
- JavaScript: Er is een functie toegevoegd aan
Connection
het object om aangepaste berichten van de Speech-service door te geven als callbackreceivedServiceMessage
. - JavaScript: ondersteuning toegevoegd voor
FromHost API
gebruiksgemak met on-premises containers en onafhankelijke clouds. Zie de documentatie hier. - JavaScript: We honoreren
NODE_TLS_REJECT_UNAUTHORIZED
nu dankzij een bijdrage van orgads. Hier vindt u meer informatie.
Belangrijke wijzigingen
OpenSSL
is bijgewerkt naar versie 1.1.1b en is statisch gekoppeld aan de Speech SDK-kernbibliotheek voor Linux. Dit kan leiden tot een onderbreking als uw PostvakOpenSSL
IN niet is geïnstalleerd in de/usr/lib/ssl
map in het systeem. Raadpleeg onze documentatie onder Speech SDK-documenten om het probleem te omzeilen.- We hebben het geretourneerde gegevenstype voor C#
WordLevelTimingResult.Offset
int
gewijzigd omlong
toegang teWordLevelTimingResults
verlenen tot wanneer spraakgegevens langer zijn dan 2 minuten. PushAudioInputStream
enPullAudioInputStream
verzend nu wav-headergegevens naar de Speech-service opAudioStreamFormat
basis van , optioneel opgegeven toen ze zijn gemaakt. Klanten moeten nu de ondersteunde audio-invoerindeling gebruiken. Andere indelingen krijgen suboptimale herkenningsresultaten of kunnen andere problemen veroorzaken.
Bugfixes
- Zie de
OpenSSL
update onder Wijzigingen die fouten veroorzaken hierboven. We hebben zowel een onregelmatige crash als een prestatieprobleem (conflicten vergrendelen onder hoge belasting) in Linux en Java opgelost. - Java: Verbeterde objectsluiting in scenario's met hoge gelijktijdigheid.
- Het NuGet-pakket is geherstructureerd. We hebben de drie kopieën van
Microsoft.CognitiveServices.Speech.core.dll
enMicrosoft.CognitiveServices.Speech.extension.kws.dll
onder lib-mappen verwijderd, waardoor het NuGet-pakket kleiner en sneller te downloaden is en we hebben headers toegevoegd die nodig zijn om enkele systeemeigen C++-apps te compileren. - Hier zijn snelstartvoorbeelden opgelost. Deze zijn afgesloten zonder de uitzondering 'microfoon niet gevonden' weer te geven in Linux, macOS, Windows.
- Er is een oplossing gevonden voor het vastlopen van SDK met lange spraakherkenningsresultaten op bepaalde codepaden zoals dit voorbeeld.
- Er is een sdk-implementatiefout opgelost in de Azure Web App-omgeving om dit probleem van de klant op te lossen.
- Er is een TTS-fout opgelost tijdens het gebruik van meerdere
<voice>
tags of<audio>
tags om dit probleem van de klant op te lossen. - Er is een TTS 401-fout opgelost wanneer de SDK is hersteld van onderbroken.
- JavaScript: Er is een circulaire import van audiogegevens opgelost dankzij een bijdrage van euirim.
- JavaScript: ondersteuning toegevoegd voor het instellen van service-eigenschappen, zoals toegevoegd in 1.7.
- JavaScript: er is een probleem opgelost waarbij een verbindingsfout kon leiden tot continue, mislukte pogingen om opnieuw verbinding te maken met websocket.
Voorbeelden
- Voorbeeld van trefwoordherkenning toegevoegd voor Android hier.
- TTS-voorbeeld toegevoegd voor het serverscenario hier.
- Hier zijn quickstarts voor gesprekken met meerdere apparaten toegevoegd voor C# en C++.
Andere wijzigingen
- Geoptimaliseerde SDK-kernbibliotheekgrootte op Android.
- SDK in 1.9.0 en hoger ondersteunt zowel
int
string
als typen in het veld voice signature-versie voor gesprekstranscriber.
Speech SDK 1.8.0: release van 2019-november
Nieuwe functies
- Er is een
FromHost()
API toegevoegd voor gebruiksgemak met on-premises containers en onafhankelijke clouds. - Brontaalidentificatie toegevoegd voor spraakherkenning (in Java en C++)
- Object
SourceLanguageConfig
toegevoegd voor Spraakherkenning, gebruikt om verwachte brontalen op te geven (in Java en C++) - Ondersteuning toegevoegd
KeywordRecognizer
voor Windows (UWP), Android en iOS via de NuGet- en Unity-pakketten - Java-API voor externe gesprekken toegevoegd om gesprektranscriptie uit te voeren in asynchrone batches.
Belangrijke wijzigingen
- Functies voor gesprekstranscriber zijn verplaatst onder naamruimte
Microsoft.CognitiveServices.Speech.Transcription
. - Onderdelen van de methoden gesprekstranscriber worden verplaatst naar een nieuwe
Conversation
klasse. - Verwijderde ondersteuning voor 32-bits iOS (ARMv7 en x86)
Bugfixes
- Oplossing voor vastlopen als lokaal
KeywordRecognizer
wordt gebruikt zonder een geldige abonnementssleutel voor de Speech-service
Voorbeelden
- Xamarin-voorbeeld voor
KeywordRecognizer
- Unity-voorbeeld voor
KeywordRecognizer
- C++ en Java-voorbeelden voor automatische brontaalidentificatie.
Speech SDK 1.7.0: release van 2019-september
Nieuwe functies
- Bèta-ondersteuning toegevoegd voor Xamarin op Universeel Windows-platform (UWP), Android en iOS
- iOS-ondersteuning toegevoegd voor Unity
- Invoerondersteuning toegevoegd
Compressed
voor ALaw, Mulaw, FLAC, op Android, iOS en Linux - Toegevoegd
SendMessageAsync
inConnection
klasse voor het verzenden van een bericht naar service - Toegevoegd
SetMessageProperty
inConnection
klasse voor het instellen van de eigenschap van een bericht - TTS heeft bindingen toegevoegd voor Java (JRE en Android), Python, Swift en Objective-C
- TTS heeft ondersteuning toegevoegd voor afspelen voor macOS, iOS en Android.
- Informatie over 'woordgrens' toegevoegd voor TTS.
Bugfixes
- Probleem met IL2CPP-build opgelost in Unity 2019 voor Android
- Probleem opgelost waarbij ongeldige headers in wav-bestandsinvoer onjuist werden verwerkt
- Probleem opgelost waarbij UUID's niet uniek waren in sommige verbindingseigenschappen
- Er zijn enkele waarschuwingen over null-abilityaanduidingen in de Swift-bindingen opgelost (mogelijk zijn kleine codewijzigingen vereist)
- Er is een fout opgelost waardoor websocket-verbindingen geforceerd onder netwerkbelasting gesloten waren
- Er is een probleem opgelost in Android dat soms resulteert in dubbele indruk-id's die worden gebruikt door
DialogServiceConnector
- Verbeteringen in de stabiliteit van verbindingen tussen interacties met meerdere bochten en het rapporteren van fouten (via
Canceled
gebeurtenissen) wanneer ze optreden metDialogServiceConnector
DialogServiceConnector
sessie wordt nu op de juiste manier geleverd, ook wanneer er wordt gebeldListenOnceAsync()
tijdens een actieveStartKeywordRecognitionAsync()
- Een crash opgelost die
DialogServiceConnector
is gekoppeld aan activiteiten die worden ontvangen
Voorbeelden
- Quickstart voor Xamarin
- CPP-quickstart bijgewerkt met Linux Arm64-informatie
- Bijgewerkte Unity-quickstart met iOS-informatie
Speech SDK 1.6.0: release van 2019-juni
Voorbeelden
- Quickstartvoorbeelden voor Text To Speech op UWP en Unity
- Snelstartvoorbeeld voor Swift in iOS
- Unity-voorbeelden voor spraak- en intentieherkenning en -vertaling
- Bijgewerkte quickstartvoorbeelden voor
DialogServiceConnector
Verbeteringen/wijzigingen
- Dialoogvensternaamruimte:
- De naam van
SpeechBotConnector
is gewijzigd inDialogServiceConnector
- De naam van
BotConfig
is gewijzigd inDialogServiceConfig
BotConfig::FromChannelSecret()
is opnieuw toegewezen aanDialogServiceConfig::FromBotSecret()
- Alle bestaande Direct Line Speech-clients worden nog steeds ondersteund na de naamswijziging
- De naam van
- TTS REST-adapter bijwerken ter ondersteuning van proxy, permanente verbinding
- Foutbericht verbeteren wanneer een ongeldige regio wordt doorgegeven
- Swift/Objective-C:
- Verbeterde foutrapportage: methoden die kunnen resulteren in een fout zijn nu aanwezig in twee versies: een die een
NSError
object beschikbaar maakt voor foutafhandeling en een methode die een uitzondering genereert. De voormalige zijn blootgesteld aan Swift. Deze wijziging vereist aanpassingen aan bestaande Swift-code. - Verbeterde verwerking van gebeurtenissen
- Verbeterde foutrapportage: methoden die kunnen resulteren in een fout zijn nu aanwezig in twee versies: een die een
Bugfixes
- Oplossing voor TTS: waarbij
SpeakTextAsync
de toekomst wordt geretourneerd zonder te wachten totdat het weergeven van audio is voltooid - Oplossing voor marshalingtekenreeksen in C# om volledige taalondersteuning in te schakelen
- Oplossing voor probleem met .NET Core-apps voor het laden van de kernbibliotheek met net461-doelframework in voorbeelden
- Oplossing voor incidentele problemen bij het implementeren van systeemeigen bibliotheken in de uitvoermap in voorbeelden
- Oplossing voor het sluiten van websockets op betrouwbare wijze
- Oplossing voor mogelijk vastlopen tijdens het openen van een verbinding onder zware belasting in Linux
- Oplossing voor ontbrekende metagegevens in de frameworkbundel voor macOS
- Oplossing voor problemen met
pip install --user
Windows
Speech SDK 1.5.1
Dit is een foutoplossing die alleen van invloed is op de systeemeigen/beheerde SDK. Dit heeft geen invloed op de JavaScript-versie van de SDK.
Bugfixes
- Los FromSubscription op wanneer deze wordt gebruikt met gesprektranscriptie.
- Er is een fout opgelost bij trefwoordspotting voor spraakassistenten.
Speech SDK 1.5.0: release van 2019-mei
Nieuwe functies
- KwS (Trefwoordspotting) is nu beschikbaar voor Windows en Linux. KWS-functionaliteit kan werken met elk microfoontype, officiële KWS-ondersteuning, maar is momenteel beperkt tot de microfoonmatrices die zijn gevonden in de Azure Kinect DK-hardware of de Speech Devices SDK.
- De zinshintfunctionaliteit is beschikbaar via de SDK. Zie voor meer informatie hier.
- De functionaliteit voor gesprektranscriptie is beschikbaar via de SDK.
- Voeg ondersteuning toe voor Spraakassistenten met behulp van het Direct Line Speech-kanaal.
Voorbeelden
- Voorbeelden toegevoegd voor nieuwe functies of nieuwe services die worden ondersteund door de SDK.
Verbeteringen/wijzigingen
- Verschillende recognizer-eigenschappen toegevoegd om servicegedrag of serviceresultaten aan te passen (zoals maskering van grof taalgebruik en andere).
- U kunt de recognizer nu configureren via de standaardconfiguratie-eigenschappen, zelfs als u de recognizer
FromEndpoint
hebt gemaakt. - Objective-C:
OutputFormat
eigenschap is toegevoegd aanSPXSpeechConfiguration
. - De SDK ondersteunt nu Debian 9 als Linux-distributie.
Bugfixes
- Er is een probleem opgelost waarbij de sprekerresource te vroeg in tekst naar spraak werd gedestructeerd.
Speech SDK 1.4.2
Dit is een foutoplossing die alleen van invloed is op de systeemeigen/beheerde SDK. Dit heeft geen invloed op de JavaScript-versie van de SDK.
Speech SDK 1.4.1
Dit is een alleen-JavaScript-versie. Er zijn geen functies toegevoegd. De volgende correcties zijn aangebracht:
- Voorkomen dat webpack https-proxy-agent laadt.
Speech SDK 1.4.0: release van 2019-april
Nieuwe functies
- De SDK biedt nu ondersteuning voor de Text to Speech-service als bètaversie. Het wordt ondersteund in Windows en Linux Desktop vanuit C++ en C#. Raadpleeg het overzicht van tekst naar spraak voor meer informatie.
- De SDK biedt nu ondersteuning voor MP3- en Opus-/MSP-audiobestanden als invoerbestanden voor stromen. Deze functie is alleen beschikbaar in Linux vanuit C++ en C# en is momenteel beschikbaar in de bètaversie (hier vindt u meer informatie).
- De Speech SDK voor Java, .NET Core, C++ en Objective-C heeft macOS-ondersteuning gekregen. De Objective-C-ondersteuning voor macOS is momenteel in bètaversie.
- iOS: De Speech SDK voor iOS (Objective-C) is nu ook gepubliceerd als een CocoaPod.
- JavaScript: ondersteuning voor niet-standaardmicrofoon als invoerapparaat.
- JavaScript: proxyondersteuning voor Node.js.
Voorbeelden
- Voorbeelden voor het gebruik van de Speech SDK met C++ en objective-C in macOS zijn toegevoegd.
- Voorbeelden waarin het gebruik van de tekst-naar-spraakservice wordt gedemonstreerd, zijn toegevoegd.
Verbeteringen/wijzigingen
- Python: Aanvullende eigenschappen van herkenningsresultaten worden nu weergegeven via de
properties
eigenschap. - Voor aanvullende ondersteuning voor ontwikkeling en foutopsporing kunt u SDK-logboekregistratie en diagnostische gegevens omleiden naar een logboekbestand (hier vindt u meer informatie).
- JavaScript: de prestaties van audioverwerking verbeteren.
Bugfixes
- Mac/iOS: Een fout die heeft geleid tot een lange wachttijd wanneer er geen verbinding met de Speech-service tot stand kon worden gebracht, is opgelost.
- Python: foutafhandeling verbeteren voor argumenten in Python-callbacks.
- JavaScript: foute statusrapportage voor spraak is beëindigd op RequestSession.
Speech SDK 1.3.1: vernieuwing van 2019-februari
Dit is een foutoplossing die alleen van invloed is op de systeemeigen/beheerde SDK. Dit heeft geen invloed op de JavaScript-versie van de SDK.
Opgeloste fout
- Er is een geheugenlek opgelost bij het gebruik van microfooninvoer. Stroom- of bestandsinvoer wordt niet beïnvloed.
Speech SDK 1.3.0: release van 2019-februari
Nieuwe functies
- De Speech SDK ondersteunt het selecteren van de invoermicrofoon via de
AudioConfig
klasse. Hiermee kunt u audiogegevens streamen naar de Speech-service vanaf een niet-standaardmicrofoon. Zie de documentatie waarin de selectie van audio-invoerapparaten wordt beschreven voor meer informatie. Deze functie is nog niet beschikbaar via JavaScript. - De Speech SDK biedt nu ondersteuning voor Unity in een bètaversie. Geef feedback via de sectie probleem in de GitHub-voorbeeldopslagplaats. Deze release ondersteunt Unity op Windows x86 en x64 (desktop- of Universeel Windows-platform-toepassingen) en Android (ARM32/64, x86). Meer informatie is beschikbaar in onze Unity-quickstart.
- Het bestand
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(verzonden in eerdere releases) is niet meer nodig. De functionaliteit is nu geïntegreerd in de kern-SDK.
Voorbeelden
De volgende nieuwe inhoud is beschikbaar in onze voorbeeldopslagplaats:
- Aanvullende voorbeelden voor
AudioConfig.FromMicrophoneInput
. - Aanvullende Python-voorbeelden voor intentieherkenning en vertaling.
- Aanvullende voorbeelden voor het gebruik van het
Connection
object in iOS. - Aanvullende Java-voorbeelden voor vertaling met audio-uitvoer.
- Nieuw voorbeeld voor gebruik van de REST API voor BatchTranscriptie.
Verbeteringen/wijzigingen
- Python
- Verbeterde parameterverificatie en foutberichten in
SpeechConfig
. - Voeg ondersteuning toe voor het
Connection
object. - Ondersteuning voor 32-bits Python (x86) in Windows.
- De Speech SDK voor Python is niet beschikbaar in de bètaversie.
- Verbeterde parameterverificatie en foutberichten in
- Ios
- De SDK is nu gebouwd op basis van de iOS SDK versie 12.1.
- De SDK ondersteunt nu iOS-versies 9.2 en hoger.
- Verbeter de referentiedocumentatie en corrik verschillende eigenschapsnamen.
- JavaScript
- Voeg ondersteuning toe voor het
Connection
object. - Typedefinitiebestanden toevoegen voor gebundelde JavaScript
- Initiële ondersteuning en implementatie voor woordgroepenhints.
- Verzameling eigenschappen retourneren met service-JSON voor herkenning
- Voeg ondersteuning toe voor het
- Windows-DLL's bevatten nu een versieresource.
- Als u een recognizer
FromEndpoint
maakt, kunt u parameters rechtstreeks toevoegen aan de eindpunt-URL. UFromEndpoint
kunt de recognizer niet configureren via de standaardconfiguratie-eigenschappen.
Bugfixes
- Lege proxygebruikersnaam en proxywachtwoord zijn niet correct verwerkt. Als u in deze release een proxy-gebruikersnaam en proxywachtwoord instelt op een lege tekenreeks, worden deze niet verzonden wanneer u verbinding maakt met de proxy.
- SessionId's die door de SDK zijn gemaakt, waren niet altijd echt willekeurig voor sommige talen/omgevingen. Er is een initialisatie van willekeurige generator toegevoegd om dit probleem op te lossen.
- De verwerking van autorisatietoken verbeteren. Als u een autorisatietoken wilt gebruiken, geeft u de
SpeechConfig
abonnementssleutel op en laat u deze leeg. Maak vervolgens de recognizer zoals gebruikelijk. - In sommige gevallen is het
Connection
object niet correct vrijgegeven. Dit probleem is opgelost. - Het JavaScript-voorbeeld is opgelost ter ondersteuning van audio-uitvoer voor omzettingssynthese ook in Safari.
Speech SDK 1.2.1
Dit is een alleen-JavaScript-versie. Er zijn geen functies toegevoegd. De volgende correcties zijn aangebracht:
- Brand het einde van de stroom op turn.end, niet bij speech.end.
- Probleem opgelost in de audiopomp die niet de volgende verzendplanning heeft gepland als de huidige verzendfout is mislukt.
- Herstel continue herkenning met verificatietoken.
- Opgeloste fout voor verschillende recognizer/eindpunten.
- Documentatieverbeteringen.
Speech SDK 1.2.0: release van 2018-december
Nieuwe functies
- Python
- De bètaversie van Python-ondersteuning (3.5 en hoger) is beschikbaar in deze release. Voor meer informatie, zie hier](.. /.. /quickstart-python.md).
- JavaScript
Connection
object- Vanuit de
Recognizer
pagina hebt u toegang tot eenConnection
object. Met dit object kunt u de serviceverbinding expliciet initiëren en u abonneren op verbinding maken en de verbinding verbreken. (Deze functie is nog niet beschikbaar via JavaScript en Python.)
- Vanuit de
- Ondersteuning voor Ubuntu 18.04.
- Android
- Ingeschakelde ProGuard-ondersteuning tijdens het genereren van apk's.
Verbeteringen
- Verbeteringen in het interne threadgebruik, waardoor het aantal threads, vergrendelingen en mutexes wordt verminderd.
- Verbeterde foutrapportage/informatie. In verschillende gevallen zijn foutberichten niet helemaal doorgegeven.
- Bijgewerkte ontwikkelingsafhankelijkheden in JavaScript om up-to-date modules te gebruiken.
Bugfixes
- Er zijn geheugenlekken opgelost als gevolg van een type dat niet overeenkomt in
RecognizeAsync
. - In sommige gevallen werden uitzonderingen gelekt.
- Geheugenlek herstellen in gebeurtenisargumenten voor vertaling.
- Er is een vergrendelingsprobleem opgelost bij opnieuw verbinding maken in langdurige sessies.
- Er is een probleem opgelost waardoor het uiteindelijke resultaat voor mislukte vertalingen kon ontbreken.
- C#: Als een
async
bewerking niet in de hoofdthread werd verwacht, was het mogelijk dat de recognizer kan worden verwijderd voordat de asynchrone taak werd voltooid. - Java: Er is een probleem opgelost waardoor de Java-VM vastloopt.
- Objective-C: vaste opsommingstoewijzing; RecognizedIntent is geretourneerd in plaats van
RecognizingIntent
. - JavaScript: standaarduitvoerindeling instellen op 'eenvoudig' in
SpeechConfig
. - JavaScript: inconsistentie tussen eigenschappen in het configuratieobject in JavaScript en andere talen verwijderen.
Voorbeelden
- Verschillende voorbeelden bijgewerkt en opgelost (bijvoorbeeld uitvoerstemmen voor vertaling, enzovoort).
- Er zijn Node.js voorbeelden toegevoegd in de voorbeeldopslagplaats.
Speech SDK 1.1.0
Nieuwe functies
- Ondersteuning voor Android x86/x64.
- Proxyondersteuning: In het
SpeechConfig
object kunt u nu een functie aanroepen om de proxygegevens (hostnaam, poort, gebruikersnaam en wachtwoord) in te stellen. Deze functie is nog niet beschikbaar in iOS. - Verbeterde foutcode en berichten. Als een herkenning een fout heeft geretourneerd, is dit al ingesteld
Reason
(in geannuleerde gebeurtenis) ofCancellationDetails
(in herkenningsresultaat) opError
. De geannuleerde gebeurtenis bevat nu twee extra leden enErrorCode
ErrorDetails
. Als de server aanvullende foutinformatie heeft geretourneerd met de gemelde fout, is deze nu beschikbaar in de nieuwe leden.
Verbeteringen
- Extra verificatie toegevoegd in de configuratie van de recognizer en extra foutbericht toegevoegd.
- Verbeterde verwerking van langdurige stilte in het midden van een audiobestand.
- NuGet-pakket: voor .NET Framework-projecten voorkomt het bouwen met AnyCPU-configuratie.
Bugfixes
- Er zijn verschillende uitzonderingen opgelost die zijn gevonden in recognizers. Daarnaast worden uitzonderingen gevangen en geconverteerd naar
Canceled
gebeurtenis. - Herstel een geheugenlek in eigenschapsbeheer.
- Er is een fout opgelost waarbij een audio-invoerbestand de recognizer kon vastlopen.
- Er is een fout opgelost waarbij gebeurtenissen konden worden ontvangen na een sessiestopgebeurtenis.
- Bepaalde raceomstandigheden in threading opgelost.
- Er is een iOS-compatibiliteitsprobleem opgelost dat kan leiden tot een crash.
- Stabiliteitsverbeteringen voor android-microfoonondersteuning.
- Er is een fout opgelost waarbij een recognizer in JavaScript de herkenningstaal negeerde.
- Er is een fout opgelost waardoor de
EndpointId
(in sommige gevallen) niet in JavaScript werd ingesteld. - Parametervolgorde gewijzigd in AddIntent in JavaScript en ontbrekende
AddIntent
JavaScript-handtekening toegevoegd.
Voorbeelden
- C++- en C#-voorbeelden toegevoegd voor het gebruik van pull- en pushstreams in de voorbeeldopslagplaats.
Speech SDK 1.0.1
Betrouwbaarheidsverbeteringen en oplossingen voor fouten:
- Mogelijke fatale fout opgelost vanwege racevoorwaarde in disponeren recognizer
- Er is een mogelijke fatale fout opgelost bij het ongedaan maken van eigenschappen.
- Extra fout- en parametercontrole toegevoegd.
- Objective-C: Er is een mogelijke fatale fout opgelost die is veroorzaakt door het overschrijven van de naam in NSString.
- Objective-C: Aangepaste zichtbaarheid van API
- JavaScript: Opgelost met betrekking tot gebeurtenissen en hun nettoladingen.
- Documentatieverbeteringen.
In onze voorbeeldopslagplaats is een nieuw voorbeeld voor JavaScript toegevoegd.
Azure AI Speech SDK 1.0.0: release van 2018-september
Nieuwe functies
- Ondersteuning voor Objective-C in iOS. Bekijk onze Objective-C-quickstart voor iOS.
- Ondersteuning voor JavaScript in de browser. Bekijk onze JavaScript-quickstart.
Belangrijke wijzigingen
- In deze release worden een aantal belangrijke wijzigingen geïntroduceerd. Controleer deze pagina voor meer informatie.
Azure AI Speech SDK 0.6.0: release van 2018-augustus
Nieuwe functies
- UWP-apps die zijn gebouwd met de Speech SDK, kunnen nu de Windows App Certification Kit (WACK) doorgeven. Bekijk de quickstart voor UWP.
- Ondersteuning voor .NET Standard 2.0 op Linux (Ubuntu 16.04 x64).
- Experimenteel: Ondersteuning voor Java 8 op Windows (64-bits) en Linux (Ubuntu 16.04 x64). Bekijk de quickstart voor Java Runtime Environment.
Functionele wijziging
- Aanvullende informatie over foutdetails weergeven over verbindingsfouten.
Belangrijke wijzigingen
- Voor Java (Android) is voor de
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
functie geen padparameter meer vereist. Het pad wordt nu automatisch gedetecteerd op alle ondersteunde platforms. - De get-accessor van de eigenschap
EndpointUrl
in Java en C# is verwijderd.
Bugfixes
- In Java wordt het audiosyntheseresultaat op de vertaalherkenning nu geïmplementeerd.
- Er is een fout opgelost die inactieve threads en een verhoogd aantal geopende en ongebruikte sockets kon veroorzaken.
- Er is een probleem opgelost waarbij een langlopende herkenning in het midden van de transmissie kon worden beëindigd.
- Er is een racevoorwaarde opgelost bij het afsluiten van de recognizer.
Azure AI Speech SDK 0.5.0: release van 2018-juli
Nieuwe functies
- Ondersteuning voor Android-platform (API 23: Android 6.0 Marshmallow of hoger). Bekijk de Snelstartgids voor Android.
- Ondersteuning voor .NET Standard 2.0 in Windows. Bekijk de quickstart voor .NET Core.
- Experimenteel: Ondersteuning voor UWP in Windows (versie 1709 of hoger).
- Bekijk de quickstart voor UWP.
- Houd er rekening mee dat UWP-apps die zijn gebouwd met de Speech SDK nog niet voldoen aan de Windows App Certification Kit (WACK).
- Ondersteuning voor langdurige herkenning met automatische opnieuw verbinding maken.
Functionele wijzigingen
StartContinuousRecognitionAsync()
ondersteunt langdurige herkenning.- Het herkenningsresultaat bevat meer velden. Ze worden verschoven van het begin en de duur van het geluid (zowel in tikken) van de herkende tekst als extra waarden die de herkenningsstatus vertegenwoordigen, bijvoorbeeld
InitialSilenceTimeout
enInitialBabbleTimeout
. - Ondersteuning voor AuthorizationToken voor het maken van factory-exemplaren.
Belangrijke wijzigingen
- Herkenningsgebeurtenissen:
NoMatch
gebeurtenistype is samengevoegd in deError
gebeurtenis. - SpeechOutputFormat in C# is hernoemd om
OutputFormat
afgestemd te blijven op C++. - Het retourtype van sommige methoden van de
AudioInputStream
interface is enigszins gewijzigd:- In Java retourneert
long
deread
methode nu in plaats vanint
. - In C# retourneert
uint
deRead
methode nu in plaats vanint
. - In C++worden de
Read
enGetFormat
methoden nu geretourneerdsize_t
in plaats vanint
.
- In Java retourneert
- C++: Exemplaren van audio-invoerstromen kunnen nu alleen worden doorgegeven als een
shared_ptr
.
Bugfixes
- Er zijn onjuiste retourwaarden in het resultaat opgelost wanneer er een time-out
RecognizeAsync()
optreedt. - De afhankelijkheid van mediabasisbibliotheken in Windows is verwijderd. De SDK maakt nu gebruik van Core Audio-API's.
- Oplossing voor documentatie: Er is een regiopagina toegevoegd om de ondersteunde regio's te beschrijven.
Bekend probleem
- De Speech SDK voor Android rapporteert geen resultaten van spraaksynthese voor vertaling. Dit probleem wordt opgelost in de volgende release.
Azure AI Speech SDK 0.4.0: release van 2018-juni
Functionele wijzigingen
AudioInputStream
Een recognizer kan nu een stream gebruiken als de audiobron. Zie de bijbehorende handleiding voor meer informatie.
Gedetailleerde uitvoerindeling
Wanneer u een
SpeechRecognizer
indeling maakt, kunt u de indeling aanvragenDetailed
ofSimple
uitvoeren. DeDetailedSpeechRecognitionResult
bevat een betrouwbaarheidsscore, herkende tekst, onbewerkte lexicale vorm, genormaliseerde vorm en genormaliseerde vorm met gemaskeerde grof taalgebruik.
Wijziging die fouten veroorzaken
SpeechRecognitionResult.Text
Gewijzigd in vanSpeechRecognitionResult.RecognizedText
in C#.
Bugfixes
- Er is een mogelijk callbackprobleem opgelost in de USP-laag tijdens het afsluiten.
- Als een recognizer een audio-invoerbestand gebruikte, hield het langer dan nodig vast aan de bestandsgreep.
- Er zijn verschillende impasses tussen de berichtpomp en de herkenning verwijderd.
- Er wordt een resultaat geactiveerd wanneer er een
NoMatch
time-out optreedt voor het antwoord van de service. - De mediabasisbibliotheken in Windows worden vertraagd geladen. Deze bibliotheek is alleen vereist voor microfooninvoer.
- De uploadsnelheid voor audiogegevens is beperkt tot ongeveer twee keer de oorspronkelijke audiosnelheid.
- In Windows zijn C# .NET-assembly's nu sterk benoemd.
- Oplossing voor documentatie:
Region
is vereiste informatie voor het maken van een recognizer.
Er zijn meer voorbeelden toegevoegd en worden voortdurend bijgewerkt. Zie de GitHub-opslagplaats met Speech SDK-voorbeelden voor de nieuwste set voorbeelden.
Azure AI Speech SDK 0.2.12733: release van 2018-mei
Deze release is de eerste openbare preview-versie van de Azure AI Speech SDK.