Co nowego w usłudze Azure AI Speech?
Usługa Azure AI Speech jest aktualizowana w sposób ciągły. Aby być na bieżąco z najnowszymi wydarzeniami, ten artykuł zawiera informacje o nowych wersjach i funkcjach.
Ostatnie najważniejsze informacje
- Szybka transkrypcja jest teraz ogólnie dostępna. Może on transkrybować dźwięk znacznie szybciej niż rzeczywisty czas trwania dźwięku. Aby uzyskać więcej informacji, zobacz przewodnik szybki interfejs API transkrypcji.
- Rozszerzenie azure AI Speech Toolkit jest teraz dostępne dla użytkowników programu Visual Studio Code. Zawiera listę szybkich startów mowy i przykłady scenariuszy, które można łatwo skompilować i uruchomić za pomocą prostych kliknięć. Aby uzyskać więcej informacji, zobacz Azure AI Speech Toolkit in Visual Studio Code Marketplace (Zestaw narzędzi azure AI Speech Toolkit w witrynie Visual Studio Code Marketplace).
- Głosy usługi Azure AI speech high definition (HD) są dostępne w publicznej wersji zapoznawczej. Głosy HD mogą zrozumieć zawartość, automatycznie wykrywać emocje w tekście wejściowym i dostosowywać ton wypowiedzi w czasie rzeczywistym, aby dopasować ton do tonacji. Aby uzyskać więcej informacji, zobacz Co to są głosy usługi Azure AI Speech high definition (HD)?.
- Tłumaczenie wideo jest teraz dostępne w usłudze Azure AI Speech. Aby uzyskać więcej informacji, zobacz Co to jest tłumaczenie wideo?.
- Usługa Azure AI Speech obsługuje tekst OpenAI na głosy mowy. Aby uzyskać więcej informacji, zobacz Co to jest tekst OpenAI na głosy mowy?.
- Niestandardowy interfejs API głosu jest dostępny do tworzenia profesjonalnych i osobistych niestandardowych modeli neuronowych głosów oraz zarządzania nimi.
Informacje o wersji
Wybieranie usługi lub zasobu
Wydanie z 2024 r.
Rozszerzenie azure AI Speech Toolkit dla programu Visual Studio Code
Rozszerzenie azure AI Speech Toolkit jest teraz dostępne dla użytkowników programu Visual Studio Code. Zawiera listę szybkich startów mowy i przykłady scenariuszy, które można łatwo skompilować i uruchomić za pomocą prostych kliknięć. Aby uzyskać więcej informacji, zobacz Azure AI Speech Toolkit in Visual Studio Code Marketplace (Zestaw narzędzi azure AI Speech Toolkit w witrynie Visual Studio Code Marketplace).
Przykłady kodu awatara zamiany tekstu na mowę
Dodaliśmy tekst do przykładów kodu awatara mowy dla systemów Android i iOS. Te przykłady pokazują, jak używać tekstu w czasie rzeczywistym do rozpoznawania awatarów mowy w aplikacjach mobilnych.
Zestaw Speech SDK 1.41.1: wydanie z października 2024 r.
Nowe funkcje
- Dodano obsługę systemów Amazon Linux 2023 i Azure Linux 3.0.
- Dodano identyfikator właściwości publicznej SpeechServiceConnection_ProxyHostBypass w celu określenia hostów, dla których serwer proxy nie jest używany.
- Dodano właściwości do kontrolowania nowych strategii segmentacji fraz.
Poprawki błędów
- Naprawiono niekompletną obsługę zaawansowanych modeli rozpoznawania słów kluczowych utworzonych po sierpniu 2024 r.
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- Pamiętaj, że w usłudze Swift w systemie iOS projekt musi używać MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (z https://aka.ms/csspeech/iosbinaryembedded) lub zasobnika MicrosoftCognitiveServicesSpeechEmbedded-iOS zawierającego obsługę modelu zaawansowanego.
- Naprawiono przeciek pamięci w języku C# związany z użyciem ciągów.
- Rozwiązano problem polegający na tym, że nie można pobrać elementu SPXAutoDetectSourceLanguageResult z elementu SPXConversationTranscriptionResult w językach Objective-C i Swift.
- Naprawiono sporadyczne awarie podczas korzystania z usługi Microsoft Audio Stack w funkcji rozpoznawania.
- Naprawiono wskazówki dotyczące typów w języku Python. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- Rozwiązano problem polegający na tym, że nie można pobrać listy głosów TTS podczas korzystania z niestandardowego punktu końcowego.
- Naprawiono ponowne inicjowanie osadzonego TTS dla każdego żądania wypowiedzi, gdy głos jest określony przez krótką nazwę.
- Naprawiono dokumentację referencyjną interfejsu API dla maksymalnego czasu trwania dźwięku RecognizeOnce.
- Naprawiono współczynniki pobierania próbek arbitarnych w języku JavaScript
- Dzięki rseanhall za ten wkład.
- Naprawiono błąd podczas obliczania przesunięcia dźwięku w języku JavaScript
- Dzięki motamed za ten wkład.
Zmiany powodujące niezgodność
- Obsługa rozpoznawania słów kluczowych w systemie Windows ARM 32-bitowa została usunięta z powodu braku dostępnego dla tej platformy wymaganego środowiska uruchomieniowego ONNX.
Zestaw Speech SDK 1.40: wydanie z sierpnia 2024 r.
Uwaga
Zestaw Speech SDK w wersji 1.39.0 był wersją wewnętrzną i nie brakuje go.
Nowe funkcje
- Dodano obsługę przesyłania strumieniowego skompresowanego dźwięku
G.722
w funkcji rozpoznawania mowy. - Dodano obsługę ustawienia pitch, rate i volume w strumieniu wejściowym tekstu w syntezie mowy.
- Dodano obsługę osobistego przesyłania strumieniowego tekstu wejściowego głosu przez wprowadzenie
PersonalVoiceSynthesisRequest
do syntezy mowy. Ten interfejs API jest w wersji zapoznawczej i może ulec zmianie w przyszłych wersjach. - Dodano obsługę diaryzacji wyników pośrednich, gdy
ConversationTranscriber
jest używany. - Usunięto obsługę systemu CentOS/RHEL 7 ze względu na system CentOS 7 EOL i koniec wsparcia konserwacyjnego systemu RHEL 7 2.
- Korzystanie z osadzonych modeli mowy wymaga teraz licencji modelu zamiast klucza modelu. Jeśli jesteś istniejącym klientem osadzonej mowy i chcesz przeprowadzić uaktualnienie, skontaktuj się z osobą odpowiedzialną za pomoc techniczną w firmie Microsoft, aby uzyskać szczegółowe informacje na temat aktualizacji modelu.
Poprawki błędów
- Skompilowane pliki binarne zestawu Speech SDK dla systemu Windows z flagą _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR jako środki zaradcze dla środowiska uruchomieniowego visual C++ problemu z naruszeniem dostępu do std::mutex::lock po uaktualnieniu do programu VS 2022 w wersji 17.10.0 — Społeczność deweloperów (visualstudio.com). Aplikacje języka Windows C++ korzystające z zestawu Speech SDK mogą wymagać zastosowania tej samej flagi konfiguracji kompilacji, jeśli ich kod używa pliku std::mutex (zobacz szczegóły w połączonym problemie).
- Naprawiono, że wykrywanie openSSL 3.x nie działa w systemie Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420).
- Rozwiązano problem polegający na tym, że podczas wdrażania aplikacji, bibliotek i modelu platformy UWP z pakietu NUGet MAS nie było kopiowane do lokalizacji wdrożenia.
- Rozwiązano konflikt dostawcy zawartości w pakietach systemu Android (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463).
- Naprawiono opcje przetwarzania poprocesowego, które nie są stosowane do wyników pośredniego rozpoznawania mowy.
- Naprawiono ostrzeżenie platformy .NET 8 dotyczące identyfikatorów środowiska uruchomieniowego specyficznego dla dystrybucji (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244).
Przykłady
- Zaktualizowano osadzone przykłady mowy, aby używać licencji modelu zamiast klucza.
Zestaw Speech SDK 1.38.0: wersja z czerwca 2024 r.
Nowe funkcje
- Uaktualnij wymagania dotyczące platformy zestawu Speech SDK dla systemu Linux:
- Nowy minimalny plan bazowy to Ubuntu 20.04 LTS lub zgodny z wersją 2.31 lub nowszą
glibc
. - Pliki binarne dla systemu Linux x86 są usuwane zgodnie z obsługą platformy Ubuntu 20.04.
- Należy pamiętać, że system RHEL/CentOS 7 pozostaje obsługiwany do 30 czerwca (koniec centOS 7 i koniec RHEL 7 Maintenance Support 2). Pliki binarne dla nich zostaną usunięte w wersji zestawu Speech SDK 1.39.0.
- Nowy minimalny plan bazowy to Ubuntu 20.04 LTS lub zgodny z wersją 2.31 lub nowszą
- Dodano obsługę protokołu OpenSSL 3 w systemie Linux.
- Dodano obsługę formatu wyjściowego audio g722-16khz-64 kbps z syntezatorem mowy.
- Dodano obsługę wysyłania komunikatów za pośrednictwem obiektu połączenia z syntetyzatorem mowy.
- Dodaj interfejsy API Start/StopKeywordRecognition w językach Objective-C i Swift.
- Dodaj interfejs API do wybierania niestandardowej kategorii modelu tłumaczenia.
- Aktualizowanie użycia usługi GStreamer za pomocą syntetyzatora mowy.
Poprawki błędów
- Naprawiono błąd "Rozmiar komunikatu protokołu Websocket nie może przekraczać 65 536 bajtów" podczas uruchamiania/stopKeywordRecognition.
- Napraw błąd segmentacji języka Python podczas syntezy mowy.
Przykłady
- Zaktualizuj przykłady języka C#, aby domyślnie używać platformy .NET 6.0.
Zestaw Speech SDK 1.37.0: wydanie z kwietnia 2024 r.
Nowe funkcje
- Dodano obsługę przesyłania strumieniowego tekstu wejściowego w syntezie mowy.
- Zmień domyślny głos syntezy mowy na en-US-AvaMultilingualNeural.
- Zaktualizuj kompilacje systemu Android, aby używać biblioteki OpenSSL 3.x.
Poprawki błędów
- Napraw sporadyczne awarie JVM podczas usuwania speechRecognizer podczas korzystania z rozwiązania MAS. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Popraw wykrywanie domyślnych urządzeń audio w systemie Linux. (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
Przykłady
- Zaktualizowano pod kątem nowych funkcji.
Zestaw Speech SDK 1.36.0: wersja z marca 2024 r.
Nowe funkcje
- Dodano obsługę identyfikacji języka w translacji wielojęzycznej w punktach końcowych w wersji 2 przy użyciu polecenia AutoDetectSourceLanguageConfig::FromOpenRange().
Poprawki błędów
Naprawiono zdarzenie SyntezaCanceled nie zostało wyzwolone, jeśli zatrzymanie jest wywoływane podczas zdarzenia SynthesisStarted.
Rozwiązano problem z szumem w osadzonej syntezie mowy.
Napraw awarię w osadzonym rozpoznawaniu mowy podczas równoległego uruchamiania wielu aparatów rozpoznawania.
Napraw ustawienie trybu wykrywania fraz w punktach końcowych w wersji 1/2.
Poprawki różnych problemów z usługą Microsoft Audio Stack.
Przykłady
- Aktualizacje nowych funkcji.
Zestaw Speech SDK 1.35.0: wersja z lutego 2024 r.
Nowe funkcje
- Zmień domyślny tekst na głos mowy z en-US-JennyMultilingualNeural na en-US-AvaNeural.
- Obsługa szczegółów na poziomie wyrazów w osadzonych wynikach tłumaczenia mowy przy użyciu szczegółowego formatu danych wyjściowych.
Poprawki błędów
- Napraw interfejs API pobierania pozycji AudioDataStream w języku Python.
- Napraw tłumaczenie mowy przy użyciu punktów końcowych w wersji 2 bez wykrywania języka.
- Napraw losową awarię i zduplikowane zdarzenia granicy wyrazów w osadzonym tekście na mowę.
- Zwróć prawidłowy kod błędu anulowania dla wewnętrznego błędu serwera w połączeniach protokołu WebSocket.
- Napraw błąd ładowania biblioteki FPIEProcessor.dll, gdy platforma MAS jest używana z językiem C#.
Przykłady
- Drobne aktualizacje formatowania dla przykładów rozpoznawania osadzonego.
Zestaw Speech SDK 1.34.1: wydanie ze stycznia 2024 r.
Zmiany powodujące niezgodność
- Tylko poprawki błędów
Nowe funkcje
- Tylko poprawki błędów
Poprawki błędów
- Poprawka regresji wprowadzona w wersji 1.34.0, w której utworzono adres URL punktu końcowego usługi z nieprawidłowymi ustawieniami regionalnymi dla użytkowników w kilku regionach Chin.
Zestaw Speech SDK 1.34.0: wydanie z listopada 2023 r.
Zmiany powodujące niezgodność
SpeechRecognizer
Program jest aktualizowany w celu domyślnego używania nowego punktu końcowego (czyli gdy nie określa jawnie adresu URL), który nie obsługuje już parametrów ciągu zapytania dla większości właściwości. Zamiast ustawiać parametry ciągu zapytania bezpośrednio za pomocą parametru ServicePropertyChannel.UriQueryParameter, użyj odpowiednich funkcji interfejsu API.
Nowe funkcje
- Zgodność z platformą .NET 8 (poprawka z https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 wyjątkiem ostrzeżenia o centos7-x64)
- Obsługa osadzonych metryk wydajności mowy, które mogą służyć do oceny możliwości urządzenia do uruchamiania osadzonej mowy.
- Obsługa identyfikacji języka źródłowego w osadzonym translacji wielojęzycznej.
- Obsługa osadzonej zamiany mowy na tekst, zamiany tekstu na mowę i tłumaczenie dla systemów iOS i Swift/Objective-C wydanych w wersji zapoznawczej.
- Obsługa osadzona jest dostępna w usłudze MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod.
Poprawki błędów
- Poprawka dotycząca wzrostu rozmiaru binarnego zestawu SDK systemu iOS x2 razy · Problem nr 2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Poprawka dotycząca niemożności pobrania sygnatur czasowych na poziomie wyrazów z usługi Azure Speech do interfejsu API tekstu · Problem nr 2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Poprawka dotycząca fazy niszczenia okna dialogowegoServiceConnector w celu poprawnego rozłączenia zdarzeń. To powodowało awarie od czasu do czasu.
- Poprawka wyjątku podczas tworzenia rozpoznawania, gdy jest używana usługa MAS.
- FPIEProcessor.dll z pakietu NuGet Microsoft.CognitiveServices.Speech.Extension.MAS dla systemu Windows UWP x64 i Arm64 miały zależność od bibliotek środowiska uruchomieniowego VC dla natywnego języka C++. Problem został poprawiony przez zaktualizowanie zależności w celu poprawienia bibliotek środowiska uruchomieniowego VC (dla platformy UWP).
- Poprawka dotycząca wywołań cyklicznych [MAS] w celu rozpoznawania potencjalnego klienta usługi RecognizeOnceAsync w celu SPXERR_ALREADY_INITIALIZED podczas korzystania z usługi MAS · Problem nr 2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Poprawka dotycząca awarii osadzonego rozpoznawania mowy podczas użycia list fraz.
Przykłady
- Osadzone przykłady systemu iOS dla zamiany mowy na tekst, zamiany tekstu na mowę i tłumaczenie.
Interfejs wiersza polecenia usługi Mowa w wersji 1.34.0: wydanie z listopada 2023 r.
Nowe funkcje
- Obsługa danych wyjściowych zdarzeń granic słów podczas synchronizowania mowy.
Poprawki błędów
- Zaktualizowano zależność JMESPath do najnowszej wersji, ulepsza oceny ciągów
Zestaw Speech SDK 1.33.0: wydanie z października 2023 r.
Powiadomienie o zmianach powodujących niezgodność
- Nowy pakiet NuGet dodany dla usługi Microsoft Audio Stack (MAS) jest teraz wymagany do dołączania przez aplikacje korzystające z rozwiązania MAS w swoich plikach konfiguracji pakietu.
Nowe funkcje
- Dodano nowy pakiet NuGet Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg, który zapewnia lepszą wydajność anulowania echa podczas korzystania z usługi Microsoft Audio Stack
- Ocena wymowy: dodano obsługę prosody i oceny zawartości, która może ocenić mowę mówionej pod względem prosodii, słownictwa, gramatyki i tematu.
Poprawki błędów
- Naprawiono przesunięcia wyniku rozpoznawania słów kluczowych, tak aby były one poprawnie zgodne ze strumieniem dźwięku wejściowego od początku. Poprawka dotyczy zarówno autonomicznego rozpoznawania słów kluczowych, jak i rozpoznawania mowy wyzwalanej przez słowo kluczowe.
- Naprawiono metodę stopSpeaking syntetyzatora nie zwraca natychmiast metody SPXSpeechSynthesizer stopSpeaking() nie można natychmiast zwrócić w systemie iOS 17 — problem #2081
- Rozwiązano problem z importowaniem katalizatora mac w module Swift Obsługa katalizatora mac z krzemem jabłkowym. Problem nr 1948
- JS: Moduł AudioWorkletNode jest teraz ładowany przy użyciu zaufanego adresu URL z rezerwowym elementem przeglądarki CDN.
- JS: Spakowane pliki lib mają teraz docelową ES6 JS z obsługą usuniętych plików ES5 JS.
- JS: zdarzenia pośrednie dla scenariusza tłumaczenia przeznaczonego dla punktu końcowego w wersji 2 są poprawnie obsługiwane
- JS: Właściwość języka TranslationRecognitionEventArgs jest teraz ustawiona dla zdarzeń translation.hypothesis.
- Synteza mowy: zdarzenie SynthesisCompleted gwarantuje emitowane po wszystkich zdarzeniach metadanych, dzięki czemu może służyć do wskazywania na koniec zdarzeń. Jak wykryć, kiedy wizemes są odbierane całkowicie? Problem nr 2093 Azure-Samples/cognitive-services-speech-sdk
Przykłady
- Dodano przykład, aby zademonstrować przesyłanie strumieniowe MULAW przy użyciu języka Python)
- Poprawka dotycząca przykładu NAudio zamiany mowy na tekst
Interfejs wiersza polecenia usługi Mowa w wersji 1.33.0: wydanie z października 2023 r.
Nowe funkcje
- Obsługa danych wyjściowych zdarzeń granic słów podczas synchronizowania mowy.
Poprawki błędów
- Brak
Zestaw Speech SDK 1.32.1: wersja z września 2023 r.
Poprawki błędów
- Aktualizacje pakietów systemu Android z najnowszymi poprawkami zabezpieczeń z biblioteki OpenSSL1.1.1v
- JS — dodano właściwość WebWorkerLoadType, aby umożliwić obejście obciążenia adresu URL danych dla procesu roboczego przekroczenia limitu czasu
- JS — naprawianie rozłączenia tłumaczenia konwersacji po 10 minutach
- JS — token uwierzytelniania tłumaczenia konwersacji z konwersacji jest teraz propagowany do połączenia usługi tłumaczenia
Przykłady
Zestaw Speech SDK 1.31.0: wersja z sierpnia 2023 r.
Nowe funkcje
Obsługa diaryzacji w czasie rzeczywistym jest dostępna w publicznej wersji zapoznawczej z zestawem Speech SDK 1.31.0. Ta funkcja jest dostępna w następujących zestawach SDK: C#, C++, Java, JavaScript, Python i Objective-C/Swift.
Zsynchronizowana granica słowa syntezy mowy i zdarzenia viseme z odtwarzaniem dźwięku
Zmiany powodujące niezgodność
- Nazwa byłego scenariusza "transkrypcji konwersacji" została zmieniona na "transkrypcja spotkań". Na przykład użyj polecenia
MeetingTranscriber
zamiastConversationTranscriber
, a nieCreateConversationAsync
.CreateMeetingAsync
Chociaż nazwy obiektów i metod zestawu SDK uległy zmianie, zmiana nazwy nie zmienia samej funkcji. Użyj obiektów transkrypcji spotkań na potrzeby transkrypcji spotkań z profilami użytkowników i podpisami głosowymi. Aby uzyskać więcej informacji, zobacz Transkrypcja spotkania. Te zmiany nie mają wpływu na obiekty i metody tłumaczenia konwersacji. Nadal można używaćConversationTranslator
obiektu i jego metod na potrzeby scenariuszy tłumaczenia spotkań.
- W przypadku diaryzacji w czasie rzeczywistym wprowadzono nowy
ConversationTranscriber
obiekt. Nowy model obiektów "transkrypcja konwersacji" i wzorce wywołań są podobne do ciągłego rozpoznawania obiektuSpeechRecognizer
. Kluczową różnicą jest to, żeConversationTranscriber
obiekt jest przeznaczony do użycia w scenariuszu konwersacji, w którym chcesz odróżnić wiele osób mówiących (diarization). Profile użytkowników i podpisy głosowe nie mają zastosowania. Aby uzyskać więcej informacji, zobacz przewodnik Szybki start dotyczący diaryzacji w czasie rzeczywistym.
W tej tabeli przedstawiono poprzednie i nowe nazwy obiektów dla diaryzacji w czasie rzeczywistym i transkrypcji spotkań. Nazwa scenariusza znajduje się w pierwszej kolumnie, poprzednie nazwy obiektów znajdują się w drugiej kolumnie, a nowe nazwy obiektów znajdują się w trzeciej kolumnie.
Nazwa scenariusza | Poprzednie nazwy obiektów | Nowe nazwy obiektów |
---|---|---|
Diaryzacja w czasie rzeczywistym | Nie dotyczy | ConversationTranscriber |
Transkrypcja spotkania | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1 Obiekty Participant
, ParticipantChangedReason
i User
mają zastosowanie zarówno do scenariuszy transkrypcji spotkania, jak i tłumaczenia spotkań.
2 Obiekt Meeting
jest nowy i jest używany z obiektem MeetingTranscriber
.
Poprawki błędów
- Naprawiono minimalną obsługiwaną wersję systemu macOS https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017
- Naprawiono usterkę oceny wymowy:
- Rozwiązano problem z wynikami dokładności telefonu, zapewniając, że teraz dokładnie odzwierciedlają tylko konkretny błędnie odrzucony phoneme. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- Rozwiązano problem polegający na tym, że funkcja oceny wymowy była niedokładnie identyfikując całkowicie poprawną wymowę jako błędną, szczególnie w sytuacjach, w których wyrazy mogą mieć wiele prawidłowych wymow. https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
Przykłady
CSharp
JavaScript
Nowy przewodnik Szybki start dotyczący transkrypcji konwersacji w języku JavaScript
Nowy przewodnik Szybki start dotyczący transkrypcji spotkań w języku JavaScript
Nowy przewodnik Szybki start dotyczący transkrypcji konwersacji nodeJS
Nowy przewodnik Szybki start dotyczący transkrypcji spotkania platformy NodeJS
Zestaw SPEECH SDK 1.30.0: wersja z lipca 2023 r.
Nowe funkcje
- C++, C#, Java — dodano obsługę
DisplayWords
szczegółowych wyników funkcji rozpoznawania mowy osadzonej. - Objective-C/Swift — dodano obsługę
ConnectionMessageReceived
zdarzenia w języku Objective-C/Swift. - Objective-C/Swift — ulepszone modele wyszukiwania słów kluczowych dla systemu iOS. Ta zmiana zwiększyła rozmiar niektórych pakietów, które zawierają pliki binarne systemu iOS (takie jak NuGet, XCFramework). Pracujemy nad zmniejszeniem rozmiaru przyszłych wersji.
Poprawki błędów
- Rozwiązano problem z przeciekiem pamięci podczas korzystania z aparatu rozpoznawania mowy za pomocą funkcji PhraseListGrammar, co było zgłaszane przez klienta (problem z usługą GitHub).
- Naprawiono zakleszczenie tekstu w interfejsie API otwierania połączenia mowy.
Więcej notatek
- Java — niektóre metody interfejsu API języka Java zostały zmienione wewnętrznie na pakiet
internal
,protected
lubprivate
.public
Ta zmiana nie powinna mieć wpływu na deweloperów, ponieważ nie oczekujemy, że aplikacje będą z nich korzystać. Tutaj zanotowano przejrzystość.
Przykłady
- Nowe przykłady oceny wymowy dotyczące sposobu określania języka uczenia we własnej aplikacji
- C#: Zobacz przykładowy kod.
- C++: Zobacz przykładowy kod.
- JavaScript: zobacz przykładowy kod.
- Objective-C: Zobacz przykładowy kod.
- Python: zobacz przykładowy kod.
- Swift: zobacz przykładowy kod.
Zestaw Speech SDK 1.29.0: wersja z czerwca 2023 r.
Nowe funkcje
- C++, C#, Java — wersja zapoznawcza osadzonych interfejsów API tłumaczenia mowy. Teraz możesz wykonać tłumaczenie mowy bez połączenia z chmurą!
- JavaScript — ciągła identyfikacja języka (LID) jest teraz włączona na potrzeby tłumaczenia mowy.
- JavaScript — współtworzenie społeczności w celu dodania
LocaleName
właściwości doVoiceInfo
klasy. Dziękujemy użytkownikowi usługi GitHub shivsarthak za żądanie ściągnięcia. - C++, C#, Java — dodano obsługę ponownego próbkowania tekstu osadzonego do danych wyjściowych mowy z częstotliwości próbkowania 16 kHz do 48 kHz.
- Dodano obsługę
hi-IN
ustawień regionalnych w rozpoznawaniu intencji z prostym dopasowaniem wzorca.
Poprawki błędów
- Naprawiono awarię spowodowaną przez stan wyścigu w rozpoznawaniu mowy podczas niszczenia obiektu, jak pokazano w niektórych naszych testach systemu Android
- Naprawiono możliwe zakleszczenia w rozpoznawaniu intencji za pomocą prostego dopasowania wzorca
Przykłady
- Nowe osadzone przykłady tłumaczenia mowy
Zestaw Speech SDK 1.28.0: wydanie z maja 2023 r.
Zmiana powodująca niezgodność
- Zestaw SDK języka JavaScript: protokół OCSP (Online Certificate Status Protocol) został usunięty. Dzięki temu klienci mogą lepiej dostosować się do standardów przeglądarki i węzłów na potrzeby obsługi certyfikatów. Wersja 1.28 i nowsze nie będą już zawierać naszego niestandardowego modułu OCSP.
Nowe funkcje
- Rozpoznawanie mowy osadzonej jest teraz zwracane
NoMatchReason::EndSilenceTimeout
, gdy upłynął limit czasu ciszy na końcu wypowiedzi. Jest to zgodne z zachowaniem podczas rozpoznawania przy użyciu usługi rozpoznawania mowy w czasie rzeczywistym. - Zestaw SDK języka JavaScript: ustaw właściwości przy
SpeechTranslationConfig
użyciuPropertyId
wartości wyliczenia.
Poprawki błędów
- Język C# w systemie Windows — naprawianie potencjalnego stanu wyścigu/zakleszczenia w rozszerzeniu audio systemu Windows. W scenariuszach, w których zarówno szybkie usuwanie modułu renderowania dźwięku, jak i użycie metody Syntetyzatora do zatrzymania, bazowe zdarzenie nie zostało zresetowane przez zatrzymanie i może spowodować, że obiekt renderatora nigdy nie zostanie usunięty, a jednocześnie może przechowywać globalną blokadę do usuwania, zamrażając wątek dotnet GC.
Przykłady
- Dodano przykład osadzonej mowy dla interfejsu MAUI.
- Zaktualizowano przykład osadzonej mowy dla języka Java dla systemu Android w celu uwzględnienia tekstu na mowę.
Zestaw Speech SDK 1.27.0: wersja z kwietnia 2023 r.
Powiadomienie o nadchodzących zmianach
- Planujemy usunięcie protokołu OCSP (Online Certificate Status Protocol) w następnej wersji zestawu JAVAScript SDK. Dzięki temu klienci mogą lepiej dostosować się do standardów przeglądarki i węzłów na potrzeby obsługi certyfikatów. Wersja 1.27 to ostatnia wersja zawierająca nasz niestandardowy moduł OCSP.
Nowe funkcje
- JavaScript — dodano obsługę danych wejściowych mikrofonu z przeglądarki za pomocą funkcji identyfikacji i weryfikacji osoby mówiącej.
- Rozpoznawanie mowy osadzonej — obsługa aktualizacji ustawień
PropertyId::Speech_SegmentationSilenceTimeoutMs
.
Poprawki błędów
- Ogólne — aktualizacje niezawodności w logice ponownego łączenia usługi (wszystkie języki programowania z wyjątkiem języka JavaScript).
- Ogólne — naprawianie konwersji ciągów przeciekających pamięci w systemie Windows (wszystkie odpowiednie języki programowania z wyjątkiem języka JavaScript).
- Rozpoznawanie mowy osadzonej — naprawa awarii w funkcji rozpoznawania mowy francuskiej podczas korzystania z niektórych wpisów listy gramatycznej.
- Dokumentacja kodu źródłowego — poprawki do dokumentacji zestawu SDK dotyczące komentarzy dokumentacji związanych z rejestrowaniem audio w usłudze.
- Rozpoznawanie intencji — naprawianie priorytetów dopasowywania wzorca związanych z jednostkami listy.
Przykłady
- Poprawnie obsłuż błąd uwierzytelniania w przykładzie transkrypcji konwersacji w języku C#( CTS).
- Dodano przykład oceny wymowy przesyłania strumieniowego dla języków Python, JavaScript, Objective-C i Swift.
Zestaw Speech SDK 1.26.0: wersja z marca 2023 r.
Zmiany powodujące niezgodność
- Kod bitowy został wyłączony we wszystkich miejscach docelowych systemu iOS w następujących pakietach: Cocoapod z xcframework, NuGet (dla platform Xamarin i MAUI) i aparatu Unity. Zmiana jest spowodowana wycofaniem obsługi kodu bitowego firmy Apple z wersji Xcode 14 i nowszych. Ta zmiana oznacza również, że jeśli używasz wersji Xcode 13 lub jawnie włączono kod bitowy w aplikacji przy użyciu zestawu SPEECH SDK, może wystąpić błąd z informacją" struktura nie zawiera kodu bitowego i musisz ją ponownie skompilować". Aby rozwiązać ten problem, upewnij się, że obiekty docelowe mają wyłączony kod bitowy.
- Minimalna wartość docelowa wdrożenia systemu iOS została uaktualniona do wersji 11.0 w tej wersji, co oznacza, że armv7 HW nie jest już obsługiwana.
Nowe funkcje
- Funkcja rozpoznawania mowy osadzonej (na urządzeniu) obsługuje teraz zarówno dźwięk wejściowy o częstotliwości próbkowania 8, jak i 16 kHz (16-bitowy na próbkę, mono PCM).
- Funkcja Speech Synthesis zgłasza teraz opóźnienia połączeń, sieci i usług w wyniku, aby ułatwić kompleksową optymalizację opóźnień.
- Nowe reguły podziału dla rozpoznawania intencji z prostym dopasowaniem wzorca. Im więcej bajtów znaków, które są dopasowane, wygra dopasowania wzorca z mniejszą liczbą bajtów znaków. Przykład: Wzorzec "Select {something} in the top right" (Wybierz element {something} w prawym górnym rogu) spowoduje wygraną ciągu "Select {something}" (Wybierz {coś})
Poprawki błędów
- Synteza mowy: napraw usterkę polegającą na tym, że emoji nie jest poprawne w zdarzeniach granic słowa.
- Rozpoznawanie intencji za pomocą usługi Conversational Language Understanding (CLU):
- Intencje z przepływu pracy programu CLU Orchestrator są teraz wyświetlane poprawnie.
- Wynik JSON jest teraz dostępny za pośrednictwem identyfikatora
LanguageUnderstandingServiceResponse_JsonResult
właściwości .
- Rozpoznawanie mowy z aktywacją słowa kluczowego: poprawka dotycząca braku dźwięku ~150 ms po rozpoznaniu słowa kluczowego.
- Poprawka dotycząca kompilacji wydania nuGet zestawu SPEECH SDK dla systemu iOS MAUI zgłoszonej przez klienta (problem z usługą GitHub)
Przykłady
- Poprawka przykładowa aplikacji Swift dla systemu iOS zgłoszona przez klienta (problem z usługą GitHub)
Zestaw Speech SDK 1.25.0: wydanie ze stycznia 2023 r.
Zmiany powodujące niezgodność
- Interfejsy API identyfikacji języka (wersja zapoznawcza) zostały uproszczone. Jeśli zaktualizujesz zestaw Speech SDK 1.25 i zobaczysz podział kompilacji, odwiedź stronę Identyfikacji języka, aby dowiedzieć się więcej o nowej właściwości
SpeechServiceConnection_LanguageIdMode
. Ta pojedyncza właściwość zastępuje dwie poprzednieSpeechServiceConnection_SingleLanguageIdPriority
SpeechServiceConnection_ContinuousLanguageIdPriority
i . Ustalanie priorytetów między małym opóźnieniem a wysoką dokładnością nie jest już konieczne po najnowszych ulepszeniach modelu. Teraz wystarczy wybrać, czy uruchamiać funkcję przy uruchamianiu, czy ciągłej identyfikacji języka podczas ciągłego rozpoznawania mowy lub tłumaczenia.
Nowe funkcje
- C#/C++/Java: Osadzony zestaw SPEECH SDK jest teraz udostępniany w publicznej wersji zapoznawczej. Zobacz dokumentację usługi Embedded Speech (wersja zapoznawcza). Teraz możesz wykonywać zamianę mowy na urządzenie na tekst i tekst na mowę, gdy łączność w chmurze jest sporadycznie lub niedostępna. Obsługiwane na platformach Android, Linux, macOS i Windows
- C# MAUI: dodano obsługę elementów docelowych dla systemów iOS i Mac Catalyst w zestawie Sdk usługi Mowa NuGet (problem klienta)
- Unity: architektura x86_64 systemu Android dodana do pakietu Aparatu Unity (problem z klientem)
- Przejdź:
- Dodano obsługę bezpośredniego przesyłania strumieniowego usługi ALAW/MULAW na potrzeby rozpoznawania mowy (problem z klientem)
- Dodano obsługę elementu PhraseListGrammar. Dziękujemy użytkownikowi usługi GitHub czkoko za wkład społeczności!
- C#/C++: Rozpoznawanie intencji obsługuje teraz modele usługi Conversational Language Understanding w języku C++ i C# z orkiestracją w usłudze firmy Microsoft
Poprawki błędów
- Naprawianie okazjonalnego zawieszenia w obiekcie KeywordRecognizer podczas próby jego zatrzymania
- Python:
- Poprawka dotycząca pobierania wyników oceny wymowy po
PronunciationAssessmentGranularity.FullText
ustawieniu (problem z klientem) - Poprawka dotycząca właściwości płci dla głosów męskich, które nie są pobierane, podczas uzyskiwania głosów syntezy mowy
- Poprawka dotycząca pobierania wyników oceny wymowy po
- JavaScript
- Poprawka dotycząca analizowania niektórych plików WAV zarejestrowanych na urządzeniach z systemem iOS (problem klienta)
- Zestaw JS SDK teraz kompiluje się bez używania rozwiązania npm-force-resolutions (problem z klientem)
- Usługa Conversation Translator teraz poprawnie ustawia punkt końcowy usługi podczas korzystania z wystąpienia usługi speechConfig utworzonego przy użyciu funkcji SpeechConfig.fromEndpoint()
Przykłady
Dodano przykłady pokazujące, jak używać osadzonej mowy
Dodano mowę do przykładu tekstu dla interfejsu MAUI
Zobacz repozytorium przykładów zestawu SPEECH SDK.
Zestaw Speech SDK 1.24.2: wydanie z listopada 2022 r.
Nowe funkcje
- Brak nowych funkcji— tylko osadzona poprawka aparatu do obsługi nowych plików modelu.
Poprawki błędów
- Wszystkie języki programujące
- Rozwiązano problem z szyfrowaniem osadzonych modeli rozpoznawania mowy.
Zestaw Speech SDK 1.24.1: wydanie z listopada 2022 r.
Nowe funkcje
- Opublikowane pakiety dla wersji zapoznawczej osadzonej mowy. Aby uzyskać więcej informacji, zobacz https://aka.ms/embedded-speech.
Poprawki błędów
- Wszystkie języki programujące
- Naprawa osadzonej awarii TTS, gdy czcionka głosowa nie jest obsługiwana
- Poprawka stopSpeaking() nie może zatrzymać odtwarzania w systemie Linux (#1686)
- Zestaw SDK dla języka JavaScript
- Naprawiono regresję w sposobie transkrypcji konwersacji z bramą dźwięku.
- Java
- Tymczasowo opublikowane zaktualizowane pliki POM i Javadocs w usłudze Maven Central w celu umożliwienia potoku dokumentacji aktualizacji dokumentacji online.
- Python
- Naprawiono regresję, w której język Python speak_text(ssml) zwraca wartość void.
Zestaw Speech SDK 1.24.0: wersja z października 2022 r.
Nowe funkcje
- Wszystkie języki programowe: AMR-WB (16khz) dodane do obsługiwanej listy formatów danych wyjściowych zamiany tekstu na mowę
- Python: dodano pakiet dla systemu Linux Arm64 dla obsługiwanych dystrybucji systemu Linux.
- C#/C++/Java/Python: Dodano obsługę bezpośredniego przesyłania strumieniowego ALAW i MULAW do usługi rozpoznawania mowy (oprócz istniejącego strumienia PCM) przy użyciu polecenia
AudioStreamWaveFormat
. - C# MAUI: pakiet NuGet zaktualizowany w celu obsługi obiektów docelowych systemu Android dla deweloperów MAUI platformy .NET (problem klienta)
- Mac: dodano oddzielną pracę XCframework dla komputerów Mac, która nie zawiera żadnych plików binarnych systemu iOS. Oferuje to opcję dla deweloperów, którzy potrzebują tylko plików binarnych Mac przy użyciu mniejszego pakietu XCframework.
- Microsoft Audio Stack (MAS):
- W przypadku określenia kątów tworzących belki dźwięk pochodzący poza określonym zakresem będzie lepiej pomijany.
- Około 70% zmniejszenie rozmiaru
libMicrosoft.CognitiveServices.Speech.extension.mas.so
dla systemów Linux ARM32 i Linux Arm64.
- Rozpoznawanie intencji przy użyciu dopasowania wzorca:
- Dodawanie obsługi ortografii dla języków
fr
, ,de
,es
jp
- Dodano wstępnie utworzoną obsługę liczb całkowitych dla języka
es
.
- Dodawanie obsługi ortografii dla języków
Poprawki błędów
- iOS: usuwanie błędu syntezy mowy w systemie iOS 16 spowodowanego błędem dekodowania skompresowanego dźwięku (problem klienta).
- JavaScript:
- Napraw token uwierzytelniania, który nie działa podczas pobierania listy głosów syntezy mowy (problem z klientem).
- Użyj adresu URL danych do ładowania procesów roboczych (problem z klientem).
- Utwórz worklet procesora audio tylko wtedy, gdy audioWorklet jest obsługiwany w przeglądarce (problem klienta). Był to wkład społeczności WilliamA Wonga. Dziękujemy Williamowi!
- Rozwiązano problem z rozpoznaną wywołaniem zwrotnym, gdy odpowiedź usługi
connectionMessage
LUIS jest pusta (problem z klientem). - Odpowiednio ustaw limit czasu segmentacji mowy.
- Rozpoznawanie intencji przy użyciu dopasowania wzorca:
- Znaki inne niż json wewnątrz modeli są teraz prawidłowo ładowane.
- Rozwiązano problem z zawieszającymi się wywołaniami
recognizeOnceAsync(text)
podczas ciągłego rozpoznawania.
Zestaw Speech SDK 1.23.0: wersja z lipca 2022 r.
Nowe funkcje
- C#, C++, Java: dodano obsługę języków
zh-cn
izh-hk
rozpoznawania intencji z dopasowywania wzorców. - C#: Dodano obsługę
AnyCPU
kompilacji programu .NET Framework
Poprawki błędów
- Android: usunięto lukę w zabezpieczeniach protokołu OpenSSL CVE-2022-2068 przez zaktualizowanie biblioteki OpenSSL do wersji 1.1.1q
- Python: naprawianie awarii podczas korzystania z elementu PushAudioInputStream
- iOS: Poprawka "EXC_BAD_ACCESS: Podjęto próbę wyłudzenia wskaźnika o wartości null" zgodnie z raportem w systemie iOS (problem z usługą GitHub)
Zestaw Speech SDK 1.22.0: wersja z czerwca 2022 r.
Nowe funkcje
- Java: IntentRecognitionResult API for getEntities(), applyLanguageModels() i recognizeOnceAsync(text) dodany do obsługi aparatu "prostego dopasowywania wzorców".
- Unity: dodano obsługę komputera Mac M1 (Apple Silicon) dla pakietu Aparatu Unity (problem z usługą GitHub)
- C#: Dodano obsługę x86_64 dla platformy Xamarin Android (problem z usługą GitHub)
- C#: Minimalna wersja programu .NET Framework zaktualizowana do wersji 4.6.2 dla pakietu C# zestawu SDK jako wersja 4.6.1 została wycofana (zobacz Zasady cyklu życia składnika programu Microsoft .NET Framework)
- Linux: dodano obsługę systemów Debian 11 i Ubuntu 22.04 LTS. System Ubuntu 22.04 LTS wymaga ręcznej instalacji biblioteki libssl1.1 albo jako pakietu binarnego z tego miejsca (na przykład libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb lub nowszego dla x64) lub przez skompilowanie ze źródeł.
Poprawki błędów
- UwP: zależność OpenSSL została usunięta z bibliotek platformy UWP i zastąpiona protokołem WebSocket WinRT i interfejsami API PROTOKOŁU HTTP w celu spełnienia zgodności z zabezpieczeniami i mniejszego śladu binarnego.
- Mac: rozwiązano problem "MicrosoftCognitiveServicesSpeech Module Not Found" podczas korzystania z projektów Swift przeznaczonych dla platformy macOS
- Windows, Mac: rozwiązano problem specyficzny dla platformy polegający na tym, że źródła audio, które zostały skonfigurowane za pośrednictwem właściwości do strumieniowego przesyłania strumieniowego w czasie rzeczywistym, czasami spadły i ostatecznie przekroczyły pojemność
Przykłady (GitHub)
- C#: Zaktualizowano przykłady platformy .NET Framework w celu korzystania z wersji 4.6.2
- Unity: przykład asystenta wirtualnego naprawiono dla systemów Android i UWP
- Unity: przykłady aparatu Unity zaktualizowane dla wersji LTS aparatu Unity 2020
Zestaw Speech SDK 1.21.0: wersja z kwietnia 2022 r.
Nowe funkcje
- Java i JavaScript: dodano obsługę ciągłej identyfikacji języka podczas korzystania z obiektu SpeechRecognizer
- JavaScript: dodano interfejsy API diagnostyczne w celu włączenia rejestrowania na poziomie rejestrowania konsoli i rejestrowania plików (tylko węzeł) w celu ułatwienia firmie Microsoft rozwiązywania problemów zgłaszanych przez klientów
- Python: Dodano obsługę transkrypcji konwersacji
- Go: Dodano obsługę rozpoznawania osoby mówiącej
- C++ i C#: Dodano obsługę wymaganej grupy wyrazów w rozpoznawaniu intencji (proste dopasowywanie wzorca). Na przykład: "(set|start|begin) czasomierz", w którym "set", "start" lub "begin" musi być obecny, aby intencja została rozpoznana.
- Wszystkie języki programowania, Synteza mowy: dodano właściwość czasu trwania w zdarzeniach granic wyrazów. Dodano obsługę granicy interpunkcyjnej i granicy zdań
- Objective-C/Swift/Java: dodano wyniki na poziomie wyrazu w obiekcie wyniku oceny wymowy (podobnie jak w języku C#). Aplikacja nie musi już analizować ciągu wyników JSON, aby uzyskać informacje na poziomie wyrazu (problem z usługą GitHub)
- Platforma systemu iOS: dodano eksperymentalną obsługę architektury ARMv7
Poprawki błędów
- Platforma systemu iOS: poprawka umożliwiająca kompilowanie elementu docelowego "Dowolne urządzenie z systemem iOS" podczas korzystania z narzędzia CocoaPod (problem z usługą GitHub)
- Platforma systemu Android: wersja openSSL została zaktualizowana do wersji 1.1.1n w celu naprawienia luki w zabezpieczeniach CVE-2022-0778
- JavaScript: rozwiązano problem polegający na tym, że nagłówek wav nie był aktualizowany przy użyciu rozmiaru pliku (problem z usługą GitHub)
- JavaScript: rozwiązywanie problemów z anulowaniem synchronizacji identyfikatora żądania — problemy z tłumaczeniem powodujących niezgodność (problem z usługą GitHub)
- JavaScript: rozwiązano problem podczas tworzenia wystąpienia wystąpienia elementu SpeakerAudioDestination bez strumienia (problem z usługą GitHub)
- C++: Napraw nagłówki języka C++, aby usunąć ostrzeżenie podczas kompilowania dla języka C++17 lub nowszego
Przykłady w usłudze GitHub
- Nowe przykłady języka Java do rozpoznawania mowy z identyfikacją języka
- Nowe przykłady języków Python i Java na potrzeby transkrypcji konwersacji
- Nowy przykład języka Go na potrzeby rozpoznawania osoby mówiącej
- Nowe narzędzie języka C++ i języka C# dla systemu Windows, które wylicza wszystkie urządzenia do przechwytywania i renderowania dźwięku w celu znalezienia identyfikatora urządzenia. Ten identyfikator jest wymagany przez zestaw SDK usługi Mowa, jeśli planujesz przechwytywać dźwięk z lub renderować dźwięk do urządzenia bez definicji.
Zestaw Speech SDK 1.20.0: wydanie ze stycznia 2022 r.
Nowe funkcje
- Objective-C, Swift i Python: dodano obsługę poleceń DialogServiceConnector używanych w scenariuszach asystenta głosowego.
- Python: dodano obsługę języka Python 3.10. Obsługa języka Python 3.6 została usunięta na koniec życia języka Python przez 3,6.
- Unity: zestaw SPEECH SDK jest teraz obsługiwany dla aplikacji aparatu Unity w systemie Linux.
- C++, C#: IntentRecognizer przy użyciu dopasowywania wzorca jest teraz obsługiwany w języku C#. Ponadto scenariusze z jednostkami niestandardowymi, opcjonalnymi grupami i rolami jednostek są teraz obsługiwane w językach C++ i C#.
- C++, C#: Ulepszone rejestrowanie śledzenia diagnostyki przy użyciu nowych klas FileLogger, MemoryLogger i EventLogger. Dzienniki zestawu SDK są ważnym narzędziem firmy Microsoft do diagnozowania problemów zgłaszanych przez klientów. Te nowe klasy ułatwiają klientom integrowanie dzienników zestawu Speech SDK z własnym systemem rejestrowania.
- Wszystkie języki programowania: WymowaAssessmentConfig ma teraz właściwości ustawiania żądanego alfabetu phoneme (IPA lub SAPI) i N-Best Phoneme Count (unikanie konieczności tworzenia konfiguracji JSON zgodnie z problemem 1284 w usłudze GitHub). Ponadto dane wyjściowe na poziomie sylalnej są teraz obsługiwane.
- Systemy Android, iOS i macOS (wszystkie języki programowania): usługa GStreamer nie jest już potrzebna do obsługi sieci o ograniczonej przepustowości. Funkcja SpeechSynthesizer używa teraz funkcji dekodowania audio systemu operacyjnego do dekodowania skompresowanego dźwięku przesyłanego strumieniowo z tekstu do usługi mowy.
- Wszystkie języki programowania: Funkcja SpeechSynthesizer obsługuje teraz trzy nowe nieprzetworzone formaty Wyjściowe Firmy (bez kontenera), które są powszechnie używane w scenariuszach transmisji strumieniowej na żywo.
- JavaScript: dodano interfejs API getVoicesAsync() do usługi SpeechSynthesizer w celu pobrania listy obsługiwanych głosów syntezy (problem 1350 w usłudze GitHub)
- JavaScript: dodano interfejs API getWaveFormat() do formatu AudioStreamFormat w celu obsługi formatów fal innych niż PCM (problem 452 w usłudze GitHub)
- JavaScript: dodano interfejsy API getter/setter i mute()/unmute() do funkcji SpeakerAudioDestination (problem 463 w usłudze GitHub)
Poprawki błędów
- C++, C#, Java, JavaScript, Objective-C i Swift: poprawka umożliwiająca usunięcie 10-sekundowego opóźnienia podczas zatrzymywania rozpoznawania mowy korzystającego z elementu PushAudioInputStream. Dotyczy to sytuacji, w której po wywołaniu polecenia StopContinuousRecognition (problemy z usługą GitHub 1318, 3311)
- Aparat Unity w systemach Android i UWP: metapliki aparatu Unity zostały naprawione dla platformy UWP, Android Arm64 i Podsystem Windows dla systemu Android (WSA) Arm64 (problem z usługą GitHub 1360)
- iOS: kompilowanie aplikacji zestawu SPEECH SDK na dowolnym urządzeniu z systemem iOS podczas korzystania z narzędzia CocoaPods jest teraz rozwiązane (problem z usługą GitHub 1320)
- iOS: gdy funkcja SpeechSynthesizer jest skonfigurowana do wyprowadzania dźwięku bezpośrednio do głośnika, odtwarzanie zostało zatrzymane na początku w rzadkich warunkach. To zostało naprawione.
- JavaScript: użyj rezerwowego procesora skryptu dla danych wejściowych mikrofonu, jeśli nie znaleziono żadnego workletu audio (problem 455 w usłudze GitHub)
- JavaScript: dodawanie protokołu do agenta w celu wyeliminowania usterki wykrytej za pomocą integracji usługi Sentry (problem 465 w usłudze GitHub)
Przykłady w usłudze GitHub
- Przykłady języków C++, C#, Python i Java pokazujące sposób uzyskiwania szczegółowych wyników rozpoznawania. Szczegóły obejmują wyniki rozpoznawania alternatywnego, współczynnik ufności, formularz leksykalny, formularz znormalizowany, formularz maskowany z chronometrażem na poziomie wyrazu dla każdego z nich.
- Przykład systemu iOS dodany przy użyciu narzędzia AVFoundation jako zewnętrznego źródła audio.
- Dodano przykład języka Java, aby pokazać, jak uzyskać format SRT (SubRip Text) przy użyciu zdarzenia WordBoundary.
- Przykłady dla systemu Android na potrzeby oceny wymowy.
- C++, C# pokazujący użycie nowych klas rejestrowania diagnostycznego.
Zestaw Speech SDK 1.19.0: wydanie z listopada 2021 r.
Najważniejsze informacje
Usługa rozpoznawania osoby mówiącej jest teraz ogólnie dostępna. Interfejsy API zestawu SPEECH SDK są dostępne w językach C++, C#, Java i JavaScript. Dzięki funkcji rozpoznawania osoby mówiącej można dokładnie zweryfikować i zidentyfikować osoby mówiące o ich unikatowych cechach głosu. Aby uzyskać więcej informacji na temat tego tematu, zobacz dokumentację.
Zrezygnowaliśmy z obsługi systemu Ubuntu 16.04 w połączeniu z usługami Azure DevOps i GitHub. Ubuntu 16.04 osiągnął koniec życia już w kwietniu 2021 roku. Przeprowadź migrację przepływów pracy systemu Ubuntu 16.04 do systemu Ubuntu 18.04 lub nowszego.
Łączenie biblioteki OpenSSL w plikach binarnych systemu Linux zmieniło się na dynamiczne. Rozmiar pliku binarnego systemu Linux został zmniejszony o około 50%.
Dodano obsługę krzemu opartego na architekturze ARM na komputerze Mac M1.
Nowe funkcje
C++/C#/Java: dodano nowe interfejsy API w celu włączenia obsługi przetwarzania audio dla danych wejściowych mowy za pomocą usługi Microsoft Audio Stack. Tutaj znajdziesz dokumentację.
C++: Nowe interfejsy API do rozpoznawania intencji ułatwiające bardziej zaawansowane dopasowywanie wzorców. Obejmuje to jednostki List i Prebuilt Integer, a także obsługę grupowania intencji i jednostek jako modeli (dokumentacja, aktualizacje i przykłady są opracowywane i będą publikowane w najbliższej przyszłości).
Mac: obsługa krzemu opartego na architekturze Arm64 (M1) dla pakietów CocoaPod, Python, Java i NuGet związanych z problemem GitHub 1244.
iOS/Mac: pliki binarne systemu iOS i macOS są teraz pakowane w pliki xcframework związane z problemem GitHub 919.
iOS/Mac: obsługa katalizatora dla komputerów Mac związanych z problemem GitHub 1171.
Linux: dodano nowy pakiet tar dla centOS7 About the Speech SDK (Informacje o zestawie SDK usługi Mowa). Pakiet .tar systemu Linux zawiera teraz określone biblioteki dla systemu RHEL/CentOS 7 w systemie
lib/centos7-x64
. Biblioteki zestawu SPEECH SDK w bibliotece lib/x64 są nadal stosowane dla wszystkich innych obsługiwanych dystrybucji systemu Linux x64 (w tym RHEL/CentOS 8) i nie będą działać w systemie RHEL/CentOS 7.JavaScript: interfejsy API VoiceProfile i SpeakerRecognizer wykonane async/awaitable.
JavaScript: dodano obsługę regionów platformy Azure dla instytucji rządowych USA.
Windows: dodano obsługę odtwarzania w systemie platforma uniwersalna systemu Windows (UWP).
Poprawki błędów
Android: aktualizacja zabezpieczeń openSSL (zaktualizowana do wersji 1.1.1l) dla pakietów systemu Android.
Python: Usunięto usterkę polegającą na tym, że wybieranie urządzenia mówiącego w języku Python kończy się niepowodzeniem.
Podstawowe: automatycznie połącz się ponownie, gdy próba połączenia zakończy się niepowodzeniem.
iOS: kompresja audio wyłączona w pakietach systemu iOS ze względu na niestabilność i problemy z kompilacją kodu bitowego podczas korzystania z usługi GStreamer. Szczegóły są dostępne za pośrednictwem usługi GitHub problemu 1209.
Przykłady w usłudze GitHub
Mac/iOS: zaktualizowano przykłady i przewodniki Szybki start dotyczące korzystania z pakietu xcframework.
.NET: przykłady zaktualizowane do korzystania z wersji .NET Core 3.1.
JavaScript: dodano przykład dla asystentów głosowych.
Zestaw Speech SDK 1.18.0: wersja z 2021 r.
Uwaga: rozpocznij pracę z zestawem SPEECH SDK tutaj.
Podsumowanie wyróżniania
- Ubuntu 16.04 osiągnął koniec życia w kwietniu 2021 roku. W przypadku usług Azure DevOps i GitHub spadniemy obsługę wersji 16.04 we wrześniu 2021 r. Przeprowadź migrację przepływów pracy ubuntu-16.04 do systemu ubuntu-18.04 lub nowszego wcześniej.
Nowe funkcje
- C++: Prosty wzorzec języka zgodny z rozpoznawaniem intencji ułatwia teraz implementowanie prostych scenariuszy rozpoznawania intencji.
- C++/C#/Java: Dodaliśmy nowy interfejs API
GetActivationPhrasesAsync()
doVoiceProfileClient
klasy w celu otrzymania listy prawidłowych fraz aktywacji w fazie rejestracji rozpoznawania osoby mówiącej dla niezależnych scenariuszy rozpoznawania.- Ważne: funkcja rozpoznawania osoby mówiącej jest dostępna w wersji zapoznawczej. Wszystkie profile głosowe utworzone w wersji zapoznawczej zostaną wycofane z 90 dni po przeniesieniu funkcji rozpoznawania osoby mówiącej z wersji zapoznawczej do ogólnej dostępności. W tym momencie profile głosowe w wersji zapoznawczej przestaną działać.
- Python: dodano obsługę ciągłej identyfikacji języka (LID) w istniejących obiektach
SpeechRecognizer
iTranslationRecognizer
. - Python: dodano nowy obiekt języka Python o nazwie
SourceLanguageRecognizer
, aby wykonać jednorazową lub ciągłą pokrywę (bez rozpoznawania lub tłumaczenia). - JavaScript:
getActivationPhrasesAsync
interfejs API dodany doVoiceProfileClient
klasy w celu otrzymania listy prawidłowych fraz aktywacji w fazie rejestracji rozpoznawania osoby mówiącej dla niezależnych scenariuszy rozpoznawania. - Interfejs API języka JavaScript
VoiceProfileClient
enrollProfileAsync
jest teraz asynchroniczny. Zobacz ten niezależny kod identyfikacyjny, na przykład użycie.
Ulepszenia
- Java: obsługa funkcji AutoCloseable dodana do wielu obiektów Java. Teraz model try-with-resources jest obsługiwany w celu wydania zasobów. Zobacz ten przykład, który używa funkcji try-with-resources. Aby dowiedzieć się więcej na temat tego wzorca, zapoznaj się również z samouczkiem dotyczącym dokumentacji języka Java dla środowiska Oracle dla instrukcji try-with-resources .
- Zużycie dysku zostało znacznie zmniejszone dla wielu platform i architektur. Przykłady danych
Microsoft.CognitiveServices.Speech.core
binarnych: x64 Linux jest mniejszy niż 475 KB (8,0%); Arm64 Windows UWP jest mniejszy o 464 KB (11,5%); x86 Windows jest mniejszy niż 343 KB (17,5%); i x64 Windows jest mniejszy o 451 KB (19,4% redukcji).
Poprawki błędów
- Java: Naprawiono błąd syntezy, gdy tekst syntezy zawiera znaki zastępcze. Szczegóły znajdują się tutaj.
- JavaScript: przetwarzanie dźwięku mikrofonu przeglądarki używa
AudioWorkletNode
teraz zamiast przestarzałegoScriptProcessorNode
. Szczegóły znajdują się tutaj. - JavaScript: poprawne utrzymywanie konwersacji podczas długotrwałych scenariuszy tłumaczenia konwersacji. Szczegóły znajdują się tutaj.
- JavaScript: rozwiązano problem polegający na ponownym połączeniu rozpoznawania z strumieniem multimediów w ciągłym rozpoznawaniu. Szczegóły znajdują się tutaj.
- JavaScript: rozwiązano problem z ponownym nawiązywaniem połączenia z elementem pushStream w ciągłym rozpoznawaniu. Szczegóły znajdują się tutaj.
- JavaScript: poprawiono obliczanie przesunięcia na poziomie wyrazu w wynikach szczegółowego rozpoznawania. Szczegóły znajdują się tutaj.
Przykłady
- Przykłady z przewodnika Szybki start dla języka Java zostały zaktualizowane tutaj.
- Zaktualizowano przykłady rozpoznawania osoby mówiącej w języku JavaScript, aby pokazać nowe użycie elementu
enrollProfileAsync()
. Zobacz przykłady tutaj.
Zestaw Speech SDK 1.17.0: wersja z maja 2021 r.
Uwaga
Rozpocznij pracę z zestawem SPEECH SDK tutaj.
Podsumowanie wyróżniania
- Mniejszy ślad — nadal zmniejszamy ilość pamięci i dysku zestawu SPEECH SDK oraz jego składników.
- Nowy autonomiczny interfejs API identyfikacji języka umożliwia rozpoznawanie języka mówionego.
- Twórz aplikacje rzeczywistości mieszanej i gier z obsługą mowy przy użyciu aparatu Unity w systemie macOS.
- Teraz możesz używać funkcji Zamiana tekstu na mowę oprócz rozpoznawania mowy z języka programowania Go.
- Kilka poprawek usterek w celu rozwiązania problemów, które zostały oflagowane przez naszych cenionych klientów w usłudze GitHub! DZIĘKUJĘ! Śledź opinie!
Nowe funkcje
- C++/C#: Nowe autonomiczne wykrywanie języka przy uruchamianiu i ciągłym za pośrednictwem interfejsu
SourceLanguageRecognizer
API. Jeśli chcesz tylko wykryć języki mówione w zawartości audio, jest to interfejs API, aby to zrobić. Szczegółowe informacje można znaleźć w językach C++ i C#. - C++/C#: Rozpoznawanie mowy i rozpoznawanie tłumaczenia obsługują teraz zarówno na początku, jak i ciągłą identyfikację języka, dzięki czemu można programowo określić, które języki są używane przed ich transkrypcją lub przetłumaczoną. Zapoznaj się z dokumentacją dotyczącą rozpoznawania mowy i tutaj, aby zapoznać się z tłumaczeniem mowy.
- C#: Dodano obsługę aparatu Unity dla systemu macOS (x64). Spowoduje to odblokowanie rozpoznawania mowy i przypadków użycia syntezy mowy w rzeczywistości mieszanej i grach!
- Go: Dodaliśmy obsługę tekstu syntezy mowy na mowę w języku programowania Go w celu udostępnienia syntezy mowy w jeszcze większej analizie użycia. Zobacz nasz przewodnik Szybki start lub dokumentację referencyjną.
- C++/C#/Java/Python/Objective-C/Go: syntetyzator mowy obsługuje
connection
teraz obiekt. Ułatwia to zarządzanie i monitorowanie połączenia z usługą Rozpoznawanie mowy, co jest szczególnie przydatne w przypadku wstępnego nawiązywania połączenia w celu zmniejszenia opóźnienia. Zapoznaj się z dokumentacją tutaj. - C++/C#/Java/Python/Objective-C/Go: Teraz uwidaczniamy opóźnienie i czas wykonywania,
SpeechSynthesisResult
aby ułatwić monitorowanie i diagnozowanie problemów z opóźnieniem syntezy mowy. Zobacz szczegóły języków C++, C#, Java, Python, Objective-C i Go. - C++/C#/Java/Python/Objective-C: Zamiana tekstu na mowę domyślnie używa głosów neuronowych, gdy nie określisz głosu do użycia. Zapewnia to domyślnie większą wierność danych wyjściowych, ale także zwiększa domyślną cenę. Możesz określić dowolny z ponad 70 standardowych głosów lub ponad 130 neuronowych głosów, aby zmienić wartość domyślną.
- C++/C#/Java/Python/Objective-C/Go: Dodaliśmy właściwość Gender do informacji o głosie syntezy, aby ułatwić wybieranie głosów na podstawie płci. Dotyczy to problemu z usługą GitHub #1055.
- C++, C#, Java, JavaScript: obsługujemy teraz rozpoznawanie
retrieveEnrollmentResultAsync
,getAuthorizationPhrasesAsync
igetAllProfilesAsync()
w funkcji rozpoznawania osoby mówiącej, aby ułatwić zarządzanie użytkownikami wszystkich profilów głosowych dla danego konta. Zobacz dokumentację języka C++, C#, Java, JavaScript. To rozwiązanie problemu z usługą GitHub nr 338. - JavaScript: dodaliśmy ponawianie prób dla niepowodzeń połączenia, które sprawią, że aplikacje mowy oparte na języku JavaScript będą bardziej niezawodne.
Ulepszenia
- Pliki binarne zestawu SDK rozpoznawania mowy dla systemu Linux i Android zostały zaktualizowane w celu korzystania z najnowszej wersji biblioteki OpenSSL (1.1.1k)
- Ulepszenia rozmiaru kodu:
- Usługa Language Understanding jest teraz podzielona na oddzielną bibliotekę "lu".
- Rozmiar binarny systemu Windows x64 core zmniejszył się o 14,4%.
- Rozmiar binarny rdzenia arm64 systemu Android zmniejszył się o 13,7%.
- inne składniki również zmniejszyły się w rozmiarze.
Poprawki błędów
- Wszystko: Rozwiązano problem z usługą GitHub #842 dla elementu ServiceTimeout. Teraz można transkrybować długie pliki audio przy użyciu zestawu SPEECH SDK bez połączenia z usługą kończącą się tym błędem. Jednak nadal zalecamy używanie transkrypcji wsadowej dla długich plików.
- C#: Rozwiązano problem z usługą GitHub #947 polegający na tym, że żadne dane wejściowe mowy nie mogły pozostawić aplikacji w złym stanie.
- Java: Rozwiązano problem z usługą GitHub #997 polegający na tym, że zestaw SPEECH SDK dla języka Java 1.16 ulegał awarii podczas korzystania z narzędzia DialogServiceConnector bez połączenia sieciowego lub nieprawidłowego klucza subskrypcji.
- Naprawiono awarię, gdy nagle zatrzymano rozpoznawanie mowy (na przykład przy użyciu CTRL+C w aplikacji konsolowej).
- Java: dodano poprawkę do usuwania plików tymczasowych w systemie Windows podczas korzystania z zestawu Speech SDK dla języka Java.
- Java: Rozwiązano problem z usługą GitHub nr 994 polegający na tym, że wywołanie
DialogServiceConnector.stopListeningAsync
mogło spowodować błąd. - Java: rozwiązano problem klienta w przewodniku Szybki start asystenta wirtualnego.
- JavaScript: Rozwiązano problem z usługą GitHub #366 , w którym
ConversationTranslator
wystąpił błąd "this.cancelSpeech nie jest funkcją". - JavaScript: Rozwiązano problem z usługą GitHub nr 298 , w którym przykład "Pobierz wynik jako strumień w pamięci" odtwarzał dźwięk głośno.
- JavaScript: Rozwiązano problem z usługą GitHub #350 , który polegał na tym, że wywołanie
AudioConfig
mogło spowodować, że element "ReferenceError: MediaStream" nie został zdefiniowany. - JavaScript: naprawiono ostrzeżenie UnhandledPromiseRejection w Node.js dla długotrwałych sesji.
Przykłady
- Zaktualizowano dokumentację przykładów aparatu Unity dla systemu macOS tutaj.
- Przykład react native dla usługi rozpoznawania mowy azure AI jest teraz dostępny tutaj.
Zestaw Speech SDK 1.16.0: wersja z marca 2021 r.
Uwaga
Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz go tutaj.
Nowe funkcje
- C++/C#/Java/Python: przeniesiono do najnowszej wersji usługi GStreamer (1.18.3), aby dodać obsługę transkrypcji dowolnego formatu multimediów w systemach Windows, Linux i Android. Zapoznaj się z dokumentacją tutaj.
- C++/C#/Java/Objective-C/Python: Dodano obsługę dekodowania skompresowanego TTS/syntetyzowanego dźwięku do zestawu SDK. Jeśli ustawisz format audio wyjściowego na PCM i GStreamer jest dostępny w systemie, zestaw SDK automatycznie zażąda skompresowanego dźwięku z usługi, aby zaoszczędzić przepustowość i zdekodować dźwięk na kliencie. Możesz ustawić wartość
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
, abyfalse
wyłączyć tę funkcję. Szczegóły języka C++, C#, Java, Objective-C, Python. - JavaScript: Node.js użytkownicy mogą teraz używać interfejsu
AudioConfig.fromWavFileInput
API. To rozwiązanie problemu z usługą GitHub nr 252. - C++/C#/Java/Objective-C/Python: Dodano
GetVoicesAsync()
metodę TTS, aby zwrócić wszystkie dostępne głosy syntezy. Szczegóły języków C++, C#, Java, Objective-C i Python. - C++/C#/Java/JavaScript/Objective-C/Python: Dodano
VisemeReceived
zdarzenie syntezy TTS/mowy w celu zwrócenia synchronicznej animacji wizjera. Zapoznaj się z dokumentacją tutaj. - C++/C#/Java/JavaScript/Objective-C/Python: Dodano
BookmarkReached
zdarzenie dla usługi TTS. Zakładki można ustawić w wejściowym języku SSML i pobrać przesunięcia audio dla każdej zakładki. Zapoznaj się z dokumentacją tutaj. - Java: dodano obsługę interfejsów API rozpoznawania osoby mówiącej. Szczegóły znajdują się tutaj.
- C++/C#/JavaScript/Objective-C/Python: dodano dwa nowe formaty audio wyjściowe z kontenerem WebM dla TTS (Webm16Khz16BitMonoOpus i Webm24Khz16BitMonoOpus). Są to lepsze formaty przesyłania strumieniowego audio za pomocą koderu Opus. Szczegóły języka C++, C#, Java, JavaScript, Objective-C, Python.
- C++/C#/Java: Dodano obsługę pobierania profilu głosowego dla scenariusza rozpoznawania osoby mówiącej. Szczegóły dotyczące języków C++, C# i Java.
- C++/C#/Java/Objective-C/Python: Dodano obsługę oddzielnej biblioteki udostępnionej dla mikrofonu audio i kontrolki głośnika. Dzięki temu deweloper może używać zestawu SDK w środowiskach, które nie mają wymaganych zależności bibliotek audio.
- Objective-C/Swift: dodano obsługę platformy modułów z nagłówkiem parasola. Dzięki temu deweloper może zaimportować zestaw SPEECH SDK jako moduł w aplikacjach języka Objective-C/Swift dla systemu iOS/Mac. To rozwiązanie problemu z usługą GitHub nr 452.
- Python: dodano obsługę języka Python 3.9 i usunięto obsługę języka Python 3.5 na koniec życia języka Python przez 3,5.
Znane problemy
- C++/C#/Java:
DialogServiceConnector
nie można użyć elementu wCustomCommandsConfig
celu uzyskania dostępu do aplikacji poleceń niestandardowych i zamiast tego wystąpi błąd połączenia. Można to obejść przez ręczne dodanie identyfikatora aplikacji do żądania za pomocą poleceniaconfig.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
. Oczekiwane zachowanie funkcji zostanie przywróconeCustomCommandsConfig
w następnej wersji.
Ulepszenia
- W ramach wysiłku obejmującego wiele wersji, aby zmniejszyć użycie pamięci i zużycie dysku przez zestaw SDK usługi Mowa, pliki binarne systemu Android są teraz o 3% do 5% mniejsze.
- Poprawiono dokładność, czytelność i sekcje naszej dokumentacji referencyjnej języka C#tutaj.
Poprawki błędów
- JavaScript: duże nagłówki plików WAV są teraz poprawnie analizowane (zwiększa fragment nagłówka do 512 bajtów). To rozwiązanie problemu z usługą GitHub nr 962.
- JavaScript: Poprawiono problem z chronometrażem mikrofonu, jeśli strumień mikrofonu kończy się przed zatrzymaniem rozpoznawania, co rozwiązuje problem z brakiem funkcji rozpoznawania mowy w przeglądarce Firefox.
- JavaScript: Teraz poprawnie obsługujemy obietnicę inicjowania, gdy przeglądarka wymusza wyłączenie mikrofonu przed zakończeniem włączania.
- JavaScript: zamieniliśmy zależność adresu URL na adres URL-parse. To rozwiązanie problemu z usługą GitHub nr 264.
- Android: naprawiono wywołania zwrotne, które nie działają, gdy
minifyEnabled
ustawiono wartość true. - C++/C#/Java/Objective-C/Python:
TCP_NODELAY
zostanie poprawnie ustawiona na bazowe we/wy gniazda dla usługi TTS, aby zmniejszyć opóźnienie. - C++/C#/Java/Python/Objective-C/Go: Naprawiono sporadyczne awarie, gdy rozpoznawanie zostało zniszczone tuż po uruchomieniu rozpoznawania.
- C++/C#/Java: Naprawiono sporadyczne awarie w niszczeniu aparatu rozpoznawania osoby mówiącej.
Przykłady
- JavaScript: przykłady przeglądarki nie wymagają już oddzielnego pobierania pliku biblioteki JavaScript.
Zestaw Speech SDK 1.15.0: wydanie ze stycznia 2021 r.
Uwaga
Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz go tutaj.
Podsumowanie wyróżniania
- Mniejsza ilość pamięci i miejsca na dysku sprawia, że zestaw SDK jest bardziej wydajny.
- Formaty danych wyjściowych o większej wierności są dostępne dla prywatnej wersji zapoznawczej niestandardowego neuronowego głosu.
- Rozpoznawanie intencji może teraz uzyskać zwrot więcej niż górna intencja, co daje możliwość dokonania oddzielnej oceny intencji klienta.
- Asystentzy głosowi i boty są teraz łatwiejsze do skonfigurowania i możesz sprawić, że natychmiast przestanie nasłuchiwać, i kontrolować sposób reagowania na błędy.
- Ulepszona wydajność urządzenia dzięki opcjonalnemu kompresji.
- Użyj zestawu SPEECH SDK w systemie Windows ARM/Arm64.
- Ulepszone debugowanie niskiego poziomu.
- Funkcja oceny wymowy jest teraz szerzej dostępna.
- Kilka poprawek usterek w celu rozwiązania problemów, które zostały oflagowane przez naszych cenionych klientów w usłudze GitHub! DZIĘKUJĘ! Śledź opinie!
Ulepszenia
- Zestaw SDK usługi Mowa jest teraz bardziej wydajny i lekki. Rozpoczęliśmy nakład pracy z wieloma wersjami, aby zmniejszyć użycie pamięci i zużycie dysku przez zestaw SDK usługi Mowa. Pierwszym krokiem było znaczne zmniejszenie rozmiaru plików w bibliotekach udostępnionych na większości platform. W porównaniu z wersją 1.14:
- 64-bitowe biblioteki systemu Windows zgodne z platformą UWP są o około 30% mniejsze.
- 32-bitowe biblioteki systemu Windows nie widzą jeszcze poprawy rozmiaru.
- Biblioteki systemu Linux są o 20–25% mniejsze.
- Biblioteki systemu Android są o 3–5% mniejsze.
Nowe funkcje
- Wszystko: Nowe formaty wyjściowe 48 KHz dostępne dla prywatnej wersji zapoznawczej niestandardowego neuronowego głosu za pośrednictwem interfejsu API syntezy mowy TTS: Audio48Khz192KBitRateMonoMp3, audio-48khz-192kbitrate-mono-mp3, Audio48Khz96KBitRateMonoMp3, audio-48khz-96kbitrate-mono-mp3, Raw48Khz16BitMonoPcm, raw-48khz-16bit-mono-pcm, Riff48Khz16BitMonoPcm, riff-48khz-16bit-mono-pcm.
- Wszystko: Niestandardowy głos jest również łatwiejszy w użyciu. Dodano obsługę ustawiania głosu niestandardowego za pośrednictwem języka
EndpointId
(C++, C#, Java, JavaScript, Objective-C, Python). Przed tą zmianą niestandardowi użytkownicy głosowi musieli ustawić adres URL punktu końcowegoFromEndpoint
za pomocą metody . Teraz klienci mogą używaćFromSubscription
metody tak samo jak wstępnie utworzone głosy, a następnie podać identyfikator wdrożenia, ustawiając wartośćEndpointId
. Upraszcza to konfigurowanie niestandardowych głosów. - C++/C#/Java/Objective-C/Python: Uzyskaj więcej niż górną intencję
IntentRecognizer
. Obsługuje teraz konfigurowanie wyniku JSON zawierającego wszystkie intencje, a nie tylko intencję oceniania najwyższego poziomu za pośrednictwem metody przyLanguageUnderstandingModel FromEndpoint
użyciuverbose=true
parametru URI. To rozwiązanie problemu z usługą GitHub nr 880. Zobacz zaktualizowaną dokumentację tutaj. - C++/C#/Java: natychmiastowe zatrzymywanie nasłuchiwania asystenta głosowego lub bota.
DialogServiceConnector
(C++, C#, Java) ma teraz metodę towarzyszącąListenOnceAsync()
StopListeningAsync()
. Spowoduje to natychmiastowe zatrzymanie przechwytywania dźwięku i bezproblemowe oczekiwanie na wynik, co czyni go idealnym do użycia ze scenariuszami "zatrzymaj teraz" naciśnięcia przycisku. - C++/C#/Java/JavaScript: Ustaw asystenta głosowego lub bota na lepsze reagowanie na podstawowe błędy systemu.
DialogServiceConnector
(C++, C#, Java, JavaScript) ma teraz nowąTurnStatusReceived
procedurę obsługi zdarzeń. Te zdarzenia opcjonalne odpowiadają każdejITurnContext
rozdzielczości bota i będą zgłaszać błędy wykonywania kolei, gdy wystąpią, na przykład w wyniku nieobsługiwanego wyjątku, przekroczenia limitu czasu lub spadku sieci między usługą Direct Line Speech i botem.TurnStatusReceived
ułatwia reagowanie na warunki awarii. Jeśli na przykład bot trwa zbyt długo w zapytaniu bazy danych zaplecza (na przykład w poszukiwaniu produktu),TurnStatusReceived
klient może wiedzieć, że wykona reprompt z komunikatem "przepraszam, nie udało mi się tego zrobić, możesz spróbować ponownie" lub coś podobnego. - C++/C#: Użyj zestawu SPEECH SDK na większej korzystaniu z platform. Pakiet NuGet zestawu SPEECH SDK obsługuje teraz pliki binarne natywne dla komputerów z systemem Windows ARM/Arm64 (platforma UWP była już obsługiwana), aby zestaw SPEECH SDK był bardziej przydatny w przypadku większej liczby typów maszyn.
- Java:
DialogServiceConnector
teraz ma metodęsetSpeechActivityTemplate()
, która została przypadkowo wykluczona z języka wcześniej. Jest to równoważne ustawieniuConversation_Speech_Activity_Template
właściwości i będzie żądać, aby wszystkie przyszłe działania platformy Bot Framework pochodzące z usługi rozpoznawania mowy direct line scaliły podaną zawartość z ładunkami JSON. - Java: ulepszone debugowanie niskiego poziomu. Klasa
Connection
maMessageReceived
teraz zdarzenie podobne do innych języków programowania (C++, C#). To zdarzenie zapewnia niski poziom dostępu do danych przychodzących z usługi i może być przydatne do diagnostyki i debugowania. - JavaScript: łatwiejsza konfiguracja asystentów głosowych i botów za pomocą
BotFrameworkConfig
programu , który mafromHost()
teraz ifromEndpoint()
metody fabryki, które upraszczają korzystanie z niestandardowych lokalizacji usług i ręczne ustawianie właściwości. Ustandaryzowaliśmy również opcjonalną specyfikacjębotId
używania bota innego niż domyślny w fabrykach konfiguracji. - JavaScript: ulepszona wydajność urządzenia za pomocą dodanej właściwości kontrolki ciągu na potrzeby kompresji protokołu websocket. Ze względów wydajności domyślnie wyłączyliśmy kompresję protokołu Websocket. Można je ponownie przywrócić w scenariuszach o niskiej przepustowości. Więcej szczegółów można znaleźć tutaj. To rozwiązanie problemu z usługą GitHub nr 242.
- JavaScript: dodano obsługę oceny lPronunciation, aby umożliwić ocenę wymowy mowy. Zobacz przewodnik Szybki start tutaj.
Poprawki błędów
- Wszystkie (z wyjątkiem języka JavaScript): naprawiono regresję w wersji 1.14, w której zbyt dużo pamięci zostało przydzielone przez rozpoznawanie.
- C++: Rozwiązano problem z odzyskiwaniem pamięci z usługą , który rozwiązał problem z usługą
DialogServiceConnector
GitHub #794. - C#: Rozwiązano problem z zamknięciem wątku, który powodował zablokowanie obiektów przez około sekundę podczas usuwania.
- C++/C#/Java: Naprawiono wyjątek uniemożliwiający aplikacji ustawienie tokenu autoryzacji mowy lub szablonu działania więcej niż raz na obiekcie
DialogServiceConnector
. - C++/C#/Java: Naprawiono awarię aparatu rozpoznawania z powodu stanu wyścigu w łzawie.
- JavaScript:
DialogServiceConnector
wcześniej nie uwzględniał opcjonalnegobotId
parametru określonego wBotFrameworkConfig
fabrykach. Umożliwiło to ręczne ustawienie parametrubotId
ciągu zapytania w celu użycia bota innego niż domyślny. Usterka została poprawiona, abotId
wartości podaneBotFrameworkConfig
fabrykom będą honorowane i używane, w tym nowefromHost()
ifromEndpoint()
dodane. Dotyczy to również parametruapplicationId
.CustomCommandsConfig
- JavaScript: Rozwiązano problem z usługą GitHub #881, który zezwalał na ponowne użycie obiektu rozpoznawania.
- JavaScript: rozwiązano problem polegający na tym, że skD wysyłał
speech.config
wiele razy w jednej sesji TTS, co marnowało przepustowość. - JavaScript: uproszczona obsługa błędów podczas autoryzacji mikrofonu, umożliwiając bardziej opisowy komunikat bąbelkowy, gdy użytkownik nie zezwolił na wprowadzanie mikrofonu w przeglądarce.
- JavaScript: Rozwiązano problem z usługą GitHub nr 249 polegający na tym, że błędy typu w
ConversationTranslator
pliku iConversationTranscriber
powodowały błąd kompilacji dla użytkowników języka TypeScript. - Objective-C: Rozwiązano problem polegający na tym, że kompilacja usługi GStreamer nie powiodła się dla systemu iOS w środowisku Xcode 11.4, co rozwiązało problem z usługą GitHub nr 911.
- Python: Rozwiązano problem z usługą GitHub #870, usuwając polecenie "DeprecationWarning: imp module jest przestarzały na rzecz importlib".
Przykłady
- Przykład from-file dla przeglądarki JavaScript używa teraz plików do rozpoznawania mowy. To rozwiązanie problemu z usługą GitHub nr 884.
Zestaw Speech SDK 1.14.0: wydanie z października 2020 r.
Uwaga
Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz go tutaj.
Nowe funkcje
- Linux: dodano obsługę systemów Debian 10 i Ubuntu 20.04 LTS.
- Python/Objective-C: Dodano obsługę interfejsu
KeywordRecognizer
API. Dokumentacja będzie tutaj. - C++/Java/C#: Dodano obsługę ustawiania dowolnego
HttpHeader
klucza/wartości za pomocą poleceniaServicePropertyChannel::HttpHeader
. - JavaScript: dodano obsługę interfejsu
ConversationTranscriber
API. Przeczytaj dokumentację tutaj. - C++/C#: Dodano nową
AudioDataStream FromWavFileInput
metodę (aby odczytać . Pliki WAV tutaj (C++) i tutaj (C#). - C++/C#/Java/Python/Objective-C/Swift: Dodano metodę zatrzymywania
stopSpeakingAsync()
syntezy mowy w tekście. Przeczytaj dokumentację referencyjną tutaj (C++), tutaj (C#), tutaj (Java), tutaj (Python), a tutaj (Objective-C/Swift). - C#, C++, Java: dodano
FromDialogServiceConnector()
funkcję doConnection
klasy, która może służyć do monitorowania zdarzeń połączenia i rozłączania dla programuDialogServiceConnector
. Przeczytaj dokumentację referencyjną tutaj (C#), tutaj (C++), a tutaj (Java). - C++/C#/Java/Python/Objective-C/Swift: Dodano obsługę oceny wymowy, która ocenia wymowę mowy i przekazuje głośnikom opinie na temat dokładności i płynności dźwięku mówionego. Przeczytaj dokumentację tutaj.
Zmiana powodująca niezgodność
- JavaScript: PullAudioOutputStream.read() ma zmianę typu zwracanego z wewnętrznej obietnicy na natywną obietnicę języka JavaScript.
Poprawki błędów
- Wszystko: Naprawiono regresję 1.13, w
SetServiceProperty
której wartości z pewnymi znakami specjalnymi były ignorowane. - C#: Naprawiono przykłady konsoli systemu Windows w programie Visual Studio 2019, które nie mogą znaleźć natywnych bibliotek DLL.
- C#: Naprawiono awarię z zarządzaniem pamięcią, jeśli strumień jest używany jako
KeywordRecognizer
dane wejściowe. - ObjectiveC/Swift: Naprawiono awarię z zarządzaniem pamięcią, jeśli strumień jest używany jako dane wejściowe rozpoznawania.
- Windows: rozwiązano problem z współistnieniem z protokołem BT HFP/A2DP w systemie UWP.
- JavaScript: naprawiono mapowanie identyfikatorów sesji w celu ulepszenia rejestrowania i pomocy w wewnętrznych korelacjach debugowania/usługi.
- JavaScript: dodano poprawkę do
DialogServiceConnector
wyłączania wywołańListenOnce
po wykonaniu pierwszego wywołania. - JavaScript: rozwiązano problem polegający na tym, że dane wyjściowe wyników zawsze stały się "proste".
- JavaScript: rozwiązano problem z ciągłym rozpoznawaniem w przeglądarce Safari w systemie macOS.
- JavaScript: ograniczenie obciążenia procesora CPU dla scenariusza o wysokiej przepływności żądań.
- JavaScript: zezwalaj na dostęp do szczegółów wyniku rejestracji profilu głosowego.
- JavaScript: dodano poprawkę do ciągłego rozpoznawania w programie
IntentRecognizer
. - C++/C#/Java/Python/Swift/ObjectiveC: Naprawiono niepoprawny adres URL dla elementu australiaeast i brazilsouth w elem.
IntentRecognizer
- C++/C#: Dodano
VoiceProfileType
jako argument podczas tworzeniaVoiceProfile
obiektu. - C++/C#/Java/Python/Swift/ObjectiveC: Naprawiono potencjał
SPX_INVALID_ARG
podczas próby odczytaniaAudioDataStream
z danej pozycji. - IOS: naprawiono awarię z rozpoznawaniem mowy w środowisku Unity
Przykłady
- ObjectiveC: Dodano przykład do rozpoznawania słów kluczowych tutaj.
- C#/JavaScript: Dodano przewodnik Szybki start do transkrypcji konwersacji tutaj (C#) i tutaj (JavaScript).
- C++/C#/Java/Python/Swift/ObjectiveC: Dodano przykład do oceny wymowy tutaj
Znany problem
- Certyfikat Globalny główny G2 firmy DigiCert nie jest domyślnie obsługiwany w urządzeniach HoloLens 2 i Android 4.4 (KitKat) i musi zostać dodany do systemu, aby zestaw Speech SDK działał. Certyfikat zostanie dodany do obrazów systemu operacyjnego HoloLens 2 w najbliższej przyszłości. Klienci z systemem Android 4.4 muszą dodać zaktualizowany certyfikat do systemu.
Testy skrócone covid-19
Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!
Zestaw Speech SDK 1.13.0: wersja z lipca 2020 r.
Uwaga
Zestaw SPEECH SDK dla systemu Windows zależy od udostępnionego zestawu Microsoft Pakiet redystrybucyjny Visual C++ dla Visual Studio 2015, 2017 i 2019. Pobierz i zainstaluj go z tego miejsca.
Nowe funkcje
- C#: Dodano obsługę asynchronicznej transkrypcji konwersacji. Zapoznaj się z dokumentacją tutaj.
- JavaScript: dodano obsługę rozpoznawania osoby mówiącej zarówno dla przeglądarki , jak i Node.js.
- JavaScript: dodano obsługę identyfikacji języka/identyfikatora języka. Zapoznaj się z dokumentacją tutaj.
- Objective-C: Dodano obsługę transkrypcji konwersacji z wieloma urządzeniami i konwersacji.
- Python: dodano obsługę skompresowanego dźwięku dla języka Python w systemach Windows i Linux. Zapoznaj się z dokumentacją tutaj.
Poprawki błędów
- Wszystko: rozwiązano problem, który spowodował, że słowo kluczoweRecognizer nie przenosiło strumieni do przodu po rozpoznaniu.
- Wszystko: rozwiązano problem, który spowodował, że strumień uzyskany z słowa kluczowegoRecognitionResult nie zawierał słowa kluczowego.
- Wszystko: rozwiązano problem polegający na tym, że narzędzie SendMessageAsync nie wysyłało komunikatu za pośrednictwem przewodu po zakończeniu oczekiwania użytkowników.
- Wszystko: Naprawiono awarię interfejsów API rozpoznawania osoby mówiącej, gdy użytkownicy wywołają metodę VoiceProfileClient::SpeakerRecEnrollProfileAsync wiele razy i nie czekali na zakończenie wywołań.
- Wszystko: naprawiono włączanie rejestrowania plików w klasach VoiceProfileClient i SpeakerRecognizer.
- JavaScript: rozwiązano problem z ograniczaniem przepustowości, gdy przeglądarka została zminimalizowana.
- JavaScript: rozwiązano problem z wyciekiem pamięci w strumieniach.
- JavaScript: dodano buforowanie odpowiedzi OCSP z usługi NodeJS.
- Java: rozwiązano problem powodujący, że pola BigInteger zawsze zwracały wartość 0.
- iOS: rozwiązano problem z publikowaniem aplikacji opartych na zestawie SPEECH SDK w sklepie App Store dla systemu iOS.
Przykłady
- C++: Dodano przykładowy kod do rozpoznawania osoby mówiącej tutaj.
Testy skrócone covid-19
Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!
Zestaw Speech SDK 1.12.1: wersja z czerwca 2020 r.
Nowe funkcje
- C#, C++: Wersja zapoznawcza rozpoznawania osoby mówiącej: ta funkcja umożliwia identyfikację osoby mówiącej (kto mówi?) i weryfikację osoby mówiącej (czy osoba mówiąca, która twierdzi, że?). Zapoznaj się z dokumentacją przeglądu.
Poprawki błędów
- C#, C++: Stałe nagrywanie mikrofonu nie działało w wersji 1.12 w funkcji rozpoznawania osoby mówiącej.
- JavaScript: poprawki dotyczące zamiany tekstu na mowę w przeglądarce Firefox i Safari w systemach macOS i iOS.
- Poprawka dotycząca awarii naruszenia dostępu weryfikatora aplikacji systemu Windows podczas transkrypcji konwersacji podczas korzystania ze strumienia ośmiu kanałów.
- Poprawka dotycząca awarii naruszenia dostępu weryfikatora aplikacji systemu Windows w przypadku tłumaczenia konwersacji z wieloma urządzeniami.
Przykłady
- C#: Przykładowy kod rozpoznawania osoby mówiącej.
- C++: przykład kodu do rozpoznawania osoby mówiącej.
- Java: przykład kodu do rozpoznawania intencji w systemie Android.
Testy skrócone covid-19
Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!
Zestaw Speech SDK 1.12.0: wersja z maja 2020 r.
Nowe funkcje
- Go: Nowa obsługa języka Go na potrzeby rozpoznawania mowy i niestandardowego asystenta głosowego. Skonfiguruj środowisko deweloperskie tutaj. Przykładowy kod można znaleźć w poniższej sekcji Przykłady.
- JavaScript: dodano obsługę przeglądarki dla zamiany tekstu na mowę. Zapoznaj się z dokumentacją tutaj.
- C++, C#, Java: nowe
KeywordRecognizer
obiekty i interfejsy API obsługiwane na platformach Windows, Android, Linux i iOS. Przeczytaj dokumentację tutaj. Przykładowy kod można znaleźć w poniższej sekcji Przykłady. - Java: dodano konwersację z wieloma urządzeniami z obsługą tłumaczenia. Zapoznaj się z dokumentacją referencyjną tutaj.
Ulepszenia i optymalizacje
- JavaScript: zoptymalizowana implementacja mikrofonu przeglądarki poprawiająca dokładność rozpoznawania mowy.
- Java: powiązania refaktoryzowane przy użyciu bezpośredniej implementacji JNI bez SWIG. Ta zmiana zmniejsza o 10 razy rozmiar powiązań dla wszystkich pakietów Java używanych dla systemów Windows, Android, Linux i Mac oraz ułatwia dalsze opracowywanie implementacji języka Java zestawu SPEECH SDK.
- Linux: zaktualizowano dokumentację pomocy technicznej z najnowszymi uwagami specyficznymi dla systemu RHEL 7.
- Ulepszona logika połączenia w celu wielokrotnego nawiązywania połączenia w przypadku wystąpienia błędów usługi i sieci.
- Zaktualizowano stronę szybkiego startu portal.azure.com Speech, aby pomóc deweloperom wykonać kolejny krok w podróży po usłudze Azure AI Speech.
Poprawki błędów
- C#, Java: rozwiązano problem z ładowaniem bibliotek zestawu SDK w usłudze ARM systemu Linux (zarówno w wersji 32-bitowej, jak i 64-bitowej).
- C#: Stałe jawne usuwanie natywnych dojść dla obiektów TranslationRecognizer, IntentRecognizer i Connection.
- C#: Naprawiono zarządzanie okresem istnienia danych wejściowych audio dla obiektu ConversationTranscriber.
- Rozwiązano problem polegający na tym, że
IntentRecognizer
przyczyna wyniku nie została prawidłowo ustawiona podczas rozpoznawania intencji z prostych fraz. - Rozwiązano problem polegający na tym, że
SpeechRecognitionEventArgs
przesunięcie wyniku nie było poprawnie ustawione. - Naprawiono warunek wyścigu polegający na tym, że zestaw SDK próbował wysłać komunikat sieciowy przed otwarciem połączenia protokołu websocket. Można było odtworzyć podczas
TranslationRecognizer
dodawania uczestników. - Naprawiono przecieki pamięci w a aparatze rozpoznawania słów kluczowych.
Przykłady
- Go: dodano przewodniki Szybki start dotyczące rozpoznawania mowy i niestandardowego asystenta głosowego. Znajdź przykładowy kod tutaj.
- JavaScript: dodano przewodniki Szybki start dotyczące zamiany tekstu na mowę, tłumaczenie i rozpoznawanie intencji.
- Przykłady rozpoznawania słów kluczowych dla języków C# i Java (Android).
Testy skrócone covid-19
Ze względu na zdalną pracę w ciągu ostatnich kilku tygodni nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacyjnego, jak zwykle. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogły coś uszkodzić, a wszystkie nasze testy automatyczne przeszły. Jeśli coś przegapiliśmy, daj nam znać w witrynie GitHub.
Bądź zdrowy!
Zestaw Speech SDK 1.11.0: wersja z marca 2020 r.
Nowe funkcje
- Linux: dodano obsługę systemu Red Hat Enterprise Linux (RHEL)/CentOS 7 x64.
- Linux: dodano obsługę platformy .NET Core C# w systemie Linux ARM32 i Arm64. Przeczytaj więcej tutaj.
- C#, C++: Dodano
UtteranceId
wConversationTranscriptionResult
pliku spójny identyfikator dla wszystkich pośrednich i końcowych wyników rozpoznawania mowy. Szczegóły dotyczące języka C#, C++. - Python: dodano obsługę elementu
Language ID
. Zobacz speech_sample.py w repozytorium GitHub. - Windows: dodano obsługę skompresowanego formatu wejściowego audio na platformie Windows dla wszystkich aplikacji konsolowych win32. Szczegóły znajdują się tutaj.
- JavaScript: obsługa syntezy mowy (tekstu na mowę) w środowisku NodeJS. Dowiedz się więcej tutaj.
- JavaScript: dodaj nowe interfejsy API, aby umożliwić inspekcję wszystkich wiadomości wysyłanych i odebranych. Dowiedz się więcej tutaj.
Poprawki błędów
- C#, C++: Rozwiązano problem, więc
SendMessageAsync
teraz wysyła komunikat binarny jako typ binarny. Szczegóły dotyczące języka C#, C++. - C#, C++: Rozwiązano problem polegający na tym, że używanie
Connection MessageReceived
zdarzenia mogło spowodować awarię, jeśliRecognizer
obiekt został usunięty przed obiektemConnection
. Szczegóły dotyczące języka C#, C++. - Android: rozmiar buforu audio z mikrofonu zmniejszył się z 800 ms do 100 ms w celu zwiększenia opóźnienia.
- Android: rozwiązano problem z emulatorem systemu Android x86 w programie Android Studio.
- JavaScript: dodano obsługę regionów w Chinach za pomocą interfejsu
fromSubscription
API. Szczegóły znajdują się tutaj. - JavaScript: dodaj więcej informacji o błędach dotyczących niepowodzeń połączenia z usługi NodeJS.
Przykłady
- Unity: przykład publiczny rozpoznawania intencji został naprawiony, gdzie importowanie pliku json usługi LUIS kończyło się niepowodzeniem. Szczegóły znajdują się tutaj.
- Python: przykład dodany dla elementu
Language ID
. Szczegóły znajdują się tutaj.
Testy covid19 skrócone: ze względu na zdalną pracę w ciągu ostatnich kilku tygodni, nie mogliśmy wykonać tak bardzo ręcznego testowania weryfikacji urządzenia, jak zwykle. Na przykład nie można przetestować danych wejściowych mikrofonu i danych wyjściowych głośnika w systemach Linux, iOS i macOS. Nie wprowadziliśmy żadnych zmian, które naszym zdaniem mogłyby uszkodzić coś na tych platformach, a wszystkie nasze testy automatyczne przeszły. W mało prawdopodobnym przypadku, którego przegapiliśmy, daj nam znać w witrynie GitHub.
Dziękujemy za dalsze wsparcie. Jak zawsze opublikuj pytania lub opinię w witrynie GitHub lub Stack Overflow.
Bądź zdrowy!
Zestaw Speech SDK 1.10.0: wersja z lutego 2020 r.
Nowe funkcje
- Dodano pakiety języka Python do obsługi nowej wersji 3.8 języka Python.
- Obsługa systemu Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 (C++, C#, Java, Python).
Uwaga
Klienci muszą skonfigurować protokół OpenSSL zgodnie z tymi instrukcjami.
- Obsługa systemu Linux ARM32 dla systemów Debian i Ubuntu.
- Program DialogServiceConnector obsługuje teraz opcjonalny parametr "identyfikator bota" w pliku BotFrameworkConfig. Ten parametr umożliwia korzystanie z wielu botów mowy direct line z pojedynczym zasobem mowy. Bez określonego parametru zostanie użyty domyślny bot (określony przez stronę konfiguracji kanału mowy direct line).
- Właściwość DialogServiceConnector ma teraz właściwość SpeechActivityTemplate. Zawartość tego ciągu JSON będzie używana przez funkcję Direct Line Speech do wstępnego wypełniania wielu obsługiwanych pól we wszystkich działaniach, które docierają do bota mowy direct line, w tym działań generowanych automatycznie w odpowiedzi na zdarzenia, takie jak rozpoznawanie mowy.
- TTS używa teraz klucza subskrypcji do uwierzytelniania, zmniejszając pierwsze opóźnienie bajtów pierwszego wyniku syntezy po utworzeniu syntezatora.
- Zaktualizowano modele rozpoznawania mowy dla 19 ustawień regionalnych dla średniej redukcji współczynnika błędów słów o wartości 18,6% (es-ES, es-MX, fr-CA, fr-FR, it-IT, ja-JP, ko-KR, pt-BR, zh-CN, zh-HK, nb-NO, fi-FL, ru-RU, pl-PL, ca-ES, zh-TW, th-TH, pt-PT, tr-TR). Nowe modele przynoszą znaczące ulepszenia w wielu domenach, w tym Dyktowanie, transkrypcja call-center i scenariusze indeksowania wideo.
Poprawki błędów
- Usunięto usterkę polegającą na tym, że transkrypcja konwersacji nie oczekiwała prawidłowo w interfejsach API języka JAVA
- Rozwiązanie problemu z emulatorem x86 dla platformy Xamarin w usłudze GitHub
- Brak dodawania (Pobierz|Set)Metody właściwości na AudioConfig
- Naprawiono usterkę TTS polegającą na tym, że nie można zatrzymać elementu audioDataStream w przypadku niepowodzenia połączenia
- Używanie punktu końcowego bez regionu spowodowałoby błędy USP dla translatora konwersacji
- Generowanie identyfikatorów w aplikacjach uniwersalnych systemu Windows używa teraz odpowiednio unikatowego algorytmu GUID; wcześniej i nieumyślnie domyślnie domyślnie dokonywała implementacji stubbed, która często produkowała kolizje w dużych zestawach interakcji.
Przykłady
- Przykład aparatu Unity do korzystania z zestawu SPEECH SDK z mikrofonem aparatu Unity i przesyłaniem strumieniowym w trybie wypychania
Inne zmiany
Zestaw Speech SDK 1.9.0: wydanie ze stycznia 2020 r.
Nowe funkcje
- Konwersacja z wieloma urządzeniami: połącz wiele urządzeń z tą samą konwersacją opartą na mowie lub tekście i opcjonalnie przetłumacz wiadomości wysyłane między nimi. Dowiedz się więcej w tym artykule.
- Dodano obsługę rozpoznawania słów kluczowych dla pakietu Android
.aar
i dodano obsługę wersji x86 i x64. - Objective-C:
SendMessage
iSetMessageProperty
metody dodane doConnection
obiektu. Zapoznaj się z dokumentacją tutaj. - Interfejs API języka C++ języka TTS obsługuje
std::wstring
teraz jako dane wejściowe tekstu syntezy, usuwając konieczność przekonwertowania ciągu na ciąg przed przekazaniem go do zestawu SDK. Więcej szczegółów można znaleźć tutaj. - C#: Identyfikator języka i konfiguracja języka źródłowego są teraz dostępne.
- JavaScript: dodano funkcję do obiektu w
Connection
celu przekazywania niestandardowych komunikatów z usługi Mowa jako wywołania zwrotnegoreceivedServiceMessage
. - JavaScript: dodano obsługę ułatwiania
FromHost API
korzystania z kontenerów lokalnych i suwerennych chmur. Zapoznaj się z dokumentacją tutaj. - JavaScript: Teraz dziękujemy
NODE_TLS_REJECT_UNAUTHORIZED
za wkład z orgadów. Więcej szczegółów można znaleźć tutaj.
Zmiany powodujące niezgodność
OpenSSL
Została zaktualizowana do wersji 1.1.1b i jest statycznie połączona z podstawową biblioteką zestawu SPEECH SDK dla systemu Linux. Może to spowodować przerwanie, jeśli skrzynka odbiorczaOpenSSL
nie została zainstalowana/usr/lib/ssl
w katalogu w systemie. Zapoznaj się z naszą dokumentacją w dokumentacji zestawu SPEECH SDK, aby obejść ten problem.- Zmieniliśmy typ danych zwracany dla języka C#
WordLevelTimingResult.Offset
zint
nalong
, aby umożliwić dostęp doWordLevelTimingResults
danych mowy, gdy dane mowy są dłuższe niż 2 minuty. PushAudioInputStream
aPullAudioInputStream
teraz wysyłaj informacje nagłówka wav do usługi Rozpoznawanie mowy naAudioStreamFormat
podstawie , opcjonalnie określone podczas ich tworzenia. Klienci muszą teraz używać obsługiwanego formatu wejściowego audio. Wszystkie inne formaty otrzymają nieoptymalne wyniki rozpoznawania lub mogą powodować inne problemy.
Poprawki błędów
- Zobacz aktualizację w
OpenSSL
obszarze Zmiany powodujące niezgodność powyżej. Rozwiązaliśmy zarówno sporadyczne awarie, jak i problem z wydajnością (rywalizacja o blokowanie pod dużym obciążeniem) w systemach Linux i Java. - Java: wprowadzono ulepszenia zamknięcia obiektów w scenariuszach o wysokiej współbieżności.
- Zrestrukturyzował nasz pakiet NuGet. Usunęliśmy trzy kopie
Microsoft.CognitiveServices.Speech.core.dll
folderów lib iMicrosoft.CognitiveServices.Speech.extension.kws.dll
w folderach lib, dzięki czemu pakiet NuGet jest mniejszy i szybszy do pobrania, a dodaliśmy nagłówki potrzebne do skompilowania niektórych aplikacji natywnych języka C++. - Naprawiono tutaj przykłady z przewodnika Szybki start. Zakończyły się one bez wyświetlania wyjątku "nie znaleziono mikrofonu" w systemie Linux, macOS, Windows.
- Naprawiono awarię zestawu SDK z długimi wynikami rozpoznawania mowy w niektórych ścieżkach kodu, takich jak ten przykład.
- Rozwiązano problem z błędem wdrażania zestawu SDK w środowisku aplikacji internetowej platformy Azure.
- Rozwiązano problem z błędem TTS podczas używania tagu wielokrotnego
<voice>
lub<audio>
tagu w celu rozwiązania tego problemu klienta. - Naprawiono błąd TTS 401 po odzyskaniu zestawu SDK z wstrzymania.
- JavaScript: Naprawiono cykliczny import danych audio dzięki kontrybucji z euirim.
- JavaScript: dodano obsługę ustawiania właściwości usługi, jak dodano w wersji 1.7.
- JavaScript: rozwiązano problem polegający na tym, że błąd połączenia mógł spowodować ciągłe, nieudane próby ponownego nawiązania połączenia z zestawem websocket.
Przykłady
- Dodano tutaj przykład rozpoznawania słów kluczowych dla systemu Android.
- Dodano przykład TTS dla scenariusza serwera tutaj.
- W tym miejscu dodano przewodniki Szybki start konwersacji z wieloma urządzeniami dla języków C# i C++.
Inne zmiany
- Zoptymalizowany rozmiar biblioteki podstawowej zestawu SDK w systemie Android.
- Zestaw SDK w wersji 1.9.0 i nowszych obsługuje zarówno typy, jak
int
istring
w polu wersji podpisu głosowego dla transkrypcji konwersacji.
Zestaw Speech SDK 1.8.0: wydanie z listopada 2019 r.
Nowe funkcje
FromHost()
Dodano interfejs API, aby ułatwić korzystanie z kontenerów lokalnych i suwerennych chmur.- Dodano identyfikację języka źródłowego na potrzeby rozpoznawania mowy (w językach Java i C++)
- Dodano
SourceLanguageConfig
obiekt rozpoznawania mowy używany do określania oczekiwanych języków źródłowych (w językach Java i C++) - Dodano
KeywordRecognizer
obsługę systemów Windows (UWP), Android i iOS za pośrednictwem pakietów NuGet i Unity - Dodano zdalny interfejs API języka Java do transkrypcji konwersacji w partiach asynchronicznych.
Zmiany powodujące niezgodność
- Funkcje transkrypcji konwersacji zostały przeniesione w obszarze przestrzeni nazw
Microsoft.CognitiveServices.Speech.Transcription
. - Części metod transkrypcji konwersacji są przenoszone do nowej
Conversation
klasy. - Porzucona obsługa 32-bitowego systemu iOS (ARMv7 i x86)
Poprawki błędów
- Poprawka dotycząca awarii w przypadku użycia lokalnego
KeywordRecognizer
bez prawidłowego klucza subskrypcji usługi Mowa
Przykłady
- Przykład platformy Xamarin dla programu
KeywordRecognizer
- Przykład aparatu Unity dla
KeywordRecognizer
- Przykłady języków C++ i Java na potrzeby automatycznej identyfikacji języka źródłowego.
Zestaw Speech SDK 1.7.0: wydanie z września 2019 r.
Nowe funkcje
- Dodano obsługę wersji beta dla platformy Xamarin na platformie platforma uniwersalna systemu Windows (UWP), Android i iOS
- Dodano obsługę systemu iOS dla aparatu Unity
- Dodano
Compressed
obsługę danych wejściowych dla aplikacji ALaw, Mulaw, FLAC, w systemach Android, iOS i Linux - Dodano
SendMessageAsync
wConnection
klasie do wysyłania komunikatu do usługi - Dodano
SetMessageProperty
wConnection
klasie do ustawiania właściwości komunikatu - Dodano powiązania TTS dla języków Java (JRE i Android), Python, Swift i Objective-C
- Funkcja TTS dodała obsługę odtwarzania dla systemów macOS, iOS i Android.
- Dodano informacje "granice wyrazów" dla TTS.
Poprawki błędów
- Rozwiązano problem z kompilacją IL2CPP w środowisku Unity 2019 dla systemu Android
- Rozwiązano problem z nieprawidłowo sformułowanymi nagłówkami w danych wejściowych pliku wav, które były przetwarzane niepoprawnie
- Rozwiązano problem z identyfikatorami UUID, które nie były unikatowe we właściwościach połączenia
- Naprawiono kilka ostrzeżeń dotyczących specyfikatorów wartości null w powiązaniach swift (może wymagać niewielkich zmian w kodzie)
- Usunięto usterkę, która powodowała, że połączenia protokołu Websocket były zamykane niegracyjnie pod obciążeniem sieci
- Rozwiązano problem w systemie Android, który czasami powoduje zduplikowane identyfikatory wyświetleń używane przez
DialogServiceConnector
- Ulepszenia stabilności połączeń w interakcjach obejmujących wiele obrotu oraz raportowanie błędów (za pośrednictwem
Canceled
zdarzeń) w przypadku wystąpieniaDialogServiceConnector
DialogServiceConnector
Rozpoczęcie sesji będzie teraz prawidłowo dostarczać zdarzenia, w tym podczas wywoływania podczas aktywnego działaniaListenOnceAsync()
StartKeywordRecognitionAsync()
- Rozwiązano problem z awarią skojarzona z
DialogServiceConnector
odbieranymi działaniami
Przykłady
- Szybki start dla platformy Xamarin
- Zaktualizowano przewodnik Szybki start CPP z informacjami o systemie Linux Arm64
- Zaktualizowany przewodnik Szybki start dla aparatu Unity z informacjami o systemie iOS
Zestaw Speech SDK 1.6.0: wersja z czerwca 2019 r.
Przykłady
- Przykłady z przewodnika Szybki start dotyczące zamiany tekstu na mowę na platformie UWP i aparatu Unity
- Przykład szybkiego startu dla języka Swift w systemie iOS
- Przykłady aparatu Unity do rozpoznawania i tłumaczenia mowy i intencji
- Zaktualizowano przykłady szybkiego startu dla
DialogServiceConnector
Ulepszenia/zmiany
- Przestrzeń nazw okna dialogowego:
- Zmieniono nazwę polecenia
SpeechBotConnector
naDialogServiceConnector
- Zmieniono nazwę polecenia
BotConfig
naDialogServiceConfig
BotConfig::FromChannelSecret()
został ponownie zamapowany naDialogServiceConfig::FromBotSecret()
- Wszyscy istniejący klienci mowy direct line nadal są obsługiwani po zmianie nazwy
- Zmieniono nazwę polecenia
- Aktualizowanie adaptera REST TTS w celu obsługi serwera proxy, trwałego połączenia
- Poprawianie komunikatu o błędzie po przekazaniu nieprawidłowego regionu
- Swift/Objective-C:
- Ulepszone raportowanie błędów: Metody, które mogą spowodować błąd, są teraz obecne w dwóch wersjach: jeden, który uwidacznia
NSError
obiekt do obsługi błędów, i jeden, który zgłasza wyjątek. Były są narażone na Swift. Ta zmiana wymaga dostosowania do istniejącego kodu Swift. - Ulepszona obsługa zdarzeń
- Ulepszone raportowanie błędów: Metody, które mogą spowodować błąd, są teraz obecne w dwóch wersjach: jeden, który uwidacznia
Poprawki błędów
- Poprawka dotycząca TTS: gdzie
SpeakTextAsync
przyszłość została zwrócona bez oczekiwania na ukończenie renderowania dźwięku - Poprawka dotycząca marshalingu ciągów w języku C# w celu włączenia obsługi pełnego języka
- Poprawka problemu z aplikacją .NET Core w celu załadowania biblioteki podstawowej za pomocą platformy docelowej net461 w przykładach
- Rozwiązanie problemów z okazjonalnymi problemami dotyczącymi wdrażania bibliotek natywnych w folderze wyjściowym w przykładach
- Poprawka dotycząca niezawodnego zamykania gniazd internetowych
- Poprawka umożliwiająca awarię podczas otwierania połączenia pod dużym obciążeniem w systemie Linux
- Poprawka dotycząca brakujących metadanych w pakiecie platformy dla systemu macOS
- Rozwiązywanie problemów z systemem
pip install --user
Windows
Zestaw Speech SDK 1.5.1
Jest to wersja poprawki błędów, która ma wpływ tylko na natywny/zarządzany zestaw SDK. Nie ma to wpływu na wersję zestawu SDK języka JavaScript.
Poprawki błędów
- Poprawka z podskrypcji w przypadku użycia z transkrypcją konwersacji.
- Naprawiono usterkę w wykryciu słowa kluczowego dla asystentów głosowych.
Zestaw Speech SDK 1.5.0: wersja z maja 2019 r.
Nowe funkcje
- Wykrywanie słów kluczowych (KWS) jest teraz dostępne dla systemów Windows i Linux. Funkcja KWS może działać z dowolnym typem mikrofonu, oficjalną obsługą KWS, jednak obecnie jest ograniczona do tablic mikrofonów znajdujących się na sprzęcie Azure Kinect DK lub zestawie SDK urządzeń rozpoznawania mowy.
- Funkcje wskazówek dotyczących fraz są dostępne za pośrednictwem zestawu SDK. Więcej informacji można znaleźć tutaj.
- Funkcje transkrypcji konwersacji są dostępne za pośrednictwem zestawu SDK.
- Dodaj obsługę asystentów głosowych przy użyciu kanału mowy direct line.
Przykłady
- Dodano przykłady nowych funkcji lub nowych usług obsługiwanych przez zestaw SDK.
Ulepszenia/zmiany
- Dodano różne właściwości rozpoznawania w celu dostosowania zachowania usługi lub wyników usługi (takich jak maskowanie wulgaryzmów i innych).
- Teraz można skonfigurować rozpoznawanie za pomocą standardowych właściwości konfiguracji, nawet jeśli utworzono rozpoznawanie
FromEndpoint
. - Objective-C:
OutputFormat
właściwość została dodana do klasySPXSpeechConfiguration
. - Zestaw SDK obsługuje teraz debian 9 jako dystrybucję systemu Linux.
Poprawki błędów
- Rozwiązano problem polegający na tym, że zasób osoby mówiącej został zdestrukowany zbyt wcześnie w tekście na mowę.
Zestaw Speech SDK 1.4.2
Jest to wersja poprawki błędów, która ma wpływ tylko na natywny/zarządzany zestaw SDK. Nie ma to wpływu na wersję zestawu SDK języka JavaScript.
Zestaw SPEECH SDK 1.4.1
Jest to wersja tylko dla języka JavaScript. Nie dodano żadnych funkcji. Wprowadzono następujące poprawki:
- Uniemożliwianie ładowania pakietu internetowego https-proxy-agent.
Zestaw Speech SDK 1.4.0: wersja z kwietnia 2019 r.
Nowe funkcje
- Zestaw SDK obsługuje teraz usługę Zamiana tekstu na mowę jako wersję beta. Jest on obsługiwany w systemach Windows i Linux Desktop z języków C++ i C#. Aby uzyskać więcej informacji, zobacz Omówienie zamiany tekstu na mowę.
- Zestaw SDK obsługuje teraz pliki audio MP3 i Opus/OGG jako pliki wejściowe strumienia. Ta funkcja jest dostępna tylko w systemie Linux w językach C++ i C# i jest obecnie dostępna w wersji beta (więcej szczegółów znajdziesz tutaj).
- Zestaw SPEECH SDK dla języków Java, .NET Core, C++ i Objective-C zyskał obsługę systemu macOS. Obsługa języka Objective-C dla systemu macOS jest obecnie dostępna w wersji beta.
- iOS: zestaw SPEECH SDK dla systemu iOS (Objective-C) jest teraz również publikowany jako CocoaPod.
- JavaScript: obsługa mikrofonu innego niż domyślny jako urządzenie wejściowe.
- JavaScript: obsługa serwera proxy dla Node.js.
Przykłady
- Dodano przykłady używania zestawu Speech SDK z językiem C++ i języka Objective-C w systemie macOS.
- Dodano przykłady pokazujące użycie usługi zamiany tekstu na mowę.
Ulepszenia/zmiany
- Python: dodatkowe właściwości wyników rozpoznawania są teraz uwidocznione za pośrednictwem
properties
właściwości . - Aby uzyskać dodatkową obsługę programowania i debugowania, możesz przekierować informacje dotyczące rejestrowania i diagnostyki zestawu SDK do pliku dziennika (więcej szczegółów znajdziesz tutaj).
- JavaScript: zwiększanie wydajności przetwarzania dźwięku.
Poprawki błędów
- Mac/iOS: Usunięto usterkę, która doprowadziła do długiego oczekiwania, gdy nie można było ustanowić połączenia z usługą Mowa.
- Python: ulepszanie obsługi błędów dla argumentów w wywołaniach zwrotnych języka Python.
- JavaScript: naprawiono nieprawidłowe raportowanie stanu mowy zakończone na żądanieSession.
Zestaw Speech SDK 1.3.1: odświeżanie z lutego 2019 r.
Jest to wersja poprawki błędów, która ma wpływ tylko na natywny/zarządzany zestaw SDK. Nie ma to wpływu na wersję zestawu SDK języka JavaScript.
Poprawka
- Naprawiono przeciek pamięci podczas korzystania z wejścia mikrofonu. Nie ma to wpływu na dane wejściowe oparte na strumieniu lub pliku.
Zestaw Speech SDK 1.3.0: wersja z lutego 2019 r.
Nowe funkcje
- Zestaw SPEECH SDK obsługuje wybór mikrofonu wejściowego za pośrednictwem
AudioConfig
klasy . Dzięki temu można przesyłać strumieniowo dane audio do usługi Mowa z mikrofonu innego niż domyślny. Aby uzyskać więcej informacji, zobacz dokumentację opisującą wybór urządzenia wejściowego audio. Ta funkcja nie jest jeszcze dostępna w języku JavaScript. - Zestaw SPEECH SDK obsługuje teraz aparat Unity w wersji beta. Prześlij opinię za pośrednictwem sekcji problemu w repozytorium przykładowym GitHub. Ta wersja obsługuje aparat Unity w systemach Windows x86 i x64 (aplikacje klasyczne lub platforma uniwersalna systemu Windows) i Android (ARM32/64, x86). Więcej informacji jest dostępnych w naszym przewodniku Szybki start dla aparatu Unity.
- Plik
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
(dostarczany w poprzednich wersjach) nie jest już potrzebny. Funkcje są teraz zintegrowane z podstawowym zestawem SDK.
Przykłady
Następująca nowa zawartość jest dostępna w naszym przykładowym repozytorium:
- Dodatkowe przykłady dla programu
AudioConfig.FromMicrophoneInput
. - Dodatkowe przykłady języka Python do rozpoznawania intencji i tłumaczenia.
- Dodatkowe przykłady użycia
Connection
obiektu w systemie iOS. - Dodatkowe przykłady języka Java do tłumaczenia z danymi wyjściowymi dźwięku.
- Nowy przykład użycia interfejsu API REST transkrypcji wsadowej.
Ulepszenia/zmiany
- Pyton
- Ulepszona weryfikacja parametru i komunikaty o błędach w pliku
SpeechConfig
. - Dodaj obsługę
Connection
obiektu . - Obsługa 32-bitowego języka Python (x86) w systemie Windows.
- Zestaw Speech SDK dla języka Python jest niedostępny w wersji beta.
- Ulepszona weryfikacja parametru i komunikaty o błędach w pliku
- Ios
- Zestaw SDK jest teraz kompilowany z zestawem SDK systemu iOS w wersji 12.1.
- Zestaw SDK obsługuje teraz system iOS w wersji 9.2 lub nowszej.
- Popraw dokumentację referencyjną i popraw kilka nazw właściwości.
- JavaScript
- Dodaj obsługę
Connection
obiektu . - Dodawanie plików definicji typów dla pakietu JavaScript
- Początkowa obsługa i implementacja wskazówek dotyczących fraz.
- Zwracanie kolekcji właściwości z plikiem JSON usługi na potrzeby rozpoznawania
- Dodaj obsługę
- Biblioteki DLL systemu Windows zawierają teraz zasób wersji.
- Jeśli tworzysz rozpoznawanie
FromEndpoint
, możesz dodać parametry bezpośrednio do adresu URL punktu końcowego. NieFromEndpoint
można skonfigurować rozpoznawania za pomocą standardowych właściwości konfiguracji.
Poprawki błędów
- Pusta nazwa użytkownika serwera proxy i hasło serwera proxy nie były poprawnie obsługiwane. W tej wersji, jeśli ustawisz nazwę użytkownika serwera proxy i hasło serwera proxy na pusty ciąg, nie zostaną one przesłane podczas nawiązywania połączenia z serwerem proxy.
- Identyfikator sessionId utworzony przez zestaw SDK nie zawsze był naprawdę losowy dla niektórych języków/środowisk. Dodano inicjowanie generatora losowego, aby rozwiązać ten problem.
- Popraw obsługę tokenu autoryzacji. Jeśli chcesz użyć tokenu autoryzacji, określ w
SpeechConfig
polu i pozostaw pusty klucz subskrypcji. Następnie utwórz rozpoznawanie w zwykły sposób. - W niektórych przypadkach
Connection
obiekt nie został poprawnie zwolniony. Ten problem został rozwiązany. - Przykład języka JavaScript został naprawiony w celu obsługi danych wyjściowych audio na potrzeby syntezy tłumaczenia również w przeglądarce Safari.
Zestaw Speech SDK 1.2.1
Jest to wersja tylko dla języka JavaScript. Nie dodano żadnych funkcji. Wprowadzono następujące poprawki:
- Odpal koniec strumienia na turn.end, a nie na speech.end.
- Usunięto usterkę w pompie audio, która nie planowała następnego wysłania, jeśli bieżące wysyłanie nie powiodło się.
- Napraw ciągłe rozpoznawanie za pomocą tokenu uwierzytelniania.
- Poprawka usterek dla różnych punktów końcowych/rozpoznawania.
- Ulepszenia dokumentacji.
Zestaw Speech SDK 1.2.0: wersja z grudnia 2018 r.
Nowe funkcje
- Pyton
- Wersja beta obsługi języka Python (wersja 3.5 lub nowsza) jest dostępna w tej wersji. Aby uzyskać więcej informacji, zobacz tutaj](.. /.. /quickstart-python.md).
- JavaScript
Connection
sprzeciwiać się- Z obiektu
Recognizer
można uzyskać dostęp doConnection
obiektu . Ten obiekt umożliwia jawne zainicjowanie połączenia z usługą i subskrybowanie zdarzeń łączenia i rozłączania. (Ta funkcja nie jest jeszcze dostępna w językach JavaScript i Python).
- Z obiektu
- Obsługa systemu Ubuntu 18.04.
- Android
- Włączona obsługa narzędzia ProGuard podczas generowania pakietu APK.
Ulepszenia
- Ulepszenia użycia wątków wewnętrznych, zmniejszenie liczby wątków, blokad, teksów.
- Ulepszone raportowanie błędów/informacje. W kilku przypadkach komunikaty o błędach nie zostały rozpropagowane przez cały czas.
- Zaktualizowano zależności programistyczne w języku JavaScript, aby używać aktualnych modułów.
Poprawki błędów
- Naprawiono przecieki pamięci z powodu niezgodności typu w pliku
RecognizeAsync
. - W niektórych przypadkach wyciekły wyjątki.
- Naprawianie przecieku pamięci w argumentach zdarzeń tłumaczenia.
- Rozwiązano problem z blokowaniem ponownego nawiązywania połączenia w długotrwałych sesjach.
- Rozwiązano problem, który mógł prowadzić do braku wyniku końcowego w przypadku nieudanych tłumaczeń.
- C#: Jeśli
async
operacja nie była oczekiwana w wątku głównym, możliwe, że rozpoznawanie może zostać usunięte przed ukończeniem zadania asynchronicznego. - Java: rozwiązano problem powodujący awarię maszyny wirtualnej Java.
- Objective-C: Stałe mapowanie wyliczenia; Wartość RecognizedIntent została zwrócona zamiast
RecognizingIntent
. - JavaScript: ustaw domyślny format danych wyjściowych na wartość "simple" w pliku
SpeechConfig
. - JavaScript: usuwanie niespójności między właściwościami obiektu konfiguracji w języku JavaScript i innych językach.
Przykłady
- Zaktualizowano i naprawiono kilka przykładów (na przykład głosy wyjściowe do tłumaczenia itp.).
- Dodano przykłady Node.js w przykładowym repozytorium.
Zestaw Speech SDK 1.1.0
Nowe funkcje
- Obsługa systemu Android x86/x64.
- Obsługa serwera proxy: w
SpeechConfig
obiekcie można teraz wywołać funkcję, aby ustawić informacje o serwerze proxy (nazwa hosta, port, nazwa użytkownika i hasło). Ta funkcja nie jest jeszcze dostępna w systemie iOS. - Ulepszony kod błędu i komunikaty. Jeśli funkcja rozpoznawania zwróciła błąd, ustawiono to już
Reason
(w anulowanym zdarzeniu) lubCancellationDetails
(w wyniku rozpoznawania) naError
wartość . Anulowane zdarzenie zawiera teraz dwa dodatkowe elementy członkowskie iErrorCode
ErrorDetails
. Jeśli serwer zwrócił dodatkowe informacje o błędzie z zgłoszonym błędem, będzie teraz dostępny w nowych elementach członkowskich.
Ulepszenia
- Dodano dodatkową weryfikację w konfiguracji rozpoznawania i dodano dodatkowy komunikat o błędzie.
- Ulepszona obsługa długiej ciszy w środku pliku audio.
- Pakiet NuGet: w przypadku projektów .NET Framework uniemożliwia kompilowanie przy użyciu konfiguracji Platformy AnyCPU.
Poprawki błędów
- Naprawiono kilka wyjątków znalezionych w funkcjach rozpoznawania. Ponadto wyjątki są przechwytywane i konwertowane na
Canceled
zdarzenie. - Napraw przeciek pamięci w zarządzaniu właściwościami.
- Usunięto usterkę, w której plik wejściowy audio mógł spowodować awarię rozpoznawania.
- Usunięto usterkę polegającą na tym, że zdarzenia mogły być odbierane po zdarzeniu zatrzymania sesji.
- Naprawiono niektóre warunki wyścigu w wątkowaniu.
- Rozwiązano problem ze zgodnością systemu iOS, który mógł spowodować awarię.
- Ulepszenia stabilności dla obsługi mikrofonu systemu Android.
- Usunięto usterkę polegającą na tym, że rozpoznawanie w języku JavaScript powodowało ignorowanie języka rozpoznawania.
- Usunięto usterkę uniemożliwiającą
EndpointId
ustawienie (w niektórych przypadkach) w języku JavaScript. - Zmieniono kolejność parametrów w elemencie AddIntent w języku JavaScript i dodano brak podpisu
AddIntent
JavaScript.
Przykłady
- Dodano przykłady języków C++ i C# na potrzeby użycia strumienia ściągania i wypychania w przykładowym repozytorium.
Zestaw Speech SDK 1.0.1
Ulepszenia niezawodności i poprawki błędów:
- Naprawiono potencjalny błąd krytyczny spowodowany stanem wyścigu w rozpoznawaniu
- Naprawiono potencjalny błąd krytyczny w przypadku wystąpienia nieustawionych właściwości.
- Dodano dodatkowy błąd i sprawdzanie parametrów.
- Objective-C: Naprawiono możliwy błąd krytyczny spowodowany zastąpieniem nazwy w NSString.
- Objective-C: Skorygowana widoczność interfejsu API
- JavaScript: naprawiono problem dotyczący zdarzeń i ich ładunków.
- Ulepszenia dokumentacji.
W naszym przykładowym repozytorium dodano nowy przykład dla języka JavaScript.
Zestaw Azure AI Speech SDK 1.0.0: wydanie z września 2018 r.
Nowe funkcje
- Obsługa języka Objective-C w systemie iOS. Zapoznaj się z naszym przewodnikiem Szybki start języka Objective-C dla systemu iOS.
- Obsługa języka JavaScript w przeglądarce. Zapoznaj się z naszym przewodnikiem Szybki start dla języka JavaScript.
Zmiany powodujące niezgodność
- W tej wersji wprowadzono szereg zmian powodujących niezgodność. Sprawdź tę stronę , aby uzyskać szczegółowe informacje.
Zestaw Azure AI Speech SDK 0.6.0: wydanie z sierpnia 2018 r.
Nowe funkcje
- Aplikacje platformy UWP utworzone za pomocą zestawu SPEECH SDK mogą teraz przekazywać zestaw certyfikacji aplikacji systemu Windows (WACK). Zapoznaj się z przewodnikiem Szybki start platformy UWP.
- Obsługa platformy .NET Standard 2.0 w systemie Linux (Ubuntu 16.04 x64).
- Eksperymentalne: obsługa języka Java 8 w systemach Windows (64-bitowych) i Linux (Ubuntu 16.04 x64). Zapoznaj się z przewodnikiem Szybki start środowiska uruchomieniowego Języka Java.
Zmiana funkcjonalna
- Uwidacznianie dodatkowych informacji o błędach dotyczących błędów połączenia.
Zmiany powodujące niezgodność
- W języku Java (Android)
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
funkcja nie wymaga już parametru ścieżki. Teraz ścieżka jest automatycznie wykrywana na wszystkich obsługiwanych platformach. - Usunięto metodę get-accessor właściwości
EndpointUrl
w językach Java i C#.
Poprawki błędów
- W języku Java wynik syntezy dźwięku w rozpoznawaniu tłumaczenia jest teraz implementowany.
- Usunięto usterkę, która mogła powodować nieaktywne wątki i zwiększoną liczbę otwartych i nieużywanych gniazd.
- Rozwiązano problem polegający na tym, że długotrwałe rozpoznawanie mogło zakończyć się w środku transmisji.
- Naprawiono stan wyścigu w zamykaniu rozpoznawania.
Zestaw Azure AI Speech SDK 0.5.0: wersja z lipca 2018 r.
Nowe funkcje
- Obsługa platformy android (interfejs API 23: Android 6.0 Marshmallow lub nowszy). Zapoznaj się z przewodnikiem Szybki start dla systemu Android.
- Obsługa platformy .NET Standard 2.0 w systemie Windows. Zapoznaj się z przewodnikiem Szybki start platformy .NET Core.
- Eksperymentalne: obsługa platformy UWP w systemie Windows (wersja 1709 lub nowsza).
- Zapoznaj się z przewodnikiem Szybki start platformy UWP.
- Należy pamiętać, że aplikacje platformy UWP utworzone za pomocą zestawu SPEECH SDK nie przekazują jeszcze zestawu Certyfikacji aplikacji systemu Windows (WACK).
- Obsługa długotrwałego rozpoznawania za pomocą automatycznego ponownego łączenia.
Zmiany funkcjonalne
StartContinuousRecognitionAsync()
obsługuje długotrwałe rozpoznawanie.- Wynik rozpoznawania zawiera więcej pól. Są one przesunięte od początku dźwięku i czasu trwania (zarówno w znacznikach) rozpoznanego tekstu, jak i dodatkowych wartości reprezentujących stan rozpoznawania, na przykład
InitialSilenceTimeout
iInitialBabbleTimeout
. - Obsługa tokenu AuthorizationToken na potrzeby tworzenia wystąpień fabryki.
Zmiany powodujące niezgodność
- Zdarzenia rozpoznawania:
NoMatch
typ zdarzenia został scalony ze zdarzeniemError
. - Nazwa elementu SpeechOutputFormat w języku C# została zmieniona na
OutputFormat
, aby zachować dopasowanie do języka C++. - Zwracany typ niektórych metod interfejsu
AudioInputStream
nieco się zmienił:- W języku
read
Java metoda zwracalong
teraz wartość zamiastint
. - W języku
Read
C# metoda zwracauint
teraz zamiastint
. - W języku C++
Read
metody iGetFormat
zwracająsize_t
teraz zamiastint
.
- W języku
- C++: Wystąpienia strumieni wejściowych audio można teraz przekazywać tylko jako
shared_ptr
.
Poprawki błędów
- Naprawiono nieprawidłowe wartości zwracane w wyniku, gdy
RecognizeAsync()
upłynął limit czasu. - Zależność od bibliotek podstaw multimediów w systemie Windows została usunięta. Zestaw SDK używa teraz podstawowych interfejsów API audio.
- Poprawka dokumentacji: dodano stronę regionów w celu opisania obsługiwanych regionów.
Znany problem
- Zestaw Speech SDK dla systemu Android nie zgłasza wyników syntezy mowy na potrzeby tłumaczenia. Ten problem zostanie rozwiązany w następnej wersji.
Zestaw Azure AI Speech SDK 0.4.0: wersja z 2018 r. do czerwca
Zmiany funkcjonalne
AudioInputStream
Rozpoznawanie może teraz używać strumienia jako źródła audio. Aby uzyskać więcej informacji, zobacz powiązany przewodnik z instrukcjami.
Szczegółowy format danych wyjściowych
Podczas tworzenia elementu
SpeechRecognizer
można zażądaćDetailed
lubSimple
format danych wyjściowych. ZawieraDetailedSpeechRecognitionResult
współczynnik ufności, rozpoznany tekst, nieprzetworzony formularz leksykalny, znormalizowany formularz i znormalizowany formularz z maskowaną wulgaryzmem.
Zmiana powodująca niezgodność
- Zmieniono wartość na
SpeechRecognitionResult.Text
zSpeechRecognitionResult.RecognizedText
w języku C#.
Poprawki błędów
- Rozwiązano możliwy problem z wywołaniem zwrotnym w warstwie USP podczas zamykania.
- Jeśli rozpoznawanie używa pliku wejściowego audio, trzymał się do uchwytu pliku dłużej niż jest to konieczne.
- Usunięto kilka zakleszczeń między pompą komunikatu a rozpoznawaniem.
- Wyzwol wynik
NoMatch
po przekroczeniu limitu czasu odpowiedzi z usługi. - Biblioteki podstaw multimediów w systemie Windows są ładowane z opóźnieniem. Ta biblioteka jest wymagana tylko w przypadku wejścia mikrofonu.
- Szybkość przekazywania danych audio jest ograniczona do około dwukrotnie większej szybkości oryginalnego dźwięku.
- W systemie Windows zestawy .NET języka C# są teraz silne.
- Poprawka dokumentacji:
Region
jest wymagana informacja do utworzenia aparatu rozpoznawania.
Dodano więcej przykładów i jest stale aktualizowanych. Aby zapoznać się z najnowszym zestawem przykładów, zobacz repozytorium GitHub przykłady zestawu SDK usługi Mowa.
Azure AI Speech SDK 0.2.12733: wersja z 2018 r.
Ta wersja to pierwsza publiczna wersja zapoznawcza zestawu AZURE AI Speech SDK.