Azure AI 音声の新機能
Azure AI 音声は、継続的に更新されます。 常に最新の開発情報を把握していただけるよう、この記事では新しいリリースと機能に関する情報を提供します。
最近のハイライト
- ファスト トランスクリプションは現在、一般提供されています。 実際のオーディオの時間よりもはるかに高速にオーディオを文字起こしできます。 詳細については、ファスト トランスクリプション API ガイドを参照してください。
- Visual Studio Code ユーザーが Azure AI Speech Toolkit 拡張機能を使用できるようになりました。 これには、数回クリックするだけで簡単にビルドして実行できる音声クイック スタートとシナリオ サンプルの一覧が含まれています。 詳細については、Visual Studio Code Marketplace の Azure AI Speech Toolkit を参照してください。
- Azure AI 音声高解像度 (HD) 音声は、パブリック プレビューで利用できます。 HD 音声は、コンテンツを理解し、入力テキスト内の感情を自動的に検出し、センチメントに合わせてリアルタイムで話すトーンを調整できます。 詳細については、「Azure AI 音声高解像度 (HD) 音声とは」を参照してください。
- ビデオ翻訳が Azure AI Speech サービスで利用できるようになりました。 詳細については、「ビデオ翻訳とは」を参照してください。
- Azure AI 音声サービスでは、OpenAI のテキスト読み上げ音声がサポートされています。 詳細については、「OpenAI テキスト読み上げの音声とは」を参照してください。
- Custom Voice API は、プロフェッショナルおよび個人用のカスタム ニューラル音声モデルを作成および管理するために使用できます。
リリース ノート
サービスまたはリソースを選択してください
Speech SDK 1.42.0: 2024 年 12 月リリース
新機能
- Java: FileLogger、MemoryLogger、EventLogger、SpxTrace のクラスを使用する診断ログ API を追加しました。
- 会議の参加者の JSON プロパティ "details" のサービスへの送信をサポートします
- Go: プロキシが使用されないホストを指定するためのパブリック プロパティ ID SpeechServiceConnection_ProxyHostBypass を追加しました。
- JavaScript、Go: 読み上げられた語句が終了し、最終的に認識された結果 (セマンティック セグメンテーションを含む) を生成する必要があるタイミングを判断するためのパブリック プロパティ ID Speech_SegmentationStrategy を追加しました
- JavaScript、Go: Java、Python、C#、C++ の時刻に基づいて音声フレーズの終了を判断するパブリック プロパティ ID Speech_SegmentationMaximumTimeMs を追加しました
バグ修正
- 音声名が設定されていない場合、すべての合成に対して埋め込まれた TTS 音声が (再) 読み込みされる問題を修正しました。
- 一部のシナリオで MeetingTranscriber を使用するときのオフセット計算の問題を修正しました。
- 複数の診断イベント リスナーを並列に登録するときにデッドロックが発生する可能性を修正しました。
- (JavaScript) 音声終了時に NoMatch の結果が失われる可能性を修正しました。 この修正により、音声の終了時の動作が他の SDK 言語に適合して、一部の空のイベントはもう発生しなくなる場合があります。
- (JavaScript) 結果オブジェクトのオフセットに合わせて、結果 JSON のオフセットを修正します。 前は、結果オブジェクトのオフセット プロパティのみが、サービスの再接続を考慮するように修正されていました。
- Go 言語: コンパイル エラー https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2639 を修正しました
- サービスへの再接続が発生したときの会議の文字起こしの結果オフセットを修正しました。
- ログのデッドロックを修正しました。
サンプル
- .NET 8.0 を使用するように C# サンプルを更新しました。
- Java サンプルは、新しい診断ログ クラスの使用状況を示す診断ログ API を使用します。
2024-November リリース
Visual Studio Code の Azure AI 音声ツールキット拡張機能
Visual Studio Code ユーザーが Azure AI Speech Toolkit 拡張機能を使用できるようになりました。 これには、数回クリックするだけで簡単にビルドして実行できる音声クイック スタートとシナリオ サンプルの一覧が含まれています。 詳細については、Visual Studio Code Marketplace の Azure AI Speech Toolkit を参照してください。
テキスト読み上げアバター コード サンプル
Android 用および iOS 用のテキスト読み上げアバター コード サンプルを追加しました。 これらのサンプルにより、モバイル アプリケーションでリアルタイム テキスト読み上げアバターを使用する方法を確認することができます。
Speech SDK 1.41.1: 2024-October リリース
新機能
- Amazon Linux 2023 と Azure Linux 3.0 のサポートを追加しました。
- プロキシを使用しないホストを指定するためのパブリック プロパティ ID SpeechServiceConnection_ProxyHostBypass を追加しました。
- 新しいフレーズ セグメント化戦略を制御するプロパティを追加しました。
バグの修正
- 2024 年 8 月以降に生成されたキーワード認識の高度なモデルの不完全なサポートを修正しました。
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2564
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2571
- https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2590
- iOS 上の Swift では、ご利用のプロジェクトに MicrosoftCognitiveServicesSpeech-EmbeddedXCFramework-1.41.1.zip (https://aka.ms/csspeech/iosbinaryembedded から) または高度なモデルサポートを含む MicrosoftCognitiveServicesSpeechEmbedded-iOS ポッドのいずれかを使用する必要があることに注意してください。
- 文字列の使用に関連する C# のメモリ リークを修正しました。
- Objective-C および Swift で SPXConversationTranscriptionResult から SPXAutoDetectSourceLanguageResult を取得できない問題を修正しました。
- Microsoft オーディオ スタックを使用した認識時にクラッシュが時折発生する問題を修正しました。
- Python の型ヒントを修正しました。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2539
- カスタム エンドポイントを使用しているときに TTS 音声のリストをフェッチできない問題を修正しました。
- 音声が短い名前で指定されているときに、すべての読み上げ要求に対する埋め込み TTS の再初期化を修正しました。
- RecognizeOnce オーディオの最大期間に関する API リファレンス ドキュメントを修正しました。
- JavaScript での任意のサンプリング レートのエラー処理を修正しました
- この貢献に関して rseanhall に感謝します。
- JavaScript でオーディオ オフセットの計算時のエラーを修正しました
- この貢献に関して motamed に感謝します。
重大な変更
- Windows ARM 32 ビットでのキーワード認識のサポートは、このプラットフォームで使用できない必要な ONNX ランタイムが原因で削除されました。
Speech SDK 1.40: 2024 8 月リリース
Note
Speech SDK バージョン 1.39.0 は内部リリースであり、飛ばされているわけではありません。
新機能
- 音声認識において、
G.722
圧縮オーディオのストリーミングのサポートを追加しました。 - 音声合成における入力テキスト ストリーミングに、ピッチ、レート、ボリューム設定のサポートを追加しました。
- 音声合成における
PersonalVoiceSynthesisRequest
の導入により、パーソナル音声入力テキスト ストリーミングのサポートを追加しました。 この API はプレビュー段階であり、将来のバージョンで変更される可能性があります。 ConversationTranscriber
の使用時に、中間結果のダイアライゼーションのサポートを追加しました。- CentOS 7 EOL、および RHEL 7 メンテナンス サポート 2 終了のため、CentOS/RHEL 7 のサポートを削除しました。
- 埋め込み音声モデルを使用する際に、モデル キーではなくモデル ライセンスが必要になりました。 埋め込み音声の既存のお客様がアップグレードを希望する場合、モデルの更新プログラムの詳細については Microsoft のサポート担当者にお問い合わせください。
バグ修正
- Visual C++ ランタイムにおける問題「VS 2022 バージョン 17.10.0 - Developer Community (visualstudio.com) にアップグレードした後の std::mutex::lock によるアクセス違反」の軽減策として、 _DISABLE_CONSTEXPR_MUTEX_CONSTRUCTOR フラグを使用して Windows 用 Speech SDK バイナリをビルドしました。 Speech SDK を使用する Windows C++ アプリケーションでは、コードで std::mutex が使用されている場合は同じビルド構成フラグを適用する必要がある場合があります (リンク先にある問題の詳細を参照してください)。
- Linux arm64 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2420) で OpenSSL 3.x 検出が機能しない問題を修正しました。
- UWP アプリをデプロイするときに、MAS NuGet パッケージからライブラリとモデルがデプロイ場所にコピーされない問題を修正しました。
- Android パッケージ (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2463) でのコンテンツ プロバイダーの競合を修正しました。
- 後処理オプションが中間音声認識の結果に適用されない問題を修正しました。
- ディストリビューション固有のランタイム識別子 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2244) に関する .NET 8 警告を修正しました。
サンプル
- キーの代わりにモデル ライセンスを使用するように埋め込まれた音声サンプルを更新しました。
Speech SDK 1.38.0: 2024 年 6 月リリース
新機能
- Speech SDK Linux プラットフォームの要件のアップグレード:
- 新しい最小ベースラインは Ubuntu 20.04 LTS または
glibc
2.31 以降と互換性を持つものとなります。 - Linux x86 用のバイナリは、Ubuntu 20.04 プラットフォームのサポートに伴い削除されます。
- RHEL/CentOS 7 は 6 月 30 日 (CentOS 7 のサポート終了日と RHEL 7 メンテナンス サポート 2 の終了日) までサポートされます。 これらのバイナリは、Speech SDK 1.39.0 リリースにおいて削除されます。
- 新しい最小ベースラインは Ubuntu 20.04 LTS または
- Linux 上の OpenSSL 3 のサポートを追加。
- g722-16khz-64kbps オーディオ出力形式と音声合成のサポートを追加。
- 接続オブジェクトと音声合成を通したメッセージ送信のサポートを追加。
- Objective-C および Swift に Start/StopKeywordRecognition API を追加。
- カスタムの翻訳モデル カテゴリを選択するための API を追加。
- 音声合成における GStreamer の使用方法を更新。
バグ修正
- Start/StopKeywordRecognition 中の "Websocket message size can't exceed 65536 bytes" というエラーを修正しました。
- 音声合成中の Python セグメンテーション障害を修正。
サンプル
- 既定で .NET 6.0 を使用するように C# サンプルを更新。
Speech SDK 1.37.0: 2024 年 4 月リリース
新機能
- 音声合成での入力テキスト ストリーミングのサポートを追加します。
- 既定の音声合成の音声を en-US-AvaMultilingualNeural に変更します。
- OpenSSL 3.x を使用するように Android ビルドを更新します。
バグ修正
- MAS の使用時に SpeechRecognizer の破棄中に不定期に発生する JVM のクラッシュを修正します。 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2125)
- Linux 上の既定のオーディオ デバイスの検出を改善します。 (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2292)
サンプル
- 新機能用に更新されました。
Speech SDK 1.36.0: 2024 年 3 月のリリース
新機能
- AutoDetectSourceLanguageConfig::FromOpenRange() を使用して、v2 エンドポイントの多言語翻訳での言語識別のサポートを追加します。
バグ修正
SynthesisStarted イベント中に停止が呼び出された場合に、SynthesisCanceled イベントが発生しない問題を修正します。
埋め込み音声合成のノイズの問題を修正します。
複数の認識エンジンを並列で実行した場合に、埋め込み音声認識でクラッシュが発生する問題を修正します。
v1/v2 エンドポイントのフレーズ検出モード設定を修正します。
Microsoft Audio Stack に関するさまざまな問題を修正します。
サンプル
- 新機能に対する更新プログラム。
Speech SDK 1.35.0: 2024 年 2 月のリリース
新機能
- 既定のテキスト読み上げ音声を en-US-JennyMultilingualNeural から en-US-AvaNeural に変更。
- 詳細な出力形式を使用して、埋め込み音声翻訳結果での単語レベルの詳細をサポート。
バグ修正
- Python の AudioDataStream 位置ゲッター API を修正。
- 言語検出なしで v2 エンドポイントを使用する音声翻訳を修正。
- 埋め込みのテキスト読み上げでのランダムなクラッシュとワード境界イベントの重複を修正。
- WebSocket 接続の内部サーバー エラーについて正確なキャンセル エラー コードを返す。
- C# で MAS を使用する場合に発生する FPIEProcessor.dll ライブラリの読み込みエラーを修正。
サンプル
- 埋め込み認識サンプルの書式のマイナー更新。
Speech SDK 1.34.1: 2024 年 1 月のリリース
重大な変更
- バグ修正のみ
新機能
- バグ修正のみ
バグ修正
- 複数の中国リージョンのユーザーについて不適切なロケール情報でサービス エンドポイント URL が作成される、1.34.0 で発生した回帰を修正しました。
Speech SDK 1.34.0: 2023 年 11 月リリース
重大な変更
SpeechRecognizer
は既定で (つまり URL を明示的に指定しない場合) 新しいエンドポイントを使用するように更新され、ほとんどのプロパティでクエリ文字列パラメーターがサポートされなくなりました。 ServicePropertyChannel.UriQueryParameter でクエリ文字列パラメーターを直接設定するのではなく、対応する API 関数を代わりに使用してください。
新機能
- .NET 8 との互換性 (centos7-x64 に関する警告を除く、https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2170 の修正)
- 埋め込み音声を実行するデバイスの機能を評価するために使用できる埋め込み音声パフォーマンス メトリックのサポート。
- 埋め込み多言語翻訳でのソース言語識別のサポート。
- iOS および Swift/Objective-C 向けの埋め込み音声テキスト変換、テキスト読み上げ、翻訳のサポートをプレビューでリリース。
- 埋め込みサポートは、MicrosoftCognitiveServicesSpeechEmbedded-iOS Cocoapod で提供されています。
バグ修正
- iOS SDK でバイナリ サイズが 2 倍に増加する問題を修正 · イシュー #2113 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- Azure Speech to Text API からワード レベルのタイム スタンプを取得できない問題を修正しました · Issue 番号 #2156 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- DialogServiceConnector 破棄フェーズでイベントが正しく切断されるように修正しました。 これが原因で時々クラッシュが発生していました。
- MAS が使用されている場合の認識エンジンの作成時に例外が発生する問題を修正しました。
- Windows UWP x64 および Arm64 用 Microsoft.CognitiveServices.Speech.Extension.MAS NuGet パッケージの FPIEProcessor.dll は、ネイティブ C++ の VC ランタイム ライブラリに依存していました。 この問題は、依存関係を更新して VC ランタイム ライブラリを修正することで修正されました (UWP の場合)。
- [MAS] の修正: MAS 使用時に SPXERR_ALREADY_INITIALIZED につながる recognizeOnceAsync への繰り返し呼び出しの修正 · イシュー #2124 · Azure-Samples/cognitive-services-speech-sdk (github.com)
- フレーズ リスト使用時、埋め込み音声認識がクラッシュする問題を修正しました。
サンプル
- 音声テキスト変換、テキスト読み上げ、翻訳の iOS サンプルを埋め込み。
Speech CLI 1.34.0: 2023 年 11 月リリース
新機能
- 音声合成時の単語境界イベント出力をサポートします。
バグ修正
- JMESPath 依存関係を最新リリースに更新し、文字列の評価を改善しました
Speech SDK 1.33.0: 2023 年 10 月リリース
破壊的変更の通知
- Microsoft Audio Stack (MAS) 向けに追加された新しい NuGet パッケージは、MAS を使用するアプリケーションのパッケージ構成ファイルに含めることが必要になりました。
新機能
- 新しい NuGetパッケージ Microsoft.CognitiveServices.Speech.Extension.MAS.nupkg が追加され、Microsoft Audio Stack 使用時のエコー キャンセルのパフォーマンスが向上しました
- 発音評価: 韻律とコンテンツ評価のサポートが追加され、話し言葉を韻律、語彙、文法、トピックの観点から評価できます。
バグ修正
- キーワード認識結果のオフセットを修正し、入力オーディオ ストリームの先頭から正しく一致するようにしました。 この修正は、単独のキーワード認識とキーワードをトリガーする音声認識の両方に適用されます。
- Synthesizer stopSpeaking が即座に返されない問題「iOS 17 で SPXSpeechSynthesizer stopSpeaking() メソッドが即座に返されない - Issue 番号 #2081」を修正しました
- Apple シリコンを使用した Mac Catalyst の Swift モジュールにおけるインポートの問題を修正しました。 イシュー #1948
- JS: AudioWorkletNode モジュールの読み込みでは、CDN ブラウザーに含まれるフォールバックを含む信頼できる URL を使用するようになりました。
- JS: パックされた lib ファイルのターゲットが ES6 JS に指定されるようになり、ES5 JS のサポートは削除されました。
- JS: v2 エンドポイントをターゲットとする翻訳シナリオの中間イベントは正しく処理されます
- JS: TranslationRecognitionEventArgs の言語プロパティが translation.hypothesis イベントに設定されました。
- 音声合成: SynthesisCompleted イベントは、すべてのメタデータ イベント後に発行されることが保証されているため、イベントの終了を示すために使用できます。 口形素が完全に受信されたことを検知するにはどうすればいいですか? イシュー #2093 Azure-Samples/cognitive-services-speech-sdk
サンプル
- Python を使用した MULAW ストリーミングのデモ用サンプルを追加しました)
- 音声テキスト変換 NAudio サンプルの修正
Speech CLI 1.33.0: 2023 年 10 月リリース
新機能
- 音声合成時の単語境界イベント出力をサポートします。
バグ修正
- なし
Speech SDK 1.32.1: 2023 年 9 月リリース
バグ修正
- OpenSSL1.1.1v からの最新のセキュリティ修正プログラムを使用した Android パッケージの更新
- JS – タイムアウト ワーカーのデータ URL 読み込みをバイパスできるように WebWorkerLoadType プロパティが追加されました
- JS – 10 分後の会話翻訳の切断を修正
- JS – 会話からの会話翻訳認証トークンが翻訳サービス接続に伝達されるようになりました
サンプル
Speech SDK 1.31.0: 2023 8 月リリース
新機能
リアルタイムのダイアライゼーションのサポートは、Speech SDK 1.31.0 のパブリック プレビューで利用できます。 この機能は、C#、C++、Java、JavaScript、Python、Objective-C/Swift の SDK で使用できます。
音声合成ワード境界および口形素イベントとオーディオ再生の同期
破壊的変更
- 以前の "会話の文字起こし" シナリオの名前が "会議の文字起こし" に変更されました。 たとえば、
ConversationTranscriber
の代わりにMeetingTranscriber
を使用し、CreateConversationAsync
の代わりにCreateMeetingAsync
を使用します。 SDK オブジェクトとメソッドの名前は変更されましたが、名前の変更による機能自体への変更はありません。 ユーザー プロファイルと音声署名を使用した会議の文字起こしには、会議の文字起こしオブジェクトを使用します。 詳細については、会議の文字起こしに関するページを参照してください。 "会話翻訳" オブジェクトと方法は、これらの変更の影響を受けません。 会議翻訳シナリオには引き続きConversationTranslator
オブジェクトとそのメソッドを使用できます。
- リアルタイムのダイアライゼーションでは、新しい
ConversationTranscriber
オブジェクトが導入されています。 新しい "会話の文字起こし" オブジェクト モデルと呼び出しパターンは、SpeechRecognizer
オブジェクトを使用した継続的な認識に似ています。 主な違いは、ConversationTranscriber
オブジェクトは、複数の話者を区別する (ダイアライゼーション) 会話シナリオで使用するように設計されていることです。 ユーザー プロファイルと音声署名は適用されません。 詳細については、リアルタイムのダイアライゼーションのクイックスタートを参照してください。
次の表は、リアルタイムのダイアライゼーションと会議の文字起こしの以前のオブジェクト名と新しいオブジェクト名を示しています。 シナリオ名は最初の列に、前のオブジェクト名は 2 番目の列に、新しいオブジェクト名は 3 番目の列に示されています。
シナリオ名 | 以前のオブジェクト名 | 新しいオブジェクト名 |
---|---|---|
リアルタイムのダイアライゼーション | 該当なし | ConversationTranscriber |
会議の文字起こし | ConversationTranscriber ConversationTranscriptionEventArgs ConversationTranscriptionCanceledEventArgs ConversationTranscriptionResult RemoteConversationTranscriptionResult RemoteConversationTranscriptionClient RemoteConversationTranscriptionResult Participant 1ParticipantChangedReason 1User 1 |
MeetingTranscriber MeetingTranscriptionEventArgs MeetingTranscriptionCanceledEventArgs MeetingTranscriptionResult RemoteMeetingTranscriptionResult RemoteMeetingTranscriptionClient RemoteMeetingTranscriptionResult Participant ParticipantChangedReason User Meeting 2 |
1Participant
、ParticipantChangedReason
、User
オブジェクトは、会議の文字起こしと会議翻訳の両方のシナリオに適用できます。
2Meeting
は新しいオブジェクトであり、MeetingTranscriber
オブジェクトと共に使用されます。
バグ修正
- macOS でサポートされている最小バージョンを修正しました (https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/2017)
- 次の発音評価のバグを修正しました。
- 音素精度スコアの問題に対処し、特定の誤って発音された音素のみを正確に反映するようになりました。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1917
- 特に、単語に複数の有効な発音が含まれる可能性がある状況で、発音評価機能で完全に正しい発音が誤っていると不正確に識別される問題を解決しました。 https://github.com/Azure-Samples/cognitive-services-speech-sdk/issues/1530
サンプル
csharp
JavaScript
Speech SDK 1.30.0: 2023 年 7 月リリース
新機能
- C++、C#、Java - 埋め込み音声認識の詳細な結果での
DisplayWords
のサポートが追加されました。 - Objective-C/Swift - Objective-C/Swift での
ConnectionMessageReceived
イベントのサポートが追加されました。 - Objective-C/Swift - iOS のキーワード認識モデルが改善されました。 この変更により、iOS バイナリを含む特定のパッケージ (NuGet、XCFramework など) のサイズが大きくなりました。 Microsoft では、今後のリリースに向けて、サイズの縮小に取り組んでいます。
バグ修正
- PhraseListGrammar で音声認識エンジンを使用するときのメモリ リークを修正しました (GitHub の問題)。
- テキスト読み上げオープン接続 API のデッドロックを修正。
その他の注記
- Java - 内部的に使用される一部の
public
Java API メソッドが、パッケージinternal
、protected
、またはprivate
に変更されました。 アプリケーションでこれらが使用されることは想定されていないため、この変更は開発者に影響しません。 透明性のためにここに示されています。
サンプル
- 独自のアプリケーションで学習言語を指定する方法に関する新しい発音評価のサンプル
Speech SDK 1.29.0: 2023 年 6 月リリース
新機能
- C++、C#、Java - 埋め込み音声翻訳 API のプレビュー。 これで、クラウドに接続されていなくても音声翻訳を行うことができます。
- JavaScript - 音声翻訳用の継続的言語識別 (LID) が使用可能になりました。
- JavaScript -
VoiceInfo
クラスにLocaleName
プロパティを追加するためのコミュニティのコントリビューション。 pull request に関して GitHub ユーザー shivsarthak に感謝します。 - C++、C#、Java - サンプル レートが 16 kHz から 48 kHz の埋め込みテキスト読み上げ出力の再サンプリングのサポートを追加。
- 単純なパターン マッチングを使用した意図認識エンジンでの
hi-IN
ロケールのサポートが追加されました。
バグの修正
- Android テストの一部で見られたような、オブジェクトの破棄中に音声認識エンジンの競合状態によって発生するクラッシュを修正しました
- シンプルなパターン マッチャーを使用した意図認識エンジンで発生する可能性があるデッドロックを修正しました
サンプル
- 新しい埋め込み音声翻訳サンプル
Speech SDK 1.28.0: 2023 年 5 月のリリース
互換性に影響する変更点
- JavaScript SDK: オンライン証明書状態プロトコル (OCSP) が削除されました。 これにより、クライアントは証明書の処理に関するブラウザーとノードの標準に、より適切に準拠できます。 バージョン 1.28 以降には、カスタム OCSP モジュールが含まれなくなっています。
新機能
- 発話の最後に無音タイムアウトが発生すると、埋め込み音声認識で
NoMatchReason::EndSilenceTimeout
が返されるようになりました。 これは、リアルタイム音声サービスを使用して認識を行う場合の動作と一致します。 - JavaScript SDK:
PropertyId
列挙値を使用してSpeechTranslationConfig
にプロパティを設定します。
バグの修正
- Windows 上の C# - Windows Audio 拡張機能で起こる可能性のある競合状態またはデッドロックを修正しています。 両者がオーディオ レンダラーを迅速に破棄し、さらにシンセサイザー方式を使用して読み上げを停止するというシナリオでは、基になるイベントが停止によってリセットされておらず、レンダラー オブジェクトが破棄されない原因となる可能性があり、その間に、破棄のグローバル ロックが保持され、dotnet GC スレッドがフリーズする可能性があります。
サンプル
- MAUI 用の埋め込み音声サンプルを追加しました。
- テキスト読み上げを含むように Android Java 用の埋め込み音声サンプルを更新。
音声 SDK 1.27.0: 2023 年 4 月のリリース
今後の変更に関する通知
- 次の JavaScript SDK リリースで、オンライン証明書状態プロトコル (OCSP) を削除する予定です。 これにより、クライアントは証明書の処理に関するブラウザーとノードの標準に、より適切に準拠できます。 バージョン 1.27 は、カスタム OCSP モジュールを含む最後のリリースです。
新機能
- JavaScript - 話者識別と検証を使用した、ブラウザーからのマイク入力のサポートが追加されました。
- 埋め込み音声認識 -
PropertyId::Speech_SegmentationSilenceTimeoutMs
設定サポートの更新。
バグの修正
- 全般 - サービス再接続ロジックの信頼性を更新 (JavaScript を除く、すべてのプログラミング言語)。
- 全般 - Windows で文字列変換のメモリ リークを修正 (JavaScript を除く、関連するすべてのプログラミング言語)。
- 埋め込み音声認識 - 特定の文法リスト エントリを使用する場合のフランス語音声認識のクラッシュを修正。
- ソース コード ドキュメント - サービスのオーディオ ログに関連する SDK リファレンス ドキュメントのコメントを修正。
- 意図認識 - リスト エンティティに関連するパターン マッチャーの優先順位を修正。
サンプル
- C# 会話の文字起こし (CTS) サンプルで認証エラーを適切に処理します。
- Python、JavaScript、Objective-C、Swift のストリーミング発音評価の例を追加しました。
Speech SDK 1.26.0: 2023 年 3 月のリリース
重大な変更
- ビットコードは、xcframework を使用した Cocoapod、NuGet (Xamarin および MAUI 用)、Unity の各パッケージ内のすべての iOS ターゲットで無効になりました。 この変更は、Xcode 14 以降のビットコード サポートが Apple で廃止されたことによるものです。 この変更は、Xcode 13 バージョンを使用している場合、または Speech SDK を使用してアプリケーションでビットコードを明示的に有効にしている場合は、"フレームワークにビットコードが含まれていないため、再構築する必要があります" というエラーが発生する可能性があることも意味します。 この問題を解決するには、ターゲットでビットコードが無効になっていることを確認します。
- このリリースでは、最小の iOS デプロイ ターゲットが 11.0 にアップグレードされています。つまり、armv7 HW はサポート対象外となります。
新機能
- (デバイス上の) 埋め込み音声認識では、8 kHz と 16 kHz の両方のサンプリング レート入力オーディオ (サンプルあたり 16 ビット、モノラル PCM) がサポートされるようになりました。
- 音声合成では、エンドツーエンドの待機時間の最適化を助けるために、接続、ネットワーク、サービスの待機時間が結果に報告されるようになりました。
- 単純なパターン マッチングを使用した音声意図認識の新しいタイ ブレーク ルール。 一致する文字バイト数が多い方が、文字バイト数が少ないパターン マッチより優先されます。 例: パターン "Select {something} in the top right" は、"Click {something}" より優先されます
バグ修正
- 音声合成: ワード境界イベントで絵文字が正しくないバグを修正しました。
- 会話言語理解 (CLU) を使用した意図認識:
- CLU オーケストレーター ワークフローの意図が正しく表示されるようになりました。
- プロパティ ID
LanguageUnderstandingServiceResponse_JsonResult
を使用して JSON の結果を入手できるようになりました。
- キーワードのアクティブ化を使用した音声認識: キーワード認識後に最大 150 ミリ秒の音声が欠落する問題を修正しました。
- (お客様から報告された) Speech SDK NuGet iOS MAUI リリース ビルド (GitHub の問題) の修正
サンプル
- お客様から報告された Swift iOS サンプル (GitHub の問題) の修正
Speech SDK 1.25.0: 2023 年 1 月のリリース
互換性に影響する変更
- 言語識別 (プレビュー) API が簡略化されました。 Speech SDK 1.25 に更新してビルドの中断が発生した場合は、「言語識別」ページにアクセスして、新しいプロパティ
SpeechServiceConnection_LanguageIdMode
について確認してください。 この 1 つのプロパティは、2 つの以前のプロパティSpeechServiceConnection_SingleLanguageIdPriority
とSpeechServiceConnection_ContinuousLanguageIdPriority
を置き換えます。 最近のモデルの改善により、低待機時間と高精度の優先順位付けは不要になりました。 現在必要なのは、継続的な音声認識または翻訳を行うときに、開始時または継続的な言語識別のどちらを実行するかを選択することだけです。
新機能
- C#/C++/Java: Embedded Speech SDK が、限定的なパブリック プレビューでリリースされました。 「埋め込み音声 (プレビュー)」のドキュメントを参照してください。 クラウド接続が断続的または利用できない場合に、デバイス上で音声テキスト変換とテキスト読み上げを実行できるようになりました。 Android、Linux、macOS、Windows の各プラットフォームでサポートされています
- C# MAUI: Speech SDK NuGet で iOS および Mac Catalyst ターゲット向けのサポートが追加されました (お客様の問題)
- Unity: Android x86_64 アーキテクチャが Unity パッケージに追加されました (お客様の問題)
- Go:
- C#/C++: Intent Recognizer で、Microsoft サービスでのオーケストレーションを使用した C++ および C# の会話言語理解モデルがサポートされるようになりました
バグの修正
- KeywordRecognizer を停止しようとしたときにハングすることがある問題の修正
- Python:
PronunciationAssessmentGranularity.FullText
が設定されている場合の発音評価結果の取得に関する修正 (お客様の問題)- 合成音声を取得するときに男性音声の性別プロパティが取得されない問題の修正
- JavaScript
サンプル
埋め込み音声の使用方法を示すサンプルを追加しました
MAUI 用の音声テキスト変換サンプルを追加しました
Speech SDK サンプル リポジトリを参照してください。
Speech SDK 1.24.2: 2022 年 11 月リリース
新機能
- 新機能はなく、新しいモデル ファイルをサポートするための埋め込みエンジンが修正されただけです。
バグの修正
- すべてのプログラミング言語
- 埋め込み音声認識モデルの暗号化に関する問題が修正されました。
Speech SDK 1.24.1: 2022 年 11 月リリース
新機能
- 埋め込み音声プレビュー用のパッケージを公開しました。 詳細については、「 https://aka.ms/embedded-speech 」を参照してください。
バグの修正
- すべてのプログラミング言語
- 音声フォントがサポートされていないときの埋め込み TTS のクラッシュを修正
- Linux で stopSpeaking() を使用して再生を停止できない問題 (#1686) を修正
- JavaScript SDK
- 会話の文字起こしでオーディオがゲートされる方法の回帰を修正しました。
- Java
- ドキュメント パイプラインでオンライン参照ドキュメントを更新できるように、更新された POM ファイルと Javadocs ファイルを Maven Central に一時的に公開しました。
- Python
- Python の speak_text(ssml) から void が返される回帰を修正しました。
Speech SDK 1.24.0: 2022 年 10 月リリース
新機能
- すべてのプログラミング言語: AMR-WB (16khz) が、サポートされているテキスト読み上げオーディオ出力形式の一覧に追加されました
- Python: サポートされている Linux ディストリビューション向けに Linux Arm64 用のパッケージが追加されました。
- C#/C++/Java/Python:
AudioStreamWaveFormat
を使用した音声サービスへの ALAW & MULAW ダイレクト ストリーミングのサポートが (既存の PCM ストリームに加えて) 追加されました。 - C# MAUI: .NET MAUI 開発者向けに、NuGet パッケージが Android ターゲットをサポートするように更新されました (お客様の問題)
- Mac: iOS バイナリを含まない、独立した XCframework for Mac を追加しました。 これにより、比較的小さな XCframework パッケージを使用する Mac バイナリのみを必要とする開発者向けのオプションが提供されます。
- Microsoft Audio Stack (MAS):
- ビーム形成角度を指定すると、指定範囲外の音がより効果的に抑制されます。
- Linux ARM32 および Linux Arm64 の
libMicrosoft.CognitiveServices.Speech.extension.mas.so
のサイズが約 70% 削減されます。
- パターン マッチングを使用した意図認識:
fr
、de
、es
、jp
言語の正書法のサポートを追加しましたes
言語の事前構築済みの整数サポートが追加されました。
バグ修正
- iOS: 圧縮された音声のデコード エラーによって起こる、iOS 16 での音声合成エラーを修正しました (お客様の問題)。
- JavaScript:
- 音声合成の音声リストを取得するときに認証トークンが機能しない問題を修正しました (お客様の問題)。
- ワーカーの読み込みにデータ URL が使用されます (お客様の問題)。
- AudioWorklet がブラウザーでサポートされている場合にのみ、オーディオ プロセッサ ワークレットが作成されます (お客様の問題)。 これには、William Wong さんがコミュニティで貢献されました。 William さん、ありがとうございました。
- LUIS 応答
connectionMessage
が空の場合に認識されるコールバックを修正しました (お客様の問題)。 - 音声セグメント化のタイムアウトを適切に設定しました。
- パターン マッチングを使用した意図認識:
- モデル内の json 以外の文字が正しく読み込まれるようになりました。
- 継続的な認識時に
recognizeOnceAsync(text)
が呼び出されるとハングする問題を修正しました。
Speech SDK 1.23.0: 2022 年 7 月リリース
新機能
- C#、C++、Java: パターン マッチングを使用した意図認識で言語
zh-cn
とzh-hk
のサポートが追加されました。 - C#:
AnyCPU
.NET Framework ビルドのサポートを追加しました
バグの修正
- Android: OpenSSL を 1.1.1q に更新することで、OpenSSL の脆弱性 CVE-2022-2068 を修正しました
- Python: PushAudioInputStream を使用したときのクラッシュを修正します
- iOS: iOS で報告された "EXC_BAD_ACCESS: null ポインターを逆参照しようとしました" を修正しました (GitHub の問題)
Speech SDK 1.22.0: 2022 年 6 月リリース
新機能
- Java: "単純なパターン マッチング" エンジンをサポートするために、getEntities()、applyLanguageModels()、recognizeOnceAsync(text) 用の IntentRecognitionResult API が追加されました。
- Unity: Mac M1 (Apple Silicon) for Unity パッケージのサポートを追加しました (GitHub 問題)
- C#: Xamarin Android の x86_64 のサポートを追加しました (GitHub 問題)
- C#: v4.6.1 が廃止されたため、SDK C# パッケージ用の .NET Framework の最小バージョンが v4.6.2 に更新されました (Microsoft .NET Framework コンポーネント ライフサイクル ポリシーに関するページを参照)
- Linux:Debian 11 および Ubuntu 22.04 LTS のサポートを追加しました。 Ubuntu 22.04 LTS では、ここからバイナリ パッケージ (例: x64 の場合は libssl1.1_1.1.1l-1ubuntu1.3_amd64.deb 以降) として、またはソースからコンパイルして libssl1.1 を手動でインストールする必要があります。
バグの修正
- UWP: セキュリティ コンプライアンスを満たしてバイナリ占有領域を減らすために、OpenSSL の依存関係が UWP ライブラリから削除され、WinRT WebSocket と HTTP API で置き換えられました。
- Mac: macOS プラットフォームをターゲットとする Swift プロジェクトを使用する場合の "MicrosoftCognitiveServicesSpeech モジュールが見つかりません" の問題を修正しました
- Windows、Mac: リアルタイムの速度でストリーミングするようにプロパティを介して構成されたオーディオ ソースが遅れて、最終的には容量を超えることがあるというプラットフォーム固有の問題を修正しました
サンプル (GitHub)
- C#: v4.6.2 を使用するように .NET Framework サンプルが更新されました
- Unity: Android および UWP 用に仮想アシスタントのサンプルが修正されました
- Unity: Unity 2020 LTS バージョン用に Unity サンプルが更新されました
Speech SDK 1.21.0: 2022 年 4 月のリリース
新機能
- Java および JavaScript: SpeechRecognizer オブジェクトを使用するときの継続的な言語識別のサポートが追加されました
- JavaScript: コンソール ログ レベルと (ノードのみの) ファイル ログを有効にする診断 API が追加されました。これは、Microsoft がお客様から報告された問題のトラブルシューティングを行うときに役立ちます。
- Python: 会話の文字起こしのサポートが追加されました。
- Go: 話者認識のサポートが追加されました。
- C++ および C#: 意図認識エンジン (単純なパターン マッチング) での必須単語グループのサポートが追加されました。 例: "(set|start|begin) a timer" では、意図が認識されるために "set"、"start"、"begin" のいずれかが存在している必要があります。
- すべてのプログラミング言語、音声合成: ワード境界イベントに duration プロパティが追加されました。 句読点の境界と文の境界のサポートが追加されました。
- Objective-C/Swift/Java: 発音評価結果オブジェクトに単語レベルの結果が追加されました (C# と同様)。 アプリケーションで、単語レベルの情報を取得するために JSON 結果文字列を解析する必要がなくなりました (GitHub の問題)。
- iOS プラットフォーム: ARMv7 アーキテクチャの実験的なサポートが追加されました。
バグの修正
- iOS プラットフォーム: CocoaPod 使用時に "任意の iOS デバイス" を対象とした構築を可能にする修正が行われました (GitHub の問題)
- Android プラットフォーム: セキュリティの脆弱性 CVE-2022-0778 を修正するために、OpenSSL のバージョンが 1.1.1n に更新されました。
- JavaScript: WAV ヘッダーでファイル サイズが更新されない問題が修正されました (GitHub の問題)
- JavaScript: 翻訳シナリオを中断させる要求 ID の同期解除の問題が修正されました (GitHub の問題)。
- JavaScript: ストリームのない SpeakerAudioDestination をインスタンス化するときの問題が修正されました (GitHub の問題)。
- C++: C++17 以降でコンパイルするときの警告を取り除くように C++ ヘッダーが修正されました。
サンプル GitHub
- 言語識別を使用する音声認識に関する新しい Java サンプル
- 会話の文字起こしに関する新しい Python と Java のサンプル
- 話者認識に関する新しい Go サンプル
- デバイス ID を検出するためにすべてのオーディオ キャプチャおよびレンダリング デバイスを列挙する、Windows 用の新しい C++ および C# ツール。 この ID は、既定以外のデバイスとの間でオーディオのキャプチャやレンダリングを行う場合に Speech SDK で必要となります。
Speech SDK 1.20.0: 2022 年 1 月のリリース
新機能
- Objective-C、Swift、および Python: 音声アシスタントのシナリオで使用される DialogServiceConnector のサポートが追加されました。
- Python: Python 3.10 のサポートが追加されました。 Python 3.6 のサポートは、Python の 3.6 のサポート終了に従って削除されました。
- Unity: Speech SDK が Linux 上の Unity アプリケーションでサポートされるようになりました。
- C++、C#: パターン マッチングを使用した IntentRecognizer が C# でサポートされるようになりました。 さらに、カスタム エンティティ、オプションのグループ、およびエンティティの役割を使用するシナリオが、C++ および C# でサポートされるようになりました。
- C++、C#: 新しいクラス Filelogger、MemoryLogger、および EventLogger を使用した診断トレース ログが改善されました。 SDK のログは、お客様から報告された問題を診断するための重要なツールです。 これらの新しいクラスにより、お客様は Speech SDK のログを独自のログ記録システムに簡単に統合できます。
- すべてのプログラミング言語: PronunciationAssessmentConfig に、目的の音素アルファベット (IPA または SAPI) と N 最適な音素カウントを設定するプロパティが用意されました (GitHub の問題 1284 に従って構成 JSON を作成する必要がありません)。 また、音節レベルの出力がサポートされるようになりました。
- Android、iOS、macOS (すべてのプログラミング言語): 帯域幅が制限されたネットワークをサポートするための GStreamer は不要になりました。 SpeechSynthesizer は、オペレーティング システムのオーディオ デコード機能を使用して、テキスト読み上げサービスからストリーミングされた圧縮オーディオをデコードするようになりました。
- すべてのプログラミング言語: SpeechSynthesizer は、ライブ ストリーミングのシナリオで広く使用されている 3 つの新しい未加工出力 Opus 形式 (コンテナーなし) をサポートするようになりました。
- JavaScript: サポートされている合成音声の一覧を取得する getVoicesAsync () API を SpeechSynthesizer に追加しました (GitHub の問題 1350)
- JavaScript: PCM 以外の Wave 形式をサポートする getWaveFormat () API を AudioStreamFormat に追加しました (GitHub の問題 452)
- JavaScript: volume getter/setter と mute()/unmute() API を SpeakerAudioDestination に追加しました (GitHub の問題 463)
バグ修正
- C++、C#、Java、JavaScript、Objective-C、Swift: PushAudioInputStream を使用する音声認識エンジンの停止中の 10 秒の遅延を削除する修正。 これは、StopContinuousRecognition の呼び出し後に新しいオーディオがプッシュされない場合が対象です (GitHub の問題 1318、331)。
- Android および UWP 上の Unity: UWP、Android Arm64、Windows Subsystem for Android (WSA) Arm64 において、Unity メタファイルが修正されました (GitHub の Issue 番号 1360)
- iOS: CocoaPods を用しているときに、任意の iOS デバイスで Speech SDK アプリケーションをコンパイルできるようになりました (GitHub の問題 1320)
- iOS: SpeechSynthesizer がスピーカーに直接オーディオを出力するように構成されている場合、まれに先頭で再生が停止します。 これは修正されました。
- JavaScript: オーディオ ワークレットが見つからない場合にマイク入力にスクリプト プロセッサ フォールバックを使用します (GitHub の問題 455)
- JavaScript: Sentry 統合によって検出されたバグを軽減するために、エージェントにプロトコルを追加します (GitHub の問題 465)
サンプル GitHub
- 詳細な認識結果を取得する方法を示す C++、C#、Python、Java のサンプル。 詳細には、別の認識結果、信頼度スコア、字句形成、正規化された形式、マスクされた正規化形式、それぞれに対するワードレベルのタイミングが含まれます。
- 外部オーディオ ソースとして AVFoundation を使用する iOS サンプルが追加されました。
- WordBoundary イベントを使用して SRT (SubRip テキスト) 形式を取得する方法を示す Java サンプルが追加されました。
- 発音評価のための Android サンプル。
- 新しい診断ログ クラスの使用方法を示す C++、C#。
Speech SDK 1.19.0: 2021 年 11 月のリリース
ハイライト
Speaker Recognition サービスの一般提供 (GA) が開始されました。 Speech SDK API は、C++、C#、Java、および Javascript で利用できます。 Speaker Recognition を使用すると、話者固有の音声特性により、正確に検証および識別することができます。 このトピックの詳細については、ドキュメントを参照してください。
Ubuntu 16.04 のサポートは Azure DevOps および GitHub とともに終了しました。 Ubuntu 16.04 の有効期間は、2021 年 4 月に終了しました。 Ubuntu 16.04 のワークフローは、Ubuntu 18.04 以降に移行してください。
Linux バイナリの OpenSSL リンクは動的に変更されました。 Linux バイナリ サイズが約 50% 削減されました。
Mac M1 ARM ベースのシリコンのサポートが追加されました。
新機能
C++/C#/Java: Microsoft Audio Stack を使用した音声入力のオーディオ処理のサポートを有効にする新しい API が追加されました。 こちらのドキュメントを参照してください。
C++ : より高度なパターン マッチングを容易にするための、意図認識用の新しい API が追加されました。 これには List や Prebuilt Integer エンティティのほか、意図やエンティティをモデルとしてグループ化することに対応しています (ドキュメント、アップデート、サンプルは現在開発中で、今後公開される予定です)。
Mac: GitHub の Issue 番号 1244 に関連して、CocoaPod、Python、Java、NuGet パッケージの Arm64 (M1) ベースのシリコンがサポートされるようになりました。
iOS/Mac: GitHub の Issue 番号 919 に関連して、iOS と macOS のバイナリが xcframework にパッケージされるようになりました。
iOS/Mac: GitHub の Issue 番号 1171 に関連して、Mac catalyst がサポートされるようになりました。
Linux: Speech SDK について、CentOS7 向けの新しい tar パッケージが追加されました。 Linux .tar パッケージに、
lib/centos7-x64
のRHEL/CentOS 7 用の特定のライブラリが含まれるようになりました。 lib/x64 の Speech SDK ライブラリは、サポートされている他のすべての Linux x64 ディストリビューション (RHEL/CentOS 8 を含む) に引き続き適用され、RHEL/CentOS 7 では機能しません。Javascript: VoiceProfile と SpeakerRecognizer の API が非同期または待避可能になりました。
Javascript: US Government Azure リージョンのがサポートされるようになりました。
Windows: ユニバーサル Windows プラットフォーム (UWP) で再生がサポートされるようになりました。
バグの修正
Android: Android パッケージの OpenSSL のセキュリティ アップデート (バージョン 1.1.1l に更新)
Python: python でスピーカー デバイスを選択できないバグを修正しました。
Core: 接続の試行が失敗したときに自動的に再接続するようになりました。
iOS: GStreamer を使用する際の不安定さとビットコード ビルドの問題により、iOS パッケージでのオーディオ圧縮を無効にしました。 詳細については、GitHub の Issue 番号 1209 を参照してください。
サンプル GitHub
Mac/iOS: xcframework パッケージを使用するようサンプルとクイックスタートが更新されました。
.NET: .NET core 3.1 バージョンを使用するようにサンプルが更新されました。
Javascript: 音声アシスタントのサンプルが追加されました。
Speech SDK 1.18.0: 2021 年 7 月リリース
注: こちらから Speech SDK を開始してください。
要点の概要
- Ubuntu 16.04 の有効期間は、2021 年 4 月に終了しました。 Azure DevOps および GitHub とともに、16.04 のサポートは 2021 年 9 月をもって終了します。 その前に、ubuntu-16.04 のワークフローを ubuntu-18.04 以降に移行してください。
新機能
- C++ : 単純な言語パターン マッチングと意図認識エンジンにより、単純な意図認識シナリオの実装がいっそう容易になりました。
- C++/C#/Java: 独立した認識シナリオの Speaker Recognition 登録フェーズで有効なアクティブ化フレーズの一覧を受け取る新しい API
GetActivationPhrasesAsync()
がVoiceProfileClient
クラスに追加されました。- 重要: Speaker Recognition 機能はプレビュー段階です。 プレビューで作成された音声プロファイルはすべて、Speaker Recognition 機能がプレビューから一般提供に移行してから 90 日後に廃止されます。 その時点で、プレビューの音声プロファイルは機能しなくします。
- Python: 既存の
SpeechRecognizer
およびTranslationRecognizer
オブジェクトに、継続的な言語識別 (LID) のサポートが追加されました。 - Python: 1 回限りまたは継続的な LID (認識または翻訳はなし) を行うための
SourceLanguageRecognizer
という名前の新しい Python オブジェクトが追加されました。 - JavaScript: 独立した認識シナリオの Speaker Recognition 登録フェーズで有効なアクティブ化フレーズの一覧を受け取るための
getActivationPhrasesAsync
API がVoiceProfileClient
クラスに追加されました。 - JavaScript:
VoiceProfileClient
のenrollProfileAsync
API が、非同期で待機可能になります。 使用例については、こちらの独立した識別コードを参照してください。
改善
- Java: 多くの Java オブジェクトに AutoCloseable のサポートが追加されました。 これで、リソースの解放に try-with-resources モデルがサポートされるようになります。 try-with-resources を使用するこちらのサンプルを参照してください。 また、このパターンの詳細については、try-with-resources ステートメントに関する Oracle Java ドキュメントのチュートリアルも参照してください。
- ディスク フットプリントが、多くのプラットフォームとアーキテクチャで大幅に削減されました。
Microsoft.CognitiveServices.Speech.core
バイナリの例: x64 Linux は 475 KB 減少 (8.0% 削減)、Arm64 Windows UWP は 464 KB 減少 (11.5% 削減)、x86 Windows は 343 KB 減少 (17.5% 削減)、x64 Windows は 451 KB 減少 (19.4% 削減)。
バグの修正
- Java: 合成テキストにサロゲート文字が含まれている場合の合成エラーを修正しました。 詳細については、こちら を参照してください。
- JavaScript: ブラウザー マイクのオーディオ処理で、非推奨の
ScriptProcessorNode
ではなくAudioWorkletNode
が使用されるようになりました。 詳細については、こちら を参照してください。 - JavaScript: 実行時間の長い会話翻訳シナリオで、会話が正しく維持されるようになりました。 詳細については、こちら を参照してください。
- JavaScript: 認識エンジンが継続的な認識で mediastream に再接続する問題を修正しました。 詳細については、こちら を参照してください。
- JavaScript: 認識エンジンが継続的な認識で pushStream に再接続する問題を修正しました。 詳細については、こちら を参照してください。
- JavaScript: 詳細な認識結果での単語レベルのオフセット計算を修正しました。 詳細については、こちら を参照してください。
サンプル
- こちらの Java クイックスタート サンプルが更新されました。
enrollProfileAsync()
の新しい使用方法を示すように、JavaScript の Speaker Recognition サンプルが更新されました。 こちらでサンプルを参照してください。
Speech SDK 1.17.0: 2021 年 5 月のリリース
Note
こちらから Speech SDK を開始します。
要点の概要
- フットプリントの削減 - Speech SDK とそのコンポーネントのメモリとディスクのフットプリントを引き続き削減します。
- 新しいスタンドアロン言語識別 API を使用して、話されている言語を認識することができます。
- macOS で Unity を使用して、音声対応の複合現実とゲーム アプリケーションを開発します。
- これで、Go プログラミング言語の音声認識に加えて、テキスト読み上げを使用できるようになりました。
- 重要なお客様が GitHub でフラグを設定した問題に対処するためのいくつかのバグ修正。 ご協力ありがとうございます。 ぜひフィードバックをお寄せください。
新機能
- C++/C#:
SourceLanguageRecognizer
API を介した新しいスタンドアロンの開始時および継続的な言語検出。 オーディオ コンテンツで話されている言語のみを検出する場合は、この API で可能です。 C++ および C# の詳細を参照してください。 - C++/C#: 音声認識と翻訳認識で、開始時と継続的の両方の言語識別がサポートされるようになったため、文字起こしや翻訳が行われる前に、どの言語が話されているかをプログラムで判断できます。 音声認識と Speech Translation のドキュメントを参照してください。
- C#: macOS (x64) に Unity のサポートを追加しました。 これにより、複合現実とゲームにおける音声認識と音声合成のユース ケースのロックが解除されます。
- Go: Go プログラミング言語に音声合成およびテキスト読み上げのサポートを追加して、さらに多くのユース ケースで音声合成が利用できるようになりました。 クイック スタートまたは Microsoft のリファレンス ドキュメントを参照してください。
- C++/C#/Java/Python/Objective-C/Go: 音声シンセサイザーで
connection
オブジェクトがサポートされるようになりました。 これは、音声サービスへの接続を管理および監視するのに役立ち、待機時間を短縮するための事前接続に特に役立ちます。 こちらのドキュメントを参照してください。 - C++/C#/Java/Python/Objective-C/Go: 音声合成の待機時間の問題を監視および診断できるように、
SpeechSynthesisResult
で待機時間とアンダーラン時間を公開するようにしました。 C++、C#、Java、Python、Objective-C、Go のそれぞれの詳細を参照してください。 - C++/C#/Java/Python/Objective-C: テキスト読み上げでは、使用する音声を指定しない場合、既定でニューラル音声が使用されるようになりました。 これにより、既定でより忠実度の高い出力が得られますが、既定の価格も値上がりします。 70 以上の標準音声または 130 以上のニューラル音声を指定することで、既定を変更できます。
- C++/C#/Java/Python/Objective-C/Go: 性別に基づいて音声を選択しやすくするために、音声合成情報に Gender (性別) プロパティを追加しました。 これは、GitHub イシュー #1055 に対応するものです。
- C++、C#、Java、JavaScript: 特定のアカウントのすべての音声プロファイルのユーザー管理を容易するために、Speaker Recognition で
retrieveEnrollmentResultAsync
、getAuthorizationPhrasesAsync
、getAllProfilesAsync()
がサポートされるようになりました。 C++、C#、Java、JavaScript のそれぞれのドキュメントを参照してください。 これは、GitHub イシュー #338 に対応するものです。 - JavaScript: 接続エラーの再試行を追加しました。これにより、JavaScript ベースの音声アプリケーションの堅牢性が高まります。
機能強化
- Linux および Android の Speech SDK バイナリは、最新バージョンの OpenSSL (1.1.1k) を使用するように更新されました。
- コード サイズの改善:
- Language Understanding が別の "lu" ライブラリに分割されるようになりました。
- Windows x64 コア バイナリ サイズが 14.4% 減少しました。
- Android Arm64 コア バイナリ サイズが 13.7% 減少しました。
- その他のコンポーネントもサイズが減少しました。
バグの修正
- すべて: ServiceTimeout の GitHub イシュー #842 を修正しました。 このエラーで終了するサービスに接続しなくても、Speech SDK を使用して長いオーディオ ファイルの文字起こしができるようになりました。 ただし、長いファイルに対しては、引き続きバッチ文字起こしを使用することをお勧めします。
- C# : GitHub イシュー #947: 音声入力がないと、アプリが正常な状態でなくなる可能性がある問題を修正しました。
- Java: GitHub イシュー #997: ネットワーク接続なしで DialogServiceConnector を使用したり、無効なサブスクリプション キーを使用すると、Speech SDK for Java 1.16 がクラッシュする問題を修正しました。
- (コンソール アプリで CTRL + C キーを使用するなどして) 音声認識を突然停止したときのクラッシュを修正しました。
- Java: Speech SDK for Java を使用しているときに、Windows 上の一時ファイルを削除する修正プログラムを追加しました。
- Java: GitHub イシュー #994:
DialogServiceConnector.stopListeningAsync
を呼び出すとエラーになる可能性がある問題を修正しました。 - Java: 仮想アシスタントのクイックスタートにおけるお客様の問題を修正しました。
- JavaScript: GitHub イシュー #366:
ConversationTranslator
で "'this.cancelSpeech isn't a function" (this.cancelSpeech は関数ではありません) というエラーがスローされる問題を修正しました。 - JavaScript: GitHub イシュー #298: "結果をインメモリ ストリームとして取得する" のサンプルが大音量で再生される問題を修正しました。
- JavaScript: GitHub イシュー #350:
AudioConfig
を呼び出すと "ReferenceError: MediaStream isn't defined" (MediaStream が定義されていません) という結果になる場合がある問題を修正しました。 - JavaScript: Node.js で長時間実行されているセッションに対する UnhandledPromiseRejection 警告を修正しました。
サンプル
- 更新された macOS 用の Unity サンプルのドキュメントは、こちらにあります。
- Azure AI 音声認識サービスの React Native サンプルは、こちらから入手できるようになりました。
Speech SDK 1.16.0: 2021 年 3 月のリリース
Note
Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。 こちらでダウンロードできます。
新機能
- C++/C#/Java/Python: 最新バージョンの GStreamer (1.18.3) に移行し、Windows、Linux、および Android のあらゆるメディア形式の文字起こしのサポートが追加されました。 こちらのドキュメントを参照してください。
- C++、C#、Java、Objective-C、Python: 圧縮された TTS または合成オーディオのデコードのサポートが SDK に追加されました。 出力オーディオ形式を PCM に設定し、システムで GStreamer を使用できる場合、SDK は圧縮されたオーディオをサービスに自動的に要求して、帯域幅を節約し、クライアントのオーディオをデコードします。
SpeechServiceConnection_SynthEnableCompressedAudioTransmission
をfalse
に設定し、この機能を無効にできます。 C++、C#、Java、Objective-C、Python の詳細。 - JavaScript: Node.js ユーザーが
AudioConfig.fromWavFileInput
API を使用できるようになりました。 これは、GitHub イシュー #252 に対応するものです。 - C++、C#、Java、Objective-C、Python: 利用可能なすべての合成音声を返す、TTS 用の
GetVoicesAsync()
メソッドが追加されました。 C++、C#、Java、Objective-C、Python の詳細。 - C++/C#/Java/JavaScript/Objective-C/Python: 同期口形素アニメーションを返す TTS または音声合成用に
VisemeReceived
イベントが追加されました。 こちらのドキュメントを参照してください。 - C++/C#/Java/JavaScript/Objective-C/Python: TTS 用に
BookmarkReached
イベントが追加されました。 入力 SSML でブックマークを設定し、各ブックマークのオーディオ オフセットを取得することができます。 こちらのドキュメントを参照してください。 - Java: Speaker Recognition API のサポートが追加されました。 詳細については、こちら を参照してください。
- C++/C#/Java/JavaScript/Objective-C/Python: TTS 用 WebM コンテナー (Webm16Khz16BitMonoOpus および Webm24Khz16BitMonoOpus) の 2 つの新しい出力オーディオ形式が追加されました。 これらは、Opus コーデックを使用したオーディオのストリーミングに適した形式です。 Details for C++, C#, Java、JavaScript、Objective-C、Python の詳細。
- C++、C#、Java: Speaker Recognition シナリオの音声プロファイルを取得するためのサポートが追加されました。 C++、C#、Java の詳細。
- C++、C#、Java、Objective-C、Python: オーディオ マイクとスピーカー コントロール用の別個の共有ライブラリのサポートが追加されました。 これにより、開発者は、必要なオーディオ ライブラリの依存関係がない環境で、SDK を使用できるようになります。
- Objective-C/Swift: アンブレラ ヘッダーを持つモジュール フレームワークのサポートが追加されました。 これにより、開発者は、iOS/Mac Objective-C/Swift アプリで Speech SDK をモジュールとしてインポートできます。 これは、GitHub イシュー #452 に対応するものです。
- Python: Python 3.9 のサポートが追加され、Python の 3.5 のサポート終了に伴って Python 3.5 のサポートが停止しました。
既知の問題
- C++/C#/Java:
DialogServiceConnector
はCustomCommandsConfig
を使用して Custom Commands アプリケーションにアクセスすることはできません。代わりに、接続エラーが発生します。 これは、config.SetServiceProperty("X-CommandsAppId", "your-application-id", ServicePropertyChannel.UriQueryParameter)
を使用してアプリケーション ID を要求に手動で追加することで回避できます。CustomCommandsConfig
の予期される動作は、次のリリースで復元されます。
機能強化
- Speech SDK のメモリ使用量とディスク フットプリントを削減するための複数リリースの取り組みの一環として、Android バイナリのサイズが 3% から 5% 小さくなりました。
- C# リファレンス ドキュメント (こちらを参照) の正確性、読みやすさ、および関連項目のセクションが改善されました。
バグの修正
- JavaScript: 大きな WAV ファイル ヘッダーが正しく解析されるようになりました (ヘッダー スライスが 512 バイトに増えます)。 これは、GitHub イシュー #962 に対応するものです。
- JavaScript: マイクのタイミングの問題を修正しました。これは、認識が停止する前にマイクのストリームが終了した場合に、Firefox で動作しない音声認識に関する問題を解決します。
- JavaScript: turnOn が完了する前にブラウザーがマイクを強制的にオフにしたときに、初期化の Promise が正しく処理されるようになりました。
- JavaScript: URL の依存関係を URL 解析に置き換えました。 これは、GitHub イシュー #264 に対応するものです。
- Android:
minifyEnabled
が true に設定されている場合、コールバックが機能しない問題を解決しました。 - C++/C#/Java/Objective-C/Python: TTS が待ち時間を短縮するために、
TCP_NODELAY
は基になるソケット IO に正しく設定されるようになります。 - C++/C#/Java/Python/Objective-C/Go: 認識エンジンが認識を開始した直後に破壊された場合に時々発生するクラッシュを修正しました。
- C++/C#/Java: スピーカー認識エンジンが破壊された場合に時々発生するクラッシュを修正しました。
サンプル
- JavaScript: ブラウザーのサンプルでは、別個の JavaScript ライブラリ ファイルのダウンロードは不要になりました。
Speech SDK 1.15.0: 2021 年 1 月のリリース
Note
Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。 こちらでダウンロードできます。
要点の概要
- メモリとディスクの占有領域を小さくすることによる SDK の効率向上。
- カスタム ニューラル音声のプライベート プレビューで使用できる再現性の高い出力形式。
- 意図認識エンジンで最上位の意図以外を返すことができるようになり、顧客の意図について個別の評価を行うことができます。
- 音声アシスタントやボットの設定が簡単になりました。リスニングを直ちに停止できるほか、エラーへの対処方法をより細かく制御できます。
- 圧縮をオプションにすることで向上したデバイスのパフォーマンス。
- Windows ARM と Arm64 で Speech SDK を使用します。
- 改善された低レベルのデバッグ。
- 発音評価機能をより広く利用できるようになりました。
- 重要なお客様が GitHub でフラグを設定した問題に対処するためのいくつかのバグ修正。 ご協力ありがとうございます。 ぜひフィードバックをお寄せください。
機能強化
- Speech SDK がより効率的で軽量になりました。 Speech SDK のメモリ使用量とディスク占有領域を削減するための複数リリースの取り組みが開始されました。 最初のステップとして、ほとんどのプラットフォームで共有ライブラリのファイル サイズを大幅に削減しました。 1.14 リリースと比較すると次のようになります。
- 64 ビット UWP 互換 Windows ライブラリは、約 30% 小さくなります。
- 32 ビット Windows ライブラリは、まだサイズが改善されていません。
- Linux ライブラリは、20 から 25% 小さくなります。
- Android ライブラリは、3 から 5% 小さくなります。
新機能
- すべて: TTS 音声合成 API を介したカスタム ニューラル音声のプライベート プレビューで使用できる新しい 48KHz 出力形式: Audio48Khz192KBitRateMonoMp3、audio-48khz-192kbitrate-mono-mp3、Audio48Khz96KBitRateMonoMp3、audio-48khz-96kbitrate-mono-mp3、Raw48Khz16BitMonoPcm、raw-48khz-16bit-mono-pcm、Riff48Khz16BitMonoPcm、riff-48khz-16bit-mono-pcm。
- [すべて] : カスタム音声も使いやすくなっています。
EndpointId
によるカスタム音声の設定のサポートが追加されました (EndpointId
、C#、Java、JavaScript、Objective-C、Python)。 この変更の前は、カスタム音声ユーザーはFromEndpoint
メソッドを使用してエンドポイント URL を設定する必要がありました。 現在お客様は、事前構築済み音声と同様にFromSubscription
メソッドを使用でき、EndpointId
を設定することによりデプロイ ID を指定できます。 これにより、カスタム音声の設定が簡単になります。 - CC++/C#/Java/Objective-C/Python:
IntentRecognizer
から最上位の意図以外を取得します。LanguageUnderstandingModel FromEndpoint
メソッドでverbose=true
URI パラメーターを使用することにより、トップ スコアの意図だけでなく、すべての意図が含まれる JSON 結果の構成がサポートされるようになりました。 これは、GitHub イシュー #880 に対応するものです。 こちらで更新されたドキュメントを参照してください。 - C++、C#、Java: 音声アシスタントまたはボットのリスニングをすぐに停止します。
DialogServiceConnector
(C++、C#、Java) に、ListenOnceAsync()
に付随するStopListeningAsync()
メソッドが用意されました。 これにより、オーディオ キャプチャが直ちに停止され、結果が適切に待機されるので、"今すぐ停止" ボタンがクリックされたときのシナリオに最適です。 - C++、C#、Java、JavaScript: 音声アシスタントまたはボットによる基になるシステムのエラーへの対応が向上します。
DialogServiceConnector
(C++、C#、Java、JavaScript) に、新しいTurnStatusReceived
イベント ハンドラーが追加されました。 これらのオプション イベントは、ボットでのすべてのITurnContext
の解決に対応し、ターン実行エラーが発生したときに報告されます。たとえば、ハンドルされない例外、タイムアウト、または Direct Line Speech とボットの間のネットワーク切断の結果などです。TurnStatusReceived
により、エラー状態への対応が簡単になります。 たとえば、ボットによるバックエンド データベース クエリ (製品の検索など) の時間が長すぎる場合、TurnStatusReceived
を使用することにより、クライアントで "申し訳ありません、よく聞き取れませんでした。もう一度試していただけますか" といったメッセージを再表示できます。 - C++、C# : Speech SDK を使用できるプラットフォームが増えます。 Speech SDK NuGet パッケージで、Windows ARM および Arm64 デスクトップ ネイティブ バイナリがサポートされるようになり (UWP は既にサポートされています)、より多くのマシンの種類で Speech SDK を使用できるようになります。
- Java:
DialogServiceConnector
に、以前に言語から意図せずに除外されたsetSpeechActivityTemplate()
メソッドが含まれるようになりました。 これは、Conversation_Speech_Activity_Template
プロパティを設定することと同じであり、Direct Line Speech サービスによって生成される将来のすべての Bot Framework アクティビティで、提供されたコンテンツを JSON ペイロードにマージするよう要求されます。 - Java: 改善された低レベルのデバッグ。
Connection
クラスに、他のプログラミング言語 (C++、C#) と同様のMessageReceived
イベントが追加されました。 このイベントにより、サービスからの受信データへの低レベルのアクセスが提供され、診断やデバッグに役立ちます。 - JavaScript:
BotFrameworkConfig
による音声アシスタントとボットのセットアップが簡単になりました。手動でのプロパティの設定と比べて、カスタム サービスの場所を簡単に使用できるfromHost()
およびfromEndpoint()
ファクトリ メソッドが追加されました。 また、構成ファクトリ全体で既定以外のボットを使用するための、botId
のオプションの指定が標準化されました。 - JavaScript:WebSocket 圧縮のための文字列制御プロパティが追加されたことで、デバイスのパフォーマンスが向上しました。 パフォーマンス上の理由から、WebSocket の圧縮は既定では無効になりました。 低帯域幅のシナリオでは、これを再び有効にすることができます。 詳細については、こちらをご覧ください。 これは、GitHub イシュー #242 に対応するものです。
- JavaScript: 音声の発音を評価できるように、発音評価のサポートが追加されました。 こちらのクイックスタートを参照してください。
バグの修正
- すべて (JavaScript を除く): 認識エンジンによって割り当てられるメモリが多すぎる、バージョン 1.14 での回帰を修正しました。
- C++:
DialogServiceConnector
でのガベージ コレクションの問題を修正し、GitHub イシュー #794 に対処しました。 - C# : オブジェクトが破棄されるときに約 1 秒間ブロックされる原因となったスレッドのシャットダウンに関する問題を修正しました。
- C++/C#/Java: アプリケーションが
DialogServiceConnector
で音声認証トークンまたはアクティビティ テンプレートを複数回設定できない例外を修正しました。 - C++、C#、Java: 破棄での競合状態による認識エンジンのクラッシュを修正しました。
- JavaScript: 以前は、
DialogServiceConnector
により、BotFrameworkConfig
のファクトリで指定されたオプションのbotId
パラメーターが適用されていませんでした。 このため、既定以外のボットを使用するには、botId
クエリ文字列パラメーターを手動で設定する必要がありました。 このバグが修正され、BotFrameworkConfig
のファクトリに提供されたbotId
値が適用され、新しいfromHost()
とfromEndpoint()
の追加が含まれるようになります。 これは、CustomCommandsConfig
のapplicationId
パラメーターにも適用されます。 - JavaScript: GitHub のイシュー #881 が修正され、認識エンジンのオブジェクトを再利用できるようになりました。
- JavaScript: SKD により 1 つの TTS セッションで
speech.config
が複数回送信され、帯域幅が浪費されていた問題を修正しました。 - JavaScript:マイク認証でのエラー処理が簡略化され、ユーザーがブラウザーでマイク入力を許可していないときに、よりわかりやすいメッセージが表示されるようになりました。
- JavaScript:
ConversationTranslator
およびConversationTranscriber
での型エラーが TypeScript ユーザーのコンパイル エラーを引き起こしていた GitHub のイシュー #249 を修正しました。 - Objective-C:Xcode 11.4 の iOS で GStreamer のビルドが失敗する問題を修正し、GitHub のイシュー #911 に対処しました。
- Python: GitHub の issue #870 が修正され、"DeprecationWarning: the imp module is deprecated in favour of importlib" (DeprecationWarning: imp モジュールは非推奨であり、代わりに importlib を使用します) が削除されました。
サンプル
- JavaScript ブラウザー用の From-file サンプルで、音声認識にファイルが使用されるようになりました。 これは、GitHub イシュー #884 に対応するものです。
Speech SDK 1.14.0: 2020-October リリース
Note
Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。 こちらでダウンロードできます。
新機能
- Linux:Debian 10 および Ubuntu 20.04 LTS のサポートを追加しました。
- Python/Objective-C:
KeywordRecognizer
API のサポートを追加しました。 ドキュメントはこちらです。 - C++/Java/C#:
ServicePropertyChannel::HttpHeader
を使用して任意のHttpHeader
のキーと値を設定するためのサポートを追加しました。 - JavaScript:
ConversationTranscriber
API のサポートを追加しました。 こちらのドキュメントを参照してください。 - C++/C#: 新しい
AudioDataStream FromWavFileInput
メソッド (.WAV ファイル読み取り用) をこちら (C++) と こちら (C#) に追加しました。 - C++/C#/Java/Python/Objective-C/Swift: テキスト読み上げ合成を停止する
stopSpeakingAsync()
メソッドを追加。 こちら (C++)、こちら (C#)、こちら (Java)、こちら (Python)、およびこちら (Objective-C、Swift) のリファレンス ドキュメントを参照してください。 - C#, C++, Java:
DialogServiceConnector
の接続および切断イベントを監視するために使用できるFromDialogServiceConnector()
関数をConnection
クラスに追加しました。 こちら (C#)、こちら (C++)、およびこちら (Java) のリファレンス ドキュメントを参照してください。 - C++、C#、Java、Python、Objective-C、Swift: 発音評価のサポートが追加されました。これはスピーチの発音を評価し、話された音声の正確性と流暢性に関するフィードバックを話者に提供します。 こちらのドキュメントをお読みください。
互換性に影響する変更点
- JavaScript:PullAudioOutputStream.read() の戻り値の型が、内部の Promise からネイティブな JavaScript の Promise に変更されました。
バグ修正
- すべて: 特定の特殊文字を含む値が無視される 1.13 の
SetServiceProperty
での回帰を修正しました。 - C# : ネイティブ DLL を見つけることができない Visual Studio 2019 の Windows コンソールのサンプルを修正しました。
- C#: ストリームが
KeywordRecognizer
入力として使用されている場合のメモリ管理でのクラッシュを修正しました。 - ObjectiveC、Swift: ストリームがレコグナイザー入力として使用されている場合のメモリ管理でのクラッシュを修正しました。
- Windows: UWP 上の BT HFP/A2DP との共存に関する問題を修正しました。
- JavaScript:ログ記録を改善し、内部のデバッグとサービスの関連付けを支援するために、セッション ID のマッピングを修正しました。
- JavaScript: 最初の呼び出しが行われた後に
ListenOnce
呼び出しが無効になるDialogServiceConnector
に対して修正を追加しました。 - JavaScript:結果の出力が "単純" にしかならないという問題を修正しました。
- JavaScript:macOS 上の Safari での継続的な認識の問題を修正しました。
- JavaScript:要求スループットが高いシナリオでの CPU 負荷の軽減。
- JavaScript:音声プロファイル登録結果の詳細へのアクセスを許可します。
- JavaScript:
IntentRecognizer
での継続的な認識のための修正を追加しました。 - C++/C#/Java/Python/Swift/ObjectiveC:
IntentRecognizer
の australiaeast と brazilsouth の不適切な URL を修正しました。 - C++/C#:
VoiceProfile
オブジェクト作成時の引数としてVoiceProfileType
を追加しました。 - C++/C#/Java/Python/Swift/ObjectiveC: 指定された位置から
AudioDataStream
を読み取ろうとしたときに発生する可能性があるSPX_INVALID_ARG
を修正しました。 - iOS: Unity 上の音声認識でのクラッシュを修正しました
サンプル
- ObjectiveC: キーワード認識のサンプルをこちらに追加しました。
- C#、JavaScript: 会話の文字起こしのクイックスタートをこちら (C#) とこちら (JavaScript) に追加しました。
- C++、C#、Java、Python、Swift、ObjectiveC: 発音評価のサンプルをこちらに追加しました。
既知の問題
- DigiCert Global Root G2 証明書は、HoloLens 2 および Android 4.4 (KitKat) によって既定ではサポートされておらず、Speech SDK を機能させるためにシステムに追加する必要があります。 この証明書は、近い将来に HoloLens 2 の OS イメージに追加されます。 Android 4.4 のお客様は、更新された証明書をシステムに追加する必要があります。
COVID-19 の影響によるテストの短縮
過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。 問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。 しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。
皆様の健康をお祈りします!
Speech SDK 1.13.0:2020 年 7 月リリース
Note
Windows の音声 SDK は、Visual Studio 2015、2017、および 2019 の Microsoft Visual C++ 再配布可能パッケージに依存します。 こちらからダウンロードしてインストールします。
新機能
- C# : 非同期での会話の文字起こしのサポートが追加されました。 こちらのドキュメントを参照してください。
- JavaScript: ブラウザーと Node.js の両方で、話者認識のサポートが追加されました。
- JavaScript: 言語識別/言語 ID のサポートが追加されました。 こちらのドキュメントを参照してください。
- Objective-C: マルチデバイスの会話 と会話の文字起こしのサポートが追加されました。
- Python: Windows および Linux での Python 用圧縮オーディオ サポートが追加されました。 こちらのドキュメントを参照してください。
バグ修正
- [すべて] : KeywordRecognizer で認識後にストリームが送られない原因となっていた問題が修正されました。
- [すべて] : KeywordRecognitionResult から取得したストリームにキーワードが含まれていない原因となっていた問題が修正されました。
- [すべて]: SendMessageAsync で、ユーザーがその待機を終えた後に、実際にネットワーク経由でメッセージが送信されないという問題が修正されました。
- すべて: ユーザーが VoiceProfileClient::SpeakerRecEnrollProfileAsync メソッドを複数回呼び出し、呼び出しの完了を待機しなかった場合の、Speaker Recognition API のクラッシュが修正されました。
- [すべて] : VoiceProfileClient クラスと SpeakerRecognizer クラスでのファイル ログの有効化が修正されました。
- JavaScript:ブラウザーが最小化されたときの調整の問題が修正されました。
- JavaScript:ストリームでのメモリ リークの問題が修正されました。
- JavaScript:NodeJS からの OCSP 応答のキャッシュが追加されました。
- Java: BigInteger フィールドが常に 0 を返す原因となっていた問題が修正されました。
- iOS: iOS App Store で Speech SDK ベースのアプリを発行する場合の問題が修正されました。
サンプル
- C++ :話者認識のサンプル コードがここに追加されました。
COVID-19 の影響によるテストの短縮
過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。 問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。 しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。
皆様の健康をお祈りします!
Speech SDK 1.12.1:2020 年 6 月リリース
新機能
- C#、C++: Speaker Recognition プレビュー: この機能により、話者識別 (だれが話しているか) と話者認証 (話者が要求した本人か) が可能になります。 概要に関するドキュメントを参照してください。
バグ修正
- C#, C++: Speaker Recognition 1.12 で機能していなかったマイクの録音を修正しました。
- JavaScript:FireFox および macOS と iOS 上の Safari でのテキスト読み上げが修正されました。
- 8 チャネル ストリーム使用時の、会話の文字起こしでの Windows アプリケーション検証ツールのアクセス違反クラッシュの修正。
- マルチデバイス会話翻訳での Windows アプリケーション検証ツールのアクセス違反クラッシュの修正。
サンプル
- C#: Speaker Recognition のコード サンプル。
- C++: Speaker Recognition のコード サンプル。
- Java: Android での意図認識のコード サンプル。
COVID-19 の影響によるテストの短縮
過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。 問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。 しかし、もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。
皆様の健康をお祈りします!
Speech SDK 1.12.0:2020-May リリース
新機能
- Go: 音声認識とカスタム音声アシスタントのための新しい Go 言語サポート。 開発環境をここでセットアップします。 サンプル コードについては、以下の「サンプル」セクションを参照してください。
- JavaScript: テキスト読み上げのためのブラウザー サポートを追加。 こちらのドキュメントを参照してください。
- C++、C#、Java: 新しい
KeywordRecognizer
オブジェクトと API が Windows、Android、Linux、および iOS プラットフォームでサポートされています。 こちらのドキュメントをお読みください。 サンプル コードについては、以下の「サンプル」セクションを参照してください。 - Java: 翻訳サポートを含むマルチデバイスの会話機能を追加しました。 こちらの参照ドキュメントを参照してください。
強化および最適化
- JavaScript:ブラウザー マイクの実装を最適化し、音声認識の精度が向上しています。
- Java: SWIG なしで直接 JNI 実装を使用するバインディングをリファクターしました。 この変更により、Windows、Android、Linux、Mac で使用されるすべての Java パッケージのバインディング サイズが 10 分の 1 に縮小され、Speech SDK Java 実装のさらなる開発が容易になります。
- Linux:最新の RHEL 7 固有の記載を含むようにサポート ドキュメントを更新しました。
- サービス エラーやネットワーク エラーが発生した場合に接続を複数回試行するための接続ロジックを改善しました。
- portal.azure.com の音声機能のクイックスタート ページを更新して、開発者が Azure AI 音声体験の次のステップに進むことができるようになりました。
バグの修正
- C#、Java:Linux ARM への SDK ライブラリの読み込みに関する問題を修正しました (32 ビットと 64 ビットの両方)。
- C#: TranslationRecognizer、IntentRecognizer、および Connection オブジェクトのネイティブ ハンドルの明示的な破棄を修正しました。
- C# : ConversationTranscriber オブジェクトのオーディオ入力の有効期間の管理を修正しました。
- 単純な語句から意図を認識するときに、
IntentRecognizer
の結果の理由が適切に設定されない問題を修正しました。 SpeechRecognitionEventArgs
結果のオフセットが正しく設定されない問題を修正しました。- WebSocket 接続を開く前に SDK がネットワーク メッセージを送信しようとする際の競合状態を修正しました。 参加者の追加中に
TranslationRecognizer
で再現されていました。 - キーワード認識エンジンのメモリ リークを修正しました。
サンプル
- Go: 音声認識とカスタム音声アシスタントのクイックスタートを追加しました。 サンプル コードはこちらを参照してください。
- JavaScript: テキスト読み上げ、翻訳、および意図認識のクイックスタートを追加しました。
- C# および Java (Android) のキーワード認識サンプル。
COVID-19 の影響によるテストの短縮
過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動による検証テストを行うことができませんでした。 問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。 何らかの問題が発生した場合には、GitHub にてお知らせください。
皆様の健康をお祈りします!
Speech SDK 1.11.0:2020年 3月 リリース
新機能
- Linux: Red Hat Enterprise Linux (RHEL)/CentOS 7 x64 のサポートが追加されました。
- Linux: Linux ARM32 と Arm64 において C.NET Core C# のサポートが追加されました。 詳細については、こちらをご覧ください。
- C# および C++:
ConversationTranscriptionResult
でUtteranceId
を追加しました。これは、すべての中間および最終的な音声認識の結果にわたる一貫性のある ID です。 C# および C++ の詳細。 - Python:
Language ID
のサポートを追加しました。 GitHub リポジトリの speech_sample.py を参照してください。 - Windows: すべての win32 コンソール アプリケーション向けに、Windows プラットフォームでの圧縮されたオーディオ入力形式のサポートを追加しました。 詳細については、こちら を参照してください。
- JavaScript: NodeJS で音声合成 (テキスト読み上げ) をサポートします。 こちらをご覧ください。
- JavaScript: 新しい API を追加して、すべての送受信メッセージを検査できるようにします。 こちらをご覧ください。
バグの修正
- C# および C++:
SendMessageAsync
がバイナリ型としてバイナリ メッセージを送信するよう、問題を修正しました。 C# および C++ の詳細。 - C# および C++:
Connection
オブジェクトの前にRecognizer
が破棄された場合にConnection MessageReceived
イベントを使用するとクラッシュが発生する問題を修正しました。 C# および C++ の詳細。 - Android: マイクからのオーディオ バッファーサイズが 800ms から 100ms に減少し、待機時間が短縮されます。
- Android:Android Studio の x86 Android emulator に関する問題を修正しました。
- JavaScript:
fromSubscription
API の中国のリージョン向けのサポートが追加されました。 詳細については、こちら を参照してください。 - JavaScript:NodeJS からの接続失敗のエラー情報を追加します。
サンプル
- Unity:意図認識パブリック サンプルで LUIS json インポートに失敗する問題が修正されました。 詳細については、こちら を参照してください。
- Python:
Language ID
向けに追加されたサンプル。 詳細については、こちら を参照してください。
Covid19 により、テストの短縮を余儀なくされました過去数週間にわたってリモートにて作業を行っているため、通常ならば実施するはずの手動によるデバイス検証テストを行うことができませんでした。 たとえば、Linux、iOS、macOS でのマイクの入力とスピーカー出力のテストができませんでした。 これらのプラットフォームにおいては、問題発生の可能性が想定される変更はいっさい行っていません。また、自動テストはすべて成功しました。 もし仮に何らかの問題が発生した場合には、GitHub にてお知らせください。
今後とも、どうぞよろしくお願いいたします。 これまでと同様、GitHub や Stack Overflow での質問やフィードバックの投稿をお待ちしています。
皆様の健康をお祈りします!
Speech SDK 1.10.0: 2020 年 2 月リリース
新機能
- Python の新しい 3.8 リリースをサポートするために Python パッケージが追加されしました。
- Red Hat Enterprise Linux (RHEL)/CentOS 8 x64 のサポート (C++、C#、Java、Python)。
Note
ユーザーは、こちらの手順に従って OpenSSL を構成する必要があり ます。
- Debian および Ubuntu に対する Linux ARM32 のサポート。
- DialogServiceConnector で、BotFrameworkConfig の省略可能な "ボット ID" パラメーターがサポートされるようになりました。 このパラメーターを使用すると、単一の Speech リソースで複数の Direct Line Speech ボットを使用できます。 パラメーターの指定がない場合は、既定のボット ([Direct Line Speech チャネルの構成] ページによって決まります) が使用されます。
- DialogServiceConnector に SpeechActivityTemplate プロパティが含まれるようになりました。 この JSON 文字列の内容は Direct Line Speech ボットに到達すべてのアクティビティでサポートされるさまざまなフィールドを事前設定するために Direct Line Speech によって使用されます。これには、音声認識などのイベントに対する応答で自動的に生成されるアクティビティも含まれます。
- TTS で認証にサブスクリプション キーが使用されるようになり、シンセサイザーを作成した後の最初の合成結果の最初のバイト待機時間が短縮されました。
- 19 のロケールの音声認識モデルが更新され、平均ワード エラー率が 18.6% 下がりました (es-ES、es-MX、fr-CA、fr-FR、it-IT、ja-JP、ko-KR、pt-BR、zh-CN、zh-HK、nb-NO、fi-FL、ru-RU、pl-PL、ca-ES、zh-TW、th-TH、pt-PT、tr-TR)。 新しいモデルでは、ディクテーション、コールセンターの文字起こし、ビデオのインデックス作成を含む複数の領域にわたる大幅な機能強化が行われています。
バグの修正
- JAVA API で会話の文字起こし機能が適切に待機しなかったバグが修正されました
- Xamarin GitHub 問題に対する Android x86 エミュレーターの修正が行われました
- 欠落していた (Get|Set)Property メソッドが AudioConfig に追加されました
- 接続に失敗したときに audioDataStream を停止できない TTS バグが修正されました
- リージョンなしでエンドポイントを使用すると、会話の翻訳で USP エラーが発生します
- ユニバーサル Windows アプリケーションでの ID の生成で、適切に一意の GUID アルゴリズムが使用されるようになりました。これまでは、大規模なインタラクションでしばしば競合を発生させるスタブ実装に意図せずに既定で設定されていました。
サンプル
- Unity マイクとプッシュ モード ストリーミングで Speech SDK を使用するための Unity サンプル
その他の変更点
Speech SDK 1.9.0:2020 年 1 月のリリース
新機能
- マルチデバイスの会話: 複数のデバイスを同じ音声またはテキストベースの会話に接続し、それらの間で送信されるメッセージを必要に応じて翻訳します。 詳しくは、こちらの記事をご覧ください。
- Android の
.aar
パッケージ用のキーワード認識サポートが追加され、x86 と x64 のフレーバーのサポートが追加されました。 - Objective-C:
SendMessage
およびSetMessageProperty
メソッドがConnection
オブジェクトに追加されました。 こちらのドキュメントを参照してください。 - TTS C++ api で、合成テキスト入力として
std::wstring
がサポートされるようになり、SDK に渡す前に wstring を string に変換する必要がなくなりました。 詳細については、こちらを参照してください。 - C#:言語 ID とソース言語構成を使用できるようになりました。
- JavaScript:カスタム メッセージをコールバック
Connection
として音声サービスからパススルーする機能をreceivedServiceMessage
オブジェクトに追加しました。 - JavaScript: オンプレミスのコンテナーとソブリン クラウドでの使用を容易にするために、
FromHost API
のサポートが追加されました。 こちらのドキュメントを参照してください。 - JavaScript:
NODE_TLS_REJECT_UNAUTHORIZED
からの投稿により、NODE_TLS_REJECT_UNAUTHORIZED
が適用されるようになりました。 詳細については、こちらを参照してください。
重大な変更
OpenSSL
はバージョン 1.1.1b に更新され、Linux の Speech SDK コア ライブラリに静的にリンクされています。 これにより、システムの/usr/lib/ssl
ディレクトリに受信トレイOpenSSL
がインストールされていない場合に、中断が発生する可能性があります。 この問題を回避するには、Speech SDK ドキュメントにあるドキュメントを確認してください。- 音声データが 2 分を超えた場合に
WordLevelTimingResults
にアクセスできるように、C#WordLevelTimingResult.Offset
に返されるデータ型をint
からlong
に変更しました。 PushAudioInputStream
およびPullAudioInputStream
は、作成時にオプションで指定されたAudioStreamFormat
に基づいて wav ヘッダー情報を音声サービスに送信するようになりました。 お客様は、サポートされるオーディオ入力の形式を使用する必要があります。 他の形式では、最適な認識結果が得られないか、その他の問題が発生する可能性があります。
バグ修正
- 上記の「重大な変更」にある
OpenSSL
の更新情報を参照してください。 Linux と Java の断続的なクラッシュとパフォーマンスの問題 (高負荷でのロックの競合) の両方を修正しました。 - Java:コンカレンシーの高いシナリオでのオブジェクト クロージャが改善されました。
- NuGet パッケージを再構築しました。 lib フォルダーの下にある
Microsoft.CognitiveServices.Speech.core.dll
とMicrosoft.CognitiveServices.Speech.extension.kws.dll
の 3 つのコピーを削除し、NuGet パッケージを小さく、速くダウンロードできるようにし、いくつかの C++ ネイティブ アプリをコンパイルするために必要なヘッダーを追加しました。 - こちらのクイック スタート サンプルを修正しました。 これらは、Linux、macOS、Windows で「microphone not found」(マイクが見つかりません) という例外を表示せずに終了していました。
- こちらのサンプルのような特定のコード パスでの長い音声認識結果による SDK のクラッシュを修正しました。
- こちらのお客様の問題に対処するために、Azure Web アプリ環境の SDK デプロイ エラーを修正しました。
<voice>
に対処するために、複数の<voice>
タグまたは<audio>
タグを使用したときの TTS エラーを修正しました。- SDK が中断から回復されたときの TTS 401 エラーを修正しました。
- JavaScript:euirim からの投稿により、オーディオ データの循環インポートを修正しました。
- JavaScript: 1.7 で追加されたサービス プロパティの設定のサポートが追加されました。
- JavaScript: 接続エラーにより WebSocket の再接続試行が連続して失敗する可能性がある問題を修正しました。
サンプル
- Android 用のキーワード認識サンプルをこちらに追加しました。
- サーバー シナリオ用の TTS サンプルをこちらに追加しました。
- C# と C++ 用のマルチデバイス会話のクイックスタートをこちらに追加しました。
その他の変更点
- Android の SDK コア ライブラリのサイズが最適化されています。
- 1\.9.0 以降の SDK で、会話の文字起こしの声紋バージョン フィールドで
int
とstring
の両方の型がサポートされます。
Speech SDK 1.8.0: 2019-November リリース
新機能
- オンプレミス コンテナーとソブリン クラウドでの使用を容易にするために
FromHost()
API を追加しました。 - 音声認識のソース言語識別 (Java および C++) を追加しました
- 音声認識でしかるべきソース言語を指定するための
SourceLanguageConfig
オブジェクトを追加しました (Java および C++) - NuGet パッケージと Unity パッケージを通じて、Windows (UWP)、Android、iOS で新たに
KeywordRecognizer
を使用できるようになりました - 非同期バッチで会話の文字起こしを行うための Remote Conversation Java API を追加しました。
重大な変更
- 会話の文字起こし機能が名前空間
Microsoft.CognitiveServices.Speech.Transcription
の下に移動されました。 - 会話の文字起こし機能の一部のメソッドが、新しい
Conversation
クラスに移されました。 - 32 ビット (ARMv7 および x86) iOS のサポートが終了しました。
バグ修正
- 有効な音声サービスのサブスクリプション キーなしでローカル
KeywordRecognizer
を使用した場合に発生するクラッシュを修正しました
サンプル
KeywordRecognizer
の Xamarin サンプルKeywordRecognizer
の Unity サンプル- 自動ソース言語識別の C++ および Java サンプル
Speech SDK 1.7.0: 2019-September リリース
新機能
- ユニバーサル Windows プラットフォーム (UWP)、Android、iOS での Xamarin のベータ サポートが追加されました
- Unity の iOS サポートが追加されました
- Android、iOS、Linux での ALaw、Mulaw、FLAC に対する
Compressed
入力のサポートが追加されました - メッセージをサービスに送信するための
SendMessageAsync
がConnection
クラスに追加されました - メッセージのプロパティを設定するための
SetMessageProperty
がConnection
クラスに追加されました - TTS で Java (JRE と Android)、Python、Swift、Objective-C に対するバインドが追加されました
- TTS で macOS、iOS、Android に対する再生のサポートが追加されました。
- TTS に対する "ワード境界" の情報が追加されました。
バグの修正
- Unity 2019 for Android での IL2CPP のビルドの問題が修正されました
- wav ファイルの入力が正しく処理されない、間違った形式のヘッダーに関する問題が修正されました
- 一部の接続プロパティで UUID が一意ではない問題が修正されました
- Swift バインドでの NULL 値許容指定子に関するいくつかの警告が修正されました (小さなコード変更が必要な場合があります)
- ネットワークに負荷がかかると WebSocket 接続が異常終了する原因となっていたバグが修正されました
DialogServiceConnector
によって使用される印象 ID が重複することがある原因であった Android の問題が修正されました- 複数ターン相互作用を通した接続の安定性と、
DialogServiceConnector
でエラーが発生したときの (Canceled
イベント経由による) エラーの報告が向上しました DialogServiceConnector
セッションの開始により、アクティブなStartKeywordRecognitionAsync()
の間にListenOnceAsync()
を呼び出すなど、イベントが正しく提供されるようになりましたDialogServiceConnector
アクティビティの受信に関連するクラッシュが対処されました
サンプル
- Xamarin のクイックスタート
- Linux Arm64 の情報で CPP のクイックスタートを更新しました
- iOS の情報で Unity のクイックスタートを更新しました
Speech SDK 1.6.0: 2019-June リリース
サンプル
- UWP および Unity 上の Text to Speech 用のクイックスタート サンプル
- iOS 上の Swift 用のクイックスタート サンプル
- 音声および意図の認識と翻訳用の Unity サンプル
DialogServiceConnector
のクイック スタート サンプルが更新されました
機能強化/変更
- Dialog 名前空間:
SpeechBotConnector
の名前がDialogServiceConnector
に変更されましたBotConfig
の名前がDialogServiceConfig
に変更されましたBotConfig::FromChannelSecret()
はDialogServiceConfig::FromBotSecret()
に再マッピングされました- 既存のすべての Direct Line Speech クライアントは、名前の変更後も引き続きサポートされます
- TTS REST アダプターが更新され、プロキシ、固定接続がサポートされるようになりました
- 無効なリージョンが渡されたときのエラー メッセージを改善しました
- Swift/Objective-C:
- エラー報告の改善: エラーが発生する可能性のあるメソッドが、2 つのバージョンで存在するようになりました。エラー処理のために
NSError
オブジェクトを公開するものと、例外を発生させるものです。 前者は Swift に公開されます。 この変更を既存の Swift コードに適応させる必要があります。 - イベント処理を改善しました
- エラー報告の改善: エラーが発生する可能性のあるメソッドが、2 つのバージョンで存在するようになりました。エラー処理のために
バグの修正
- オーディオがレンダリングを完了するまで待たずに、
SpeakTextAsync
が制御を戻していた TTS の問題を修正しました - 言語の完全サポートを可能にするために、C# での文字列のマーシャリングを修正しました
- サンプルで net461 ターゲット フレームワークを使用してコア ライブラリを読み込むときの .NET Core アプリの問題を修正しました
- サンプルでネイティブ ライブラリを出力フォルダーに展開するときに発生する場合がある問題を修正しました
- Web ソケットを確実に閉じるための修正を行いました
- Linux で高負荷時に接続を開いたときに発生する可能性があるクラッシュを修正しました
- macOS 用のフレームワーク バンドルの欠落しているメタデータを修正しました
- Windows での
pip install --user
に関する問題を修正しました
Speech SDK 1.5.1
これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。 JavaScript バージョンの SDK には影響しません。
バグ修正
- 会話の文字起こしで使用する FromSubscription を修正しました。
- 音声アシスタントのキーワード スポッティングのバグを修正しました。
Speech SDK 1.5.0:2019-May リリース
新機能
- キーワード スポッティング機能 (KWS) が Windows と Linux で利用できるようになりました。 KWS の機能は任意の種類のマイクでも動作する可能性がありますが、公式の KWS サポートは、現時点では Azure Kinect DK ハードウェアまたは Speech Devices SDK 内のマイク アレイに限定されています。
- フレーズ ヒント機能は、この SDK を介して利用できます。 詳細については、このページを参照してください。
- 会話の文字起こし機能は、この SDK を介して利用できます。
- Direct Line Speech チャネルを使用する音声アシスタントのサポートを追加します。
サンプル
- SDK でサポートされている新機能または新サービスのサンプルを追加しました。
機能強化/変更
- サービスの動作やサービスの結果を調整するさまざまなレコグナイザー プロパティを追加しました (冒涜的な表現やその他のマスクなど)。
- レコグナイザー
FromEndpoint
を作成した場合でも、標準の構成プロパティを使用してレコグナイザーを構成できるようになりました。 - Objective-C:
OutputFormat
プロパティがSPXSpeechConfiguration
に追加されました。 - SDK は、Linux ディストリビューションとして Debian 9 をサポートするようになりました。
バグ修正
- テキスト読み上げでスピーカー リソースの破棄が早すぎる問題を修正。
Speech SDK 1.4.2
これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。 JavaScript バージョンの SDK には影響しません。
Speech SDK 1.4.1
これは、JavaScript のみのリリースです。 機能は追加されていません。 以下の修正が行われました。
- Web パックでHTTPS プロキシ エージェントが読み込まれないようにしました。
Speech SDK 1.4.0: 2019 年 4 月リリース
新機能
- SDK で、ベータ版としてテキスト読み上げサービスがサポートされるようになりました。 Windows および Linux デスクトップの C++ および C# からサポートされます。 詳細については、テキスト読み上げの概要に関する記事を参照してください。
- SDK は、ストリーム入力ファイルとして MP3 および Opus/OGG オーディオ ファイルをサポートするようになりました。 この機能は、Linux の C++ と C# からのみ使用でき、現在はベータ版です (詳しくはこちら)。
- Java、.NET Core、C++、Objective-C 用の Speech SDK で、macOS がサポートされるようになりました。 Objective-C での MacOS のサポートは、現在ベータ版です。
- iOS:iOS (Objective-C) 用の Speech SDK が、CocoaPod としても公開されるようになりました。
- JavaScript:入力デバイスとしての既定以外のマイクのサポート。
- JavaScript:Node.js に対するプロキシのサポート。
サンプル
- macOS の C++ および Objective-C での Speech SDK の使用のサンプルが追加されました。
- テキスト読み上げサービスの使用方法を示すサンプルが追加されました。
機能強化/変更
- Python: 認識結果の追加のプロパティが、
properties
プロパティで公開されるようになりました。 - 開発とデバッグの追加サポートでは、SDK のログ記録と診断情報をログ ファイルにリダイレクトすることができます (詳細についてはこちら)。
- JavaScript:オーディオ処理のパフォーマンスが向上しました。
バグの修正
- Mac/iOS: 音声サービスへの接続を確立できないときに、長時間待機が発生するバグを修正しました。
- Python: Python コールバックでの引数のエラー処理が向上しました。
- JavaScript:RequestSession で終了した音声の正しくない状態レポートが修正されました。
Speech SDK 1.3.1:2019 年 2 月更新
これはバグ修正リリースで、ネイティブ/マネージド SDK にのみ影響します。 JavaScript バージョンの SDK には影響しません。
バグ修正
- マイク入力を使用する際のメモリ リークを修正しました。 ストリーム ベースの入力やファイル入力には影響しません。
Speech SDK 1.3.0: 2019-February リリース
新機能
- Speech SDK では、
AudioConfig
クラスによって入力マイクの選択がサポートされます。 これにより、既定以外のマイクから、Speech サービスに、音声 データをストリーミングできます。 詳しくは、オーディオ入力デバイスの選択に関する記事をご覧ください。 この機能は、JavaScript からはまだ使用できません。 - Speech SDK では、ベータ版で Unity がサポートされるようになりました。 GitHub サンプル リポジトリの問題セクションでフィードバックをお送りください。 このリリースでは、Windows x86 と x64 (デスクトップまたはユニバーサル Windows プラットフォーム アプリケーション) および Android (ARM32/64、x86) での Unity がサポートされています。 詳しくは、Unity のクイック スタートに関する記事をご覧ください。
- (以前のリリースで提供されていた)
Microsoft.CognitiveServices.Speech.csharp.bindings.dll
ファイルは不要になりました。 この機能はコア SDK に統合されました。
サンプル
サンプル リポジトリで次の新しいコンテンツを利用できます。
AudioConfig.FromMicrophoneInput
のその他のサンプル- 意図認識と翻訳に関する追加の Python サンプル。
- iOS での
Connection
オブジェクトの使用に関する追加サンプル。 - オーディオ出力での翻訳に関する追加の Java サンプル。
- Batch Transcription REST API の使用に関する新しいサンプル。
機能強化/変更
- Python
SpeechConfig
でのパラメーター検証とエラー メッセージが強化されました。Connection
オブジェクトのサポートを追加します。- Windows での 32 ビット Python (x86) のサポート。
- Python 用 Speech SDK がベータ版ではなくなりました。
- iOS
- SDK のビルド対象が iOS SDK バージョン 12.1 になりました。
- SDK が、iOS バージョン 9.2 以降をサポートするようになりました。
- リファレンス ドキュメントが改善され、いくつかのプロパティ名が修正されました。
- JavaScript
Connection
オブジェクトのサポートを追加します。- バンドルされている JavaScript の型定義ファイルが追加されました
- 語句ヒントの最初のサポートと実装。
- 認識に対するサービス JSON でプロパティのコレクションが返されます
- Windows の DLL に、バージョン リソースが含まれるようになりました。
- 認識エンジン
FromEndpoint
を作成する場合は、エンドポイント URL に直接パラメーターを追加できます。FromEndpoint
を使用した場合、標準の構成プロパティを通じて認識エンジンを構成することはできません。
バグ修正
- 空のプロキシ ユーザー名とプロキシ パスワードが、正しく処理されていませんでした。 このリリースでは、プロキシ ユーザー名とプロキシ パスワードを空の文字列に設定した場合、プロキシに接続したときにそれらが送信されません。
- SDK によって作成された SessionId が、一部の言語/環境で本当にランダムではないことがありました。 乱数ジェネレーターの初期化を追加してこの問題を解決しました。
- 認可トークンの処理が向上します。 認可トークンを使用する場合、
SpeechConfig
で指定し、サブスクリプション キーを空のままにします。 その後、通常どおり認識エンジンを作成します。 - 場合によっては、
Connection
オブジェクトが正しく解放されませんでした。 この問題は修正されています。 - 翻訳合成も Safari 上にある場合にオーディオ出力をサポートするよう、JavaScript のサンプルが修正されました。
Speech SDK 1.2.1
これは、JavaScript のみのリリースです。 機能は追加されていません。 以下の修正が行われました。
- speech.end ではなく turn.end でストリームの終了が発生します。
- 現在の送信が失敗した場合に、次の送信がスケジュールされなかった、オーディオ ポンプのバグを修正しました。
- 認証トークンでの継続的な認識を修正しました。
- 別の認識エンジン/エンドポイントのバグ修正。
- ドキュメントの改善。
Speech SDK 1.2.0:2018-December リリース
新機能
- Python
- このリリースで、Python サポート (3.5 以降) のベータ版を使用できるようになりました。 詳しくは、こちら (../../quickstart-python.md) をご覧ください。
- JavaScript
Connection
オブジェクトRecognizer
から、Connection
オブジェクトにアクセスできます。 このオブジェクトを使用すると、サービスの接続を明示的に開始し、接続イベントと切断イベントをサブスクライブすることができます (この機能は、JavaScript と Python からはまだ使用できません)。
- Ubuntu 18.04 のサポート。
- Android
- APK 生成時の ProGuard サポートが有効になりました。
機能強化
- 内部スレッドの使用方法を改善し、スレッド、ロック、相互排他の数を減らしました。
- エラー報告や情報を改善しました。 一部のケースでは、エラー メッセージがまったく伝達されていませんでした。
- 最新のモジュールを使用するように JavaScript の開発依存関係を更新しました。
バグの修正
RecognizeAsync
の型の不一致によるメモリ リークを修正しました。- 場合によっては、例外がリークしていました。
- 翻訳イベント引数のメモリ リークを修正しました。
- 長時間実行中のセッションでの再接続に関するロックの問題を修正しました。
- 翻訳が失敗した場合に最終的な結果が失われる可能性がある問題を修正しました。
- C#:メイン スレッドで
async
操作が待機されていない場合、非同期タスクが完了する前に認識機能が破棄される可能性がありました。 - Java:Java VM がクラッシュする原因となる問題を修正しました。
- Objective-C:
RecognizingIntent
ではなく RecognizedIntent が返されるという列挙型のマッピングを修正しました。 - JavaScript:
SpeechConfig
で既定の出力形式を 'simple' に設定します。 - JavaScript:JavaScript と他の言語の config オブジェクトのプロパティ間にある不整合を解消しました。
サンプル
- いくつかのサンプルを更新および修正しました (たとえば、翻訳のための出力音声など)。
- サンプル リポジトリに Node.js サンプルを追加しました。
Speech SDK 1.1.0
新機能
- Android x86 または x64 のサポート。
- プロキシのサポート:
SpeechConfig
オブジェクトで、プロキシ情報 (ホスト名、ポート、ユーザー名、パスワード) を設定する関数を呼び出せるようになりました。 この機能は iOS ではまだ利用できません。 - 強化されたエラー コードとメッセージ。 認識でエラーが返された場合、これは既に
Reason
(取り消されたイベントの場合) またはCancellationDetails
(認識結果) をError
に設定します。 取り消されたイベントに、2 つのメンバーErrorCode
とErrorDetails
が含まれるようになりました。 サーバーによって、報告されたエラーと一緒に追加のエラー情報が返された場合、これを新しいメンバーで使用できるようになります。
機能強化
- 認識エンジンの構成に検証が追加され、エラー メッセージが追加されました。
- オーディオ ファイル中の長時間のサイレント状態の処理が強化されました。
- NuGet パッケージ: .NET Framework プロジェクトの場合、AnyCPU 構成でビルドされることを防ぎます。
バグの修正
- 認識エンジンで見つかったいくつかの例外を修正しました。 さらに例外がキャッチされ、
Canceled
イベントに変換されます。 - プロパティ管理のメモリ リークを修正しました。
- オーディオ入力ファイルが認識エンジンをクラッシュする可能性があるバグを修正しました。
- セッションがイベントを停止した後でイベントが受信されることがあるバグを修正しました。
- スレッド処理の一部の競合状態を修正しました。
- クラッシュの原因となる iOS の互換性の問題を修正しました。
- Android のマイクのサポートのための安定性の向上。
- JavaScript の認識エンジンが認識言語を無視するバグを修正しました。
- JavaScript で (場合によっては)
EndpointId
の設定を妨げるバグを修正しました。 - JavaScript の AddIntent のパラメーターの順序を変更し、不足している
AddIntent
JavaScript 署名を追加します。
サンプル
- プルおよびプッシュ ストリームの使用のための C++ と C# のサンプルをサンプル リポジトリに追加しました。
Speech SDK 1.0.1
信頼性の向上とバグ修正
- 認識エンジンの破棄での競合状態によって致命的なエラーが発生する可能性を修正しました
- 未設定のプロパティによって致命的なエラーが発生する可能性を修正しました。
- 新しいエラーとパラメーターのチェックを追加しました。
- Objective-C: NSString での名前のオーバーライドによって致命的なエラーが発生する可能性を修正しました。
- Objective-C: API の可視性を調整しました
- JavaScript:イベントとそのペイロードに関して修正しました。
- ドキュメントの改善。
サンプル リポジトリに、JavaScript の新しいサンプルを追加しました。
Azure AI Speech SDK 1.0.0: 2018 年 9 月リリース
新機能
- iOS での Objective-C のサポート。 iOS での Objective-C のクイック スタートに関するページをご覧ください。
- ブラウザーでの JavaScript のサポート。 JavaScript のクイック スタートに関するページをご覧ください。
重大な変更
- このリリースでは、重大な変更がいくつか行われています。 詳細については、こちらのページを参照してください。
Azure AI Speech SDK 0.6.0: 2018 年 8 月リリース
新機能
- Speech SDK で構築された UWP アプリは、Windows アプリ認定キット (WACK) に合格できるようになりました。 UWP のクイック スタートに関するページをご覧ください。
- Linux (Ubuntu 16.04 x 64) 上の .NET Standard 2.0 のサポート。
- 試験段階: Windows (64 ビット) および Linux (Ubuntu 16.04 x 64) での Java 8 サポート。 Java ランタイム環境のクイック スタートに関するページをご覧ください。
機能の変更点
- 接続エラーに関する追加エラーの詳細情報が公開されました。
重大な変更
- Java (Android) で、
SpeechFactory.configureNativePlatformBindingWithDefaultCertificate
関数にパス パラメーターが不要になりました。 サポートされているすべてのプラットフォームでパスが自動的に検出されるようになりました。 - Java および C# のプロパティ
EndpointUrl
の get-accessor が削除されました。
バグの修正
- Java で、翻訳認識エンジンの音声合成結果が実装されるようになりました。
- 非アクティブなスレッドの原因となったり、未使用の開いたソケット数の増加の原因となったりするバグが修正されました。
- 実行時間の長い認識が伝送の途中で終了する問題が修正されました。
- 認識エンジンのシャットダウン時の競合状態を修正しました。
Azure AI Speech SDK 0.5.0: 2018 年 7 月リリース
新機能
- Android プラットフォーム (API 23: Android 6.0 Marshmallow 以降) をサポートします。 Android クイック スタートをチェックアウトします。
- Windows 上の .NET Standard 2.0 をサポートします。 .NET Core クイック スタートをチェックアウトします。
- 試験段階: Windows 上での UWP のサポート (バージョン 1709 以降)。
- UWP のクイック スタートに関するページをご覧ください。
- Speech SDK で構築された UWP アプリは、まだ Windows アプリ認定キット (WACK) に合格していないことに注意してください。
- 自動再接続を使用して、実行時間の長い認識をサポートします。
機能の変更点
StartContinuousRecognitionAsync()
は、実行時間の長い認識をサポートします。- 認識結果に含まれるフィールドが増えました。 認識されたテキストのオーディオの開始からのオフセットと期間 (どちらも単位はティック)、および認識状態を表す追加の値 (
InitialSilenceTimeout
やInitialBabbleTimeout
など) です。 - ファクトリ インスタンスを作成するための AuthorizationToken をサポートします。
重大な変更
- 認識イベント:
NoMatch
のイベントの種類は、Error
イベントにマージされました。 - C# での SpeechOutputFormat は、C++ との整合性を維持するために
OutputFormat
に名前が変更されました。 AudioInputStream
インターフェイスのいくつかのメソッドの戻り値の型が若干変更されました。- Java では、
read
メソッドがint
の代わりにlong
を返すようになりました。 - C# では、
Read
メソッドがint
の代わりにuint
を返すようになりました。 - C++ では、
Read
およびGetFormat
メソッドがint
の代わりにsize_t
を返すようになりました。
- Java では、
- C++: オーディオ入力ストリームのインスタンスを
shared_ptr
としてのみ渡すことができるようになりました。
バグ修正
RecognizeAsync()
がタイムアウトしたときの結果にある正しくない戻り値が修正されました。- Windows 上のメディア ファンデーション ライブラリへの依存関係が削除されました。 SDK で Core Audio API が使用されるようになりました。
- ドキュメントの修正: サポートされるリージョンを説明するためのリージョン ページが追加されました。
既知の問題
- Android 用の Speech SDK では、翻訳のための音声合成の結果が報告されません。 この問題は次のリリースで修正される予定です。
Azure AI Speech SDK 0.4.0: 2018 年 8 月リリース
機能の変更点
AudioInputStream
認識エンジンでは、オーディオ ソースとしてストリームを利用できるようになりました。 詳細については、関連するハウツー ガイドを参照してください。
出力形式の詳細
SpeechRecognizer
を作成するときに、Detailed
またはSimple
出力形式を要求できます。DetailedSpeechRecognitionResult
には、信頼度スコア、認識されるテキスト、生の語彙形式、正規化形式、および不適切な内容がマスクされた正規化形式が含まれます。
互換性に影響する変更点
- C# で
SpeechRecognitionResult.Text
からSpeechRecognitionResult.RecognizedText
に変更されました。
バグ修正
- シャットダウン中に USP レイヤーで発生する可能性のあるコールバックの問題を修正しました。
- 認識エンジンでオーディオ入力ファイルが使用されると、必要以上に長くファイル ハンドルが保持されていました。
- メッセージ ポンプと認識エンジンの間の複数のデッドロックが削除されました。
- サービスからの応答がタイムアウトすると、結果は
NoMatch
になります。 - Windows のメディア ファンデーション ライブラリは、遅延読み込みされます。 このライブラリは、マイク入力の場合のみ必要です。
- オーディオ データのアップロードの速度が、元の音声速度の約 2 倍に制限されます。
- Windows では、C# .NET アセンブリには厳密な名前が指定されるようになりました。
- ドキュメントの修正:
Region
は、認識エンジンを作成するための必須情報です。
他のサンプルも追加されており、常に更新されます。 最新のサンプル セットについては、Speech SDK のサンプルの GitHub リポジトリを参照してください。
Azure AI Speech SDK 0.2.12733: 2018 年 5 月リリース
このリリースは、Azure AI Speech SDK の最初のパブリック プレビュー リリースです。