Microsoft Audio Stack を使用したオーディオ処理

[アーティクル]
03/10/2025

Microsoft Audio Stack は、音声処理シナリオ用に最適化された一連の拡張機能です。これには、キーワード認識や音声認識のような例が含まれます。これは、入力オーディオ信号を操作するさまざまな機能強化機能またはコンポーネントで構成されています。

ノイズ抑制 - バックグラウンドノイズのレベルを減らします。
ビームフォーミング - サウンドの原点をローカライズし、複数のマイクを使用してオーディオ信号を最適化します。
残響除去 - 環境内の面からの音の反響を減らします。
音響エコーキャンセル - マイク入力がアクティブな間はデバイスからオーディオが再生されるのを抑制します。
自動ゲイン制御 - ソフトスピーカー、遠距離、または調整されていないマイクを考慮して、人の音声レベルを動的に調整します。

さまざまなシナリオやユースケースに、オーディオ処理スタックの動作に影響を与える各種の最適化が必要な場合があります。たとえば、電話などの通信シナリオでは、処理が適用された後のオーディオ信号に多少の歪みがあっても許容されます。これは、人間は、高い正確性でスピーチを継続して理解できるためです。しかし、自分の声が反響して聞こえるのは、人にとって受け入れがたく、煩わしいものです。これは、音声処理シナリオとは対照的です。このようなシナリオでは、歪んだ音声が、機械学習された音声認識モデルの正確性に悪影響を与えるおそれはありますが、わずかなレベルの残留エコーは許容されます。

処理は、Speech SDK が使用されているローカルで完全に実行されます。 Microsoft オーディオスタックによって処理するために、オーディオデータは Microsoft のクラウドサービスにストリーミングされません。この唯一の例外は、Conversation Transcription Service の場合です。このサービスでは、未加工のオーディオが処理のために Microsoft のクラウドサービスに送信されます。

また、Microsoft Audio Stack は、さまざまな Microsoft 製品にも対応しています。

Windows - Microsoft Audio Stack は、Speech オーディオカテゴリを使用する場合の既定の音声処理パイプラインです。
Microsoft Teams ディスプレイおよび Microsoft Teams Rooms デバイス - Microsoft Teams ディスプレイと Teams Rooms デバイスでは、Microsoft Audio Stack を使用して、Cortana で高品質のハンズフリーの音声ベースのエクスペリエンスを実現します。

Speech SDK の統合

Speech SDK は Microsoft Audio Stack (MAS) を統合し、任意のアプリケーションまたは製品が入力オーディオでオーディオ処理機能を使用できるようにしています。 Speech SDK から使用できる Microsoft Audio Stack の主な機能には、次のようなものがあります。

リアルタイムのマイク入力とファイル入力 - Microsoft Audio Stack の処理は、リアルタイムのマイク入力、ストリーミング、ファイルベースの入力に適用できます。
拡張機能の選択 - シナリオを完全に制御するために、SDK を使用すると、逆サーバー、ノイズ抑制、自動ゲイン制御、音響エコーキャンセルなどの個々の機能強化を無効にできます。たとえば、入力オーディオから抑制する必要のある出力オーディオのレンダリングがシナリオに含まれていない場合は、音響エコーキャンセルを無効にすることができます。
カスタムマイクジオメトリ - SDK を使用すると、線形 2 マイク、線形 4 マイク、循環 7 マイク配列のようなプリセットジオメトリをサポートするほか、独自のカスタムマイクジオメトリ情報を提供できます(「マイク配列の推奨事項」でサポートされているプリセットジオメトリの詳細を参照してください)。
光線形成角度 - 特定の光線形成角度を指定して、マイクに対して、事前に定義された場所からのオーディオ入力を最適化できます。

Microsoft Audio Stack を使用する最小要件

Microsoft Audio Stack は、次の要件を満たした任意の製品またはアプリケーションで使用できます。

未加工のオーディオ - Microsoft Audio Stack では、最良の結果を得る入力として生の (未処理の) オーディオが必要です。処理済みのオーディオを提供すると、オーディオスタックが高品質で拡張機能を実行する能力が制限されます。
マイクジオメトリ - Microsoft Audio Stack によって提供されるすべての拡張機能を正しく実行するには、デバイス上の各マイクに関するジオメトリ情報が必要です。情報には、マイクの数、その物理的な配置、座標が含まれます。最大 16 個の入力マイクチャネルがサポートされています。
ループバックまたは参照オーディオ - 音響エコーキャンセルを実行するには、デバイスから再生されるオーディオを表すオーディオチャネルが必要です。
入力形式 - Microsoft Audio Stack では、16 kHz の整数倍のサンプルレートのダウンサンプリングがサポートされています。 16 kHz の最小サンプリングレートが必要です。さらに、32 ビット IEEE リトルエンディアン float 型、32 ビットリトルエンディアン符号付き int 型、24 ビットリトルエンディアン符号付き int 型、16 ビットリトルエンディアン符号付き int、8 ビット符号付き int 型の形式がサポートされています。

オーディオ処理に Speech SDK を使用する

次の方法で共有

Microsoft Audio Stack を使用したオーディオ処理

Speech SDK の統合

Microsoft Audio Stack を使用する最小要件

フィードバック

その他のリソース

次の方法で共有

Microsoft Audio Stack を使用したオーディオ処理

Speech SDK の統合

Microsoft Audio Stack を使用する最小要件

関連するコンテンツ

フィードバック

その他のリソース