次の方法で共有


Microsoft Audio Stack を使用したオーディオ処理

Microsoft Audio Stack は、音声処理シナリオ用に最適化された一連の拡張機能です。 これには、キーワード認識や音声認識のような例が含まれます。 これは、入力オーディオ信号を操作するさまざまな機能強化機能またはコンポーネントで構成されています。

  • ノイズ抑制 - バックグラウンド ノイズのレベルを減らします。
  • ビームフォーミング - サウンドの原点をローカライズし、複数のマイクを使用してオーディオ信号を最適化します。
  • 残響除去 - 環境内の面からの音の反響を減らします。
  • 音響エコー キャンセル - マイク入力がアクティブな間はデバイスからオーディオが再生されるのを抑制します。
  • 自動ゲイン制御 - ソフト スピーカー、遠距離、または調整されていないマイクを考慮して、人の音声レベルを動的に調整します。

Microsoft Audio Stack の機能強化のブロック図。

さまざまなシナリオやユースケースに、オーディオ処理スタックの動作に影響を与える各種の最適化が必要な場合があります。 たとえば、電話などの通信シナリオでは、処理が適用された後のオーディオ信号に多少の歪みがあっても許容されます。 これは、人間は、高い正確性でスピーチを継続して理解できるためです。 しかし、自分の声が反響して聞こえるのは、人にとって受け入れがたく、煩わしいものです。 これは、音声処理シナリオとは対照的です。このようなシナリオでは、歪んだ音声が、機械学習された音声認識モデルの正確性に悪影響を与えるおそれはありますが、わずかなレベルの残留エコーは許容されます。

処理は、Speech SDK が使用されているローカルで完全に実行されます。 Microsoft オーディオ スタックによって処理するために、オーディオ データは Microsoft のクラウド サービスにストリーミングされません。 この唯一の例外は、Conversation Transcription Service の場合です。このサービスでは、未加工のオーディオが処理のために Microsoft のクラウド サービスに送信されます。

また、Microsoft Audio Stack は、さまざまな Microsoft 製品にも対応しています。

  • Windows - Microsoft Audio Stack は、Speech オーディオ カテゴリを使用する場合の既定の音声処理パイプラインです。
  • Microsoft Teams ディスプレイおよび Microsoft Teams Rooms デバイス - Microsoft Teams ディスプレイと Teams Rooms デバイスでは、Microsoft Audio Stack を使用して、Cortana で高品質のハンズフリーの音声ベースのエクスペリエンスを実現します。

Speech SDK の統合

Speech SDK は Microsoft Audio Stack (MAS) を統合し、任意のアプリケーションまたは製品が入力オーディオでオーディオ処理機能を使用できるようにしています。 Speech SDK から使用できる Microsoft Audio Stack の主な機能には、次のようなものがあります。

  • リアルタイムのマイク入力とファイル入力 - Microsoft Audio Stack の処理は、リアルタイムのマイク入力、ストリーミング、ファイルベースの入力に適用できます。
  • 拡張機能の選択 - シナリオを完全に制御するために、SDK を使用すると、逆サーバー、ノイズ抑制、自動ゲイン制御、音響エコー キャンセルなどの個々の機能強化を無効にできます。 たとえば、入力オーディオから抑制する必要のある出力オーディオのレンダリングがシナリオに含まれていない場合は、音響エコー キャンセルを無効にすることができます。
  • カスタム マイクジオメトリ - SDK を使用すると、線形 2 マイク、線形 4 マイク、循環 7 マイク 配列のようなプリセット ジオメトリをサポートするほか、独自のカスタム マイク ジオメトリ情報を提供できます(「マイク 配列の推奨事項」でサポートされているプリセット ジオメトリの詳細を参照してください)。
  • 光線形成角度 - 特定の光線形成角度を指定して、マイクに対して、事前に定義された場所からのオーディオ入力を最適化できます。

Microsoft Audio Stack を使用する最小要件

Microsoft Audio Stack は、次の要件を満たした任意の製品またはアプリケーションで使用できます。

  • 未加工のオーディオ - Microsoft Audio Stack では、最良の結果を得る入力として生の (未処理の) オーディオが必要です。 処理済みのオーディオを提供すると、オーディオ スタックが高品質で拡張機能を実行する能力が制限されます。
  • マイク ジオメトリ - Microsoft Audio Stack によって提供されるすべての拡張機能を正しく実行するには、デバイス上の各マイクに関するジオメトリ情報が必要です。 情報には、マイクの数、その物理的な配置、座標が含まれます。 最大 16 個の入力マイク チャネルがサポートされています。
  • ループバックまたは参照オーディオ - 音響エコー キャンセルを実行するには、デバイスから再生されるオーディオを表すオーディオ チャネルが必要です。
  • 入力形式 - Microsoft Audio Stack では、16 kHz の整数倍のサンプル レートのダウン サンプリングがサポートされています。 16 kHz の最小サンプリング レートが必要です。 さらに、32 ビット IEEE リトル エンディアン float 型、32 ビット リトル エンディアン符号付き int 型、24 ビット リトル エンディアン符号付き int 型、16 ビット リトル エンディアン符号付き int、8 ビット符号付き int 型の形式がサポートされています。