Использование Microsoft Audio Stack (MAS)

Статья
03/10/2025

Пакет SDK для службы "Речь" интегрирует Microsoft Audio Stack (MAS), позволяя любому приложению или продукту применить возможности обработки звука к входным аудиоданным. Общие сведения приведены в документации по обработке звука.

Из этой статьи вы узнаете, как использовать Microsoft Audio Stack (MAS) с пакетом SDK для службы "Речь".

Внимание

В пакете SDK службы "Речь" для C++ и C# версии 1.33.0 и более поздней версии Microsoft.CognitiveServices.Speech.Extension.MAS необходимо установить пакет для использования Microsoft Audio Stack в Windows и linux, если установить пакет SDK службы "Речь" с помощью NuGet.

Параметры по умолчанию

В этом примере показано, как использовать MAS со всеми параметрами расширения по умолчанию для входных данных с микрофона устройства, используемого по умолчанию.

var speechConfig = SpeechConfig.FromSubscription("YourSubscriptionKey", "YourServiceRegion");

var audioProcessingOptions = AudioProcessingOptions.Create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT);
var audioInput = AudioConfig.FromDefaultMicrophoneInput(audioProcessingOptions);

var recognizer = new SpeechRecognizer(speechConfig, audioInput);

auto speechConfig = SpeechConfig::FromSubscription("YourSubscriptionKey", "YourServiceRegion");

auto audioProcessingOptions = AudioProcessingOptions::Create(AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT);
auto audioInput = AudioConfig::FromDefaultMicrophoneInput(audioProcessingOptions);

auto recognizer = SpeechRecognizer::FromConfig(speechConfig, audioInput);

SpeechConfig speechConfig = SpeechConfig.fromSubscription("YourSubscriptionKey", "YourServiceRegion");

AudioProcessingOptions audioProcessingOptions = AudioProcessingOptions.create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT);
AudioConfig audioInput = AudioConfig.fromDefaultMicrophoneInput(audioProcessingOptions);

SpeechRecognizer recognizer = new SpeechRecognizer(speechConfig, audioInput);

Предустановка геометрии микрофонов

В этом примере показано, как использовать MAS с предопределенной геометрией микрофонов на заданном входном аудиоустройстве. В этом примере:

Параметры расширения. К входному аудиопотоку применяются расширения по умолчанию.
Предустановленная геометрия. Предустановленная геометрия представляет собой линейный набор из двух микрофонов.
Входное аудиоустройство ввода. Идентификатором входного аудиоустройства является hw:0,1. Дополнительные сведения о том, как выбрать входное аудиоустройство, приведены в разделе Как выбрать входное аудиоустройство с помощью пакета SDK службы "Речь".

var speechConfig = SpeechConfig.FromSubscription("YourSubscriptionKey", "YourServiceRegion");

var audioProcessingOptions = AudioProcessingOptions.Create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT, PresetMicrophoneArrayGeometry.Linear2);
var audioInput = AudioConfig.FromMicrophoneInput("hw:0,1", audioProcessingOptions);

var recognizer = new SpeechRecognizer(speechConfig, audioInput);

auto speechConfig = SpeechConfig::FromSubscription("YourSubscriptionKey", "YourServiceRegion");

auto audioProcessingOptions = AudioProcessingOptions::Create(AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT, PresetMicrophoneArrayGeometry::Linear2);
auto audioInput = AudioConfig::FromMicrophoneInput("hw:0,1", audioProcessingOptions);

auto recognizer = SpeechRecognizer::FromConfig(speechConfig, audioInput);

SpeechConfig speechConfig = SpeechConfig.fromSubscription("YourSubscriptionKey", "YourServiceRegion");

AudioProcessingOptions audioProcessingOptions = AudioProcessingOptions.create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT, PresetMicrophoneArrayGeometry.Linear2);
AudioConfig audioInput = AudioConfig.fromMicrophoneInput("hw:0,1", audioProcessingOptions);

SpeechRecognizer recognizer = new SpeechRecognizer(speechConfig, audioInput);

Пользовательская геометрия микрофонов

В этом примере показано, как использовать MAS с пользовательской геометрией микрофонов на заданном входном аудиоустройстве. В этом примере:

Параметры расширения. К входному аудиопотоку применяются расширения по умолчанию.
Пользовательская геометрия. Пользовательская геометрия микрофонов для набора из 7 микрофонов предоставляется через координаты микрофона. Единицы координат — миллиметры.
Входные аудиоданные. Входные аудиоданные поступают из файла, где получение аудио в рамках файла ожидается с входного аудиоустройства, соответствующего указанной пользовательской геометрии.

var speechConfig = SpeechConfig.FromSubscription("YourSubscriptionKey", "YourServiceRegion");

MicrophoneCoordinates[] microphoneCoordinates = new MicrophoneCoordinates[7]
{
    new MicrophoneCoordinates(0, 0, 0),
    new MicrophoneCoordinates(40, 0, 0),
    new MicrophoneCoordinates(20, -35, 0),
    new MicrophoneCoordinates(-20, -35, 0),
    new MicrophoneCoordinates(-40, 0, 0),
    new MicrophoneCoordinates(-20, 35, 0),
    new MicrophoneCoordinates(20, 35, 0)
};
var microphoneArrayGeometry = new MicrophoneArrayGeometry(MicrophoneArrayType.Planar, microphoneCoordinates);
var audioProcessingOptions = AudioProcessingOptions.Create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT, microphoneArrayGeometry, SpeakerReferenceChannel.LastChannel);
var audioInput = AudioConfig.FromWavFileInput("katiesteve.wav", audioProcessingOptions);

var recognizer = new SpeechRecognizer(speechConfig, audioInput);

auto speechConfig = SpeechConfig::FromSubscription("YourSubscriptionKey", "YourServiceRegion");

MicrophoneArrayGeometry microphoneArrayGeometry
{
    MicrophoneArrayType::Planar,
    { { 0, 0, 0 }, { 40, 0, 0 }, { 20, -35, 0 }, { -20, -35, 0 }, { -40, 0, 0 }, { -20, 35, 0 }, { 20, 35, 0 } }
};
auto audioProcessingOptions = AudioProcessingOptions::Create(AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT, microphoneArrayGeometry, SpeakerReferenceChannel::LastChannel);
auto audioInput = AudioConfig::FromWavFileInput("katiesteve.wav", audioProcessingOptions);

auto recognizer = SpeechRecognizer::FromConfig(speechConfig, audioInput);

SpeechConfig speechConfig = SpeechConfig.fromSubscription("YourSubscriptionKey", "YourServiceRegion");

MicrophoneCoordinates[] microphoneCoordinates = new MicrophoneCoordinates[7];
microphoneCoordinates[0] = new MicrophoneCoordinates(0, 0, 0);
microphoneCoordinates[1] = new MicrophoneCoordinates(40, 0, 0);
microphoneCoordinates[2] = new MicrophoneCoordinates(20, -35, 0);
microphoneCoordinates[3] = new MicrophoneCoordinates(-20, -35, 0);
microphoneCoordinates[4] = new MicrophoneCoordinates(-40, 0, 0);
microphoneCoordinates[5] = new MicrophoneCoordinates(-20, 35, 0);
microphoneCoordinates[6] = new MicrophoneCoordinates(20, 35, 0);
MicrophoneArrayGeometry microphoneArrayGeometry = new MicrophoneArrayGeometry(MicrophoneArrayType.Planar, microphoneCoordinates);
AudioProcessingOptions audioProcessingOptions = AudioProcessingOptions.create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT, microphoneArrayGeometry, SpeakerReferenceChannel.LastChannel);
AudioConfig audioInput = AudioConfig.fromWavFileInput("katiesteve.wav", audioProcessingOptions);

SpeechRecognizer recognizer = new SpeechRecognizer(speechConfig, audioInput);

Выбор расширений

В этом примере показано, как использовать MAS с пользовательским набором расширений на входных аудиоданных. По умолчанию все расширения включены, но существуют параметры для отключения подавления реверберации, подавления шума, автоматического контроля усиления и компенсации эхо-сигналов по отдельности с помощью AudioProcessingOptions.

В этом примере:

Варианты улучшения: отмена эха и подавление шума отключены, а все остальные улучшения остаются включенными.
Входное аудиоустройство. Входным аудиоустройством является используемый по умолчанию микрофон устройства.

var speechConfig = SpeechConfig.FromSubscription("YourSubscriptionKey", "YourServiceRegion");

var audioProcessingOptions = AudioProcessingOptions.Create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_DISABLE_ECHO_CANCELLATION | AudioProcessingConstants.AUDIO_INPUT_PROCESSING_DISABLE_NOISE_SUPPRESSION | AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT);
var audioInput = AudioConfig.FromDefaultMicrophoneInput(audioProcessingOptions);

var recognizer = new SpeechRecognizer(speechConfig, audioInput);

auto speechConfig = SpeechConfig::FromSubscription("YourSubscriptionKey", "YourServiceRegion");

auto audioProcessingOptions = AudioProcessingOptions::Create(AUDIO_INPUT_PROCESSING_DISABLE_ECHO_CANCELLATION | AUDIO_INPUT_PROCESSING_DISABLE_NOISE_SUPPRESSION | AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT);
auto audioInput = AudioConfig::FromDefaultMicrophoneInput(audioProcessingOptions);

auto recognizer = SpeechRecognizer::FromConfig(speechConfig, audioInput);

SpeechConfig speechConfig = SpeechConfig.fromSubscription("YourSubscriptionKey", "YourServiceRegion");

AudioProcessingOptions audioProcessingOptions = AudioProcessingOptions.create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_DISABLE_ECHO_CANCELLATION | AudioProcessingConstants.AUDIO_INPUT_PROCESSING_DISABLE_NOISE_SUPPRESSION | AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT);
AudioConfig audioInput = AudioConfig.fromDefaultMicrophoneInput(audioProcessingOptions);

SpeechRecognizer recognizer = new SpeechRecognizer(speechConfig, audioInput);

Укажите углы формирования луча

В этом примере показано, как использовать MAS с пользовательской геометрией микрофонов и углами формирования луча на заданном входном аудиоустройстве. В этом примере:

Параметры расширения. К входному аудиопотоку применяются расширения по умолчанию.
Пользовательская геометрия. Пользовательская геометрия микрофонов для набора из 4 микрофонов предоставляется путем указания координат микрофона. Единицы координат — миллиметры.
Углы формирования луча. Углы формирования луча указаны для оптимизации звука, возникающего в этом диапазоне. Единицы измерения углов — градусы.
Входные аудиоданные. Входные аудиоданные поступают из потока отправки, где получение аудио в рамках потока ожидается с входного аудиоустройства, соответствующего указанной пользовательской геометрии.

В следующем примере кода для угла начала задано значение 70 градусов, а конечный угол имеет значение 110 градусов.

var speechConfig = SpeechConfig.FromSubscription("YourSubscriptionKey", "YourServiceRegion");

MicrophoneCoordinates[] microphoneCoordinates = new MicrophoneCoordinates[4]
{
    new MicrophoneCoordinates(-60, 0, 0),
    new MicrophoneCoordinates(-20, 0, 0),
    new MicrophoneCoordinates(20, 0, 0),
    new MicrophoneCoordinates(60, 0, 0)
};
var microphoneArrayGeometry = new MicrophoneArrayGeometry(MicrophoneArrayType.Linear, 70, 110, microphoneCoordinates);
var audioProcessingOptions = AudioProcessingOptions.Create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT, microphoneArrayGeometry, SpeakerReferenceChannel.LastChannel);
var pushStream = AudioInputStream.CreatePushStream();
var audioInput = AudioConfig.FromStreamInput(pushStream, audioProcessingOptions);

var recognizer = new SpeechRecognizer(speechConfig, audioInput);

auto speechConfig = SpeechConfig::FromSubscription("YourSubscriptionKey", "YourServiceRegion");

MicrophoneArrayGeometry microphoneArrayGeometry
{
    MicrophoneArrayType::Linear,
    70,
    110,
    { { -60, 0, 0 }, { -20, 0, 0 }, { 20, 0, 0 }, { 60, 0, 0 } }
};
auto audioProcessingOptions = AudioProcessingOptions::Create(AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT, microphoneArrayGeometry, SpeakerReferenceChannel::LastChannel);
auto pushStream = AudioInputStream::CreatePushStream();
auto audioInput = AudioConfig::FromStreamInput(pushStream, audioProcessingOptions);

auto recognizer = SpeechRecognizer::FromConfig(speechConfig, audioInput);

SpeechConfig speechConfig = SpeechConfig.fromSubscription("YourSubscriptionKey", "YourServiceRegion");

MicrophoneCoordinates[] microphoneCoordinates = new MicrophoneCoordinates[4];
microphoneCoordinates[0] = new MicrophoneCoordinates(-60, 0, 0);
microphoneCoordinates[1] = new MicrophoneCoordinates(-20, 0, 0);
microphoneCoordinates[2] = new MicrophoneCoordinates(20, 0, 0);
microphoneCoordinates[3] = new MicrophoneCoordinates(60, 0, 0);
MicrophoneArrayGeometry microphoneArrayGeometry = new MicrophoneArrayGeometry(MicrophoneArrayType.Planar, 70, 110, microphoneCoordinates);
AudioProcessingOptions audioProcessingOptions = AudioProcessingOptions.create(AudioProcessingConstants.AUDIO_INPUT_PROCESSING_ENABLE_DEFAULT, microphoneArrayGeometry, SpeakerReferenceChannel.LastChannel);
PushAudioInputStream pushStream = AudioInputStream.createPushStream();
AudioConfig audioInput = AudioConfig.fromStreamInput(pushStream, audioProcessingOptions);

SpeechRecognizer recognizer = new SpeechRecognizer(speechConfig, audioInput);

Опорный канал для компенсации эхо-сигналов

Службе Microsoft Audio Stack требуется опорный канал (также известный как закольцованный канал). Источник опорного канала зависит от платформы:

Windows. Опорный канал автоматически собирается пакетом SDK службы "Речь", если параметр SpeakerReferenceChannel::LastChannel указан при создании AudioProcessingOptions.
Linux. Должна быть настроена расширенная звуковая архитектура Linux (ALSA) для предоставления опорного звукового потока в качестве последнего канала для используемого входного аудиоустройства. ALSA настраивается в дополнение к SpeakerReferenceChannel::LastChannelпараметру при созданииAudioProcessingOptions.

Поддержка языков и платформ.

Язык	Платформа	Справочная документация
C++	Windows, Linux	Документация C++
C#	Windows, Linux	Документация C#
Java	Windows, Linux	Документация Java

Настройка среды разработки

Поделиться через

Использование Microsoft Audio Stack (MAS)

Параметры по умолчанию

Предустановка геометрии микрофонов

Пользовательская геометрия микрофонов

Выбор расширений

Укажите углы формирования луча

Опорный канал для компенсации эхо-сигналов

Поддержка языков и платформ.

Обратная связь

Дополнительные ресурсы

Поделиться через

Использование Microsoft Audio Stack (MAS)

Параметры по умолчанию

Предустановка геометрии микрофонов

Пользовательская геометрия микрофонов

Выбор расширений

Укажите углы формирования луча

Опорный канал для компенсации эхо-сигналов

Поддержка языков и платформ.

Связанный контент

Обратная связь

Дополнительные ресурсы