Procesamiento de audio con la pila de audio de Microsoft

Artículo
09/12/2024

Microsoft Audio Stack es un conjunto de mejoras optimizadas para escenarios de procesamiento de voz. Incluye ejemplos como el reconocimiento de palabras clave y el reconocimiento de voz. Consta de varias mejoras o componentes que funcionan en la señal de audio de entrada:

Supresión del ruido: reduzca el nivel de ruido de fondo.
Con forma de haz: localice el origen del sonido y optimice la señal de audio mediante varios micrófonos.
Anulación de la reverberación: reduzca las reflexiones del sonido de las superficies del entorno.
Cancelación del eco acústico: suprima el audio que se reproduce fuera del dispositivo mientras la entrada del micrófono está activa.
Control automático de ganancia: ajuste dinámicamente el nivel de voz de las personas para tener en cuenta las personas que hablan suave, las largas distancias o los micrófonos no calibrados.

Los distintos escenarios o casos de uso requieren diferentes optimizaciones que influyen en el comportamiento de la pila de procesamiento de audio. Por ejemplo, en escenarios de telecomunicaciones, como las llamadas telefónicas, es aceptable que se produzcan pequeñas distorsiones en la señal de audio después de aplicar el procesamiento. Esto se debe a que los seres humanos pueden seguir comprendiendo la voz con alta precisión. Sin embargo, es inaceptable y molesto que una persona escuche el eco de su propia voz. Esto contrasta con los escenarios de procesamiento de voz, donde el audio distorsionado puede afectar negativamente a la precisión de un modelo de reconocimiento de voz con aprendizaje automático, pero es aceptable tener niveles leves de eco residual.

El procesamiento se realiza de forma totalmente local y se usa el SDK de Voz. Microsoft Audio Stack no transmite datos de audio a los servicios en la nube de Microsoft para su procesamiento. La única excepción se aplica en el servicio de transcripción de conversaciones, donde el audio sin formato se envía a los servicios en la nube de Microsoft para su procesamiento.

Microsoft Audio Stack también proporciona una amplia gama de productos de Microsoft:

Windows: Microsoft Audio Stack es la canalización de procesamiento de voz predeterminada cuando se usa la categoría Audio de voz.
Pantallas de Microsoft Teams y dispositivos de Salas de Microsoft Teams: las pantallas de Microsoft Teams y los dispositivos de Salas de Microsoft Teams usan Microsoft Audio Stack para permitir experiencias basadas en voz y manos libres de alta calidad con Cortana.

Integración de SDK de voz

El SDK de Voz integra Microsoft Audio Stack (MAS), lo que permite que cualquier aplicación o producto use sus funcionalidades de procesamiento de audio en el audio de entrada. Algunas de las características clave de Microsoft Audio Stack disponibles a través del SDK de Voz son:

Entrada de micrófono y entrada de archivos en tiempo real: el procesamiento de Microsoft Audio Stack se puede aplicar a la entrada de micrófono en tiempo real, a las secuencias y a la entrada de archivos.
Selección de mejoras: para permitir el control total del escenario, el SDK permite deshabilitar mejoras individuales como la anulación de la reverberación, la supresión de ruido, el control automático de ganancia y la cancelación del eco acústico. Por ejemplo, si el escenario no incluye la representación del audio de salida que debe suprimirse del audio de entrada, tiene la opción de deshabilitar la cancelación del eco acústico.
Geometrías de micrófono personalizadas: el SDK le permite proporcionar su propia información de geometría de micrófono personalizada, además de admitir geometrías preestablecidas, como las matrices lineales de dos micrófonos y cuatro micrófonos y la matriz circular de siete micrófonos (consulte más información sobre las geometrías preestablecidas admitidas en Recomendaciones de matrices de micrófono).
Ángulos con forma de haz: se pueden proporcionar ángulos con forma de haz específicos para optimizar la entrada de audio que se origina desde una ubicación predeterminada, en relación con los micrófonos.

Requisitos mínimos para usar Microsoft Audio Stack

Microsoft Audio Stack se puede usar en cualquier producto o aplicación que pueda cumplir los siguientes requisitos:

Audio sin formato: Microsoft Audio Stack requiere audio sin formato (sin procesar) como entrada para producir los mejores resultados. Proporcionar audio que ya se ha procesado limita la capacidad de la pila de audio para realizar mejoras de alta calidad.
Geometrías de micrófono: se requiere información de geometría sobre cada micrófono del dispositivo para realizar correctamente todas las mejoras que ofrece Microsoft Audio Stack. La información incluye el número de micrófonos, su organización física y coordenadas. Se admiten hasta 16 canales de micrófono de entrada.
Bucle invertido o audio de referencia: se requiere un canal de audio que represente el audio que se reproduce fuera del dispositivo para realizar la cancelación del eco acústico.
Formato de entrada: Microsoft Audio Stack admite la reducción de muestreo para frecuencias de muestreo que sean múltiplos enteros de 16 kHz. Se requiere una velocidad de muestreo mínima de 16 kHz. Además, se admiten los siguientes formatos: flotante little endian IEEE de 32 bits, entero con signo little endian de 32 bits, entero con signo little endian de 24 bits, entero con signo little endian de 16 bits y entero con signo de 8 bits.

Uso del SDK de Voz para el procesamiento de audio

Compartir vía

Procesamiento de audio con la pila de audio de Microsoft

Integración de SDK de voz

Requisitos mínimos para usar Microsoft Audio Stack

Comentarios

Recursos adicionales

Compartir vía

Procesamiento de audio con la pila de audio de Microsoft

Integración de SDK de voz

Requisitos mínimos para usar Microsoft Audio Stack

Contenido relacionado

Comentarios

Recursos adicionales