Recomendações da matriz de microfones

Artigo
09/24/2024

Neste artigo, você aprenderá a projetar uma matriz de microfone personalizada para uso com o SDK de fala. Isso é mais pertinente se você estiver selecionando, especificando ou criando hardware para soluções de fala.

O SDK de fala funciona melhor com uma matriz de microfones projetada de acordo com essas diretrizes, incluindo a geometria do microfone, a seleção de componentes e a arquitetura.

Geometria do microfone

As geometrias de matriz a seguir são recomendadas para uso com o Microsoft Audio Stack. A localização das fontes de som e a rejeição do ruído ambiente são melhoradas com um maior número de microfones com dependências de aplicações específicas, cenários de utilizador e o formato do dispositivo.

Matriz	Microfones	Geometria
Circular - 7 Microfones		6 Exterior, 1 Centro, Raio = 42,5 mm, Espaçado Uniformemente
Circular - 4 Microfones		3 Exterior, 1 Centro, Raio = 42,5 mm, Espaçado Uniformemente
Linear - 4 Microfones		Comprimento = 120 mm, Espaçamento = 40 mm
Linear - 2 Microfones		Espaçamento = 40 mm

Os canais do microfone devem ser ordenados em ordem crescente a partir de 0, de acordo com a numeração descrita anteriormente para cada matriz. O Microsoft Audio Stack requer outro fluxo de referência de reprodução de áudio para executar o cancelamento de eco.

Seleção de componentes

Os componentes do microfone devem ser selecionados para reproduzir com precisão um sinal livre de ruído e distorção.

As propriedades recomendadas ao selecionar microfones são:

Parâmetro	Recomendado
SNR	>= 65 dB (sinal de 1 kHz, 94 dBSPL, ruído ponderado A)
Correspondência de amplitude	± 1 dB @ 1 kHz
Correspondência de fases	± 2° @ 1 kHz
Ponto de sobrecarga acústica (POA)	>= 120 dBSPL (THD = 10%)
Taxa de bits	Mínimo de 24 bits
Taxa de Amostragem	Mínimo 16 kHz*
Resposta em frequência	± Máscara flutuante de 3 dB, 200-8000 Hz*
Fiabilidade	Faixa de temperatura de armazenamento -40°C a 70°C Faixa de temperatura de operação -20°C a 55°C

*Poderão ser necessárias taxas de amostragem mais elevadas ou intervalos de frequências "mais amplos" para aplicações de comunicações de alta qualidade (VoIP)

Uma boa seleção de componentes deve ser combinada com uma boa integração eletroacústica, a fim de evitar prejudicar o desempenho dos componentes utilizados. Casos de uso exclusivos também podem exigir mais requisitos (como intervalos de temperatura de operação).

Integração de matrizes de microfones

O desempenho do conjunto de microfones quando integrado em um dispositivo difere da especificação do componente. É importante garantir que os microfones estejam bem combinados após a integração. Portanto, o desempenho do dispositivo medido após qualquer ganho fixo ou QE deve atender às seguintes recomendações:

Parâmetro	Recomendado
SNR	>= 64 dB (sinal de 1 kHz, 94 dBSPL, ruído ponderado A)
Sensibilidade de saída	-26 dBFS/Pa @ 1 kHz (recomendado)
Correspondência de amplitude	± 2 dB, 200-8000 Hz
THD%*	≤ 1%, 200-8000 Hz, 94 dBSPL
Resposta em frequência	± 6 dB, 200-12000 Hz Máscara Flutuante**

**Um alto-falante de baixa distorção é necessário para medir THD (por exemplo, Neumann KH120)

**Podem ser necessárias gamas de frequência "mais amplas" para aplicações de comunicações de alta qualidade (VoIP)

Recomendações de integração de alto-falantes

Como o cancelamento de eco é necessário para dispositivos de reconhecimento de fala que contêm alto-falantes, mais recomendações são fornecidas para a seleção e integração de alto-falantes.

Parâmetro	Recomendado
Considerações sobre linearidade	Nenhum processamento não linear após a referência do alto-falante, caso contrário, um fluxo de referência de loopback baseado em hardware é necessário
Loopback do alto-falante	Fornecido via WASAPI, APIs privadas, plug-in ALSA personalizado (Linux) ou fornecido via canal de firmware
THD%	Third Octave Bands mínimo quinta ordem, 70 dBA Reprodução @ 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz
Acoplamento de eco a microfones	> -10 dB TCLw usando o método ITU-T G.122 Anexo B.4, normalizado ao nível do microfone TCLw = TCLwmeasured + (Nível Medido - Sensibilidade de Saída Alvo) TCLw = TCLwmeasured + (Nível medido - (-26))

Arquitetura de projeto de integração

As seguintes diretrizes de arquitetura são necessárias ao integrar microfones em um dispositivo:

Parâmetro	Recomendação
Semelhança de porta de microfone	Todas as portas do microfone têm o mesmo comprimento na matriz
Dimensões da porta do microfone	Tamanho da porta Ø0.8-1.0 mm. Comprimento da porta / diâmetro < da porta 2
Vedação de microfone	Juntas de vedação uniformemente implementadas em stack-up. Recomendar > uma taxa de compressão de 70% para juntas de espuma
Fiabilidade do microfone	A malha deve ser usada para evitar a poeira e a entrada (entre PCB para microfones com porta inferior e junta de vedação/tampa superior)
Isolamento de microfone	Juntas de borracha e desacoplamento de vibração através da estrutura, particularmente para isolar quaisquer caminhos de vibração devido a alto-falantes integrados
Relógio de amostragem	O áudio do dispositivo deve estar livre de desvios e desistências com baixo desvio
Capacidade de gravação	O dispositivo deve ser capaz de gravar fluxos brutos de canal individual simultaneamente
USB	Todos os dispositivos de entrada de áudio USB devem definir descritores de acordo com a especificação USB Audio Devices Rev3
Geometria do microfone	Os drivers devem implementar corretamente os descritores de geometria da matriz de microfone
Capacidade de descoberta	Os dispositivos não devem ter hardware, firmware ou algoritmos de processamento de áudio não lineares baseados em software de terceiros indetetáveis ou incontroláveis de/para o dispositivo
Formato de captura	Os formatos de captura devem usar uma taxa de amostragem mínima de 16 kHz e profundidade recomendada de 24 bits

Considerações sobre arquitetura elétrica

Quando aplicável, as matrizes podem ser conectadas a um host USB (como um SoC que executa o Microsoft Audio Stack (MAS)) e interfaces para serviços de fala ou outros aplicativos.

Os componentes de hardware, como a conversão PDM para TDM, devem garantir que o alcance dinâmico e o SNR dos microfones sejam preservados em novos amostradores.

Áudio USB de alta velocidade Classe 2.0 deve ser suportado em qualquer MCUs de áudio, a fim de fornecer a largura de banda necessária para até sete canais em taxas de amostragem mais altas e profundidades de bits.

Próximos passos

Saiba mais sobre processamento de áudio

Partilhar via