Recomendações da matriz de microfones
Neste artigo, você aprenderá a projetar uma matriz de microfone personalizada para uso com o SDK de fala. Isso é mais pertinente se você estiver selecionando, especificando ou criando hardware para soluções de fala.
O SDK de fala funciona melhor com uma matriz de microfones projetada de acordo com essas diretrizes, incluindo a geometria do microfone, a seleção de componentes e a arquitetura.
Geometria do microfone
As geometrias de matriz a seguir são recomendadas para uso com o Microsoft Audio Stack. A localização das fontes de som e a rejeição do ruído ambiente são melhoradas com um maior número de microfones com dependências de aplicações específicas, cenários de utilizador e o formato do dispositivo.
Matriz | Microfones | Geometria |
---|---|---|
Circular - 7 Microfones | 6 Exterior, 1 Centro, Raio = 42,5 mm, Espaçado Uniformemente | |
Circular - 4 Microfones | 3 Exterior, 1 Centro, Raio = 42,5 mm, Espaçado Uniformemente | |
Linear - 4 Microfones | Comprimento = 120 mm, Espaçamento = 40 mm | |
Linear - 2 Microfones | Espaçamento = 40 mm |
Os canais do microfone devem ser ordenados em ordem crescente a partir de 0, de acordo com a numeração descrita anteriormente para cada matriz. O Microsoft Audio Stack requer outro fluxo de referência de reprodução de áudio para executar o cancelamento de eco.
Seleção de componentes
Os componentes do microfone devem ser selecionados para reproduzir com precisão um sinal livre de ruído e distorção.
As propriedades recomendadas ao selecionar microfones são:
Parâmetro | Recomendado |
---|---|
SNR | >= 65 dB (sinal de 1 kHz, 94 dBSPL, ruído ponderado A) |
Correspondência de amplitude | ± 1 dB @ 1 kHz |
Correspondência de fases | ± 2° @ 1 kHz |
Ponto de sobrecarga acústica (POA) | >= 120 dBSPL (THD = 10%) |
Taxa de bits | Mínimo de 24 bits |
Taxa de Amostragem | Mínimo 16 kHz* |
Resposta em frequência | ± Máscara flutuante de 3 dB, 200-8000 Hz* |
Fiabilidade | Faixa de temperatura de armazenamento -40°C a 70°C Faixa de temperatura de operação -20°C a 55°C |
*Poderão ser necessárias taxas de amostragem mais elevadas ou intervalos de frequências "mais amplos" para aplicações de comunicações de alta qualidade (VoIP)
Uma boa seleção de componentes deve ser combinada com uma boa integração eletroacústica, a fim de evitar prejudicar o desempenho dos componentes utilizados. Casos de uso exclusivos também podem exigir mais requisitos (como intervalos de temperatura de operação).
Integração de matrizes de microfones
O desempenho do conjunto de microfones quando integrado em um dispositivo difere da especificação do componente. É importante garantir que os microfones estejam bem combinados após a integração. Portanto, o desempenho do dispositivo medido após qualquer ganho fixo ou QE deve atender às seguintes recomendações:
Parâmetro | Recomendado |
---|---|
SNR | >= 64 dB (sinal de 1 kHz, 94 dBSPL, ruído ponderado A) |
Sensibilidade de saída | -26 dBFS/Pa @ 1 kHz (recomendado) |
Correspondência de amplitude | ± 2 dB, 200-8000 Hz |
THD%* | ≤ 1%, 200-8000 Hz, 94 dBSPL |
Resposta em frequência | ± 6 dB, 200-12000 Hz Máscara Flutuante** |
**Um alto-falante de baixa distorção é necessário para medir THD (por exemplo, Neumann KH120)
**Podem ser necessárias gamas de frequência "mais amplas" para aplicações de comunicações de alta qualidade (VoIP)
Recomendações de integração de alto-falantes
Como o cancelamento de eco é necessário para dispositivos de reconhecimento de fala que contêm alto-falantes, mais recomendações são fornecidas para a seleção e integração de alto-falantes.
Parâmetro | Recomendado |
---|---|
Considerações sobre linearidade | Nenhum processamento não linear após a referência do alto-falante, caso contrário, um fluxo de referência de loopback baseado em hardware é necessário |
Loopback do alto-falante | Fornecido via WASAPI, APIs privadas, plug-in ALSA personalizado (Linux) ou fornecido via canal de firmware |
THD% | Third Octave Bands mínimo quinta ordem, 70 dBA Reprodução @ 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz |
Acoplamento de eco a microfones | > -10 dB TCLw usando o método ITU-T G.122 Anexo B.4, normalizado ao nível do microfone TCLw = TCLwmeasured + (Nível Medido - Sensibilidade de Saída Alvo) TCLw = TCLwmeasured + (Nível medido - (-26)) |
Arquitetura de projeto de integração
As seguintes diretrizes de arquitetura são necessárias ao integrar microfones em um dispositivo:
Parâmetro | Recomendação |
---|---|
Semelhança de porta de microfone | Todas as portas do microfone têm o mesmo comprimento na matriz |
Dimensões da porta do microfone | Tamanho da porta Ø0.8-1.0 mm. Comprimento da porta / diâmetro < da porta 2 |
Vedação de microfone | Juntas de vedação uniformemente implementadas em stack-up. Recomendar > uma taxa de compressão de 70% para juntas de espuma |
Fiabilidade do microfone | A malha deve ser usada para evitar a poeira e a entrada (entre PCB para microfones com porta inferior e junta de vedação/tampa superior) |
Isolamento de microfone | Juntas de borracha e desacoplamento de vibração através da estrutura, particularmente para isolar quaisquer caminhos de vibração devido a alto-falantes integrados |
Relógio de amostragem | O áudio do dispositivo deve estar livre de desvios e desistências com baixo desvio |
Capacidade de gravação | O dispositivo deve ser capaz de gravar fluxos brutos de canal individual simultaneamente |
USB | Todos os dispositivos de entrada de áudio USB devem definir descritores de acordo com a especificação USB Audio Devices Rev3 |
Geometria do microfone | Os drivers devem implementar corretamente os descritores de geometria da matriz de microfone |
Capacidade de descoberta | Os dispositivos não devem ter hardware, firmware ou algoritmos de processamento de áudio não lineares baseados em software de terceiros indetetáveis ou incontroláveis de/para o dispositivo |
Formato de captura | Os formatos de captura devem usar uma taxa de amostragem mínima de 16 kHz e profundidade recomendada de 24 bits |
Considerações sobre arquitetura elétrica
Quando aplicável, as matrizes podem ser conectadas a um host USB (como um SoC que executa o Microsoft Audio Stack (MAS)) e interfaces para serviços de fala ou outros aplicativos.
Os componentes de hardware, como a conversão PDM para TDM, devem garantir que o alcance dinâmico e o SNR dos microfones sejam preservados em novos amostradores.
Áudio USB de alta velocidade Classe 2.0 deve ser suportado em qualquer MCUs de áudio, a fim de fornecer a largura de banda necessária para até sete canais em taxas de amostragem mais altas e profundidades de bits.