Raccomandazioni per gli array di microfoni
Questo articolo illustra come progettare una matrice di microfoni personalizzata per l'uso con Speech SDK. Questo è più pertinente se si seleziona, si specifica o si compila hardware per le soluzioni vocali.
Speech SDK funziona meglio con una matrice di microfoni progettata in base a queste linee guida, tra cui la geometria del microfono, la selezione dei componenti e l'architettura.
Geometria del microfono
Le geometrie di matrice seguenti sono consigliate per l'uso con Microsoft Audio Stack. La posizione delle fonti audio e il rifiuto del rumore ambientale sono migliorate con un maggior numero di microfoni con dipendenze da applicazioni specifiche, scenari utente e fattore di forma del dispositivo.
Matrice | Microfoni | Geometria |
---|---|---|
Circolare - 7 microfoni | 6 Esterno, 1 Centrale, Raggio = 42,5 mm, Con spaziatura uniforme | |
Circolare - 4 microfoni | 3 Esterno, 1 Centrale, Raggio = 42,5 mm, Con spaziatura uniforme | |
Lineare - 4 microfoni | Lunghezza = 120 mm, spaziatura = 40 mm | |
Lineare - 2 Microfoni | Spaziatura = 40 mm |
I canali del microfono devono essere ordinati in modo crescente da 0, in base alla numerazione descritta in precedenza per ogni matrice. Microsoft Audio Stack richiede un altro flusso di riferimento di riproduzione audio per eseguire l'annullamento dell'eco.
Selezione del componente
I componenti del microfono devono essere selezionati per riprodurre in modo accurato un segnale privo di rumore e distorsione.
Le proprietà consigliate quando si selezionano i microfoni sono:
Parametro | Consigliato |
---|---|
SNR | >= 65 dB (segnale 1 kHz 94 dBSPL, rumore ponderato A) |
Corrispondenza ampiezza | ± 1 dB a 1 kHz |
Corrispondenza delle fasi | ± 2° a 1 kHz |
Punto di overload acustico (AOP) | >= 120 dBSPL (THD = 10%) |
Velocità in bit | Minimo a 24 bit |
Frequenza di campionamento | Minimo 16 kHz* |
Risposta frequenza | ± 3 dB, maschera mobile da 200 a 8000 Hz* |
Affidabilità | Intervallo di temperatura di archiviazione da -40°C a 70°C Intervallo di temperatura operativa da -20°C a 55°C |
*È possibile che siano necessarie frequenze di campionamento più elevate o intervalli di frequenza "più ampi" per le applicazioni VoIP (High Quality Communications)
Una buona selezione dei componenti deve essere abbinata a una buona integrazione elettroacustica per evitare di compromettere le prestazioni dei componenti utilizzati. I casi d'uso univoci possono anche richiedere più requisiti, ad esempio intervalli di temperatura operativa.
Integrazione della matrice di microfoni
Le prestazioni della matrice di microfoni quando integrate in un dispositivo differiscono dalla specifica del componente. È importante assicurarsi che i microfoni siano ben abbinati dopo l'integrazione. Di conseguenza, le prestazioni del dispositivo misurate dopo qualsiasi guadagno fisso o EQ devono soddisfare le raccomandazioni seguenti:
Parametro | Consigliato |
---|---|
SNR | >= 64 dB (segnale a 1 kHz 94 dBSPL, rumore ponderato A) |
Riservatezza output | -26 dBFS/Pa a 1 kHz (scelta consigliata) |
Corrispondenza ampiezza | ± 2 dB, 200-8000 Hz |
THD%* | ≤ 1%, 200-8000 Hz, 94 dBSPL |
Risposta frequenza | ± maschera mobile a 6 dB, 200-12000 Hz** |
**Un altoparlante a bassa distorsione è necessario per misurare il THD (ad esempio, Neumann KH120)
**Potrebbero essere necessari intervalli di frequenza "più ampi" per le applicazioni VoIP (High Quality Communications)
Raccomandazioni per l'integrazione dell’altoparlante
Poiché per i dispositivi di riconoscimento vocale che contengono degli altoparlanti è necessario l'annullamento dell'eco, vengono forniti altri suggerimenti per la selezione e l'integrazione dell'altoparlante.
Parametro | Consigliato |
---|---|
Considerazioni sulla linearità | Nessuna elaborazione non lineare dopo il riferimento all'altoparlante; in caso contrario, è necessario un flusso di riferimento loopback basato su hardware |
Loopback voce | Fornito tramite WASAPI, API private, plug-in ALSA personalizzato (Linux) o fornito tramite canale firmware |
THD% | Bande di terzo d'ottava minimo quinto ordine, 70 dBA Riproduzione a 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz |
Accoppiamento echo ai microfoni | > -10 dB TCLw utilizzando il metodo ITU-T G.122 Allegato B.4, normalizzato a livello di microfono TCLw = TCLwmeasured + (livello misurato - sensibilità di output di destinazione) TCLw = TCLwmeasured + (livello misurato - (-26)) |
Architettura della progettazione dell'integrazione
Quando si integrano i microfoni in un dispositivo, sono necessarie le linee guida seguenti per l'architettura:
Parametro | Elemento consigliato |
---|---|
Somiglianza delle porte del microfono | Tutte le porte del microfono hanno la stessa lunghezza nella matrice |
Dimensioni porta Mic | Dimensioni porta Ø0,8-1,0 mm. Lunghezza porta/Diametro porta< 2 |
Tenuta del microfono | Guarnizioni di tenuta implementate in modo uniforme nello stack-up. Consigliare un rapporto di compressione al 70% > per le guarnizioni di schiuma |
Affidabilità del microfono | Per evitare l'ingresso di polvere e di materiale (tra il PCB per i microfoni con porta inferiore e la guarnizione di tenuta/il coperchio superiore), è necessario utilizzare un mesh |
Isolamento del microfono | Bare di gomma e disaccoppiamento delle vibrazioni attraverso la struttura, in particolare per isolare i percorsi di vibrazione a causa di altoparlanti integrati |
Clock di campionamento | L'audio del dispositivo deve essere privo di jitter e drop-out con bassa deriva |
Funzionalità di record | Il dispositivo deve essere in grado di registrare i singoli flussi non elaborati del canale contemporaneamente |
USB | Tutti i dispositivi di input audio USB devono impostare i descrittori in base alla specifica di dispositivi audio USB Rev3 |
Geometria microfono | I driver devono implementare correttamente i descrittori geometry della matrice di microfoni |
Individuabilità | I dispositivi non devono presentare algoritmi di elaborazione audio non lineari non rilevabili o non controllabili a livello di hardware, firmware o software di terze parti da e verso il dispositivo |
Formato acquisizione | I formati di acquisizione devono usare una frequenza di campionamento minima di 16 kHz e una profondità a 24 bit consigliata |
Considerazioni sull'architettura elettrica
Se applicabile, le matrici possono essere connesse a un host USB (ad esempio un SoC che esegue Microsoft Audio Stack (MAS)) e interfacce ai servizi Voce o ad altre applicazioni.
I componenti hardware, ad esempio la conversione da PDM a TDM, devono garantire che l'intervallo dinamico e l'SNR dei microfoni vengano mantenuti all'interno dei re-sampler.
La classe audio USB ad alta velocità 2.0 deve essere supportata all'interno di qualsiasi MCU audio per fornire la larghezza di banda necessaria per un massimo di sette canali a frequenze di campionamento e profondità di bit più elevate.