Delen via


Aanbeveling voor microfoonmatrix

In dit artikel leert u hoe u een microfoonmatrix ontwerpt die is aangepast voor gebruik met de Speech SDK. Dit is het meest relevant als u hardware voor spraakoplossingen selecteert, opgeeft of bouwt.

De Speech SDK werkt het beste met een microfoonmatrix die is ontworpen volgens deze richtlijnen, waaronder de geometrie van de microfoon, de selectie van onderdelen en de architectuur.

Microfoongeometrie

De volgende matrixgeometrieën worden aanbevolen voor gebruik met de Microsoft Audio Stack. De locatie van geluidsbronnen en afwijzing van omgevingsruis wordt verbeterd met een groter aantal microfoons met afhankelijkheden van specifieke toepassingen, gebruikersscenario's en de vormfactor van het apparaat.

Matrix Microfoon Geometrie
Cirkelvormig - 7 microfoons 7 microfoonkringmatrix 6 Buiten, 1 Midden, Radius = 42,5 mm, Gelijkmatig verdeeld
Cirkelvormig - 4 microfoons 4 microfoonkringmatrix 3 Buiten, 1 Midden, Radius = 42,5 mm, Gelijkmatig verdeeld
Lineair - 4 microfoons 4 microfoon lineaire matrix Lengte = 120 mm, afstand = 40 mm
Lineair - 2 microfoons 2 microfoon lineaire matrix Afstand = 40 mm

Microfoonkanalen moeten oplopend van 0 worden geordend volgens de nummering die eerder is beschreven voor elke matrix. De Microsoft Audio Stack vereist een andere verwijzingsstroom voor het afspelen van audio om echo-annulering uit te voeren.

Onderdeelselectie

Microfoononderdelen moeten worden geselecteerd om een signaalvrij en vervorming nauwkeurig te reproduceren.

De aanbevolen eigenschappen bij het selecteren van microfoons zijn:

Parameter Aanbevolen
SNR >= 65 dB (1 kHz signaal 94 dBSPL, A-gewogen ruis)
Amplitudekoppeling ± 1 dB @ 1 kHz
Fasekoppeling ± 2° @ 1 kHz
Akoestisch overbelastingspunt (AOP) >= 120 dBSPL (THD = 10%)
Bitsnelheid Minimaal 24-bits
Samplefrequentie Minimaal 16 kHz*
Frequentiebereik ± 3 dB, 200-8000 Hz zwevend masker*
Betrouwbaarheid Opslagtemperatuurbereik -40°C tot 70°C
Bedrijfstemperatuurbereik -20°C tot 55°C

*Hogere samplingfrequenties of 'bredere' frequentiebereiken zijn mogelijk nodig voor VoIP-toepassingen (High Quality Communications)

Goede componentselectie moet worden gekoppeld aan een goede elektroacoustische integratie om te voorkomen dat de prestaties van de gebruikte onderdelen worden verminderd. Unieke gebruiksvoorbeelden vereisen mogelijk ook meer vereisten (zoals bedrijfstemperatuurbereiken).

Integratie van microfoonmatrix

De prestaties van de microfoonmatrix bij integratie in een apparaat verschillen van de specificatie van het onderdeel. Het is belangrijk om ervoor te zorgen dat de microfoons goed overeenkomen na de integratie. Daarom moeten de apparaatprestaties die worden gemeten na een vaste toename of EQ, voldoen aan de volgende aanbevelingen:

Parameter Aanbevolen
SNR >= 64 dB (1 kHz signaal 94 dBSPL, A-gewogen ruis)
Uitvoergevoeligheid -26 dBFS/Pa @ 1 kHz (aanbevolen)
Amplitudekoppeling ± 2 dB, 200-8000 Hz
THD%* ≤ 1%, 200-8000 Hz, 94 dBSPL
Frequentiebereik ± 6 dB, 200-12000 Hz zwevend masker**

**Een luidspreker met lage vervorming is vereist om THD te meten (bijvoorbeeld Neumann KH120)

**"Bredere" frequentiebereiken zijn mogelijk nodig voor VoIP-toepassingen (High Quality Communications)

Aanbevelingen voor sprekerintegratie

Omdat echoannulering nodig is voor spraakherkenningsapparaten die luidsprekers bevatten, worden er meer aanbevelingen gedaan voor sprekerselectie en -integratie.

Parameter Aanbevolen
Overwegingen voor lineariteit Geen niet-lineaire verwerking na sprekerverwijzing, anders is een op hardware gebaseerde loopback-referentiestroom vereist
Speaker Loopback Geleverd via WASAPI, privé-API's, aangepaste ALSA-invoegtoepassing (Linux) of geleverd via firmwarekanaal
THD% Derde octave banden minimum vijfde order, 70 dBA Afspelen @ 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz
Echokoppeling naar microfoons > -10 dB TCLw met behulp van de methode ITU-T G.122, bijlage B.4, genormaliseerd tot microfoonniveau
TCLw = TCLwmeasured + (gemeten niveau - Gevoeligheid van doeluitvoer)
TCLw = TCLwmeasured + (gemeten niveau - (-26))

Architectuur voor integratieontwerp

De volgende richtlijnen voor architectuur zijn nodig bij het integreren van microfoons in een apparaat:

Parameter Aanbeveling
Overeenkomst met microfoonpoort Alle microfoonpoorten hebben dezelfde lengte in matrix
Microfoonpoortdimensies Poortgrootte Ø0.8-1,0 mm. Poortlengte / poortdiameter < 2
Microfoonafdichting Het afdichten van pakkingen is uniform geïmplementeerd in stack-up. > Compressieverhouding van 70% voor schuimpaketten aanbevelen
Betrouwbaarheid van microfoon Mesh moet worden gebruikt om stof en inkomend verkeer te voorkomen (tussen PCB voor onderpoortmicrofoons en afdichting van gasket/bovendeksel)
Microfoonisolatie Rubber gaskets en trillingen ontkoppelen door structuur, met name voor het isoleren van trillingenpaden door geïntegreerde luidsprekers
Steekproefklok Apparaataudio moet vrij zijn van jitter en vervolgkeuzelijsten met lage drift
Recordmogelijkheid Het apparaat moet onbewerkte streams van afzonderlijke kanalen tegelijk kunnen opnemen
USB Alle USB-audio-invoerapparaten moeten descriptors instellen volgens de USB-audioapparaten Rev3 Spec
Microfoongeometrie Stuurprogramma's moeten microfoonmatrixgeometriedescriptors correct implementeren
Vindbaarheid Apparaten mogen geen onontdekbare of onbeheerbare hardware, firmware of softwaregebaseerde niet-lineaire audioverwerkingsalgoritmen van/naar het apparaat hebben
Indeling vastleggen Capture-indelingen moeten een minimale steekproefsnelheid van 16 kHz en aanbevolen 24-bits diepte gebruiken

Overwegingen voor elektrische architectuur

Waar van toepassing kunnen matrices worden verbonden met een USB-host (zoals een SoC waarop de Microsoft Audio Stack (MAS) wordt uitgevoerd en interfaces met Spraakservices of andere toepassingen.

Hardwareonderdelen zoals PDM-naar-TDM-conversie moeten ervoor zorgen dat het dynamische bereik en de SNR van de microfoons binnen re-samplers behouden blijven.

Usb-audioklasse 2.0 met hoge snelheid moet worden ondersteund binnen audio-MCU's om de benodigde bandbreedte te bieden voor maximaal zeven kanalen met hogere samplesnelheden en bitdiepten.

Volgende stappen