Aanbeveling voor microfoonmatrix
In dit artikel leert u hoe u een microfoonmatrix ontwerpt die is aangepast voor gebruik met de Speech SDK. Dit is het meest relevant als u hardware voor spraakoplossingen selecteert, opgeeft of bouwt.
De Speech SDK werkt het beste met een microfoonmatrix die is ontworpen volgens deze richtlijnen, waaronder de geometrie van de microfoon, de selectie van onderdelen en de architectuur.
Microfoongeometrie
De volgende matrixgeometrieën worden aanbevolen voor gebruik met de Microsoft Audio Stack. De locatie van geluidsbronnen en afwijzing van omgevingsruis wordt verbeterd met een groter aantal microfoons met afhankelijkheden van specifieke toepassingen, gebruikersscenario's en de vormfactor van het apparaat.
Matrix | Microfoon | Geometrie |
---|---|---|
Cirkelvormig - 7 microfoons | 6 Buiten, 1 Midden, Radius = 42,5 mm, Gelijkmatig verdeeld | |
Cirkelvormig - 4 microfoons | 3 Buiten, 1 Midden, Radius = 42,5 mm, Gelijkmatig verdeeld | |
Lineair - 4 microfoons | Lengte = 120 mm, afstand = 40 mm | |
Lineair - 2 microfoons | Afstand = 40 mm |
Microfoonkanalen moeten oplopend van 0 worden geordend volgens de nummering die eerder is beschreven voor elke matrix. De Microsoft Audio Stack vereist een andere verwijzingsstroom voor het afspelen van audio om echo-annulering uit te voeren.
Onderdeelselectie
Microfoononderdelen moeten worden geselecteerd om een signaalvrij en vervorming nauwkeurig te reproduceren.
De aanbevolen eigenschappen bij het selecteren van microfoons zijn:
Parameter | Aanbevolen |
---|---|
SNR | >= 65 dB (1 kHz signaal 94 dBSPL, A-gewogen ruis) |
Amplitudekoppeling | ± 1 dB @ 1 kHz |
Fasekoppeling | ± 2° @ 1 kHz |
Akoestisch overbelastingspunt (AOP) | >= 120 dBSPL (THD = 10%) |
Bitsnelheid | Minimaal 24-bits |
Samplefrequentie | Minimaal 16 kHz* |
Frequentiebereik | ± 3 dB, 200-8000 Hz zwevend masker* |
Betrouwbaarheid | Opslagtemperatuurbereik -40°C tot 70°C Bedrijfstemperatuurbereik -20°C tot 55°C |
*Hogere samplingfrequenties of 'bredere' frequentiebereiken zijn mogelijk nodig voor VoIP-toepassingen (High Quality Communications)
Goede componentselectie moet worden gekoppeld aan een goede elektroacoustische integratie om te voorkomen dat de prestaties van de gebruikte onderdelen worden verminderd. Unieke gebruiksvoorbeelden vereisen mogelijk ook meer vereisten (zoals bedrijfstemperatuurbereiken).
Integratie van microfoonmatrix
De prestaties van de microfoonmatrix bij integratie in een apparaat verschillen van de specificatie van het onderdeel. Het is belangrijk om ervoor te zorgen dat de microfoons goed overeenkomen na de integratie. Daarom moeten de apparaatprestaties die worden gemeten na een vaste toename of EQ, voldoen aan de volgende aanbevelingen:
Parameter | Aanbevolen |
---|---|
SNR | >= 64 dB (1 kHz signaal 94 dBSPL, A-gewogen ruis) |
Uitvoergevoeligheid | -26 dBFS/Pa @ 1 kHz (aanbevolen) |
Amplitudekoppeling | ± 2 dB, 200-8000 Hz |
THD%* | ≤ 1%, 200-8000 Hz, 94 dBSPL |
Frequentiebereik | ± 6 dB, 200-12000 Hz zwevend masker** |
**Een luidspreker met lage vervorming is vereist om THD te meten (bijvoorbeeld Neumann KH120)
**"Bredere" frequentiebereiken zijn mogelijk nodig voor VoIP-toepassingen (High Quality Communications)
Aanbevelingen voor sprekerintegratie
Omdat echoannulering nodig is voor spraakherkenningsapparaten die luidsprekers bevatten, worden er meer aanbevelingen gedaan voor sprekerselectie en -integratie.
Parameter | Aanbevolen |
---|---|
Overwegingen voor lineariteit | Geen niet-lineaire verwerking na sprekerverwijzing, anders is een op hardware gebaseerde loopback-referentiestroom vereist |
Speaker Loopback | Geleverd via WASAPI, privé-API's, aangepaste ALSA-invoegtoepassing (Linux) of geleverd via firmwarekanaal |
THD% | Derde octave banden minimum vijfde order, 70 dBA Afspelen @ 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz |
Echokoppeling naar microfoons | > -10 dB TCLw met behulp van de methode ITU-T G.122, bijlage B.4, genormaliseerd tot microfoonniveau TCLw = TCLwmeasured + (gemeten niveau - Gevoeligheid van doeluitvoer) TCLw = TCLwmeasured + (gemeten niveau - (-26)) |
Architectuur voor integratieontwerp
De volgende richtlijnen voor architectuur zijn nodig bij het integreren van microfoons in een apparaat:
Parameter | Aanbeveling |
---|---|
Overeenkomst met microfoonpoort | Alle microfoonpoorten hebben dezelfde lengte in matrix |
Microfoonpoortdimensies | Poortgrootte Ø0.8-1,0 mm. Poortlengte / poortdiameter < 2 |
Microfoonafdichting | Het afdichten van pakkingen is uniform geïmplementeerd in stack-up. > Compressieverhouding van 70% voor schuimpaketten aanbevelen |
Betrouwbaarheid van microfoon | Mesh moet worden gebruikt om stof en inkomend verkeer te voorkomen (tussen PCB voor onderpoortmicrofoons en afdichting van gasket/bovendeksel) |
Microfoonisolatie | Rubber gaskets en trillingen ontkoppelen door structuur, met name voor het isoleren van trillingenpaden door geïntegreerde luidsprekers |
Steekproefklok | Apparaataudio moet vrij zijn van jitter en vervolgkeuzelijsten met lage drift |
Recordmogelijkheid | Het apparaat moet onbewerkte streams van afzonderlijke kanalen tegelijk kunnen opnemen |
USB | Alle USB-audio-invoerapparaten moeten descriptors instellen volgens de USB-audioapparaten Rev3 Spec |
Microfoongeometrie | Stuurprogramma's moeten microfoonmatrixgeometriedescriptors correct implementeren |
Vindbaarheid | Apparaten mogen geen onontdekbare of onbeheerbare hardware, firmware of softwaregebaseerde niet-lineaire audioverwerkingsalgoritmen van/naar het apparaat hebben |
Indeling vastleggen | Capture-indelingen moeten een minimale steekproefsnelheid van 16 kHz en aanbevolen 24-bits diepte gebruiken |
Overwegingen voor elektrische architectuur
Waar van toepassing kunnen matrices worden verbonden met een USB-host (zoals een SoC waarop de Microsoft Audio Stack (MAS) wordt uitgevoerd en interfaces met Spraakservices of andere toepassingen.
Hardwareonderdelen zoals PDM-naar-TDM-conversie moeten ervoor zorgen dat het dynamische bereik en de SNR van de microfoons binnen re-samplers behouden blijven.
Usb-audioklasse 2.0 met hoge snelheid moet worden ondersteund binnen audio-MCU's om de benodigde bandbreedte te bieden voor maximaal zeven kanalen met hogere samplesnelheden en bitdiepten.