Mikrofonmatrisrekommendationer

Artikel
09/24/2024

I den här artikeln får du lära dig hur du utformar en mikrofonmatris som är anpassad för användning med Speech SDK. Detta är mest relevant om du väljer, anger eller skapar maskinvara för tallösningar.

Speech SDK fungerar bäst med en mikrofonmatris som utformats enligt dessa riktlinjer, inklusive mikrofongeometri, komponentval och arkitektur.

Mikrofongeometri

Följande matrisgeometrier rekommenderas för användning med Microsoft Audio Stack. Platsen för ljudkällor och avvisandet av omgivande brus förbättras med ett större antal mikrofoner med beroenden för specifika program, användarscenarier och enhetens formfaktor.

Matris	Mikrofoner	Geometri
Cirkulär - 7 mikrofoner		6 yttre, 1 mitt, radie = 42,5 mm, jämnt fördelat
Cirkulär – 4 mikrofoner		3 Yttre, 1 mitt, Radie = 42,5 mm, jämnt fördelat
Linjär – 4 mikrofoner		Längd = 120 mm, avstånd = 40 mm
Linjär – 2 mikrofoner		Avstånd = 40 mm

Mikrofonkanaler ska sorteras stigande från 0, enligt numreringen som tidigare beskrivits för varje matris. Microsoft Audio Stack kräver en annan referensström av ljuduppspelning för att utföra ekoreducering.

Komponentval

Mikrofonkomponenter ska väljas för att korrekt återge en signal fri från brus och förvrängning.

De rekommenderade egenskaperna när du väljer mikrofoner är:

Parameter	Rekommenderat
SNR	>= 65 dB (1 kHz signal 94 dBSPL, A-viktat brus)
Amplitudmatchning	± 1 dB @ 1 kHz
Fasmatchning	± 2° @ 1 kHz
AOP (Acoustic Overload Point)	>= 120 dBSPL (THD = 10%)
Bithastighet	Minst 24 bitar
Samplingsfrekvens	Minst 16 kHz*
Frekvensomfång	± 3 dB, 200-8000 Hz flytande mask*
Tillförlitlighet	Lagringstemperaturintervall -40°C till 70°C Drifttemperaturintervall -20°C till 55°C

*Högre samplingsfrekvenser eller "bredare" frekvensintervall kan vara nödvändiga för voIP-program (högkvalitativ kommunikation)

Bra komponentval måste kombineras med god elektroakustisk integrering för att undvika att försämra prestandan för de komponenter som används. Unika användningsfall kan också kräva fler krav (till exempel drifttemperaturintervall).

Integrering av mikrofonmatris

Prestandan för mikrofonmatrisen när den är integrerad i en enhet skiljer sig från komponentspecifikationen. Det är viktigt att se till att mikrofonerna är väl matchade efter integreringen. Därför bör den enhetsprestanda som mäts efter en fast vinst eller EQ uppfylla följande rekommendationer:

Parameter	Rekommenderat
SNR	>= 64 dB (1 kHz signal 94 dBSPL, A-viktat brus)
Utdatakänslighet	-26 dBFS/Pa @ 1 kHz (rekommenderas)
Amplitudmatchning	± 2 dB, 200-8000 Hz
THD%*	≤ 1%, 200-8000 Hz, 94 dBSPL
Frekvensomfång	± 6 dB, 200-12000 Hz flytande mask**

**En högtalare med låg förvrängning krävs för att mäta THD (till exempel Neumann KH120)

**"Bredare" frekvensintervall kan vara nödvändiga för voIP-program (högkvalitativ kommunikation)

Rekommendationer för talarintegrering

Eftersom ekoreducering krävs för taligenkänningsenheter som innehåller talare ges fler rekommendationer för talarval och integrering.

Parameter	Rekommenderat
Överväganden för linjäritet	Ingen icke-linjär bearbetning efter talarreferens, annars krävs en maskinvarubaserad loopback-referensström
Loopback för högtalare	Tillhandahålls via WASAPI, privata API:er, anpassat ALSA-plugin-program (Linux) eller tillhandahålls via kanalen för inbyggd programvara
THD%	Third Octave Bands minimum fifth Order, 70 dBA Playback @ 0.8 m ≤ 6.3%, 315-500 Hz ≤ 5%, 630-5000 Hz
Ekokoppling till mikrofoner	> -10 dB TCLw med hjälp av ITU-T G.122 Bilaga B.4-metod, normaliserad till mikrofonnivå TCLw = TCLwmeasured + (Uppmätt nivå – Målutdatakänslighet) TCLw = TCLwmeasured + (Uppmätt nivå - (-26))

Arkitektur för integrationsdesign

Följande riktlinjer för arkitektur är nödvändiga när du integrerar mikrofoner i en enhet:

Parameter	Rekommendation
Mic-portlikhet	Alla mikrofonportar är lika långa i matrisen
Portdimensioner för mikrofon	Portstorlek Ø0.8-1.0 mm. Portlängd/portdiameter < 2
Mic Sealing	Tätningspackningar som är enhetligt implementerade i stack-up. Rekommendera > 70 % komprimeringsförhållande för skumpackningar
Mikrofontillförlitlighet	Nät bör användas för att förhindra damm och ingress (mellan PCB för nedre portade mikrofoner och tätningspackning/topplock)
Mikrofonisolering	Gummipackningar och vibrationskoppling genom struktur, särskilt för isolerande vibrationsvägar på grund av integrerade högtalare
Samplingsklocka	Enhetens ljud måste vara fritt från jitter och drop-outs med låg drift
Postkapacitet	Enheten måste kunna registrera enskilda kanalrådataströmmar samtidigt
USB	Alla USB-ljudindataenheter måste ange deskriptorer enligt USB-ljudenheter Rev3 Spec
Mikrofongeometri	Drivrutiner måste implementera geometribeskrivningar för mikrofonmatris korrekt
Upptäckbarhet	Enheter får inte ha någon oupptäckt eller okontrollerbar maskinvara, inbyggd programvara eller programvarubaserade icke-linjära ljudbearbetningsalgoritmer från tredje part till/från enheten
Avbildningsformat	Avbildningsformat måste använda en minsta samplingshastighet på 16 kHz och rekommenderat 24-bitars djup

Överväganden för elektrisk arkitektur

I tillämpliga fall kan matriser anslutas till en USB-värd (till exempel en SoC som kör Microsoft Audio Stack (MAS)) och gränssnitt till Speech-tjänster eller andra program.

Maskinvarukomponenter som PDM-till-TDM-konvertering bör se till att mikrofonernas dynamiska omfång och SNR bevaras i omexempel.

Höghastighets-USB Audio Class 2.0 bör stödjas inom alla ljud-MCU:er för att tillhandahålla den bandbredd som krävs för upp till sju kanaler med högre urvalshastigheter och bitdjup.

Nästa steg

Läs mer om ljudbearbetning

Dela via