Mikrofonmatrisrekommendationer
I den här artikeln får du lära dig hur du utformar en mikrofonmatris som är anpassad för användning med Speech SDK. Detta är mest relevant om du väljer, anger eller skapar maskinvara för tallösningar.
Speech SDK fungerar bäst med en mikrofonmatris som utformats enligt dessa riktlinjer, inklusive mikrofongeometri, komponentval och arkitektur.
Mikrofongeometri
Följande matrisgeometrier rekommenderas för användning med Microsoft Audio Stack. Platsen för ljudkällor och avvisandet av omgivande brus förbättras med ett större antal mikrofoner med beroenden för specifika program, användarscenarier och enhetens formfaktor.
Matris | Mikrofoner | Geometri |
---|---|---|
Cirkulär - 7 mikrofoner | 6 yttre, 1 mitt, radie = 42,5 mm, jämnt fördelat | |
Cirkulär – 4 mikrofoner | 3 Yttre, 1 mitt, Radie = 42,5 mm, jämnt fördelat | |
Linjär – 4 mikrofoner | Längd = 120 mm, avstånd = 40 mm | |
Linjär – 2 mikrofoner | Avstånd = 40 mm |
Mikrofonkanaler ska sorteras stigande från 0, enligt numreringen som tidigare beskrivits för varje matris. Microsoft Audio Stack kräver en annan referensström av ljuduppspelning för att utföra ekoreducering.
Komponentval
Mikrofonkomponenter ska väljas för att korrekt återge en signal fri från brus och förvrängning.
De rekommenderade egenskaperna när du väljer mikrofoner är:
Parameter | Rekommenderat |
---|---|
SNR | >= 65 dB (1 kHz signal 94 dBSPL, A-viktat brus) |
Amplitudmatchning | ± 1 dB @ 1 kHz |
Fasmatchning | ± 2° @ 1 kHz |
AOP (Acoustic Overload Point) | >= 120 dBSPL (THD = 10%) |
Bithastighet | Minst 24 bitar |
Samplingsfrekvens | Minst 16 kHz* |
Frekvensomfång | ± 3 dB, 200-8000 Hz flytande mask* |
Tillförlitlighet | Lagringstemperaturintervall -40°C till 70°C Drifttemperaturintervall -20°C till 55°C |
*Högre samplingsfrekvenser eller "bredare" frekvensintervall kan vara nödvändiga för voIP-program (högkvalitativ kommunikation)
Bra komponentval måste kombineras med god elektroakustisk integrering för att undvika att försämra prestandan för de komponenter som används. Unika användningsfall kan också kräva fler krav (till exempel drifttemperaturintervall).
Integrering av mikrofonmatris
Prestandan för mikrofonmatrisen när den är integrerad i en enhet skiljer sig från komponentspecifikationen. Det är viktigt att se till att mikrofonerna är väl matchade efter integreringen. Därför bör den enhetsprestanda som mäts efter en fast vinst eller EQ uppfylla följande rekommendationer:
Parameter | Rekommenderat |
---|---|
SNR | >= 64 dB (1 kHz signal 94 dBSPL, A-viktat brus) |
Utdatakänslighet | -26 dBFS/Pa @ 1 kHz (rekommenderas) |
Amplitudmatchning | ± 2 dB, 200-8000 Hz |
THD%* | ≤ 1%, 200-8000 Hz, 94 dBSPL |
Frekvensomfång | ± 6 dB, 200-12000 Hz flytande mask** |
**En högtalare med låg förvrängning krävs för att mäta THD (till exempel Neumann KH120)
**"Bredare" frekvensintervall kan vara nödvändiga för voIP-program (högkvalitativ kommunikation)
Rekommendationer för talarintegrering
Eftersom ekoreducering krävs för taligenkänningsenheter som innehåller talare ges fler rekommendationer för talarval och integrering.
Parameter | Rekommenderat |
---|---|
Överväganden för linjäritet | Ingen icke-linjär bearbetning efter talarreferens, annars krävs en maskinvarubaserad loopback-referensström |
Loopback för högtalare | Tillhandahålls via WASAPI, privata API:er, anpassat ALSA-plugin-program (Linux) eller tillhandahålls via kanalen för inbyggd programvara |
THD% | Third Octave Bands minimum fifth Order, 70 dBA Playback @ 0.8 m ≤ 6.3%, 315-500 Hz ≤ 5%, 630-5000 Hz |
Ekokoppling till mikrofoner | > -10 dB TCLw med hjälp av ITU-T G.122 Bilaga B.4-metod, normaliserad till mikrofonnivå TCLw = TCLwmeasured + (Uppmätt nivå – Målutdatakänslighet) TCLw = TCLwmeasured + (Uppmätt nivå - (-26)) |
Arkitektur för integrationsdesign
Följande riktlinjer för arkitektur är nödvändiga när du integrerar mikrofoner i en enhet:
Parameter | Rekommendation |
---|---|
Mic-portlikhet | Alla mikrofonportar är lika långa i matrisen |
Portdimensioner för mikrofon | Portstorlek Ø0.8-1.0 mm. Portlängd/portdiameter < 2 |
Mic Sealing | Tätningspackningar som är enhetligt implementerade i stack-up. Rekommendera > 70 % komprimeringsförhållande för skumpackningar |
Mikrofontillförlitlighet | Nät bör användas för att förhindra damm och ingress (mellan PCB för nedre portade mikrofoner och tätningspackning/topplock) |
Mikrofonisolering | Gummipackningar och vibrationskoppling genom struktur, särskilt för isolerande vibrationsvägar på grund av integrerade högtalare |
Samplingsklocka | Enhetens ljud måste vara fritt från jitter och drop-outs med låg drift |
Postkapacitet | Enheten måste kunna registrera enskilda kanalrådataströmmar samtidigt |
USB | Alla USB-ljudindataenheter måste ange deskriptorer enligt USB-ljudenheter Rev3 Spec |
Mikrofongeometri | Drivrutiner måste implementera geometribeskrivningar för mikrofonmatris korrekt |
Upptäckbarhet | Enheter får inte ha någon oupptäckt eller okontrollerbar maskinvara, inbyggd programvara eller programvarubaserade icke-linjära ljudbearbetningsalgoritmer från tredje part till/från enheten |
Avbildningsformat | Avbildningsformat måste använda en minsta samplingshastighet på 16 kHz och rekommenderat 24-bitars djup |
Överväganden för elektrisk arkitektur
I tillämpliga fall kan matriser anslutas till en USB-värd (till exempel en SoC som kör Microsoft Audio Stack (MAS)) och gränssnitt till Speech-tjänster eller andra program.
Maskinvarukomponenter som PDM-till-TDM-konvertering bör se till att mikrofonernas dynamiska omfång och SNR bevaras i omexempel.
Höghastighets-USB Audio Class 2.0 bör stödjas inom alla ljud-MCU:er för att tillhandahålla den bandbredd som krävs för upp till sju kanaler med högre urvalshastigheter och bitdjup.