Doporučení pro mikrofonní pole
V tomto článku se dozvíte, jak navrhnout pole mikrofonu přizpůsobené pro použití se sadou Speech SDK. To je nejdůležitější, pokud vybíráte, zadáváte nebo vytváříte hardware pro řešení pro řeč.
Sada Speech SDK funguje nejlépe s mikrofonem navrženým podle těchto pokynů, včetně geometrie mikrofonu, výběru součástí a architektury.
Geometrie mikrofonu
Pro použití se sadou Microsoft Audio Stack se doporučují následující geometrie polí. Umístění zdrojů zvuku a odmítnutí okolního šumu je vylepšeno s větším počtem mikrofonů se závislostmi na konkrétních aplikacích, scénářích uživatelů a faktoru tvaru zařízení.
Pole | Mikrofony | Geometrie |
---|---|---|
Kruhové - 7 mikrofonů | 6 vnější, 1 střed, poloměr = 42,5 mm, rovnoměrně rozložený | |
Kruhové - 4 mikrofony | 3 vnější, 1 střed, poloměr = 42,5 mm, rovnoměrně rozložený | |
Lineární - 4 mikrofony | Délka = 120 mm, mezera = 40 mm | |
Lineární - 2 mikrofony | Mezery = 40 mm |
Kanály mikrofonu by měly být seřazeny vzestupně od 0 podle číslování, které bylo popsáno dříve pro každé pole. Microsoft Audio Stack vyžaduje další referenční stream přehrávání zvuku k provedení zrušení ozvěny.
Výběr součásti
Součásti mikrofonu by měly být vybrány tak, aby přesně reprodukovaly signál bez šumu a zkreslení.
Doporučené vlastnosti při výběru mikrofonů:
Parametr | Doporučené |
---|---|
SNR | >= 65 dB (1 kHz signál 94 dBSPL, šum s hmotností A) |
Porovnávání amplitud | ± 1 dB @ 1 kHz |
Párování fází | ± 2° @ 1 kHz |
Bod akustického přetížení (AOP) | >= 120 dBSPL (THD = 10 %) |
Přenosová rychlost | Minimálně 24bitová verze |
Vzorkovací frekvence | Minimálně 16 kHz* |
Frekvenční odezva | ± 3 dB, 200-8000 Hz plovoucí maska* |
Spolehlivost | Rozsah teploty úložiště -40°C až 70°C Rozsah provozní teploty -20°C až 55°C |
*Vyšší vzorkovací frekvence nebo "širší" rozsahy četnosti mohou být nezbytné pro aplikace s vysokou kvalitou komunikace (VoIP).
Aby nedošlo k narušení výkonu použitých součástí, musí být kvalitní výběr součástí spárován s dobrou elektroakustickou integrací. Jedinečné případy použití také můžou vyžadovat další požadavky (například rozsahy provozních teplot).
Integrace mikrofonního pole
Výkon pole mikrofonu při integraci do zařízení se liší od specifikace komponenty. Je důležité zajistit, aby se mikrofony po integraci dobře shodovaly. Proto by výkon zařízení měřený po jakémkoli pevném získání nebo EQ měl splňovat následující doporučení:
Parametr | Doporučené |
---|---|
SNR | >= 64 dB (1 kHz signál 94 dBSPL, šum s hmotností A) |
Citlivost výstupu | -26 dBFS/Pa @ 1 kHz (doporučeno) |
Porovnávání amplitud | ± 2 dB, 200-8000 Hz |
THD%* | ≤ 1 %, 200–8000 Hz, 94 dBSPL |
Frekvenční odezva | ± 6 dB, 200–12000 Hz plovoucí maska** |
**K měření THD (například Neumann KH120) se vyžaduje nízká deformace reproduktoru.
**"Širší" rozsahy frekvencí můžou být nezbytné pro aplikace VoIP (High-Quality Communications)
Doporučení pro integraci mluvčího
Vzhledem k tomu, že zrušení ozvěny je nezbytné pro zařízení pro rozpoznávání řeči, která obsahují reproduktory, jsou k dispozici další doporučení pro výběr a integraci mluvčího.
Parametr | Doporučené |
---|---|
Aspekty linearity | Žádné nelineární zpracování po referenci mluvčího, jinak se vyžaduje hardwarový odkazový stream zpětné smyčky. |
Zpětná smyčka reproduktoru | Poskytuje se prostřednictvím WASAPI, privátních rozhraní API, vlastních modulů plug-in ALSA (Linux) nebo prostřednictvím kanálu firmwaru. |
THD % | Třetí osmičkové pásma minimální páté pořadí, přehrávání 70 dBA @ 0,8 m ≤ 6,3 %, 315–500 Hz ≤ 5 %, 630–5000 Hz |
Párování ozvěny s mikrofony | > -10 dB TCLw s použitím metody ITU-T G.122 přílohy B.4 normalizované na úroveň mikrofonu TCLw = TCLwmeasured + (měřená úroveň - citlivost cílového výstupu) TCLw = TCLwmeasured + (měřená úroveň - (-26)) |
Architektura návrhu integrace
Při integraci mikrofonů do zařízení jsou nezbytné následující pokyny pro architekturu:
Parametr | Doporučení |
---|---|
Podobnost portů mikrofonu | Všechny porty mikrofonu mají stejnou délku v poli. |
Rozměry portů mikrofonu | Velikost portu Ø0,8-1,0 mm. Délka portu / průměr < portu 2 |
Těsnění mikrofonu | Těsnicí těsnění rovnoměrně implementované v zásobníku. Doporučte > 70% poměr komprese pro pěnové těsnění |
Spolehlivost mikrofonu | Síť by měla být použita k prevenci prachu a příchozího přenosu dat (mezi PCB pro spodní portované mikrofony a těsnicí těsnění/ horní kryt) |
Izolace mikrofonu | Gumové těsnění a kmitání oddělující strukturu, zejména pro izolování jakýchkoli cest kmitání kvůli integrovaným reproduktorům |
Vzorkování hodin | Zvuk zařízení musí být bez zpoždění a odkládacích zařízení s nízkým posunem. |
Funkce záznamu | Zařízení musí být schopné současně zaznamenávat nezpracované datové proudy jednotlivých kanálů. |
USB | Všechna vstupní zařízení USB zvuku musí nastavit deskriptory podle specifikace USB Audio Devices Rev3 |
Geometrie mikrofonu | Ovladače musí správně implementovat popisovače geometrie pole mikrofonu. |
Zjistitelnost | Zařízení nesmí obsahovat žádné nekontrolovatelné nebo nekontrolovatelné hardwarové, firmware nebo softwarové algoritmy pro nelineární zpracování zvuku třetích stran do/ze zařízení. |
Formát zachycení | Formáty zachytávání musí používat minimální vzorkovací frekvenci 16 kHz a doporučenou 24bitovou hloubku. |
Aspekty elektrické architektury
Pokud je to možné, můžou být pole připojená k hostiteli USB (například SoC, na kterém běží Microsoft Audio Stack (MAS)) a rozhraní pro služby Speech nebo jiné aplikace.
Hardwarové komponenty, jako je převod PDM-to-TDM, by měly zajistit zachování dynamického rozsahu a SNR mikrofonů v rámci re-samplerů.
Vysokorychlostní USB Audio Třída 2.0 by měla být podporována v rámci všech zvukových MCU, aby byla zajištěna potřebná šířka pásma až pro sedm kanálů s vyššími vzorkovacími rychlostmi a hloubkami bitů.