Doporučení pro mikrofonní pole

Článek
10/16/2024

V tomto článku se dozvíte, jak navrhnout pole mikrofonu přizpůsobené pro použití se sadou Speech SDK. To je nejdůležitější, pokud vybíráte, zadáváte nebo vytváříte hardware pro řešení pro řeč.

Sada Speech SDK funguje nejlépe s mikrofonem navrženým podle těchto pokynů, včetně geometrie mikrofonu, výběru součástí a architektury.

Geometrie mikrofonu

Pro použití se sadou Microsoft Audio Stack se doporučují následující geometrie polí. Umístění zdrojů zvuku a odmítnutí okolního šumu je vylepšeno s větším počtem mikrofonů se závislostmi na konkrétních aplikacích, scénářích uživatelů a faktoru tvaru zařízení.

Pole	Mikrofony	Geometrie
Kruhové - 7 mikrofonů		6 vnější, 1 střed, poloměr = 42,5 mm, rovnoměrně rozložený
Kruhové - 4 mikrofony		3 vnější, 1 střed, poloměr = 42,5 mm, rovnoměrně rozložený
Lineární - 4 mikrofony		Délka = 120 mm, mezera = 40 mm
Lineární - 2 mikrofony		Mezery = 40 mm

Kanály mikrofonu by měly být seřazeny vzestupně od 0 podle číslování, které bylo popsáno dříve pro každé pole. Microsoft Audio Stack vyžaduje další referenční stream přehrávání zvuku k provedení zrušení ozvěny.

Výběr součásti

Součásti mikrofonu by měly být vybrány tak, aby přesně reprodukovaly signál bez šumu a zkreslení.

Doporučené vlastnosti při výběru mikrofonů:

Parametr	Doporučené
SNR	>= 65 dB (1 kHz signál 94 dBSPL, šum s hmotností A)
Porovnávání amplitud	± 1 dB @ 1 kHz
Párování fází	± 2° @ 1 kHz
Bod akustického přetížení (AOP)	>= 120 dBSPL (THD = 10 %)
Přenosová rychlost	Minimálně 24bitová verze
Vzorkovací frekvence	Minimálně 16 kHz*
Frekvenční odezva	± 3 dB, 200-8000 Hz plovoucí maska*
Spolehlivost	Rozsah teploty úložiště -40°C až 70°C Rozsah provozní teploty -20°C až 55°C

*Vyšší vzorkovací frekvence nebo "širší" rozsahy četnosti mohou být nezbytné pro aplikace s vysokou kvalitou komunikace (VoIP).

Aby nedošlo k narušení výkonu použitých součástí, musí být kvalitní výběr součástí spárován s dobrou elektroakustickou integrací. Jedinečné případy použití také můžou vyžadovat další požadavky (například rozsahy provozních teplot).

Integrace mikrofonního pole

Výkon pole mikrofonu při integraci do zařízení se liší od specifikace komponenty. Je důležité zajistit, aby se mikrofony po integraci dobře shodovaly. Proto by výkon zařízení měřený po jakémkoli pevném získání nebo EQ měl splňovat následující doporučení:

Parametr	Doporučené
SNR	>= 64 dB (1 kHz signál 94 dBSPL, šum s hmotností A)
Citlivost výstupu	-26 dBFS/Pa @ 1 kHz (doporučeno)
Porovnávání amplitud	± 2 dB, 200-8000 Hz
THD%*	≤ 1 %, 200–8000 Hz, 94 dBSPL
Frekvenční odezva	± 6 dB, 200–12000 Hz plovoucí maska**

**K měření THD (například Neumann KH120) se vyžaduje nízká deformace reproduktoru.

**"Širší" rozsahy frekvencí můžou být nezbytné pro aplikace VoIP (High-Quality Communications)

Doporučení pro integraci mluvčího

Vzhledem k tomu, že zrušení ozvěny je nezbytné pro zařízení pro rozpoznávání řeči, která obsahují reproduktory, jsou k dispozici další doporučení pro výběr a integraci mluvčího.

Parametr	Doporučené
Aspekty linearity	Žádné nelineární zpracování po referenci mluvčího, jinak se vyžaduje hardwarový odkazový stream zpětné smyčky.
Zpětná smyčka reproduktoru	Poskytuje se prostřednictvím WASAPI, privátních rozhraní API, vlastních modulů plug-in ALSA (Linux) nebo prostřednictvím kanálu firmwaru.
THD %	Třetí osmičkové pásma minimální páté pořadí, přehrávání 70 dBA @ 0,8 m ≤ 6,3 %, 315–500 Hz ≤ 5 %, 630–5000 Hz
Párování ozvěny s mikrofony	> -10 dB TCLw s použitím metody ITU-T G.122 přílohy B.4 normalizované na úroveň mikrofonu TCLw = TCLwmeasured + (měřená úroveň - citlivost cílového výstupu) TCLw = TCLwmeasured + (měřená úroveň - (-26))

Architektura návrhu integrace

Při integraci mikrofonů do zařízení jsou nezbytné následující pokyny pro architekturu:

Parametr	Doporučení
Podobnost portů mikrofonu	Všechny porty mikrofonu mají stejnou délku v poli.
Rozměry portů mikrofonu	Velikost portu Ø0,8-1,0 mm. Délka portu / průměr < portu 2
Těsnění mikrofonu	Těsnicí těsnění rovnoměrně implementované v zásobníku. Doporučte > 70% poměr komprese pro pěnové těsnění
Spolehlivost mikrofonu	Síť by měla být použita k prevenci prachu a příchozího přenosu dat (mezi PCB pro spodní portované mikrofony a těsnicí těsnění/ horní kryt)
Izolace mikrofonu	Gumové těsnění a kmitání oddělující strukturu, zejména pro izolování jakýchkoli cest kmitání kvůli integrovaným reproduktorům
Vzorkování hodin	Zvuk zařízení musí být bez zpoždění a odkládacích zařízení s nízkým posunem.
Funkce záznamu	Zařízení musí být schopné současně zaznamenávat nezpracované datové proudy jednotlivých kanálů.
USB	Všechna vstupní zařízení USB zvuku musí nastavit deskriptory podle specifikace USB Audio Devices Rev3
Geometrie mikrofonu	Ovladače musí správně implementovat popisovače geometrie pole mikrofonu.
Zjistitelnost	Zařízení nesmí obsahovat žádné nekontrolovatelné nebo nekontrolovatelné hardwarové, firmware nebo softwarové algoritmy pro nelineární zpracování zvuku třetích stran do/ze zařízení.
Formát zachycení	Formáty zachytávání musí používat minimální vzorkovací frekvenci 16 kHz a doporučenou 24bitovou hloubku.

Aspekty elektrické architektury

Pokud je to možné, můžou být pole připojená k hostiteli USB (například SoC, na kterém běží Microsoft Audio Stack (MAS)) a rozhraní pro služby Speech nebo jiné aplikace.

Hardwarové komponenty, jako je převod PDM-to-TDM, by měly zajistit zachování dynamického rozsahu a SNR mikrofonů v rámci re-samplerů.

Vysokorychlostní USB Audio Třída 2.0 by měla být podporována v rámci všech zvukových MCU, aby byla zajištěna potřebná šířka pásma až pro sedm kanálů s vyššími vzorkovacími rychlostmi a hloubkami bitů.

Další kroky

Další informace o zpracování zvuku

Sdílet prostřednictvím