Zalecenia dotyczące zestawu mikrofonów
Z tego artykułu dowiesz się, jak zaprojektować tablicę mikrofonów dostosowaną do użycia z zestawem SPEECH SDK. Jest to najbardziej istotne, jeśli wybierasz, określasz lub kompilujesz sprzęt dla rozwiązań mowy.
Zestaw SPEECH SDK najlepiej sprawdza się z tablicą mikrofonów zaprojektowaną zgodnie z tymi wytycznymi, w tym geometrią mikrofonu, wyborem składników i architekturą.
Geometria mikrofonu
Poniższe geometrie tablic są zalecane do użycia z usługą Microsoft Audio Stack. Lokalizacja źródeł dźwięku i odrzucanie szumu otoczenia jest ulepszona dzięki większej liczbie mikrofonów z zależnościami od określonych aplikacji, scenariuszy użytkownika i współczynnika formy urządzenia.
Tablica | Mikrofon | Geometria |
---|---|---|
Okrągły — 7 mikrofonów | 6 Zewnętrzne, 1 Środek, Promień = 42,5 mm, równomiernie rozmieszczone | |
Okrągły — 4 mikrofony | 3 Zewnętrzne, 1 Środek, Promień = 42,5 mm, równomiernie rozmieszczone | |
Liniowy — 4 mikrofony | Długość = 120 mm, odstępy = 40 mm | |
Liniowy — 2 mikrofony | Odstępy = 40 mm |
Kanały mikrofonu powinny być uporządkowane rosnąco z zakresu 0, zgodnie z numerowaniem opisanym wcześniej dla każdej tablicy. Usługa Microsoft Audio Stack wymaga innego strumienia referencyjnego odtwarzania dźwięku w celu przeprowadzenia anulowania echa.
Wybór składnika
Należy wybrać składniki mikrofonu, aby dokładnie odtworzyć sygnał wolny od szumu i zniekształceń.
Zalecane właściwości podczas wybierania mikrofonów to:
Parametr | Zalecane |
---|---|
SNR | >= 65 dB (sygnał 1 kHz 94 dBSPL, szum ważony A) |
Dopasowywanie amplitudy | ± 1 dB @ 1 kHz |
Dopasowywanie faz | ± 2° @ 1 kHz |
Punkt przeciążenia akustycznego (AOP) | >= 120 dBSPL (THD = 10%) |
Szybkość bitów | Minimalna 24-bitowa wersja |
Częstotliwość próbkowania | Minimalna 16 kHz* |
Odpowiedź z częstotliwością | ± 3 dB, 200-8000 Hz Zmiennoprzecinkowa maska* |
Niezawodność | Zakres temperatury magazynowania -40°C do 70°C Zakres temperatury pracy -20°C do 55°C |
*W przypadku aplikacji voIP (high-quality communications) konieczne może być wyższe współczynniki próbkowania lub zakresy "szerszych" częstotliwości
Dobry wybór składników musi być sparowany z dobrą integracją elektroakustyczną, aby uniknąć pogorszenia wydajności używanych składników. Unikatowe przypadki użycia mogą również wymagać większej liczby wymagań (takich jak zakresy temperatury działania).
Integracja tablicy mikrofonów
Wydajność tablicy mikrofonów, gdy jest zintegrowana z urządzeniem, różni się od specyfikacji składnika. Ważne jest, aby upewnić się, że mikrofony są dobrze dopasowane po integracji. W związku z tym wydajność urządzenia mierzona po stałym uzyskaniu lub eq powinna spełniać następujące zalecenia:
Parametr | Zalecane |
---|---|
SNR | >= 64 dB (sygnał 1 kHz 94 dBSPL, szum ważony A) |
Czułość danych wyjściowych | -26 dBFS/Pa @ 1 kHz (zalecane) |
Dopasowywanie amplitudy | ± 2 dB, 200-8000 Hz |
THD%* | ≤ 1%, 200-8000 Hz, 94 dBSPL |
Odpowiedź z częstotliwością | ± 6 dB, 200-12000 Hz Zmiennoprzecinkowa maska** |
**Głośnik o niskim zniekształceniu jest wymagany do pomiaru THD (na przykład Neumann KH120)
**Zakresy częstotliwości "Szersze" mogą być konieczne w przypadku aplikacji o wysokiej jakości komunikacji (VoIP)
Zalecenia dotyczące integracji osoby mówiącej
Ponieważ anulowanie echa jest konieczne w przypadku urządzeń rozpoznawania mowy zawierających osoby mówiące, dostępnych jest więcej zaleceń dotyczących wyboru i integracji osoby mówiącej.
Parametr | Zalecane |
---|---|
Zagadnienia dotyczące liniowości | Brak nieliniowego przetwarzania po odwołaniu do osoby mówiącej. W przeciwnym razie wymagany jest strumień odwołania sprzężenia zwrotnego opartego na sprzęcie |
Sprzężenia zwrotnego prelegenta | Udostępniane za pośrednictwem interfejsu WASAPI, prywatnych interfejsów API, niestandardowej wtyczki ALSA (Linux) lub udostępnianej za pośrednictwem kanału oprogramowania układowego |
THD% | Trzecie przedziały oktawy minimalnej piątej kolejności, odtwarzanie 70 dBA @ 0,8 m ≤ 6,3%, 315-500 Hz ≤ 5%, 630-5000 Hz |
Sprzęganie echa z mikrofonami | > -10 dB TCLw przy użyciu metody ITU-T G.122 Załącznika B.4, znormalizowane do poziomu mikrofonu TCLw = TCLwmeasured + (Mierzony poziom — czułość danych wyjściowych docelowych) TCLw = TCLwmeasured + (Mierzony poziom - (-26)) |
Architektura projektu integracji
Podczas integrowania mikrofonów z urządzeniem niezbędne są następujące wytyczne dotyczące architektury:
Parametr | Zalecenie |
---|---|
Podobieństwo portu mikrofonu | Wszystkie porty mikrofonu mają taką samą długość w tablicy |
Wymiary portu mikrofonu | Rozmiar portu Ø0.8-1.0 mm. Długość portu/ Średnica < portu 2 |
Uszczelnienie mikrofonu | Uszczelnienia uszczelniające równomiernie zaimplementowane w stosie. Zalecany > współczynnik kompresji 70% dla uszczelnień piankowych |
Niezawodność mikrofonu | Siatka powinna być stosowana w celu zapobiegania kurzowi i wejścia (między PŁYTĄ DRUKOWANĄ w przypadku mikrofonów portowych do dołu i uszczelniania pokrywy/górnej pokrywy) |
Izolacja mikrofonu | Gumowe uszczelnienia i dekodowanie drgań poprzez strukturę, szczególnie w przypadku izolowania ścieżek drgań ze względu na zintegrowane głośniki |
Zegar próbkowania | Dźwięk urządzenia musi być wolny od drgań i list rozwijanych z niskim dryfem |
Możliwość rejestrowania | Urządzenie musi mieć możliwość jednoczesnego rejestrowania pojedynczych strumieni nieprzetworzonych kanałów |
USB | Wszystkie urządzenia wejściowe audio USB muszą ustawić deskryptory zgodnie z specyfikacją Usb Audio Devices Rev3 |
Geometria mikrofonu | Sterowniki muszą poprawnie implementować deskryptory geometrii tablicy mikrofonów |
Odnajdywania | Urządzenia nie mogą mieć żadnych nieodkrytych ani niekontrolowanych sprzętu, oprogramowania układowego lub innych firm nieliniowych algorytmów przetwarzania audio do/z urządzenia |
Format przechwytywania | Formaty przechwytywania muszą używać minimalnej częstotliwości próbkowania 16 kHz i zalecanej głębokości 24-bitowej |
Zagadnienia dotyczące architektury elektrycznej
Jeśli ma to zastosowanie, tablice mogą być połączone z hostem USB (takim jak SoC z systemem Microsoft Audio Stack (MAS)) i interfejsami usług mowa lub innymi aplikacjami.
Składniki sprzętowe, takie jak konwersja pdM na TDM, powinny zapewnić zachowanie zakresu dynamicznego i snr mikrofonów w re-samplers.
Szybka klasa audio USB 2.0 powinna być obsługiwana w ramach dowolnych procesorów MCU audio, aby zapewnić niezbędną przepustowość dla maksymalnie siedmiu kanałów o wyższych szybkościach próbkowania i głębokości bitów.