Empfehlungen zum Mikrofonarray
In diesem Artikel erfahren Sie, wie Sie ein Mikrofonarray für das Speech SDK entwerfen. Dies ist besonders relevant, wenn Sie Hardware für Sprachlösungen auswählen, spezifizieren oder bauen.
Das Speech SDK funktioniert am besten mit einem Mikrofonarray, das gemäß diesen Richtlinien entworfen wurde, einschließlich der Mikrofongeometrie, der Komponentenauswahl und der Architektur.
Mikrofongeometrie
Die folgenden Arraygeometrien werden für Microsoft Audio Stack empfohlen. Die Lokalisierung von Soundquellen und die Unterdrückung von Umgebungsgeräuschen wird durch eine größere Anzahl von Mikrofonen verbessert. Dies hängt jedoch von den jeweiligen Anwendungen, Benutzerszenarien und dem Formfaktor des Geräts ab.
Array | Mikrofone | Geometrie |
---|---|---|
Kreisförmig: Sieben Mikrofone | 6 außen, 1 Mitte, Radius = 42,5 mm, gleichmäßige Abstände | |
Kreisförmig: Vier Mikrofone | 3 außen, 1 Mitte, Radius = 42,5 mm, gleichmäßige Abstände | |
Linear: Vier Mikrofone | Länge = 120 mm, Abstand = 40 mm | |
Linear: Zwei Mikrofone | Abstand = 40 mm |
Mikrofonkanäle sollten entsprechend der Nummerierung, die zuvor für die einzelnen Arrays beschrieben wurde, in aufsteigender Reihenfolge (ab 0) sortiert werden. Der Microsoft Audio Stack benötigt einen weiteren Referenzstream der Audiowiedergabe, um die Echounterdrückung durchzuführen.
Komponentenauswahl
Mikrofonkomponenten müssen so ausgewählt werden, dass ein Signal rausch- und verzerrungsfrei wiedergegeben wird.
Bei der Auswahl von Mikrofonen werden folgende Eigenschaften empfohlen:
Parameter | Empfohlen |
---|---|
SNR | > 65 dB (1 kHz-Signal, 94 dBSPL, bewerteter Schalldruckpegel) |
Amplitudenanpassung | ± 1 dB bei 1 kHz |
Phasenanpassung | ± 2° bei 1 kHz |
Akustischer Überlastpunkt (AOP) | > = 120 dBSPL (THD = 10 %) |
Bitrate | Mindestens 24 Bit |
Samplingrate | Mindestens 16 kHz* |
Frequenzgang | ± 3 dB, 200–8.000 Hz Floating Mask* |
Zuverlässigkeit | Lagertemperaturbereich -40 °C bis 70 °C Betriebstemperaturbereich -20 °C bis 55 °C |
*Für hochwertige Kommunikationsanwendungen (VoIP) können höhere Samplingraten oder „breitere“ Frequenzbereiche erforderlich sein.
Eine gute Komponentenauswahl muss mit einer guten elektroakustischen Integration einhergehen, damit die Leistungsfähigkeit der verwendeten Komponenten nicht beeinträchtigt wird. Besondere Anwendungsfälle können auch weitere Anforderungen (z. B. Betriebstemperaturbereiche) notwendig machen.
Integration von Mikrofonarrays
Die Leistung des im Gerät integrierten Mikrofonarrays variiert je nach Komponentenspezifikation. Es ist wichtig, dass Sie sicherstellen, dass die Mikrofone nach der Integration gut aufeinander abgestimmt sind. Daher sollte die gemessene Geräteleistung nach fester Verstärkung oder Entzerrung den folgenden Empfehlungen entsprechen:
Parameter | Empfohlen |
---|---|
SNR | >= 64 dB (1 kHz-Signal, 94 dBSPL, bewerteter Schalldruckpegel) |
Ausgangsempfindlichkeit | -26 dBFS/Pa bei 1 kHz (empfohlen) |
Amplitudenanpassung | ± 2 dB, 200 – 8000 Hz |
THD%* | ≤ 1 %, 200–8.000 Hz, 94 dBSPL |
Frequenzgang | ± 6 dB, 200–12.000 Hz, Floating Mask** |
**Ein Lautsprecher mit niedriger Verzerrung ist zum Messen des THD-Werts (Total Harmonic Distortion, harmonische Verzerrung) erforderlich (z. B. Neumann KH120).
**Für hochwertige Kommunikationsanwendungen (VoIP) können „breitere“ Frequenzbereiche erforderlich sein.
Empfehlungen zur Lautsprecherintegration
Da für Spracherkennungsgeräte mit Lautsprechern eine Echounterdrückung erforderlich ist, werden weitere Empfehlungen für die Lautsprecherauswahl und deren Integration bereitgestellt.
Parameter | Empfohlen |
---|---|
Aspekte der Linearität | Keine nichtlineare Verarbeitung nach Lautsprecherreferenz, da andernfalls ein hardwarebasierter Loopback-Referenzstream erforderlich ist |
Lautsprecher-Loopback | Über WASAPI, private APIs, benutzerdefiniertes ALSA-Plug-In (Linux) oder Firmwarekanal bereitgestellt |
THD % | Drittel-Oktavbänder mindestens 5. Ordnung, Wiedergabe mit 70 dBA bei 0,8 m ≤ 6,3 %, 315 – 500 Hz ≤ 5 %, 630 – 5.000 Hz |
Echokopplung an Mikrofone | > -10 dB TCLw anhand der Methode von ITU-T G.122 Annex B.4, normalisiert auf Mikrofonpegel TCLw = gemessener TCLw + (gemessener Pegel - Soll-Ausgangsempfindlichkeit) TCLw = gemessener TCLw + (gemessener Pegel - (-26)) |
Integrationsarchitektur
Die folgenden Architekturrichtlinien sind notwendig, wenn Sie Mikrofone in ein Gerät integrieren:
Parameter | Empfehlung |
---|---|
Gemeinsamkeit der Mikrofonanschlüsse | Alle Mikrofonanschlüsse im Array haben dieselbe Länge |
Abmessungen der Mikrofonanschlüsse | Anschlussgröße Ø 0,8 – 1,0 mm, Anschlusslänge/Anschlussdurchmesser < 2 |
Mikrofonversiegelung | Dichtungen einheitlich in Stapelbauweise ausgeführt; Empfehlung: > 70 % Verdichtungsverhältnis für Schaumstoffdichtungen |
Zuverlässigkeit von Mikrofonen | Um ein Eindringen von Staub zu vermeiden, sollte ein Netzgitter verwendet werden (zwischen Leiterplatte für Mikrofone mit Anschluss unten und Dichtung/oberer Abdeckung) |
Mikrofonisolierung | Gummidichtungen und Schwingungsentkopplung über die Struktur, insbesondere zur Isolierung von Schwingungswegen aufgrund integrierter Lautsprecher |
Samplingtakt | Die Audioaufnahme des Geräts darf keinen Jitter, keine Ausfälle und nur geringe Abweichung aufweisen |
Aufzeichnungsfähigkeit | Das Gerät muss Rohdatenströme einzelner Kanäle gleichzeitig aufzeichnen können |
USB | Alle USB-Audioeingabegeräte müssen Deskriptoren gemäß den Spezifikationen für USB-Audiogeräte Rev3 festlegen |
Mikrofongeometrie | Treiber müssen Deskriptoren für die Geometrie des Mikrofonarrays ordnungsgemäß implementieren |
Erkennbarkeit | Geräte dürfen keine nicht erkennbaren oder nicht steuerbaren auf Hardware, Firmware oder Software von Drittanbietern basierte nichtlineare Audioverarbeitungsalgorithmen zum/vom Gerät aufweisen |
Aufnahmeformat | Aufnahmeformate müssen eine minimale Samplingrate von 16 kHz und eine empfohlene Tiefe von 24 Bit aufweisen |
Überlegungen zur elektrischen Architektur
Gegebenenfalls können Arrays mit einem USB-Host (z. B. einem SoC, auf dem Microsoft Audio Stack (MAS) ausgeführt wird) und Schnittstellen zu Sprachdiensten oder anderen Anwendungen verbunden werden.
Hardwarekomponenten wie die PDM-zu-TDM-Konvertierung sollten sicherstellen, dass der dynamische Bereich und das SNR der Mikrofone bei erneutem Sampling erhalten bleiben.
Alle Audio-MCUs sollten High-Speed USB Audio 2.0 unterstützen, um die notwendige Bandbreite für bis zu sieben Kanäle bei höheren Samplingraten und Bittiefen bereitzustellen.