麥克風陣列建議
在本文中,您將了解如何設計為了與語音 SDK 搭配使用而自訂的麥克風陣列。 如果您要選取、指定或建置語音解決方案的硬體,這是最相關的。
語音 SDK 最適合根據這些指導方針設計的麥克風陣列,包括麥克風幾何、元件選取和架構。
麥克風幾何
建議使用下列陣列幾何來搭配 Microsoft 音訊堆疊。 使用數量更多、與特定應用程式、使用者案例和裝置板型規格有相依關係的麥克風,可改善音效來源的定位並排除環境雜訊。
陣列 | 麥克風 | 幾何 |
---|---|---|
圓形 - 7 個麥克風 | 外圍 6 個、中心 1 個、半徑為 42.5 公釐、等距放置 | |
圓形 - 4 個麥克風 | 外圍 3 個、中心 1 個、半徑 = 42.5 公釐、等距放置 | |
線性 - 4 個麥克風 | 長度 = 120 公釐,間距 = 40 公釐 | |
線性 - 2 個麥克風 | 間距 = 40 公釐 |
根據先前針對陣列所描述的編號方式,麥克風頻道應該從 0 遞增排序。 Microsoft Audio Stack 需要另一個音訊播放參考資料流來執行回音消除。
元件選取
請選取麥克風元件,以正確重現沒有雜訊和失真現象的訊號。
選取麥克風時的建議屬性如下:
參數 | 建議需求 |
---|---|
SNR | >= 65 dB (1 kHz 訊號 94 dBSPL、A 加權雜訊) |
振幅比對 | ± 1 dB @ 1 kHz |
相位比對 | ± 2° @ 1 kHz |
聲學過載點 (AOP) | >= 120 dBSPL (THD = 10%) |
位元速率 | 最小 24 位元 |
取樣率 | 最小 16 kHz* |
頻率響應 | ± 3 dB、200-8000 Hz 浮動遮罩* |
可靠性 | 存放溫度範圍 -40°C 到 70°C 工作溫度範圍 -20°C 到 55°C |
*高品質通訊 (VoIP) 應用程式可能必須有更高的取樣率或「更寬廣的」頻率範圍
不只要選對元件,還要加上優異的電聲整合,才能避免所用元件的效能遭到削弱。 特殊的使用案例可能也需要更多需求 (例如操作溫度範圍)。
整合麥克風陣列
麥克風陣列與裝置整合後,其效能會與元件規格不同。 請務必確保麥克風在整合之後與麥克風完全匹配。 因此,在任何固定增益或 EQ 之後所測量到的裝置效能應符合下列建議:
參數 | 建議需求 |
---|---|
SNR | >= 64 dB (1 kHz 訊號 94 dBSPL,A 加權雜訊) |
輸出靈敏度 | -26 dBFS/Pa @ 1 kHz (建議值) |
振幅比對 | ± 2 dB、200-8000 Hz |
THD%* | ≤ 1%,200-8000 Hz,94 dBSPL |
頻率響應 | ± 6 dB、200-12000 Hz 浮動遮罩** |
**測量 THD 需要低失真喇叭 (例如 Neumann KH120)
**高品質通訊 (VoIP) 應用程式可能需要「更寬」的頻率範圍
喇叭整合建議
由於包含喇叭的語音辨識裝置需要消除回音,因此會針對喇叭選取和整合提供更多建議。
參數 | 建議需求 |
---|---|
線性考量 | 喇叭參考後沒有非線性處理,否則需要硬體型回送參考資料流 |
喇叭回送 | 透過 WASAPI、私人 API、自訂 ALSA 外掛程式 (Linux) 來提供,或透過韌體通道來提供 |
THD% | 第三個八度音階頻帶最小值第 5 階、70 dBA 播放 @ 0.8 m ≤6.3%、315-500 Hz ≤5%、630-5000 Hz |
麥克風回音耦合 | > -10 dB TCLw (使用 ITU-T G.122 Annex B.4 方法)、正規化至麥克風等級 TCLw = TCLwmeasured + (測量出的等級 - 目標輸出靈敏度) TCLw = TCLwmeasured + (測量出的等級 - (-26)) |
整合設計架構
將麥克風整合至裝置時,其架構必須採用下列指導方針:
參數 | 建議 |
---|---|
麥克風端口相似性 | 陣列中的所有麥克風端口有相同的長度 |
麥克風端口尺寸 | 端口大小 Ø0.8-1.0 公釐。 端口長度/端口直徑 < 2 |
麥克風密封 | 堆疊中均勻地實作了密封墊片。 泡沫墊片建議要有 > 70% 的壓縮率 |
麥克風可靠性 | 應使用防塵網來防止灰塵和進入 (在底部端口麥克風的 PCB 和密封墊片/上蓋之間) |
麥克風隔離 | 橡膠墊片和透過結構減震,特別是為了因應整合式喇叭而隔離任何震動途徑 |
取樣頻率 | 裝置音訊必須低漂移而不會抖動和斷訊 |
錄音功能 | 裝置必須能夠同時錄製個別頻道的原始串流 |
USB | 所有 USB 音訊輸入裝置都必須根據 USB 音訊裝置 Rev3 規格來設定描述項 |
麥克風幾何 | 驅動程式必須正確地實作麥克風陣列幾何描述項 |
發現性 | 裝置不得有任何無法探索或無法控制的硬體、韌體或輸出/輸入裝置的協力廠商軟體型非線性音訊處理演算法 |
擷取格式 | 擷取格式至少必須使用 16 kHz 的取樣率,建議值為 24 位元深度 |
電氣架構考量
如果適用,陣列可以連接到 USB 主機 (例如執行 Microsoft Audio Stack (MAS)) 的 SoC,以及語音服務或其他應用程式的介面。
PDM-to-TDM 轉換之類的硬體元件應該確保重設取樣器內會保留麥克風的動態範圍和 SNR。
任何音訊 MCU 內都應支援高速 USB 音訊類別 2.0,以便為多達七個頻道提供必要頻寬 (以較高的取樣率和位元深度進行)。