Recommandations sur le réseau de microphones
Dans cet article, vous allez découvrir comment concevoir un réseau de microphones personnalisé à utiliser avec le kit de développement logiciel (SDK) Speech. Ce procédé est particulièrement pertinent si vous sélectionnez, spécifiez ou créez du matériel pour les solutions de reconnaissance vocale.
Le kit SDK Speech offre les meilleures performances avec un réseau de microphones conçu conformément aux instructions suivantes, concernant notamment la géométrie des microphones, la sélection des composants et l'architecture.
Géométrie du microphone
Les géométries de réseau suivantes sont recommandées pour une utilisation avec la pile audio Microsoft. La localisation des sources sonores et le rejet du bruit ambiant sont améliorés avec un plus grand nombre de microphones, selon les applications spécifiques, les scénarios utilisateur et le facteur de forme de l’appareil.
Array | Microphones | Géométrie |
---|---|---|
Circulaire - 7 microphones | 6 à l'extérieur, 1 au centre, rayon = 42,5 mm, espacement régulier | |
Circulaire - 4 microphones | 3 à l'extérieur, 1 au centre, rayon = 42,5 mm, espacement régulier | |
Linéaire - 4 microphones | Longueur = 120 mm, espacement = 40 mm | |
Linéaire - 2 microphones | Espacement = 40 mm |
Les canaux du microphone doivent être classés par ordre croissant en partant de 0, conformément à la numérotation décrite précédemment pour chaque réseau. La pile audio Microsoft nécessite un autre flux de référence de lecture audio pour effectuer l'annulation d'écho.
Sélection des composants
Les composants du microphone doivent être sélectionnés pour reproduire avec précision un signal exempt de bruit et de distorsion.
Les propriétés recommandées lors de la sélection des microphones sont les suivantes :
Paramètre | Recommandé |
---|---|
SNR | > = 65 dB (signal 1 kHz 94 dBSPL, bruit avec pondération A) |
Mise en correspondance de l’amplitude | ± 1 dB @ 1 kHz |
Mise en correspondance de la phase | ± 2° @ 1 kHz |
Acoustic Overload Point (AOP) | > = 120 dBSPL (THD = 10%) |
Vitesse de transmission | 24 bits minimum |
Taux d’échantillonnage | 16 kHz minimum* |
Réponse en fréquence | ± 3 dB, 200-8000 Hz avec masque flottant* |
Fiabilité | Plage de température de stockage de -40°C à 70°C Plage de température de fonctionnement de -20°C à 55°C |
*Des taux d'échantillonnage plus élevés ou des gammes de fréquences « plus larges » peuvent être nécessaires pour des applications de communications de haute qualité (VoIP).
Une bonne sélection des composants doit s'accompagner d'une bonne intégration électroacoustique afin de ne pas nuire aux performances des composants utilisés. Les cas d'usage uniques peuvent également nécessiter davantage d'exigences (comme les plages de températures de fonctionnement).
Intégration du réseau de microphones
Les performances du réseau de microphones lorsqu'il est intégré dans un dispositif diffèrent des spécifications du composant. Il est important de s'assurer que les microphones sont bien mis en correspondance après l'intégration. Par conséquent, les performances de l’appareil mesurées après un gain fixe ou un égaliseur doivent répondre aux recommandations suivantes :
Paramètre | Recommandé |
---|---|
SNR | > = 64 dB (signal 1 kHz 94 dBSPL, bruit avec pondération A) |
Sensibilité en sortie | -26 dBFS/Pa @ 1 kHz (recommandé) |
Mise en correspondance de l’amplitude | ± 2 dB, 200-8000 Hz |
% THD* | ≤ 1%, 200-8000 Hz, 94 dBSPL |
Réponse en fréquence | ± 6 dB, 200-12000 Hz avec masque flottant** |
**Un haut-parleur à faible distorsion est nécessaire pour mesurer le THD (par exemple, Neumann KH120)
**Des gammes de fréquences « plus larges » peuvent être nécessaires pour des applications de communications de haute qualité (VoIP).
Recommandations d’intégration du haut-parleur
Compte tenu du fait que l'annulation de l'écho est nécessaire pour les appareils de reconnaissance vocale qui contiennent des haut-parleurs, des recommandations supplémentaires sont fournies pour la sélection et l'intégration des haut-parleurs.
Paramètre | Recommandé |
---|---|
Considérations relatives à la linéarité | Aucun traitement non linéaire après la référence du haut-parleur. Sinon, un flux de référence de bouclage basé sur le matériel est nécessaire. |
Bouclage du haut-parleur | Fourni via WASAPI, des API privées, un plug-in ALSA personnalisé (Linux), ou via un canal de microprogramme |
% THD | Troisième bande d'octave minimum cinquième ordre, lecture 70 dBA @ 0,8 m ≤ 6,3 %, 315-500 Hz ≤ 5 %, 630-5000 Hz |
Couplage de l’écho aux microphones | > -10 dB TCLw avec la méthode ITU-T G.122 Annex B.4, normalisée au niveau du microphone TCLw = TCLwmeasured + (Niveau mesuré - sensibilité de sortie cible) TCLw = TCLwmeasured + (Niveau mesuré - (-26)) |
Intégration de l’architecture de conception
Les directives suivantes concernant l'architecture sont nécessaires lors de l'intégration de microphones à un appareil :
Paramètre | Recommandation |
---|---|
Similarité du port microphone | Tous les ports microphone ont la même longueur dans le tableau |
Dimensions du port microphone | Taille du port : Ø0,8-1.0 mm. Longueur/diamètre du port : < 2 |
Scellement du microphone | Joints d'étanchéité uniformément insérés dans l’appareil. Taux de compression recommandé > 70 % pour les joints en mousse |
Fiabilité du microphone | Une grille doit être installée pour empêcher les infiltrations de poussière (entre le circuit imprimé pour les microphones à port inférieur et le joint d'étanchéité/couvercle supérieur) |
Isolation du microphone | Joints en caoutchouc et découplage des vibrations à travers la structure, en particulier pour isoler les trajets de vibrations dus à des haut-parleurs intégrés |
Horloge d’échantillonnage | L'audio de l'appareil doit être exempt de gigue et de parasites, avec une faible dérive |
Fonctionnalité d’enregistrement | L'appareil doit être capable d'enregistrer simultanément des flux Raw de canaux individuels |
USB | Tous les périphériques d'entrée audio USB doivent définir des descripteurs conformément à la spécification USB Audio Devices Rev3 Spec |
Géométrie du microphone | Les pilotes doivent implémenter correctement les descripteurs de géométrie du réseau de microphones |
Détectabilité | Les appareils ne doivent avoir ni matériel ou microprogramme non détectable ou non contrôlable, ni algorithmes de traitement audio non linéaires basés sur un logiciel tiers de/vers l'appareil. |
Format de capture | Les formats de capture doivent utiliser une fréquence d’échantillonnage minimale de 16 kHz et une profondeur recommandée de 24 bits |
Considérations relatives à l’architecture électrique
Le cas échéant, les réseaux peuvent être connectés à un hôte USB (par exemple un SoC qui exécute la pile audio Microsoft (MAS)), ainsi qu'à des interfaces vers des services Speech ou d'autres applications.
Les composants matériels tels que la conversion PDM à TDM doivent garantir que la plage dynamique et le rapport signal/bruit des microphones sont préservés dans les rééchantillonneurs.
La norme High-speed USB Audio Class 2.0 devrait être prise en charge dans tous les MCU audio afin de fournir la bande passante nécessaire pour un maximum de sept canaux à des fréquences d'échantillonnage et des profondeurs de bits supérieures.