Partager via


Traitement audio avec la pile audio Microsoft

La pile audio Microsoft est un ensemble d’améliorations optimisées pour les scénarios de traitement vocal. Cela comprend des exemples tels que la reconnaissance de mots clés et la reconnaissance vocale. Il se compose de diverses améliorations/composants qui fonctionnent sur le signal audio d’entrée :

  • Suppression du bruit - Réduisez le niveau de bruit de fond.
  • Formation de faisceaux - Localisez l’origine du son et optimisez le signal audio à l’aide de plusieurs microphones.
  • Dereverberation - Réduisez les reflets du son des surfaces dans l’environnement.
  • Annulation de l’écho acoustique - supprime le son lu hors de l’appareil lorsque l’entrée du microphone est active.
  • Contrôle automatique du gain – Ajustez dynamiquement le niveau de voix de la personne pour tenir compte des orateurs parlant bas, des longues distances ou des microphones non étalonnés.

Diagramme de bloc des améliorations de la pile audio Microsoft.

Des scénarios et cas d’utilisation différents peuvent nécessiter des optimisations différentes qui influencent le comportement de la pile de traitement audio. Par exemple, dans les scénarios de télécommunications tels que les appels téléphoniques, il est acceptable d’avoir des distorsions mineures dans le signal audio après l’application du traitement. Cela est dû au fait que les êtres humains peuvent continuer à comprendre la parole avec une haute précision. Toutefois, il est inacceptable et gênant pour une personne d’entendre sa propre voix dans un écho. Cela contraste avec les scénarios de traitement vocal, où la distorsion du son peut nuire à l’exactitude d’un modèle de reconnaissance vocale appris par machine, mais il est acceptable d’avoir des niveaux mineurs d’écho résiduel.

Le traitement s’effectue entièrement localement, là où le Kit de développement logiciel (SDK) Speech est utilisé. Aucune donnée audio n’est diffusée en continu vers les services cloud de Microsoft pour traitement par la pile audio Microsoft. La seule exception est le service de transcription de conversation où les données audio brutes sont envoyées aux services cloud de Microsoft pour traitement.

La pile audio Microsoft alimente également un large éventail de produits Microsoft :

  • Windows - La pile audio Microsoft est le pipeline de traitement vocal par défaut lors de l’utilisation de la catégorie audio vocal.
  • Affichages Microsoft Teams et appareils de salles Microsoft Teams : Les affichages Microsoft Teams et les appareils de salles Teams utilisent la pile audio Microsoft pour activer des expériences de haute qualité, basées sur la voix avec Cortana.

Intégration du Kit de développement logiciel (SDK) Speech

Le Kit de développement logiciel (SDK) Speech intègre la pile audio Microsoft (MAS), ce qui permet à toute application ou tout produit d’utiliser ses fonctionnalités de traitement audio sur une entrée audio. Voici quelques-unes des principales fonctionnalités de la pile audio Microsoft disponibles par l’intermédiaire du Kit de développement logiciel (SDK) Speech :

  • Entrée de micro en temps réel et entrée de fichier : le traitement Microsoft Audio Stack peut être appliqué à des entrées de micro en temps réel, à des flux et à des entrées basées sur des fichiers.
  • Sélection des améliorations : pour permettre le contrôle total de votre scénario, le Kit de développement logiciel (SDK) vous permet de désactiver des améliorations individuelles telles que la suppression de la réverbération, la suppression du bruit, le contrôle de gain automatique et l’annulation de l’écho acoustique. Par exemple, si votre scénario n’inclut pas de rendu d’audio en sortie qui doit être supprimé de l’audio en entrée, vous avez la possibilité de désactiver l’annulation de l’écho acoustique.
  • Géométries de microphones personnalisées : le Kit de développement logiciel (SDK) vous permet de fournir vos propres informations de géométrie de microphones personnalisées, en plus de la prise en charge de géométries prédéfinies telles que des réseaux linéaires de deux ou quatre micros, et circulaires de sept micros (pour plus d’informations sur les géométries prédéfinies prises en charge, voir Recommandations sur le réseau de microphones).
  • Angles de formation de faisceaux : des angles de formation de faisceaux spécifiques peuvent être fournis pour optimiser les entrées audio provenant d’un emplacement prédéterminé par rapport aux microphones.

Configuration minimale requise pour utiliser la pile audio Microsoft

La pile audio Microsoft peut être utilisée par tout produit ou application pouvant répondre aux exigences suivantes :

  • Audio brut – La pile audio Microsoft nécessite un audio brut (c’est-à-dire non traité) comme entrée pour obtenir les meilleurs résultats. Le fait de fournir un son déjà traité limite la capacité de la pile audio à effectuer des améliorations de haute qualité.
  • Géométries du microphone - les informations géométriques sur chaque microphone de l’appareil sont nécessaires pour effectuer correctement toutes les améliorations offertes par la pile audio Microsoft. Les informations incluent le nombre de micros, leur disposition physique et leurs coordonnées. Jusqu’à 16 canaux de microphone d’entrée sont pris en charge.
  • Audio de bouclage ou de référence - un canal audio qui représente le son lu hors de l’appareil est requis pour effectuer l’annulation de l’écho acoustique.
  • Format d’entrée - la pile audio Microsoft prend uniquement en charge le sous-échantillonnage des fréquences d’échantillonnage qui sont des multiples entiers de 16 kHz. Un taux d’échantillonnage minimal de 16 kHz est requis. En outre, les formats suivants sont pris en charge : 32 bits IEEE Little Endian float, 32 bits Little Endian signed int, 24 bits Little Endian signed int, 16 bits little endian signed int, et 8 bits signed int.