Comprendre la reconnaissance et la synthèse vocales

Effectué

La reconnaissance vocale prend le texte parlé et le convertit en données qui peuvent être traitées, souvent en les transcrivant au format texte. Le contenu parlé peut se présenter sous la forme d’une voix enregistrée dans un fichier audio ou d’une source audio en direct provenant d’un microphone. Les modèles de reconnaissance vocale sont analysés dans le contenu audio pour déterminer les modèles reconnaissables qui sont associés aux mots. Pour ce faire, le logiciel utilise généralement plusieurs types de modèle, notamment :

  • Modèle acoustique qui convertit le signal audio en phonèmes (représentations de sons spécifiques).
  • Modèle de langage qui associe les phonèmes aux mots, en utilisant généralement un algorithme statistique qui prédit la séquence de mots la plus probable en fonction des phonèmes.

Les mots reconnus sont généralement convertis en texte, que vous pouvez utiliser à diverses fins, par exemple :

  • Fournir des sous-titres pour les vidéos enregistrées ou en direct
  • Créer une transcription d’un appel téléphonique ou d’une réunion
  • Obtenir une dictée de notes automatisée
  • Déterminer les entrées utilisateur prévues pour un traitement plus poussée

La synthèse vocale concerne la verbalisation des données, généralement en convertissant le texte en parole. Une solution de synthèse vocale demande les informations suivantes :

  • Le texte à énoncer
  • La voix à utiliser pour exprimer le texte

Pour synthétiser la parole, le système tokénise généralement le texte pour le décomposer en mots individuels et assigne des sons phonétiques à chaque mot. Il divise ensuite la transcription phonétique en unités prosodiques (telles que des expressions, propositions ou phrases) pour créer des phonèmes qui seront convertis au format audio. Ces phonèmes sont ensuite synthétisés sous forme d’audio et vous pouvez leur attribuer une voix, un débit de parole, un ton et un volume particuliers.

Vous pouvez utiliser la sortie de la synthèse vocale à de nombreuses fins, notamment :

  • Génération de réponses vocales aux entrées utilisateur
  • Création de menus vocaux pour les systèmes téléphoniques
  • Lecture d’e-mails ou de SMS à haute voix dans des scénarios mains-libres
  • Diffusion d’annonces dans les lieux publics, comme les gares ou les aéroports