Resumen

1 minuto

En este módulo, ha obtenido información sobre dos aspectos clave de la tecnología de voz: reconocimiento de voz y síntesis. El reconocimiento de voz implica convertir palabras habladas en datos, a menudo transcritos en texto, mediante un modelo acústico y un modelo de lenguaje. Este texto se puede usar con diversos fines, como subtítulos, transcripciones, dictado de notas automatizadas y procesamiento de entradas de usuario. La síntesis de voz, por otro lado, consiste en vocalizar datos, normalmente convirtiendo texto a voz. La voz sintetizada se puede usar para generar respuestas habladas, crear menús de voz, leer correos electrónicos o textos en voz alta y difundir anuncios. También ha aprendido sobre el servicio De voz de IA de Microsoft Azure, que proporciona funcionalidades de reconocimiento de voz y síntesis a través de características como Speech to Text y Text to Speech API.

Las principales conclusiones de este módulo son las funcionalidades del servicio de voz de Azure AI. Speech to Text API permite la transcripción por lotes o en tiempo real de audio en texto mediante un modelo basado en el modelo de lenguaje universal entrenado por Microsoft. Se puede usar para transcripciones en tiempo real durante presentaciones o demostraciones, o para transcripciones por lotes de archivos de audio almacenados. Text to Speech API convierte la entrada de texto en voz audible, que se puede personalizar con diferentes voces, idiomas y pronunciaciones regionales Azure AI Speech es una herramienta versátil a la que se puede acceder a través de varias plataformas, como Azure AI Speech Studio, Azure AI Studio, interfaz de línea de comandos (CLI), API REST y kits de desarrollo de software (SDK).

Encontrará más información sobre Voz de Azure AI en la documentación del servicio.

Resumen

Comentarios