Introducción a la voz en Azure
Microsoft Azure ofrece funcionalidades de reconocimiento de voz y síntesis a través de servicio Azure AI Speech, que admite muchas funcionalidades, entre las que se incluyen:
- Speech to Text
- Texto a voz
Nota:
En este módulo se tratan las funcionalidades conversión de voz en texto y texto a voz. Un módulo independiente trata la traducción de voz en los servicios de Azure AI.
Conversión de voz en texto
Puede usar la API de conversión de voz en texto de Azure AI para realizar transcripciones de audio en tiempo real o por lotes a un formato de texto. La fuente de audio de la transcripción puede ser una transmisión de audio en tiempo real desde un micrófono o un archivo de audio.
El modelo que usa la API Speech to Text se basa en el modelo de lenguaje universal que ha entrenado Microsoft. Los datos para el modelo son propiedad de Microsoft y se implementan en Microsoft Azure. El modelo está optimizado para dos escenarios: conversacional y dictado. También puede crear y entrenar sus propios modelos personalizados, como acústica, lenguaje y pronunciación si los modelos pregenerados de Microsoft no proporcionan lo que necesita.
Transcripción en tiempo real: La conversión de voz en texto en tiempo real le permite transcribir el texto en secuencias de audio. Puede usar la transcripción en tiempo real para presentaciones, demostraciones o cualquier otra situación en la que una persona hable.
Para que la transcripción en tiempo real funcione, la aplicación debe escuchar audio entrante desde un micrófono u otro origen de entrada de audio, como un archivo de audio. El código de la aplicación transmite el audio al servicio, que devuelve el texto transcrito.
Transcripción de Batch: No todos los escenarios de conversión de voz en texto son en tiempo real. Es posible que tenga grabaciones de audio almacenadas en un recurso compartido de archivos, en un servidor remoto o incluso en almacenamiento de Azure. Puede apuntar a archivos de audio con un URI de firma de acceso compartido (SAS) y recibir resultados de transcripción de forma asincrónica.
La transcripción por lotes se debe ejecutar de forma asincrónica porque los trabajos por lotes se programan en función de la mejor opción. Normalmente, un trabajo comienza a ejecutarse en cuestión de minutos a partir de la solicitud, pero no hay ninguna estimación para cuando un trabajo cambia al estado en ejecución.
Texto a voz
La API Text to Speech le permite convertir la entrada de texto en voz audible, que puede reproducirse directamente a través del altavoz de un equipo o escribirse en un archivo de audio.
Voces de síntesis de voz: Cuando usa la API Text to Speech, puede especificar la voz que se usará para vocalizar el texto. Esta opción le ofrece la flexibilidad de personalizar la solución de síntesis de voz y darle un carácter concreto.
El servicio incluye varias voces predefinidas compatibles con varios idiomas y con pronunciación regional, incluidas voces neuronales que aprovechan las redes neuronales para superar las limitaciones comunes de la síntesis de voz con respecto a la entonación, lo que da lugar a una voz que suena más natural. También puede desarrollar voces personalizadas y usarlas con la API Text To Speech.
Idiomas compatibles
Las API Speech To Text y Text To Speech admiten diversos idiomas. Use los enlaces siguientes para obtener más detalles sobre los idiomas admitidos: