Compartir a través de


¿Qué es la conversión de voz en texto?

El servicio Voz de Azure AI ofrece funcionalidades avanzadas de voz a texto. Esta característica admite la transcripción por lotes y en tiempo real, lo que proporciona soluciones versátiles para convertir secuencias de audio en texto.

Características principales

El servicio de conversión de voz en texto ofrece las siguientes características principales:

  • Transcripción en tiempo real: transcripción instantánea con resultados intermedios para entradas de audio en vivo.
  • Transcripción rápida: salida sincrónica más rápida para situaciones con latencia predecible.
  • Transcripción por lotes: procesamiento eficaz para grandes volúmenes de audio pregrabado.
  • Voz personalizada: modelos con precisión mejorada para dominios y condiciones específicos.

Conversión de voz en texto en tiempo real

La conversión de voz en tiempo real en texto transcribe el audio a medida que se reconoce desde un micrófono o archivo. Es ideal para las aplicaciones que requieren transcripción inmediata, como:

  • Transcripciones, subtítulos o subtítulos para reuniones en directo: transcripción de audio en tiempo real para accesibilidad y mantenimiento de registros.
  • Diarización: identificación y distinción entre diferentes altavoces en el audio.
  • Evaluación de pronunciación: evaluación y suministro de comentarios sobre la precisión de la pronunciación.
  • Los agentes del centro de llamadas ayudan: Transcripción en tiempo real para ayudar a los representantes del servicio de atención al cliente.
  • Dictado: transcribir palabras habladas en texto escrito con fines de documentación.
  • Agentes de voz: habilitación de sistemas interactivos de respuesta interactiva de voz para transcribir consultas y comandos de usuario.

Se puede acceder a la conversión de voz en texto en tiempo real a través del SDK de Voz, la CLI de Voz y la API REST, lo que permite la integración en varias aplicaciones y flujos de trabajo. La conversión de voz en texto en tiempo real está disponible a través del SDK de Voz, la CLI de Voz y las API REST, como la API de transcripción rápida.

Transcripción rápida (versión preliminar)

La API de Transcripción rápida se usa para transcribir archivos de audio con resultados de forma sincrónica y más rápidos que en el audio en tiempo real. Use la transcripción rápida en los escenarios en los que necesite la transcripción de una grabación de audio lo más rápido posible con una latencia predecible, como los siguientes:

  • Transcripción rápida de audio o vídeo y subtítulos: obtenga rápidamente una transcripción de un archivo de audio o vídeo completo en una sola vez.
  • Traducción de vídeo: obtenga inmediatamente nuevos subtítulos para un vídeo si tiene audio en diferentes idiomas.

Nota:

La API de transcripción rápida solo está disponible mediante la API REST de conversión de voz en texto, versión 2024-05-15-preview y posteriores.

Para empezar a trabajar con la transcripción rápida, vea Uso de la API de transcripción rápida (versión preliminar).

API de transcripciones de Azure Batch

La transcripción por lotes está diseñada para transcribir grandes cantidades de audio almacenados en archivos. Este método procesa audio de forma asincrónica y es adecuado para:

  • Transcripciones, subtítulos o subtítulos para audio pregrabado: convertir contenido de audio almacenado en texto.
  • Análisis posteriores a llamadas del centro de contactos: análisis de llamadas grabadas para extraer información valiosa.
  • Diarización: diferenciación entre altavoces en audio grabado.

La transcripción por lotes está disponible a través de:

Voz personalizada

Con la voz personalizada puede evaluar y mejorar la precisión del reconocimiento de voz para sus aplicaciones y productos. Se puede usar un modelo de voz personalizado para la conversión de voz en texto en tiempo real, la traducción de voz y la transcripción por lotes.

Sugerencia

No se requiere un punto de conexión de implementación hospedado para usar la voz personalizada con la API de transcripción de Batch. Es posible conservar los recursos si el modelo de voz personalizado solo se usa para la transcripción por lotes. Para más información, consulte Precios del servicio de voz.

De forma predeterminada, el reconocimiento de voz utiliza un modelo de lenguaje universal como modelo base que se entrena con datos que son propiedad de Microsoft y refleja el idioma hablado que se usa habitualmente. El modelo base está entrenado previamente con dialectos y fonética que representan varios dominios comunes. Al hacer una solicitud de reconocimiento de voz, el modelo base más reciente para cada idioma admitido se usa de manera predeterminada. El modelo base funciona bien en la mayoría de los escenarios de reconocimiento de voz.

La voz personalizada permite adaptar el modelo de reconocimiento de voz para satisfacer mejor las necesidades específicas de la aplicación. Esto puede ser especialmente útil para:

  • Mejora del reconocimiento del vocabulario específico del dominio: entrene el modelo con datos de texto relevantes para el campo.
  • Mejora de la precisión de condiciones de audio específicas: use datos de audio con transcripciones de referencia para refinar el modelo.

Para más información sobre la voz personalizada, consulte la información general de voz personalizada y la documentación de la API REST de conversión de voz en texto.

Para obtener más información sobre las opciones de personalización por idioma y configuración regional, consulte la documentación sobre el soporte de idiomas y voz para el servicio Speech.

Ejemplos de uso

Estos son algunos ejemplos prácticos de cómo puede usar la conversión de voz en texto de Azure AI:

Caso de uso Escenario Solución
Transcripciones y subtítulos de reuniones en directo Una plataforma de eventos virtuales debe proporcionar subtítulos en tiempo real para los seminarios web. Integre la conversión de voz a texto en tiempo real mediante el SDK de voz para transcribir el contenido hablado en subtítulos mostrados en directo durante el evento.
Mejora del servicio al cliente Un centro de llamadas quiere ayudar a los agentes al proporcionar transcripciones en tiempo real de llamadas de clientes. Use la voz en tiempo real para texto a través de la CLI de Voz para transcribir llamadas, lo que permite a los agentes comprender y responder mejor a las consultas de los clientes.
Subtitulación de vídeos Una plataforma de alojamiento de vídeos quiere generar rápidamente un conjunto de subtítulos para un vídeo. Use la transcripción rápida para obtener rápidamente un conjunto de subtítulos para todo el vídeo.
Herramientas educativas Una plataforma de aprendizaje electrónico tiene como objetivo proporcionar transcripciones para conferencias de vídeo. Aplique la transcripción por lotes a través de la API REST de conversión de voz a texto para procesar vídeos de conferencias pre grabados, generando transcripciones de texto para los estudiantes.
Documentación de atención sanitaria Un proveedor de atención sanitaria debe documentar las consultas de pacientes. Use la conversión de voz en tiempo real en texto para el dictado, lo que permite a los profesionales sanitarios hablar sus notas y transcribirlas al instante. Use un modelo personalizado para mejorar el reconocimiento de términos médicos específicos.
Medios de comunicación y ocio Una empresa de medios quiere crear subtítulos para un gran archivo de vídeos. Use la transcripción por lotes para procesar los archivos de vídeo de forma masiva y generar subtítulos precisos para cada vídeo.
Estudio de mercado Una empresa de investigación de mercado debe analizar los comentarios de los clientes de las grabaciones de audio. Emplee la transcripción por lotes para convertir comentarios de audio en texto, lo que facilita el análisis y la extracción de conclusiones.

IA responsable

Los sistemas de inteligencia artificial no solo incluyen la tecnología, sino también las personas que la usan, las que se ven afectadas por ella y el entorno en el que se implementan. Lea las notas sobre transparencia para obtener información sobre el uso responsable de la inteligencia artificial y la implementación en los sistemas.