Compartir vía


API de REST de Conversión de voz en texto

La API REST de conversión de voz en texto se usa para la transcripción por lotes y la voz personalizada.

Importante

La versión de la API de REST de conversión de voz en texto es 2024-11-15 la versión más reciente que está disponible con carácter general.

  • La versión de la API de REST de conversión de voz en texto2024-05-15-preview se retirará en una fecha que se anunciará.
  • La API de REST de conversión de voz en texto v3.0, v3.1, v3.2, 3.2-preview.1, y 3.2-preview.2 se retirarán el 1 de abril de 2026.

Para obtener más información acerca de la actualización, consulte las guías de migración de la Conversión de voz en texto de la API de REST de v3.0 a v3.1, v3.1 a v3.2 y v3.2 a 2024-11-15.

Usa la API de REST de conversión voz a texto para:

  • Transcripción rápida: transcribe archivos de audio con resultados de forma sincrónica y mucho más rápido que el audio en tiempo real. Use la API de transcripción rápida (/speechtotext/transcriptions:transcribe) en los escenarios en los que necesita la transcripción de una grabación de audio lo antes posible con una latencia predecible, como la transcripción rápida de audio o transcripción de vídeo o la traducción de vídeo.
  • Voz personalizada: cargue sus propios datos, pruebe y entrene un modelo personalizado, compare la precisión entre los modelos e implemente un modelo en un punto de conexión personalizado. Copiar modelos en otras suscripciones en caso de que quiera que sus compañeros tengan acceso a un modelo que haya compilado, o en los casos en los que quiera implementar un modelo en más de una región.
  • Transcripción por lotes: transcribe archivos de audio como un lote desde varias direcciones URL o un contenedor de Azure.

La API de REST de conversión de voz en texto incluye características como:

  • Obtiene los registros de cada punto de conexión si se solicitan registros para ese punto de conexión.
  • Solicitar el manifiesto de los modelos que cree, con el fin de configurar contenedores locales.
  • Cargar datos de cuentas de almacenamiento de Azure mediante el uso de un URI (SAS) de una firma de acceso compartido.
  • Traiga su propio almacenamiento. Use sus propias cuentas de almacenamiento para los registros, los archivos de transcripción y otros datos.
  • Algunas operaciones admiten notificaciones de webhook. Puede registrar los webhooks donde se envían las notificaciones.

Transcripción de Azure Batch

Los siguientes grupos de operaciones son aplicables a la transcripción por lotes.

Grupo de operaciones Descripción
Modelos Use modelos base o modelos personalizados para transcribir archivos de audio.

Puede usar modelos con transcripción por lotes y voz personalizada. Por ejemplo, puede usar un modelo entrenado con un conjunto de datos específico para transcribir archivos de audio. Consulte Entrenamiento de un modelo y ciclo de vida del modelo de voz personalizado para obtener ejemplos de cómo entrenar y administrar modelos de voz personalizados.
Transcripciones Use transcripciones para transcribir una gran cantidad de audio en el almacenamiento.

Al usar la transcripción por lotes, envíe varios archivos por solicitud o apunte a un contenedor de Azure Blob Storage con los archivos de audio que se van a transcribir. Consulte Creación de una transcripción para obtener ejemplos de cómo crear una transcripción a partir de varios archivos de audio.
Webhooks Use web hooks para recibir notificaciones sobre eventos de creación, procesamiento, finalización y eliminación.

Puede usar web hooks con transcripción por lotes y voz personalizada. Los enlaces web se aplican a conjuntos de datos, puntos de conexión, evaluaciones, modelos y transcripciones.

Voz personalizada

Los siguientes grupos de operaciones son aplicables a voz personalizada.

Grupo de operaciones Descripción
Conjuntos de datos Use conjuntos de datos para entrenar y probar modelos de voz personalizados.

Por ejemplo, puede comparar el rendimiento de una voz personalizada entrenada con un conjunto de datos específico con el rendimiento de un modelo base o un modelo de voz personalizado entrenado con un conjunto de datos diferente. Consulte Carga de conjuntos de datos de entrenamiento y pruebas para obtener ejemplos de cómo cargar conjuntos de datos.
Extremos Implemente modelos de voz personalizados en puntos de conexión.

Debe implementar un punto de conexión personalizado para usar un modelo de voz personalizado. Consulte Implementación de un modelo para obtener ejemplos de cómo administrar puntos de conexión de implementación.
Evaluaciones Use evaluaciones para comparar el rendimiento de diferentes modelos.

Por ejemplo, puede comparar el rendimiento de un modelo de voz personalizado entrenado con un conjunto de datos específico con el rendimiento de un modelo base o un modelo personalizado entrenado con un conjunto de datos diferente. Consulte la calidad del reconocimiento de pruebas y la precisión de las pruebas para ver ejemplos de cómo probar y evaluar modelos de voz personalizados.
Modelos Use modelos base o modelos personalizados para transcribir archivos de audio.

Puede usar modelos con transcripción por lotes y voz personalizada. Por ejemplo, puede usar un modelo entrenado con un conjunto de datos específico para transcribir archivos de audio. Consulte Entrenamiento de un modelo y ciclo de vida del modelo de voz personalizado para obtener ejemplos de cómo entrenar y administrar modelos de voz personalizados.
Proyectos Use proyectos para administrar modelos de voz personalizados, conjuntos de datos de entrenamiento y pruebas y puntos de conexión de implementación.

Los proyectos de voz personalizados contienen modelos, conjuntos de datos de entrenamiento y pruebas y puntos de conexión de implementación. Cada proyecto es específico de una configuración regional. Por ejemplo, puede crear un proyecto para inglés de Estados Unidos. Consulte Creación de un proyecto para obtener ejemplos de cómo crear proyectos.
Webhooks Use web hooks para recibir notificaciones sobre eventos de creación, procesamiento, finalización y eliminación.

Puede usar web hooks con transcripción por lotes y voz personalizada. Los enlaces web se aplican a conjuntos de datos, puntos de conexión, evaluaciones, modelos y transcripciones.

Estado del servicio

Estado del servicio proporciona información sobre el estado general del servicio y los subcomponentes. Consulte Service Health para obtener más información.

Pasos siguientes