API de REST de Conversión de voz en texto

Artículo
03/10/2025

La API de REST de conversión de voz en texto se usa para realizar transcripciones por lotes y para el habla personalizada.

Importante

La versión de la API de REST de conversión de voz en texto es 2024-11-15 la versión más reciente que está disponible con carácter general.

La versión de la API de REST de conversión de voz en texto2024-05-15-preview se retirará en una fecha que se anunciará.
La API de REST de conversión de voz en texto v3.0, v3.1, v3.2, 3.2-preview.1, y 3.2-preview.2 se retirarán el 1 de abril de 2026.

Para obtener más información acerca de la actualización, consulte las guías de migración de la Conversión de voz en texto de la API de REST de v3.0 a v3.1, v3.1 a v3.2 y v3.2 a 2024-11-15.

Consulte la documentación de referencia de la API de REST de conversión de voz en texto 2024-11-15

Usa la API de REST de conversión voz a texto para:

Transcripción rápida: transcriba archivos de audio con resultados de forma sincrónica y mucho más rápido que en el audio en tiempo real. Use la API de transcripción rápida (/speechtotext/transcriptions:transcribe) en los escenarios en los que se necesite la transcripción de una grabación de audio lo antes posible con latencia predecible, como la transcripción rápida de audio o vídeo o la traducción de vídeo.
Voz personalizada: cargue sus propios datos, pruebe y entrene modelos personalizados, compare la precisión entre modelos e implemente modelos en puntos de conexión personalizados. Copiar modelos en otras suscripciones en caso de que quiera que sus compañeros tengan acceso a un modelo que haya compilado, o en los casos en los que quiera implementar un modelo en más de una región.
Transcripción por lotes: transcribe archivos de audio como un lote desde varias direcciones URL o un contenedor de Azure.

La API de REST de conversión de voz en texto incluye características como:

Obtenga registros para cada punto de conexión si se solicitan registros para ese punto de conexión.
Solicitar el manifiesto de los modelos que cree, con el fin de configurar contenedores locales.
Cargar datos de cuentas de almacenamiento de Azure mediante el uso de un URI (SAS) de una firma de acceso compartido.
Traiga su propio almacenamiento. Use sus propias cuentas de almacenamiento para los registros, los archivos de transcripción y otros datos.
Algunas operaciones admiten notificaciones de webhook. Puede registrar los webhooks donde se envían las notificaciones.

Transcripción de Azure Batch

Los siguientes grupos de operaciones se aplican a la transcripción por lotes.

Grupo de operaciones	Descripción
Modelos	Use modelos base o modelos personalizados para transcribir archivos de audio. Use modelos con el habla personalizada y la transcripción por lotes. Por ejemplo, puede usar un modelo entrenado con un conjunto de datos específico para transcribir archivos de audio. Consulte Entrenamiento de modelos y ciclo de vida del modelo de habla personalizada para obtener ejemplos de cómo entrenar y administrar modelos de habla personalizada.
Transcripciones	Use transcripciones para transcribir una gran cantidad de audio en el almacenamiento. Al usar la transcripción por lotes, se envían varios archivos por solicitud o se apunta a un contenedor de Azure Blob Storage con los archivos de audio que se transcribirán. Consulte Creación de una transcripción para obtener ejemplos de cómo crear una transcripción a partir de varios archivos de audio.
Webhooks	Use webhooks para recibir notificaciones sobre eventos de creación, procesamiento, finalización y eliminación. Use webhooks con el habla personalizada y la transcripción por lotes. Los webhooks se aplican a conjuntos de datos, puntos de conexión, evaluaciones, modelos y transcripciones.

Voz personalizada

Los siguientes grupos de operaciones se aplican al habla personalizada.

Grupo de operaciones	Descripción
Conjuntos de datos	Use conjuntos de datos para entrenar y probar modelos de habla personalizada. Por ejemplo: compare el rendimiento del habla personalizada entrenada con un conjunto de datos específico con el rendimiento de un modelo base o un modelo de habla personalizada entrenado con un conjunto de datos diferente. Consulte Carga de conjuntos de datos de entrenamiento y pruebas para obtener ejemplos de cómo cargar conjuntos de datos.
Extremos	Implemente modelos de habla personalizada en puntos de conexión. Es necesario implementar un punto de conexión personalizado para utilizar un modelo de habla personalizada. Consulte Implementación de un modelo para obtener ejemplos de cómo administrar puntos de conexión de implementación.
Evaluaciones	Use evaluaciones para comparar el rendimiento de diferentes modelos. Por ejemplo: compare el rendimiento de un modelo de habla personalizada entrenado con un conjunto de datos específico con el rendimiento de un modelo base o un modelo personalizado entrenado con otro conjunto de datos. Consulte Prueba de calidad del reconocimiento y Precisión de prueba para obtener ejemplos de cómo probar y evaluar modelos de habla personalizada.
Modelos	Use modelos base o modelos personalizados para transcribir archivos de audio. Use modelos con el habla personalizada y la transcripción por lotes. Por ejemplo, puede usar un modelo entrenado con un conjunto de datos específico para transcribir archivos de audio. Consulte Entrenamiento de modelos y ciclo de vida del modelo de habla personalizada para obtener ejemplos de cómo entrenar y administrar modelos de habla personalizada.
Proyectos	Use proyectos para administrar modelos de habla personalizada, conjuntos de datos para entrenamiento y pruebas, y puntos de conexión de implementación. Los proyectos de habla personalizada contienen modelos, conjuntos de datos para entrenamiento y pruebas, y puntos de conexión de implementación. Cada proyecto es específico de una configuración regional. Por ejemplo, puede crear un proyecto para inglés de Estados Unidos. Consulte Creación de un proyecto para obtener ejemplos de cómo crear proyectos.
Webhooks	Use webhooks para recibir notificaciones sobre eventos de creación, procesamiento, finalización y eliminación. Use webhooks con el habla personalizada y la transcripción por lotes. Los webhooks se aplican a conjuntos de datos, puntos de conexión, evaluaciones, modelos y transcripciones.

Estado del servicio

El estado del servicio proporciona información sobre el estado general del servicio y los subcomponentes. Para obtener más información, consulte Service Health.

Compartir a través de

API de REST de Conversión de voz en texto

Transcripción de Azure Batch

Voz personalizada

Estado del servicio

Pasos siguientes

Comentarios

Recursos adicionales