Personalización de un modelo de voz

Artículo
10/09/2024

Nota:

La personalización del modelo de voz, incluido el entrenamiento de pronunciación, solo se admite en las cuentas de prueba de Azure de Video Indexer y en las cuentas de Resource Manager. No se admite en las cuentas clásicas. Para obtener instrucciones sobre cómo actualizar el tipo de cuenta sin costo alguno, consulte Actualización de la cuenta de Azure AI Video Indexer. Para obtener instrucciones sobre cómo usar la experiencia de lenguaje personalizado, consulte Personalización de un modelo de lenguaje.

Video Indexer de Azure AI permite crear modelos de voz personalizados para personalizar el reconocimiento de voz mediante la carga de conjuntos de datos que se usan para crear un modelo de voz. En este artículo se describen los pasos para hacerlo a través del sitio web de Video Indexer. También puede usar la API, como se describe en Personalización del modelo de voz mediante API.

Para obtener información general detallada y procedimientos recomendados para los modelos de voz personalizados, consulte Personalización de un modelo de voz con Video Indexer de Azure AI.

Requisitos previos

Lea la guía de procedimientos recomendados de entrenamiento del modelo de voz.
Una cuenta de Azure
Una cuenta de Video Indexer de Azure AI

Portal web
API

Crear un conjunto de datos

Como todos los modelos personalizados deben contener un conjunto de datos, comenzaremos con el proceso de creación y administración de conjuntos de datos.

Seleccione el botón Personalización del modelo.
Seleccione la pestaña Voz (nueva).
Seleccione Cargar conjunto de datos.
Seleccione Texto sin formato o Pronunciación en el menú desplegable Tipo de conjunto de datos. Cada modelo de voz debe tener un conjunto de datos de texto sin formato y, opcionalmente, puede tener un conjunto de datos de pronunciación.
Seleccione Examinar y seleccione el archivo del conjunto de datos. Puede seleccionar solo uno.
Seleccione un lenguaje para el modelo. Elija el idioma que se habla en los archivos multimedia que planee en la indexación con este modelo. El nombre del conjunto de datos se rellena previamente con el nombre del archivo, pero puede modificar el nombre.
Opcionalmente, puede agregar una descripción del conjunto de datos. Esto puede resultar útil para distinguir cada conjunto de datos si espera tener varios conjuntos de datos.
Seleccione Cargar. Una vez completada la creación del conjunto de datos, puede usarla para entrenar y crear nuevos modelos.

Revisión y actualización de un conjunto de datos

Puede ver un conjunto de datos y sus propiedades mediante:

Haga clic en el nombre del conjunto de datos.
Mantener el puntero sobre el conjunto de datos
Selección de los puntos suspensivos

A continuación, seleccione Ver conjunto de datos.

A continuación, puede ver el nombre, la descripción, el idioma y el estado del conjunto de datos, además de las siguientes propiedades:

Número de líneas: indica el número de líneas cargadas correctamente del número total de líneas del archivo. Si todo el archivo se carga correctamente, los números coincidirán (por ejemplo, 10 de 10 normalizados). Si los números no coinciden (por ejemplo, 7 de 10 normalizados), esto significa que solo algunas de las líneas se cargaron correctamente y el resto tenía errores. Las causas comunes de errores son problemas de formato con una línea, como no espaciar una pestaña entre cada palabra de un archivo de pronunciación. Revisar los datos de texto sin formato y pronunciación de los artículos de aprendizaje debe ser útil para encontrar el problema. Para solucionar la causa, revise los detalles del error, que se encuentran en el informe. Seleccione Ver informe para ver los detalles del error relacionados con las líneas que no se cargaron correctamente (errorKind). También se puede ver seleccionando la pestaña Informe .

Id. de conjunto de datos: cada conjunto de datos tiene un GUID único, que es necesario cuando se usa la API para las operaciones que hacen referencia al conjunto de datos.

Texto sin formato (normalizado): contiene el texto normalizado del archivo de conjunto de datos cargado. El texto normalizado es el texto reconocido en formato sin formato.

Editar detalles: para editar el nombre o la descripción de un conjunto de datos, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Editar detalles. Después, podrá editar el nombre y la descripción del conjunto de datos.

Nota:

Los datos de un conjunto de datos no se pueden editar ni actualizar una vez cargado el conjunto de datos. Si necesita editar o actualizar los datos de un conjunto de datos, descargue el conjunto de datos, realice las modificaciones, guarde el archivo y cargue el nuevo archivo de conjunto de datos.

Descargar: para descargar un archivo de conjunto de datos, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Descargar. Como alternativa, al ver el conjunto de datos, puede seleccionar Descargar y, a continuación, tener la opción de descargar el archivo del conjunto de datos o el informe de carga en formato JSON.

Eliminar: para eliminar un conjunto de datos, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Eliminar.

Creación de un modelo de Habla personalizada

Los conjuntos de datos se usan en la creación y el entrenamiento de modelos. Una vez creado un conjunto de datos de texto sin formato, puede crear y empezar a usar un modelo de voz personalizado.

Tenga en cuenta lo siguiente al crear y usar modelos de voz personalizados:

Un nuevo modelo debe incluir al menos un conjunto de datos de texto sin formato y puede tener varios conjuntos de datos de texto sin formato.
Es opcional incluir un conjunto de datos de pronunciación y no se puede incluir más de uno.
Una vez creado un modelo, no se pueden agregar conjuntos de datos adicionales a él ni realizar modificaciones en sus conjuntos de datos. Si necesita agregar o modificar conjuntos de datos, cree un nuevo modelo.
Si ha indexado un vídeo mediante un modelo de voz personalizado y, a continuación, elimina el modelo, la transcripción no se ve afectada a menos que realice una reindexación.
Si eliminó un conjunto de datos que se usó para entrenar un modelo personalizado, ya que el conjunto de datos ya entrenó el modelo de voz, seguirá usándolo hasta que se elimine el modelo de voz.
Si elimina un modelo personalizado, no tiene ningún impacto en la transcripción de vídeos que ya se indizaron mediante el modelo.

Entrenamiento de un modelo

Nota:

Una vez creado un modelo, no se pueden agregar conjuntos de datos. Un modelo solo puede contener conjuntos de datos del mismo lenguaje.

Hay dos maneras de entrenar un modelo: a través de la pestaña conjunto de datos y a través de la pestaña modelo.

Entrenamiento de un modelo mediante la pestaña Conjuntos de datos

Vea la lista de conjuntos de datos.
Seleccione un conjunto de datos de texto sin formato. A continuación, se puede seleccionar el icono Entrenar nuevo modelo anterior.
Seleccione Train new model (Entrenar nuevo modelo).
Escriba un nombre para el modelo, un lenguaje y, opcionalmente, agregue una descripción.
Seleccione la pestaña Conjuntos de datos.
Seleccione los conjuntos de datos que desea incluir en el modelo.
Seleccione Crear y entrenar.

Entrenamiento de un modelo a través de la pestaña Modelos

Seleccione la pestaña Modelos.
Seleccione Train new model icon (Entrenar nuevo modelo ).
Seleccione los conjuntos de datos que desea formar parte del modelo.
Escriba un nombre para el modelo, un lenguaje y, opcionalmente, agregue una descripción.
Seleccione la pestaña Conjuntos de datos.
Seleccione los conjuntos de datos que desea incluir en el modelo.
Seleccione Crear y entrenar.

Revisión y actualización de un modelo

Ver modelo: puede ver un modelo y sus propiedades haciendo clic en el nombre del modelo o al mantener el puntero sobre el modelo, haciendo clic en los puntos suspensivos y seleccionando Ver modelo.

A continuación, verá en la pestaña Detalles el nombre, la descripción, el idioma y el estado del modelo, además de las siguientes propiedades:

Id. de modelo: cada modelo tiene un GUID único, que es necesario cuando se usa la API para las operaciones que hacen referencia al modelo.

Creado en: fecha en la que se creó el modelo.

Editar detalles: para editar el nombre o la descripción de un modelo, al mantener el puntero sobre el modelo, seleccione los puntos suspensivos y, a continuación, seleccione Editar detalles. Después, puede editar el nombre y la descripción del modelo.

Nota:

Solo se puede editar el nombre y la descripción del modelo. Si desea realizar cambios en sus conjuntos de datos o agregar conjuntos de datos, se debe crear un nuevo modelo.

Eliminar: para eliminar un modelo, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Eliminar.

Conjuntos de datos incluidos: seleccione en la pestaña Conjuntos de datos incluidos para ver los conjuntos de datos del modelo.

Usar un modelo de lenguaje personalizado al indexar un vídeo

Un modelo de lenguaje personalizado no se usa de forma predeterminada para los trabajos de indexación, por lo que debe seleccionarse durante el proceso de carga del índice.

Durante el proceso de carga, seleccione el origen del modelo de lenguaje personalizado en el menú desplegable del lenguaje .
Seleccione Cargar.

Los mismos pasos se aplican cuando desea volver a indexar un vídeo con un modelo personalizado.

Nota:

A continuación se muestra una tabla de descripciones de algunos de los parámetros usados con las solicitudes del modelo de voz:

Nombre	Escriba	Descripción
`displayName`	cuerda	Nombre deseado del conjunto de datos o modelo.
`locale`	cuerda	Código de lenguaje del conjunto de datos o modelo. Para obtener una lista completa, consulte Compatibilidad con idiomas.
`kind`	integer	0 para un conjunto de datos de texto sin formato, 1 para un conjunto de datos de pronunciación.
`description`	cuerda	Descripción opcional del conjunto de datos o modelo.
`contentUrl`	Uri	Dirección URL del archivo de origen usado en la creación del conjunto de datos.
`customProperties`	objeto	Propiedades opcionales del conjunto de datos o modelo.

Creación de un conjunto de datos de voz

La solicitud Crear conjunto de datos de voz crea un conjunto de datos para entrenar un modelo de voz. Cargue un archivo que se use para crear un conjunto de datos con esta solicitud. El contenido de un conjunto de datos no se puede modificar después de crearlo.

Defina los parámetros en el cuerpo de la solicitud, incluida una dirección URL al archivo de texto que se va a cargar. Los campos de descripción y propiedades personalizadas son opcionales. Este es un ejemplo de un cuerpo de solicitud:

{
    "displayName": "Pronunciation Dataset",
    "locale": "en-US",
    "kind": "Pronunciation",
    "description": "This is a pronunciation dataset.",
    "contentUrl": https://contoso.com/location,
    "customProperties": {
        "tag": "Pronunciation Dataset Example"
    }
}

Respuesta de ejemplo

{ 
    "id": "000000-0000-0000-0000-f58ac7002ae9", 
    "properties": { 
        "acceptedLineCount": 0, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Waiting", 
    "lastActionDateTime": "2023-02-28T13:24:27Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Creación de un modelo de voz

La solicitud Crear modelo de voz crea y entrena un modelo de voz personalizado que se puede usar para mejorar la precisión de la transcripción de los vídeos. Debe contener al menos un conjunto de datos de texto sin formato. Opcionalmente, puede tener conjuntos de datos de pronunciación. Créelo con todos los archivos de conjunto de datos pertinentes como conjuntos de datos de un modelo no se pueden agregar ni actualizar después de su creación.

Defina los parámetros en el cuerpo de la solicitud, incluida una lista de cadenas que el conjunto de datos o los conjuntos de datos del modelo se van a incluir. Los campos de descripción y propiedades personalizadas son opcionales. Este es un ejemplo de un cuerpo de solicitud:

{
    "displayName": "Contoso Speech Model",
    "locale": "en-US",
    "datasets": ["ff3d2bc4-ab5a-4522-b599-b3d5ba768c75", "87c8962d-1d3c-44e5-a2b2-c696fddb9bae"],
    "description": "Contoso ads example model",
    "customProperties": {
        "tag": "Example Model"
    }
}

Respuesta de ejemplo

{ 
    "id": "00000000-0000-0000-0000-85be4454cf", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002ae9"], 
    "status": "Processing", 
    "lastActionDateTime": "2023-02-28T13:36:28Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obtención del conjunto de datos de voz

Get Speech Dataset API devuelve información sobre el conjunto de datos especificado.

Respuesta de ejemplo

{ 
    "id": "00000000-0000-0000-0000-f58002ae9", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "Contoso plain text", 
    "description": "VI dataset", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:24:43Z", 
    "createdDateTime": "2023-02-28T13:24:27Z", 
    "customProperties": null 
}

Obtención de archivos de conjuntos de datos de voz

La solicitud Obtener archivos de conjunto de datos de voz devuelve los archivos y metadatos del conjunto de datos especificado.

Respuesta de ejemplo

[{ 
    "datasetId": "00000000-0000-0000-0000-f58ac72a", 
    "fileId": "00000000-0000-0000-0000-cb190769c", 
    "name": "languagedata", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac72” 
    "fileId": "00000000-0000-0000-0000-2369192e", 
    "name": "normalized.txt", 
    "contentUrl": "", 
    "kind": "LanguageData", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 1517 
    } 
}, { 
    "datasetId": "00000000-0000-0000-0000-f58ac7", 
    "fileId": "00000000-0000-0000-0000-05f1e306", 
    "name": "report.json", 
    "contentUrl": "", 
    "kind": "DatasetReport", 
    "createdDateTime": "2023-02-28T13:24:43Z", 
    "properties": { 
        "size": 78 
    } 
}]

Obtención de los conjuntos de datos de cuenta especificados

La solicitud Obtener conjuntos de datos de voz devuelve información sobre todos los conjuntos de datos de cuentas especificados.

Respuesta de ejemplo

[{ 
    "id": "00000000-0000-0000-abf5-4dad0f", 
    "properties": { 
        "acceptedLineCount": 41, 
        "rejectedLineCount": 0, 
        "duration": null, 
        "error": null 
    }, 
    "displayName": "test", 
    "description": "string", 
    "locale": "en-US", 
    "kind": "Language", 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-27T08:42:02Z", 
    "createdDateTime": "2023-02-27T08:41:39Z", 
    "customProperties": null 
}]

Obtención del modelo de voz especificado

Get Speech Model API devuelve información sobre el modelo especificado.

Respuesta de ejemplo

{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}

Obtención de los modelos de voz de cuenta especificados

Get Speech Models API devuelve información sobre todos los modelos de la cuenta especificada.

Respuesta de ejemplo

[{ 
    "id": "00000000-0000-0000-0000-5685be445", 
    "properties": { 
        "deprecationDates": { 
            "adaptationDateTime": null, 
            "transcriptionDateTime": "2025-04-15T00:00:00Z" 
        }, 
        "error": null 
    }, 
    "displayName": "Contoso speech model", 
    "description": "Contoso speech model for video indexer", 
    "locale": "en-US", 
    "datasets": ["00000000-0000-0000-0000-f58ac7002a"], 
    "status": "Complete", 
    "lastActionDateTime": "2023-02-28T13:36:38Z", 
    "createdDateTime": "2023-02-28T13:36:28Z", 
    "customProperties": null 
}]

Eliminación del conjunto de datos de voz

Delete Speech Dataset API elimina el conjunto de datos especificado. Cualquier modelo entrenado con el conjunto de datos eliminado sigue estando disponible hasta que se elimine el modelo. No se puede eliminar un conjunto de datos mientras está en uso para la indexación o el entrenamiento.

Respuesta de ejemplo

No se devuelve contenido cuando el conjunto de datos se elimina correctamente.

Eliminación de un modelo de voz

Delete Speech Model API elimina el modelo de voz especificado. No se puede eliminar un modelo mientras está en uso para la indexación o el entrenamiento.

Respuesta

No se devuelve contenido cuando el modelo de voz se elimina correctamente.

Compartir a través de

Personalización de un modelo de voz

Requisitos previos

Crear un conjunto de datos

Revisión y actualización de un conjunto de datos

Creación de un modelo de Habla personalizada

Entrenamiento de un modelo

Entrenamiento de un modelo mediante la pestaña Conjuntos de datos

Entrenamiento de un modelo a través de la pestaña Modelos

Revisión y actualización de un modelo

Usar un modelo de lenguaje personalizado al indexar un vídeo

Creación de un conjunto de datos de voz

Respuesta de ejemplo

Creación de un modelo de voz

Respuesta de ejemplo

Obtención del conjunto de datos de voz

Respuesta de ejemplo

Obtención de archivos de conjuntos de datos de voz

Respuesta de ejemplo

Obtención de los conjuntos de datos de cuenta especificados

Respuesta de ejemplo

Obtención del modelo de voz especificado

Respuesta de ejemplo

Obtención de los modelos de voz de cuenta especificados

Respuesta de ejemplo

Eliminación del conjunto de datos de voz

Respuesta de ejemplo

Eliminación de un modelo de voz

Respuesta

Comentarios

Recursos adicionales