Personalización de un modelo de voz
Nota:
La personalización del modelo de voz, incluido el entrenamiento de pronunciación, solo se admite en las cuentas de prueba de Azure de Video Indexer y en las cuentas de Resource Manager. No se admite en las cuentas clásicas. Para obtener instrucciones sobre cómo actualizar el tipo de cuenta sin costo alguno, consulte Actualización de la cuenta de Azure AI Video Indexer. Para obtener instrucciones sobre cómo usar la experiencia de lenguaje personalizado, consulte Personalización de un modelo de lenguaje.
Video Indexer de Azure AI permite crear modelos de voz personalizados para personalizar el reconocimiento de voz mediante la carga de conjuntos de datos que se usan para crear un modelo de voz. En este artículo se describen los pasos para hacerlo a través del sitio web de Video Indexer. También puede usar la API, como se describe en Personalización del modelo de voz mediante API.
Para obtener información general detallada y procedimientos recomendados para los modelos de voz personalizados, consulte Personalización de un modelo de voz con Video Indexer de Azure AI.
Requisitos previos
- Lea la guía de procedimientos recomendados de entrenamiento del modelo de voz.
- Una cuenta de Azure
- Una cuenta de Video Indexer de Azure AI
Crear un conjunto de datos
Como todos los modelos personalizados deben contener un conjunto de datos, comenzaremos con el proceso de creación y administración de conjuntos de datos.
- Seleccione el botón Personalización del modelo.
- Seleccione la pestaña Voz (nueva).
- Seleccione Cargar conjunto de datos.
- Seleccione Texto sin formato o Pronunciación en el menú desplegable Tipo de conjunto de datos. Cada modelo de voz debe tener un conjunto de datos de texto sin formato y, opcionalmente, puede tener un conjunto de datos de pronunciación.
- Seleccione Examinar y seleccione el archivo del conjunto de datos. Puede seleccionar solo uno.
- Seleccione un lenguaje para el modelo. Elija el idioma que se habla en los archivos multimedia que planee en la indexación con este modelo. El nombre del conjunto de datos se rellena previamente con el nombre del archivo, pero puede modificar el nombre.
- Opcionalmente, puede agregar una descripción del conjunto de datos. Esto puede resultar útil para distinguir cada conjunto de datos si espera tener varios conjuntos de datos.
- Seleccione Cargar. Una vez completada la creación del conjunto de datos, puede usarla para entrenar y crear nuevos modelos.
Revisión y actualización de un conjunto de datos
Puede ver un conjunto de datos y sus propiedades mediante:
- Haga clic en el nombre del conjunto de datos.
- Mantener el puntero sobre el conjunto de datos
- Selección de los puntos suspensivos
A continuación, seleccione Ver conjunto de datos.
A continuación, puede ver el nombre, la descripción, el idioma y el estado del conjunto de datos, además de las siguientes propiedades:
Número de líneas: indica el número de líneas cargadas correctamente del número total de líneas del archivo. Si todo el archivo se carga correctamente, los números coincidirán (por ejemplo, 10 de 10 normalizados). Si los números no coinciden (por ejemplo, 7 de 10 normalizados), esto significa que solo algunas de las líneas se cargaron correctamente y el resto tenía errores. Las causas comunes de errores son problemas de formato con una línea, como no espaciar una pestaña entre cada palabra de un archivo de pronunciación. Revisar los datos de texto sin formato y pronunciación de los artículos de aprendizaje debe ser útil para encontrar el problema. Para solucionar la causa, revise los detalles del error, que se encuentran en el informe. Seleccione Ver informe para ver los detalles del error relacionados con las líneas que no se cargaron correctamente (errorKind). También se puede ver seleccionando la pestaña Informe .
Id. de conjunto de datos: cada conjunto de datos tiene un GUID único, que es necesario cuando se usa la API para las operaciones que hacen referencia al conjunto de datos.
Texto sin formato (normalizado): contiene el texto normalizado del archivo de conjunto de datos cargado. El texto normalizado es el texto reconocido en formato sin formato.
Editar detalles: para editar el nombre o la descripción de un conjunto de datos, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Editar detalles. Después, podrá editar el nombre y la descripción del conjunto de datos.
Nota:
Los datos de un conjunto de datos no se pueden editar ni actualizar una vez cargado el conjunto de datos. Si necesita editar o actualizar los datos de un conjunto de datos, descargue el conjunto de datos, realice las modificaciones, guarde el archivo y cargue el nuevo archivo de conjunto de datos.
Descargar: para descargar un archivo de conjunto de datos, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Descargar. Como alternativa, al ver el conjunto de datos, puede seleccionar Descargar y, a continuación, tener la opción de descargar el archivo del conjunto de datos o el informe de carga en formato JSON.
Eliminar: para eliminar un conjunto de datos, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Eliminar.
Creación de un modelo de Habla personalizada
Los conjuntos de datos se usan en la creación y el entrenamiento de modelos. Una vez creado un conjunto de datos de texto sin formato, puede crear y empezar a usar un modelo de voz personalizado.
Tenga en cuenta lo siguiente al crear y usar modelos de voz personalizados:
- Un nuevo modelo debe incluir al menos un conjunto de datos de texto sin formato y puede tener varios conjuntos de datos de texto sin formato.
- Es opcional incluir un conjunto de datos de pronunciación y no se puede incluir más de uno.
- Una vez creado un modelo, no se pueden agregar conjuntos de datos adicionales a él ni realizar modificaciones en sus conjuntos de datos. Si necesita agregar o modificar conjuntos de datos, cree un nuevo modelo.
- Si ha indexado un vídeo mediante un modelo de voz personalizado y, a continuación, elimina el modelo, la transcripción no se ve afectada a menos que realice una reindexación.
- Si eliminó un conjunto de datos que se usó para entrenar un modelo personalizado, ya que el conjunto de datos ya entrenó el modelo de voz, seguirá usándolo hasta que se elimine el modelo de voz.
- Si elimina un modelo personalizado, no tiene ningún impacto en la transcripción de vídeos que ya se indizaron mediante el modelo.
Entrenamiento de un modelo
Nota:
Una vez creado un modelo, no se pueden agregar conjuntos de datos. Un modelo solo puede contener conjuntos de datos del mismo lenguaje.
Hay dos maneras de entrenar un modelo: a través de la pestaña conjunto de datos y a través de la pestaña modelo.
Entrenamiento de un modelo mediante la pestaña Conjuntos de datos
- Vea la lista de conjuntos de datos.
- Seleccione un conjunto de datos de texto sin formato. A continuación, se puede seleccionar el icono Entrenar nuevo modelo anterior.
- Seleccione Train new model (Entrenar nuevo modelo).
- Escriba un nombre para el modelo, un lenguaje y, opcionalmente, agregue una descripción.
- Seleccione la pestaña Conjuntos de datos.
- Seleccione los conjuntos de datos que desea incluir en el modelo.
- Seleccione Crear y entrenar.
Entrenamiento de un modelo a través de la pestaña Modelos
- Seleccione la pestaña Modelos.
- Seleccione Train new model icon (Entrenar nuevo modelo ).
- Seleccione los conjuntos de datos que desea formar parte del modelo.
- Escriba un nombre para el modelo, un lenguaje y, opcionalmente, agregue una descripción.
- Seleccione la pestaña Conjuntos de datos.
- Seleccione los conjuntos de datos que desea incluir en el modelo.
- Seleccione Crear y entrenar.
Revisión y actualización de un modelo
Ver modelo: puede ver un modelo y sus propiedades haciendo clic en el nombre del modelo o al mantener el puntero sobre el modelo, haciendo clic en los puntos suspensivos y seleccionando Ver modelo.
A continuación, verá en la pestaña Detalles el nombre, la descripción, el idioma y el estado del modelo, además de las siguientes propiedades:
Id. de modelo: cada modelo tiene un GUID único, que es necesario cuando se usa la API para las operaciones que hacen referencia al modelo.
Creado en: fecha en la que se creó el modelo.
Editar detalles: para editar el nombre o la descripción de un modelo, al mantener el puntero sobre el modelo, seleccione los puntos suspensivos y, a continuación, seleccione Editar detalles. Después, puede editar el nombre y la descripción del modelo.
Nota:
Solo se puede editar el nombre y la descripción del modelo. Si desea realizar cambios en sus conjuntos de datos o agregar conjuntos de datos, se debe crear un nuevo modelo.
Eliminar: para eliminar un modelo, al mantener el puntero sobre el conjunto de datos, seleccione los puntos suspensivos y, a continuación, seleccione Eliminar.
Conjuntos de datos incluidos: seleccione en la pestaña Conjuntos de datos incluidos para ver los conjuntos de datos del modelo.
Usar un modelo de lenguaje personalizado al indexar un vídeo
Un modelo de lenguaje personalizado no se usa de forma predeterminada para los trabajos de indexación, por lo que debe seleccionarse durante el proceso de carga del índice.
- Durante el proceso de carga, seleccione el origen del modelo de lenguaje personalizado en el menú desplegable del lenguaje .
- Seleccione Cargar.
Los mismos pasos se aplican cuando desea volver a indexar un vídeo con un modelo personalizado.