Cómo preparar datos y definir un esquema de clasificación de texto
Para crear un modelo de clasificación de texto personalizado, necesitará datos de calidad para entrenarlo. En este artículo se explica cómo seleccionar y preparar los datos, además de definir un esquema. Definir el esquema es el primer paso del ciclo de vida de desarrollo del proyecto, y en él se definen las clases en las que el modelo debe clasificar el texto en tiempo de ejecución.
Diseño del esquema
El esquema define las clases en las que necesita que el modelo clasifique el texto en tiempo de ejecución.
Revisión e identificación: revise los documentos del conjunto de datos para familiarizarse con su estructura y contenido y, a continuación, identifique cómo desea clasificar los datos.
Por ejemplo, si va a clasificar incidencias de soporte técnico, es posible que necesite las siguientes clases:problema de inicio de sesión, incidencia de hardware, incidencia de conectividad y solicitud de nuevo equipo.
Evite la ambigüedad en las clases: la ambigüedad surge cuando las clases especificadas comparten un significado similar entre sí. Cuanto más ambiguo sea el esquema, más datos etiquetados necesitará para diferenciar las clases.
Por ejemplo, si va a clasificar recetas de alimentos, pueden ser similares a una extensión. Para diferenciar entre una receta de postre y una receta de plato principal, es posible que tenga que etiquetar más ejemplos para ayudar al modelo a distinguir entre las dos clases. Evitar la ambigüedad ahorra tiempo y produce mejores resultados.
Datos fuera del ámbito: al usar el modelo en producción, considere la posibilidad de agregar una clase fuera del ámbito al esquema si espera documentos que no pertenecen a ninguna de las clases. A continuación, agregue algunos documentos al conjunto de datos para etiquetarse como fuera del ámbito. El modelo puede aprender a reconocer documentos irrelevantes y predecir sus etiquetas en consecuencia.
Selección de datos
La calidad de los datos con los que entrena el modelo afecta enormemente al rendimiento del modelo.
Use datos de la vida real que reflejen el espacio de problemas del dominio para entrenar de forma eficaz el modelo. Puede usar datos sintéticos para acelerar el proceso de entrenamiento del modelo inicial, pero probablemente serán diferentes de los datos reales y harán que el modelo sea menos eficaz cuando se use.
Equilibra la distribución de datos tanto como sea posible sin desviarse de la distribución en la vida real.
Use diversos datos siempre que sea posible para evitar el sobreajuste del modelo. Una menor diversidad en los datos de entrenamiento puede dar lugar a correlaciones falsas del aprendizaje del modelo que pueden no existir en los datos de la vida real.
Evite los documentos duplicados en los datos. Los datos duplicados tienen un efecto negativo en el proceso de entrenamiento, las métricas del modelo y el rendimiento del modelo.
Considere de dónde proceden los datos. Si va a recopilar datos de una persona, departamento o parte de su escenario, es probable que falte la diversidad que puede ser importante para que su modelo conozca.
Nota:
Si los documentos van a estar en varios idiomas, seleccione la opción de varios idiomas en la creación del proyecto y establezca la opción de idioma en el idioma de la mayoría de los documentos.
Preparación de datos
Como requisito previo para crear un proyecto de clasificación personalizada de texto, los datos de entrenamiento se deben cargar en un contenedor de blobs de la cuenta de almacenamiento. Puede crear y cargar documentos de entrenamiento desde Azure directamente o mediante la herramienta Explorador de Azure Storage. La herramienta Explorador de Azure Storage permite cargar más datos rápidamente.
- Creación y carga de documentos desde Azure
- Creación y carga de documentos mediante el Explorador de Azure Storage
Solo puede usar archivos .txt
documentos para texto personalizado. Si los datos están en otro formato, puede usar el comando de análisis CLUtils para cambiar el formato del archivo.
Puede cargar un conjunto de datos anotado o cargar uno sin anotar y etiquetar los datos en Language Studio.
Conjunto de pruebas
Al definir el conjunto de pruebas, asegúrese de incluir documentos de ejemplo que no estén presentes en el conjunto de entrenamiento. La definición del conjunto de pruebas es un paso importante para calcular el rendimiento del modelo. Además, asegúrese de que el conjunto de pruebas incluya documentos que representen todas las clases usadas en el proyecto.
Pasos siguientes
Si aún no lo ha hecho, cree un proyecto de clasificación de texto personalizado. Si es la primera vez que usa la clasificación de texto personalizado, considere la posibilidad de seguir el inicio rápido para crear un proyecto como ejemplo. También puede ver los requisitos del proyecto para obtener más detalles sobre lo que necesita para crear un proyecto.