Etiquetado de datos de texto para entrenar el modelo para el análisis de sentimiento personalizado
Antes de entrenar el modelo, debe etiquetar los documentos con los sentimientos en los que desea clasificarlos. Estos datos se usarán en el paso siguiente al entrenar el modelo para que el modelo pueda aprender de los datos etiquetados. Si ya dispone de datos etiquetados, puede importarlos directamente a su proyecto. Asegúrese de que sus datos siguen el formato de datos aceptado.
Antes de crear un modelo de análisis de sentimientos personalizado, primero hay que disponer de datos etiquetados. Si los datos todavía no están etiquetados, puede hacerlo en Language Studio. Los datos etiquetados informan al modelo sobre cómo interpretar el texto y se usan para el entrenamiento y la evaluación.
Prerrequisitos
Para poder etiquetar los datos, necesita lo siguiente:
- Un proyecto creado correctamente con una cuenta de almacenamiento de Blob de Azure configurada.
- Documentos que contienen datos de texto que se han cargado en la cuenta de almacenamiento.
Consulte el ciclo de vida del desarrollo de proyectos para obtener más información.
Directrices de etiquetado de datos
Después de preparar sus datos y crear el proyecto, tendrá que etiquetar los datos. Etiquetar sus datos es importante para que el modelo sepa qué documentos se asociarán con los sentimientos que necesita. Al etiquetar los datos en Language Studio (o importar datos etiquetados), estas etiquetas se almacenarán en el archivo JSON en el contenedor de almacenamiento que ha conectado a este proyecto.
Al etiquetar los datos, tenga en cuenta lo siguiente:
En general, cuanto más datos etiquetados haya mejores serán los resultados obtenidos, siempre que se hayan etiquetado de forma precisa.
No hay ningún número establecido de etiquetas que puedan garantizar que el modelo funcione mejor. El rendimiento del modelo depende de la posible ambigüedad de sus datos, y de la calidad de los datos etiquetados.
Etiquetado de los datos
Realice los pasos siguientes para etiquetar los datos:
Vaya a la página del proyecto en Language Studio.
En el menú de la izquierda, seleccione Etiquetado de datos. Puede encontrar una lista de todos los documentos del contenedor de almacenamiento.
Sugerencia
Puede usar los filtros en el menú superior para ver los archivos sin etiquetar para que pueda empezar a etiquetarlos. También puede usar los filtros para ver los documentos etiquetados con un sentimiento específico.
Cambie a una sola vista de archivo desde el lado izquierdo en el menú superior o seleccione un archivo específico para iniciar el etiquetado. A la izquierda, encontrará una lista de todos los archivos
.txt
disponibles en los proyectos. Puede usar los botones Atrás y Siguiente de la parte inferior de la página para navegar por el documento.Nota
Si ha habilitado varios idiomas para el proyecto, encontrará una lista desplegable Idioma en el menú superior, que le permite seleccionar el idioma de cada documento.
En el panel lateral derecho, puede agregar opinión a su proyecto para empezar a etiquetar sus datos con ellos.
En el panel lateral derecho, bajo el pivote Etiquetas, puede encontrar todas las opiniones de su proyecto y el recuento de instancias etiquetadas de cada una.
En la sección inferior del panel derecho, puede agregar el archivo actual que está viendo al conjunto de entrenamiento o al conjunto de pruebas. De forma predeterminada, todos los archivos de texto se agregan al conjunto de entrenamiento. Obtenga más información sobre los conjuntos de entrenamiento y pruebas y cómo se usan para el entrenamiento y la evaluación de modelos.
Sugerencia
Si planea usar la división Automática de datos, utilice la opción predeterminada de asignar todos los documentos a su conjunto de entrenamiento.
En el pivot Distribución, puede ver la distribución en conjuntos de entrenamiento y pruebas. Tiene dos opciones para la vista:
- Total de instancias donde puede ver el recuento de todas las instancias etiquetadas de un sentimiento específico.
- Documentos con al menos una etiqueta donde cada documento se cuenta si contiene al menos una instancia etiquetada de esta opinión.
Durante el etiquetado, los cambios se sincronizarán periódicamente; si aún no se han guardado, aparecerá una advertencia en la parte superior de la página. Si quiere guardarlos de forma manual, haga clic en el botón Guardar etiquetas en la parte inferior de la página.
Pasos siguientes
Después de etiquetar los datos, puede empezar a entrenar un modelo que aprenderá en función de los datos.