Etiquetado de las expresiones en Language Studio

Artículo
11/21/2024

Una vez que haya creado un esquema para el proyecto, debe agregar expresiones de entrenamiento al proyecto. Las expresiones deben ser similares a las que usarán los usuarios al interactuar con el proyecto. Al agregar una expresión, debe asignar la intención a la que pertenece. Una vez agregada la expresión, etiquete las palabras que están dentro de ella y que desea extraer como entidades.

El etiquetado de datos es un paso fundamental en el ciclo de vida del desarrollo. Estos datos se usarán en el paso siguiente, al entrenar el modelo, para que este pueda aprender de los datos etiquetados. Si ya tiene expresiones etiquetadas, puede importarlas en el proyecto directamente, pero debe asegurarse de que los datos siguen el formato de datos aceptado. Consulte Crear proyecto para obtener más información sobre cómo importar datos etiquetados en el proyecto. Los datos etiquetados informan al modelo sobre cómo interpretar el texto y se usan para el entrenamiento y la evaluación.

Requisitos previos

Para poder etiquetar sus datos, necesita lo siguiente:

Un proyecto creado correctamente.

Consulte el ciclo de vida del desarrollo de proyectos para obtener más información.

Directrices de etiquetado de datos

Después de compilar el esquema y crear el proyecto, deberá etiquetar los datos. Etiquetar los datos es importante para que el modelo sepa qué palabras y oraciones se asociarán a las intenciones y entidades del proyecto. Querrá dedicar tiempo a etiquetar las expresiones: introducir y refinar los datos que se usarán para entrenar los modelos.

A medida que agregue expresiones, con sus respectivas etiquetas, tenga en cuenta lo siguiente:

Los modelos de Machine Learning generalizan en función de los ejemplos etiquetados que se proporcionan; cuantos más ejemplos proporcione, más puntos de datos tiene el modelo para mejorar las generalizaciones.
La precisión, la coherencia y la integridad de los datos etiquetados son factores clave para determinar el rendimiento del modelo.
- Etiquetar con precisión: etiquete cada intención y entidad en su tipo correcto siempre. Incluya solo lo que quiera clasificado y extraído y evite datos innecesarios en sus etiquetas.
- Etiquetar de forma coherente: la misma entidad debe tener la misma etiqueta en todas las expresiones.
- Etiquetar completamente: proporcione expresiones variadas para cada intención. Etiquete todas las instancias de la entidad en todas las expresiones.

Expresiones de etiqueta claramente

Asegúrese de que los conceptos a los que hacen referencia las entidades están bien definidos y separables. Compruebe si puede determinar fácilmente las diferencias de forma confiable. Si no es posible, esta falta de distinción podría indicar que el componente aprendido también tendrá dificultades.
Si hay una similitud entre entidades, asegúrese de que hay algún aspecto de los datos que proporcione una señal para la diferencia entre ellas.

Por ejemplo, si creó un modelo para reservar vuelos, un usuario podría usar una expresión como "Quiero un vuelo de Boston a Seattle." Se espera que la ciudad de origen yciudad de destino sean similares. Una señal para diferenciar ciudad de origen podría ser que la palabra de a menudo precede a ella.
Asegúrese de etiquetar todas las instancias de cada entidad en los datos de entrenamiento y pruebas. Un enfoque consiste en usar la función de búsqueda para buscar todas las instancias de una palabra o frase en los datos para comprobar si están etiquetadas correctamente.
Etiquete los datos de prueba de las entidades que no tienen componente aprendido y también para las entidades que sí lo hacen. Esta práctica ayuda a garantizar que las métricas de evaluación sean precisas.

Para Proyectos multilingüe, la adición de expresiones en otros idiomas aumenta el rendimiento del modelo en dichos idiomas, pero evite duplicar los datos en todos los idiomas que desea admitir. Por ejemplo, para mejorar el rendimiento de un bot de calendario con los usuarios, un desarrollador podría agregar ejemplos principalmente en inglés y algunos cuantos en español o francés. Podría agregar expresiones como las siguientes:
- "Set a meeting with Matt and Kevintomorrow at 12 PM". (Inglés)
- "Reply as tentative to the weekly update meeting". (Inglés)
- "Cancelar mi próxima reunión". (Español)

Cómo etiquetar sus expresiones

Realice los pasos siguientes para etiquetar las expresiones:

Vaya a la página del proyecto en Language Studio.
En el menú de la izquierda, seleccione Etiquetado de datos. En esta página, puede empezar a agregar sus expresiones y a etiquetarlas. También puede cargar una expresión directamente, haciendo clic en Cargar archivo de expresiones en el menú superior. Asegúrese de que sigue el formato aceptado.
En los pivots de la parte superior, puede cambiar la vista para que sea un conjunto de entrenamiento o un conjunto de pruebas. Obtenga más información sobre los conjuntos de entrenamiento y pruebas y su utilización para el entrenamiento y la evaluación de modelos.

Sugerencia

Si planea usar la División automática del conjunto de pruebas a partir de los datos de entrenamiento, agregue todas las expresiones al conjunto de entrenamiento.
En el menú desplegable Seleccionar intención, seleccione una de las intenciones, el idioma de la expresión (para proyectos multilingües) y la propia expresión. Presione la tecla Entrar en el cuadro de texto de la expresión para agregarla.

Tiene dos opciones para etiquetar entidades en una expresión:

Opción	Descripción
Etiquetado mediante un pincel	Seleccione el icono de pincel, situado junto a una entidad en el panel derecho. Después, resalte el texto de la expresión que desea etiquetar.
Etiquetado mediante el menú insertado	Resalte la palabra que quiera etiquetar como entidad y aparecerá un menú. Seleccione la entidad con la que desea etiquetar estas palabras.

En el panel derecho, debajo del pivot Etiquetas, puede encontrar todos los tipos de entidades del proyecto y el recuento de instancias etiquetadas en cada uno.
En el pivot Distribución, puede ver la distribución en conjuntos de entrenamiento y pruebas. Tiene dos opciones para la vista:
- Conjunto total de instancias por entidad etiquetada, donde puede ver el recuento de todas las instancias etiquetadas de una entidad específica.
- Expresiones únicas por entidad etiquetada, donde cada expresión se cuenta si contiene al menos una instancia etiquetada de esta entidad.
- Expresiones según su intención, donde puede ver el recuento de expresiones según su intención.

Nota

Los componentes de lista y precompilados no se muestran en la página de etiquetado de datos, y todas las etiquetas que se encuentran en dicha página solo se aplican en el componente aprendido.

Para quitar una etiqueta:

Dentro de la expresión, seleccione la entidad de la que desea quitar una etiqueta.
Desplácese por el menú que aparece y seleccione Quitar etiqueta.

Para eliminar una entidad:

Seleccione la entidad que quiera editar en el panel derecho.
Seleccione en los tres puntos situados junto a la entidad y la opción que quiera en el menú desplegable.

Sugerir expresiones con Azure OpenAI

En CLU, use Azure OpenAI para sugerir expresiones que se agreguen al proyecto mediante modelos GPT. En primer lugar, deberá obtener acceso y crear un recurso en Azure OpenAI. A continuación, deberá crear una implementación para los modelos GPT. Siga los pasos de requisitos previos aquí.

Antes de empezar, la característica sugerir expresiones solo está disponible si su recurso de idioma se encuentra en las siguientes regiones:

Este de EE. UU.
Centro-sur de EE. UU.
Oeste de Europa

En la página Etiquetado de datos:

Seleccione el botón Sugerir expresiones. Se abrirá un panel en el lado derecho que le pedirá que seleccione el recurso y la implementación de Azure OpenAI.
En la selección de un recurso de Azure OpenAI, seleccione Conectar, lo que permitirá que el recurso de idioma tenga acceso directo al recurso de Azure OpenAI. Asignará el recurso de lenguaje al rol de Cognitive Services User a su recurso de Azure OpenAI, lo que permitirá que el recurso de idioma actual tenga acceso al servicio de Azure OpenAI. Si se produce un error en la conexión, siga estos pasos a continuación para agregar manualmente el rol correcto al recurso de Azure OpenAI.
Una vez conectado el recurso, seleccione la implementación. El modelo recomendado para la implementación de Azure OpenAI es text-davinci-002.
Seleccione la intención sobre la que desea obtener sugerencias. Asegúrese de que la intención seleccionada tenga al menos 5 expresiones guardadas que se habilitarán para las sugerencias de expresiones. Las sugerencias proporcionadas por Azure OpenAI se basan en las expresiones más recientes que haya agregado para esa intención.
Seleccione Generar expresiones. Una vez completada, las expresiones sugeridas se mostrarán con una línea de puntos alrededor de ella, con la nota Generada por IA. Esas sugerencias deben ser aceptadas o rechazadas. Aceptar una sugerencia simplemente la agregará al proyecto, como si la hubiera agregado usted mismo. Al rechazarla, se eliminará la sugerencia por completo. Solo las expresiones aceptadas formarán parte del proyecto y se usarán para el entrenamiento o las pruebas. Puede aceptar o rechazar haciendo clic en los botones de verificación verde o de cancelación rojo junto a cada expresión. También puede usar los botones de la barra de herramientas Accept all y Reject all.

El uso de esta característica conlleva un cargo por el recurso Azure OpenAI para un número similar de tokens a las expresiones sugeridas generadas. Aquí encontrará más información sobre los precios de Azure OpenAI.

Agregar las configuraciones necesarias al recurso de Azure OpenAI

Si se produce un error al conectar el recurso de idioma a un recurso de Azure OpenAI, siga estos pasos:

Habilite la administración de identidades para el recurso de idioma mediante las siguientes opciones:

Azure Portal
Language Studio

El recurso de idioma debe tener administración de identidades. Para habilitarla, vaya al Azure Portal:

Vaya al recurso de idioma.
En el menú izquierdo, en la sección Administración de recursos, seleccione Identidad.
En la pestaña Asignado por el sistema, asegúrese de establecer Estado en Activado.

Después de habilitar la identidad administrada, asigne el rol Cognitive Services User al recurso de Azure OpenAI mediante la identidad administrada del recurso de idioma.

Inicie sesión en el Azure Portal y vaya al recurso de Azure OpenAI.
Seleccione la pestaña Access Control (IAM) de la izquierda.
Seleccione Agregar > Agregar asignación de roles.
Seleccione "Roles de función de trabajo" y haga clic en Siguiente.
Seleccione Cognitive Services User de la lista de roles y haga clic en Siguiente.
Seleccione Asignar acceso a "Identidad administrada" > "Seleccionar miembros".
En "Identidad administrada", seleccione "Idioma".
Busque el recurso y selecciónelo. A continuación, seleccione el botón Seleccionar que está debajo y Siguiente para completar el proceso.
Revise los detalles y seleccione Revisar y asignar.

Después de unos minutos, actualice Language Studio y podrá conectarse correctamente a Azure OpenAI.

Pasos siguientes

Train Model (entrenar modelo)

Compartir vía