Ejercicio: Moderación de texto

Completado

Contoso Camping Store proporciona a los clientes la capacidad de hablar con un agente de soporte técnico de inteligencia artificial y publicar revisiones de productos. Podríamos aplicar un modelo de IA para detectar si la entrada de texto de los clientes es dañina y, posteriormente, usar los resultados de la detección para implementar las precauciones necesarias.

Contenido seguro

Vamos a probar primero algunos comentarios positivos de los clientes.

  1. En la página Seguridad de contenido, seleccione Contenido moderado de texto.

  2. En el cuadro Prueba, escriba el siguiente contenido:

    Hace poco usé la estufa de camping PowerBurner en mi viaje de acampada y debo decir que es fantástica. Era fácil de usar y el control del calor era impresionante. ¡Gran producto!

  3. Establezca todos los Niveles de umbral en Medio. Recorte de pantalla del paso 2 en la página de moderación de texto. Se muestra un cuadro de texto con texto de ejemplo. Junto al cuadro de texto se encuentran los filtros de umbral.

  4. Haga clic en Ejecutar prueba.

Se permite el contenido y el nivel de gravedad es Seguro en todas las categorías. El resultado es de esperarse, dado el sentimiento positivo y nada dañino del comentario del cliente.

Recorte de pantalla de los resultados para la moderación de texto. En el recorte de pantalla se muestra que se permite el contenido. El nivel de gravedad de todas las categorías es seguro. La configuración de umbral de todas las categorías es media. Y se permite la evaluación de todas las categorías.

Contenido dañino

¿Pero qué ocurre si probamos un texto perjudicial? Vamos a probar con comentarios negativos de clientes. Aunque está bien que no le guste un producto, no queremos consentir ningún insulto ni frases degradantes.

  1. En el cuadro Prueba, escriba el siguiente contenido:

    Hace poco compré una tienda de campaña y tengo que decir que estoy muy decepcionado. Los postes de la tienda parecen endebles y las cremalleras se atascan constantemente. No es lo que esperaba de una tienda de alta gama. Son ustedes un asco y un penoso pretexto de marca.

  2. Establezca todos los Niveles de umbral en Medio.

  3. Haga clic en Ejecutar prueba.

    Recorte de pantalla de los resultados de moderación de texto. El contenido está permitido, sin embargo, el nivel de gravedad de odio es bajo. El nivel de gravedad es seguro en todas las demás categorías.

    Aunque el contenido está Permitido, el Nivel de gravedad de Odio es bajo. Para guiar a nuestro modelo a fin de que bloquee dicho contenido, tenemos que ajustar el Nivel de umbral para Odio. Un Nivel de umbral más bajo bloquearía cualquier contenido de gravedad baja, media o alta. ¡No hay lugar para excepciones!

  4. Establezca el Nivel de umbral para Odio en Bajo.

    Recorte de pantalla de la configuración de los filtros para la moderación de texto. Se resalta el umbral de la categoría de odio y se establece en bajo.

  5. Haga clic en Ejecutar prueba.

El contenido está ahora Bloqueado y fue rechazado por el filtro en la categoría Odio.

Recorte de pantalla de los resultados de moderación de texto. El contenido está bloqueado. El nivel de gravedad de la categoría de odio es bajo. El umbral de la categoría de odio es bajo. La evaluación para la categoría de odio está bloqueada.

Contenido violento con errores ortográficos

No podemos anticipar que todo el contenido del texto de los clientes esté libre de errores ortográficos. Afortunadamente, la herramienta Moderar el contenido del texto puede detectar contenidos dañinos aunque el contenido tenga errores ortográficos. Pongamos a prueba esta capacidad con más comentarios adicionales del cliente sobre un incidente con un mapache.

  1. En el cuadro Prueba, escriba el siguiente contenido:

    Hace poco compré una cocina de campin, pero tuvimos un acidente. Un mapache se metió dentro, recibió una descarga y murió. El interior esta cubierto de sangre. ¿Cómo limpio la cocina?

  2. Establezca todos los Niveles de umbral en Medio.

  3. Haga clic en Ejecutar prueba.

El contenido está Bloqueado, el Nivel de gravedad de Violencia es Medio. Considere un escenario en el que el cliente formula esta pregunta en una conversación con el agente de atención al cliente impulsado por IA. El cliente espera recibir instrucciones sobre cómo limpiar la cocina. Puede que no haya mala intención al enviar esta pregunta y, por lo tanto, puede ser una mejor opción no bloquear dicho contenido. Como desarrollador, considere varios escenarios en los que dicho contenido pueda ser aceptable antes de decidir ajustar el filtro y bloquear contenido similar.

Ejecución de una prueba masiva

Hasta ahora, hemos probado contenido de texto para contenido de texto aislado singular. Sin embargo, si tenemos un conjunto de datos masivo de contenido de texto, podríamos probar el conjunto de datos masivo a la vez y recibir métricas en función del rendimiento del modelo.

Tenemos un conjunto de datos masivo de instrucciones proporcionadas por los clientes y el agente de soporte técnico. El conjunto de datos también incluye frases dañinas inventadas para poner a prueba la capacidad del modelo para detectar contenidos dañinos. Cada registro del conjunto de datos incluye una etiqueta para indicar si el contenido es dañino. El conjunto de datos consta de frases proporcionadas por clientes y agentes de soporte técnico al cliente. Vamos a realizar otra ronda de pruebas, pero esta vez con el conjunto de datos.

  1. Cambie a la pestaña Ejecutar una prueba masiva.

  2. En la sección Seleccione un ejemplo o cargue su propio, seleccione Examinar un archivo. Seleccione el archivo bulk-text-moderation-data.csv y cárguelo.

  3. En la sección Vista previa del conjunto de datos, examine los Registros y su correspondiente Etiqueta. Un 0 indica que el contenido es aceptable (no dañino). Un 1 indica que el contenido es inaceptable (contenido dañino).

    Recorte de pantalla de la vista previa del conjunto de datos para la moderación de texto masiva. Una lista de registros y su etiqueta correspondiente se muestra a la izquierda. La sección para configurar filtros se muestra a la derecha.

  4. Establezca todos los Niveles de umbral en Medio.

  5. Haga clic en Ejecutar prueba.

En el caso de las pruebas masivas, se proporciona una variedad diferente de resultados de pruebas. En primer lugar, se proporciona la proporción de contenido Permitido frente a Bloqueado. Además, también recibimos una métrica de Precisión, Recuperación y Puntuación de F1.

Recorte de pantalla de los resultados de moderación de texto masivo.

La métrica Precisión revela qué parte del contenido que el modelo identificó como dañino lo es realmente. Es una medida de lo preciso/exacto que es el modelo. El valor máximo es 1.

La métrica Recuperación revela qué parte del contenido dañino real identificó correctamente el modelo. Es una medida de la capacidad del modelo para identificar contenido dañino real. El valor máximo es 1.

La métrica Puntuación de F1 es una función de Precisión y Recuperación. La métrica es necesaria cuando se busca un equilibrio entre Precisión y Coincidencia. El valor máximo es 1.

También podemos ver cada registro y el Nivel de gravedad en cada categoría habilitada. La columna Juicio consta de lo siguiente:

  • Permitidas
  • Bloqueado
  • Permitido con advertencia
  • Bloqueado con advertencia

Las advertencias son una indicación de que el juicio general del modelo difiere de la etiqueta de registro correspondiente. Para resolver estas diferencias, podría ajustar los Niveles de umbral en la sección Configurar filtros para ajustar el modelo.

El resultado final que se da es la distribución entre categorías. Este resultado tiene en cuenta el número de registros que se consideraron Seguros en comparación con los registros de la categoría correspondiente con un nivel de seguridad Baja, Media o Alta.

Recorte de pantalla de la gravedad distribuida por los resultados de la categoría.

En función de los resultados, ¿hay espacio para mejorar? Si es así, ajuste los niveles de Umbral hasta que las métricas de Precisión, Recuperación y Puntuación de F1 estén más cerca de 1.