Descripciones de métricas de evaluación de supervisión y casos de uso
En este artículo, obtendrá información sobre las métricas que se usan al supervisar y evaluar modelos de IA generativos en Azure Machine Learning y los procedimientos recomendados para usar la supervisión de modelos de IA generativa.
Importante
La supervisión está actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin contrato de nivel de servicio y no es aconsejable usarla para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.
La supervisión de modelos realiza un seguimiento del rendimiento del modelo en producción y tiene como objetivo comprenderlo desde perspectivas operativas y de ciencia de datos. Para implementar la supervisión, Azure Machine Learning usa señales de supervisión adquiridas mediante el análisis de datos en los datos transmitidos. Cada señal de supervisión tiene una o varias métricas. Puede establecer umbrales para estas métricas para recibir alertas a través de Azure Machine Learning o Azure Monitor sobre anomalías de modelo o datos.
Base
La fundamentación evalúa el nivel de alineación de las respuestas generadas del modelo con la información del origen de entrada. Las respuestas se comprueban como notificaciones en el contexto en el origen de la verdad básica definida por el usuario: incluso si las respuestas son verdaderas (correctas de hecho), si no son verificables en el texto de origen, se puntúan como sin base. Las respuestas comprobadas como notificaciones en "contexto" en el origen de la verdad básica (como el origen de entrada o la base de datos).
- Úselo cuando: Le preocupa que la aplicación genere información que no se incluye como parte del conocimiento entrenado de la inteligencia artificial generativa (también conocida como información no verificable).|
- Cómo leerlo: Si las respuestas del modelo están muy fundamentadas, indica que los hechos descritos en las respuestas del sistema de inteligencia artificial son verificables por el origen de entrada o la base de datos interna. Por el contrario, las puntuaciones poco fundamentadas sugieren que los hechos mencionados en las respuestas del sistema de inteligencia artificial pueden no ser compatibles o verificables adecuadamente por el origen de entrada o la base de datos interna. En tales casos, las respuestas generadas del modelo podrían basarse únicamente en su conocimiento previamente entrenado, lo que puede no alinearse con el contexto específico o el dominio de la entrada especificada
- Escalado:
- 1 = "sin fundamento": sugiere que las respuestas no son verificables por el origen de entrada o la base de datos interna.
- 5 = "perfectamente fundamentados" sugiere que los hechos descritos en las respuestas del sistema de inteligencia artificial son verificables por el origen de entrada o la base de datos interna.
Relevancia
La métrica de relevancia evalúa la medida en que las respuestas generadas del modelo son pertinentes y directamente relacionadas con las preguntas formuladas. Cuando los usuarios interactúan con un modelo de IA generativa, presentan preguntas o mensajes de entrada, esperando respuestas significativas y contextualmente adecuadas.
- Úselo cuando: Le gustaría lograr una gran relevancia para las respuestas de la aplicación para mejorar la experiencia del usuario y la utilidad de los sistemas de IA generativos.
- Cómo leerlo: Las respuestas se puntúan según su capacidad para capturar los puntos clave de la pregunta desde el contexto en la fuente de la verdad básica. Si las respuestas del modelo son muy relevantes, indica que el sistema de inteligencia artificial comprende la entrada y puede producir salidas coherentes y contextualmente adecuadas. Por el contrario, las puntuaciones de baja relevancia sugieren que las respuestas generadas podrían no corresponderse al tema, tienen una falta de contexto o no abordan adecuadamente las consultas deseadas del usuario.
- Escalado:
- 1 = "irrelevante" sugiere que las respuestas generadas podrían no corresponderse al tema, tienen una falta de contexto o no pueden abordar adecuadamente las consultas deseadas del usuario.
- 5 = "relevancia perfecta" sugiere salidas contextualmente adecuadas.
Coherencia
La coherencia evalúa en qué medida el modelo de lenguaje puede producir flujos de salida con facilidad, que se lean con naturalidad y se asemejen al lenguaje humano. ¿Hasta qué punto comunica bien el bot sus mensajes de forma breve y clara, usando un lenguaje sencillo y adecuado y evitando información innecesaria o confusa? ¿Hasta qué punto es fácil que el usuario comprenda y siga las respuestas del bot, y hasta qué punto coinciden con las necesidades y expectativas del usuario?
- Úselo cuando: Le gustaría probar la legibilidad y la facilidad de uso de las respuestas generadas por el modelo en aplicaciones reales.
- Cómo leerlo: Si las respuestas del modelo son muy coherentes, indica que el sistema de inteligencia artificial genera texto fluido y bien estructurado con transiciones fluidas. El contexto coherente a lo largo del texto mejora la legibilidad y la comprensión. Una baja coherencia significa que la calidad de las oraciones de la respuesta prevista de un modelo es deficiente y no encajan de forma natural. El texto generado puede carecer de un flujo lógico y las oraciones pueden aparecer inconexas, lo que dificulta que los lectores comprendan el contexto general o el mensaje deseado. Las respuestas se puntúan en función de su claridad, brevedad, lenguaje adecuado y capacidad para satisfacer las necesidades y expectativas definidas del usuario
- Escalado:
- 1 = "incoherente": sugiere que la calidad de las oraciones de la respuesta prevista de un modelo es deficiente y no encajan de forma natural. El texto generado puede carecer de un flujo lógico y las oraciones pueden aparecer inconexas, lo que dificulta que los lectores comprendan el contexto general o el mensaje deseado.
- 5 = "perfectamente coherente": sugiere que el sistema de inteligencia artificial genera texto natural y bien estructurado con transiciones fluidas y un contexto coherente en todo el texto que mejora la legibilidad y la comprensión.
Fluidez
La fluidez evalúa el dominio del idioma de una respuesta predicha de IA generativa. Evalúa el nivel de conformidad del texto generado con las reglas gramaticales, estructuras sintácticas y uso adecuado del vocabulario, lo que da lugar a respuestas lingüísticas correctas y naturales. Las respuestas se miden en función de la calidad de las oraciones individuales y si están bien escritas y son gramaticalmente correctas. Esta métrica es valiosa al evaluar la capacidad del modelo de lenguaje para generar texto que se adhiere a la gramática, sintaxis y uso de vocabulario adecuados.
- Úselo cuando: Le gustaría evaluar la precisión gramatical y lingüística de las respuestas predichas de la inteligencia artificial generativa.
- Cómo leerlo: Si las respuestas del modelo son muy coherentes, indica que el sistema de inteligencia artificial sigue las reglas gramaticales y usa el vocabulario adecuado. El contexto coherente a lo largo del texto mejora la legibilidad y la comprensión. Por el contrario, las puntuaciones de baja fluidez indican problemas con errores gramaticales y expresiones poco naturales, lo que hace que el texto sea menos adecuado para aplicaciones prácticas.
- Escalado:
- 1 = "titubeante" sugiere dificultades con errores gramaticales y expresiones poco naturales, lo que hace que el texto sea menos adecuado para aplicaciones prácticas.
- 5 = "fluidez perfecta" sugiere que el sistema de inteligencia artificial sigue las reglas gramaticales y usa el vocabulario adecuado. El contexto coherente a lo largo del texto mejora la legibilidad y la comprensión.
Similitud
La similitud cuantifica la similitud entre una frase verdadera básica (o documento) y la frase de predicción generada por un modelo de IA. Se calcula mediante la computación en primer lugar de incrustaciones de nivel de frase para los datos verdaderos y la predicción del modelo. Estas incrustaciones representan representaciones vectoriales de alta dimensión de las oraciones, capturando su significado semántico y contexto.
- Úselo cuando: Le gustaría evaluar objetivamente el rendimiento de un modelo de IA (para las tareas de generación de texto en las que tiene acceso a respuestas deseadas de datos verdaderos). La similitud de Ada permite comparar el texto generado con el contenido deseado.
- Cómo leerlo: Las respuestas se puntúan para las equivalencias con la respuesta de datos verdaderos mediante la captura de la misma información y significado que la respuesta de los datos verdaderos para la pregunta dada. Una puntuación de similitud alta de Ada sugiere que la predicción del modelo es contextualmente similar a los datos verdaderos, lo que indica resultados precisos y relevantes. Por el contrario, una puntuación de similitud baja de Ada implica una discrepancia o divergencia entre la predicción y los datos verdaderos reales, lo que podría indicar imprecisiones o deficiencias en el rendimiento del modelo.
- Escalado:
- 1 = "sin equivalencia" sugiere una discrepancia o divergencia entre la predicción y los datos verdaderos reales, lo que podría indicar imprecisiones o deficiencias en el rendimiento del modelo.
- 5 = "equivalencia perfecta" sugiere que la predicción del modelo es contextualmente similar a los datos verdaderos, lo que indica resultados precisos y relevantes.