Visualización de los resultados de evaluación en el portal de Azure AI Foundry
La página de evaluación del portal de Azure AI Foundry es un centro versátil que no solo le permite visualizar y evaluar los resultados, sino que también sirve como centro de control para optimizar, solucionar problemas y seleccionar el modelo de inteligencia artificial ideal para sus necesidades de implementación. Es una solución centralizada para la toma de decisiones controlada por datos y la mejora del rendimiento en los proyectos de AI Foundry. Puede acceder e interpretar sin problemas los resultados de varios orígenes, incluido el flujo, la sesión de prueba rápida del área de juegos, la interfaz de usuario del envío de evaluación y el SDK. Esta flexibilidad garantiza que pueda interactuar con los resultados de la manera que mejor se adapte a sus preferencias y flujos de trabajo.
Una vez que haya visualizado los resultados de la evaluación, puede profundizar en un examen exhaustivo. Esto incluye la capacidad de no solo ver resultados individuales, sino también de comparar estos resultados en las diversas ejecuciones de la evaluación. Al hacerlo, puede identificar tendencias, patrones y discrepancias, obteniendo información valiosa sobre el rendimiento del sistema de inteligencia artificial en diversas condiciones.
En este artículo, aprenderá a:
- Visualizar el resultado y las métricas de evaluación.
- Comparar los resultados de la evaluación.
- Comprender las métricas de evaluación integradas.
- Mejorar el rendimiento.
- Ver los resultados y las métricas de la evaluación.
Buscar los resultados de la evaluación
Después de enviar la evaluación, encontrará la ejecución de la evaluación enviada dentro de la lista de ejecución en la página Evaluación.
Puede supervisar y administrar las ejecuciones de evaluación dentro de la lista de ejecución. Con la flexibilidad para modificar las columnas mediante el editor de columnas e implementar filtros, puede personalizar y crear su propia versión de la lista de ejecución. Además, puede revisar rápidamente las métricas de evaluación agregadas en las ejecuciones, lo que le permite realizar comparaciones rápidas.
Sugerencia
Para ver las evaluaciones, ejecute cualquier versión del SDK promptflow-evals o azure-ai-evaluation versiones 1.0.0b1, 1.0.0b2, 1.0.0b3 y habilite el botón de alternancia "Mostrar todas las ejecuciones" para encontrar la ejecución.
Para comprender mejor cómo se derivan las métricas de evaluación, puede acceder a una explicación completa seleccionando la opción "Más información sobre las métricas". Este recurso detallado proporciona información valiosa sobre el cálculo y la interpretación de las métricas usadas en el proceso de evaluación.
Puede elegir una ejecución específica, lo que le llevará a la página de detalles de la ejecución. Aquí puede acceder a información completa, incluidos los detalles de evaluación, como el conjunto de datos de prueba, el tipo de tarea, el aviso, la temperatura, etc. Además, puede ver las métricas asociadas a cada muestra de datos. Los gráficos de puntuaciones de métricas proporcionan una representación visual de cómo se distribuyen las puntuaciones para cada métrica en todo el conjunto de datos.
Gráficos de panel de métricas
Desglosamos las vistas agregadas con diferentes tipos de métricas por Calidad de IA (asistida por IA), Riesgo y seguridad, Calidad de IA (NLP) y Personalizado cuando corresponda. Puede ver la distribución de puntuaciones en el conjunto de datos evaluado y ver puntuaciones agregadas para cada métrica.
- Para la calidad de IA (asistida por IA), se agrega calculando un promedio entre todas las puntuaciones de cada métrica. Si calcula Groundedness Pro, la salida es binaria y, por tanto, la puntuación agregada pasa la velocidad, que se calcula mediante (#trues/#instances) × 100.
- Para las métricas de riesgo y seguridad, agregamos calculando una tasa de defectos para cada métrica.
- Para las métricas de daño del contenido, la tasa de defectos se define como el porcentaje de instancias de su conjunto de datos de prueba que superan un umbral en la escala de gravedad sobre el tamaño total del conjunto de datos. De manera predeterminada, el umbral es "Medio".
- Para el material protegido y el ataque indirecto, la tasa de defectos se calcula tomando un porcentaje de instancias donde la salida es "true" (Tasa de defectos = (#trues / #instancias) × 100).
- En el caso de las métricas de Calidad de IA (NLP), se muestra el histograma de la distribución de métricas entre 0 y 1. Se agrega calculando un promedio entre todas las puntuaciones de cada métrica.
- Para las métricas personalizadas, puede seleccionar Agregar un gráfico personalizado para crear un gráfico personalizado con las métricas elegidas o para ver una métrica con respecto a los parámetros de entrada seleccionados.
También puede personalizar los gráficos existentes de las métricas integradas cambiando el tipo de gráfico.
Tabla de resultados detallados de métricas
Dentro de la tabla de detalles de métricas, puede realizar un examen completo de cada muestra de datos individual. Aquí puede examinar la salida generada y su puntuación de métrica de evaluación correspondiente. Este nivel de detalle le permite tomar decisiones controladas por datos y tomar acciones específicas para mejorar el rendimiento del modelo.
Algunos posibles elementos de acción basados en las métricas de evaluación podrían incluir:
- Reconocimiento de patrones: al filtrar los valores numéricos y las métricas, puede explorar en profundidad las muestras con puntuaciones inferiores. Investigue estos ejemplos para identificar patrones o problemas recurrentes en las respuestas del modelo. Por ejemplo, podría observar que las puntuaciones bajas a menudo se producen cuando el modelo genera contenido en un tema determinado.
- Refinamiento de modelos: use la información de las muestras de puntuación inferior para mejorar la instrucción del símbolo del sistema o ajustar el modelo. Si observa problemas frecuentes con, por ejemplo, la coherencia o la relevancia, también puede ajustar en consecuencia los datos de entrenamiento o los parámetros del modelo.
- Personalización de columnas: el editor de columnas le permite crear una vista personalizada de la tabla, centrándose en las métricas y los datos más relevantes para sus objetivos de evaluación. Esto puede simplificar el análisis y ayudarle a detectar tendencias de forma más eficaz.
- Búsqueda de palabras clave: el cuadro de búsqueda permite buscar palabras o frases específicas en la salida generada. Esto puede ser útil para identificar problemas o patrones relacionados con temas o palabras clave concretos y abordarlos específicamente.
La tabla de detalles de las métricas ofrece una gran cantidad de datos que pueden guiar los esfuerzos de mejora del modelo, desde el reconocimiento de patrones hasta la personalización de la vista para un análisis eficaz y refinar el modelo en función de los problemas identificados.
Estos son algunos ejemplos de los resultados de las métricas para el escenario de respuesta a preguntas:
Y estos son algunos ejemplos de los resultados de las métricas para el escenario de conversación:
Para escenarios de conversación multiturno, puede seleccionar “Ver resultados de evaluación por turno para comprobar las métricas de evaluación de cada turno” en una conversación.
Para una evaluación de seguridad en un escenario multi modal (texto e imágenes), puede revisar las imágenes de la entrada y salida en la tabla de resultados de métricas detalladas para comprender mejor el resultado de la evaluación. Dado que la evaluación multi modal solo se admite actualmente en escenarios de conversación, puede seleccionar "Ver resultados de evaluación por turno" para examinar la entrada y la salida de cada turno.
Seleccione la imagen para expandirla y verla. De forma predeterminada, todas las imágenes se desenfoquen para protegerlo del contenido potencialmente dañino. Para ver claramente la imagen, active el botón de alternancia "Comprobar imagen de desenfoque".
Para las métricas de riesgo y seguridad, la evaluación proporciona una puntuación de gravedad y un razonamiento para cada puntuación. Estos son algunos ejemplos de resultados de métricas de riesgo y seguridad para el escenario de respuesta a preguntas:
Los resultados de la evaluación pueden tener significados diferentes para diferentes audiencias. Por ejemplo, las evaluaciones de seguridad podrían generar una etiqueta de gravedad "baja" para el contenido violento que podría no alinearse con la definición de un revisor humano de la gravedad que podría tener ese contenido violento específico. Proporcionamos una columna de comentarios humanos con pulgares hacia arriba y pulgares hacia abajo al revisar los resultados de evaluación para exponer qué instancias se aprobaron o marcaron como incorrectas por un revisor humano.
Al comprender cada métrica de riesgo de contenido, puede ver fácilmente cada definición de métrica y escala de gravedad seleccionando el nombre de la métrica encima del gráfico para ver una explicación detallada en un elemento emergente.
Si hay algún problema con la ejecución, también puede depurar la ejecución de la evaluación con los registros.
Estos son algunos ejemplos de los registros que puede usar para depurar la ejecución de evaluación:
Si va a evaluar un flujo de solicitud, puede seleccionar el botón Ver en el flujo para ir a la página de flujo evaluada para realizar la actualización del flujo. Por ejemplo, agregar instrucciones de meta prompt adicionales o cambiar algunos parámetros y volver a evaluar.
Administración y uso compartido de vistas con opciones de vista
En la página Detalles de evaluación, puede personalizar la vista agregando gráficos personalizados o editando columnas. Una vez personalizada, tiene la opción de guardar la vista o compartirla con otros usuarios mediante las opciones de vista. Esto le permite revisar los resultados de la evaluación en un formato adaptado a sus preferencias y facilita la colaboración con los compañeros.
Comparar los resultados de la evaluación
Para facilitar una comparación completa entre dos o más ejecuciones, tiene la opción de seleccionar las ejecuciones deseadas e iniciar el proceso seleccionando el botón Comparar o, para obtener una vista general del panel, el botón Cambiar a la vista del panel. Esta característica le permite analizar y contrastar el rendimiento y los resultados de varias ejecuciones, lo que le permite tomar decisiones informadas y hacer mejoras dirigidas.
En la vista del panel, tiene acceso a dos componentes valiosos: el gráfico de comparación de la distribución de métricas y la tabla de comparación. Estas herramientas permiten realizar un análisis en paralelo de las ejecuciones de evaluación seleccionadas, lo que le permite comparar varios aspectos de cada muestra de datos con facilidad y precisión.
Dentro de la tabla de comparación, tiene la capacidad de establecer una línea de base para la comparación manteniendo el puntero sobre la ejecución específica que desea usar como punto de referencia y estableciéndola como línea de base. Además, al activar el botón de alternancia "Mostrar delta", puede visualizar fácilmente las diferencias entre la ejecución de la línea de base y las demás ejecuciones para los valores numéricos. Además, con el botón de alternancia "Mostrar solo la diferencia", la tabla muestra solo las filas que difieren entre las ejecuciones seleccionadas, lo que ayuda a identificar variaciones distintas.
Con estas características de comparación, puede tomar una decisión informada para seleccionar la mejor versión:
- Comparación de la línea de base: al establecer una ejecución de línea de base, puede identificar un punto de referencia contra el que comparar las demás ejecuciones. Esto le permite ver cómo cada ejecución se desvía del estándar elegido.
- Evaluación de valores numéricos: habilitar la opción "Mostrar delta" le ayuda a comprender la extensión de las diferencias entre la línea base y otras ejecuciones. Esto resulta útil para evaluar el rendimiento de varias ejecuciones en términos de métricas de evaluación específicas.
- Aislamiento de diferencias: la característica "Mostrar solo la diferencia" simplifica el análisis resaltando solo las áreas en las que hay discrepancias entre ejecuciones. Esto puede ser fundamental para identificar dónde se necesitan mejoras o ajustes.
Mediante el uso eficaz de estas herramientas de comparación, puede identificar qué versión del modelo o sistema funciona mejor en relación con los criterios y las métricas definidos, lo que le ayudará en última instancia a seleccionar la opción óptima para la aplicación.
Medición de la vulnerabilidad de jailbreak
La evaluación de jailbreak es una medición comparativa, no una métrica asistida por IA. Ejecute las evaluaciones en dos conjuntos de datos diferentes con Red Team: un conjunto de datos de prueba adversario de línea de base frente al mismo conjunto de datos de prueba adversario con inyecciones de jailbreak en el primer turno. Puede usar el simulador de datos adversarios para generar el conjunto de datos con o sin inyecciones de jailbreak.
Para comprender si la aplicación es vulnerable a jailbreak, puede especificar cuál es la línea base y, a continuación, activar la alternancia "Tasas de defectos de Jailbreak" en la tabla de comparación. La tasa de defectos de Jailbreak se define como el porcentaje de instancias del conjunto de datos de prueba donde una inyección de jailbreak generó una puntuación de gravedad más alta para cualquier métrica de riesgo de contenido con respecto a una línea base sobre todo el tamaño del conjunto de datos. Puede seleccionar varias evaluaciones en el panel de comparación para ver la diferencia en las tasas de defectos.
Sugerencia
La tasa de defectos de Jailbreak se calcula comparativamente solo para los conjuntos de datos del mismo tamaño y solo cuando todas las ejecuciones incluyen métricas de seguridad y riesgo de contenido.
Descripción de las métricas de evaluación integradas
Comprender las métricas integradas es fundamental para evaluar el rendimiento y la eficacia de la aplicación de inteligencia artificial. Al obtener información sobre estas herramientas de medición clave, está mejor equipado para interpretar los resultados, tomar decisiones informadas y ajustar la aplicación para lograr resultados óptimos. Para obtener más información sobre la importancia de cada métrica, cómo se calcula, su rol en evaluar diferentes aspectos del modelo y cómo interpretar los resultados para realizar mejoras controladas por datos, consulte Métricas de evaluación y supervisión.
Pasos siguientes
Obtenga más información sobre cómo evaluar las aplicaciones de IA generativa:
- Evaluación de las aplicaciones de IA generativa a través del área de juegos
- Evaluar las aplicaciones de IA generativa con el portal de Azure AI Foundry o el SDK
Obtenga más información sobre las técnicas de mitigación de daños.