Introducción a la evaluación y supervisión de aplicaciones RAG
La evaluación y la supervisión son componentes críticos para comprender si su aplicación RAG está rindiendo según los *requisitos de calidad, coste y latencia dictados por su caso de uso. Técnicamente, la evaluación tiene lugar durante el desarrollo y la supervisión una vez que la aplicación se implementa en producción, pero los componentes fundamentales son similares.
RAG sobre datos no estructurados es un sistema complejo con muchos componentes que repercuten en la calidad de la aplicación. El ajuste de un solo elemento puede tener efectos en cascada sobre los demás. Por ejemplo, los cambios en el formato de los datos pueden influir en los fragmentos recuperados y la capacidad del LLM para generar respuestas pertinentes. Por lo tanto, es crucial evaluar cada uno de los componentes de la aplicación además de la aplicación en su conjunto para perfeccionarla iterativamente basándose en esas evaluaciones.
Evaluación y supervisión: ML clásico frente a IA generativa
La evaluación y supervisión de las aplicaciones de IA generativa, incluida RAG, difiere del aprendizaje automático clásico en varios aspectos:
Tema | ML clásico | Inteligencia artificial generativa |
---|---|---|
Métricas | Las métricas evalúan las entradas y salidas del componente, por ejemplo, el desfase de características, la precisión, la recuperación, la latencia, etc. Puesto que solo hay un componente, las métricas generales == métricas de componentes. | Las métricas de componente evalúan las entradas y salidas de cada componente, por ejemplo precisión @ K, nDCG, latencia, toxicidad, etc. Las métricas compuestas evalúan cómo interactúan varios componentes: la fidelidad mide la adhesión del generador al conocimiento de un recuperador que requiere la entrada de la cadena, la salida de la cadena y la salida del recuperador interno. Las métricas generales evalúan la entrada y salida generales del sistema, por ejemplo, la corrección de respuestas y la latencia. |
Evaluación | La respuesta es deterministamente "correcta" o "incorrecta". Funcionan las métricas deterministas. | La respuesta es "correcta" o "incorrecta", pero: • Hay muchas respuestas correctas (no deterministas). • Algunas respuestas correctas son más correctas. Necesitas: • Comentarios de un humano para estar seguro. • Métricas juzgadas por LLM para escalar la evaluación. |
Componentes de la evaluación y supervisión
La evaluación y supervisión eficaces de la calidad, el costo y la latencia de las aplicaciones RAG requieren varios componentes:
- Conjunto de evaluación: para evaluar rigurosamente su aplicación RAG, necesita un conjunto seleccionado de consultas de evaluación (e idealmente de salidas) que sean representativas del uso previsto de la aplicación. Estos ejemplos de evaluación deberían ser estimulantes, diversos y actualizados para reflejar los cambios en la utilización y los requisitos.
- Definiciones métricas: no se puede administrar lo que no se mide. Para mejorar la calidad de RAG, es esencial definir qué significa calidad para su caso de uso. Dependiendo de la aplicación, las métricas importantes pueden incluir la precisión de la respuesta, la latencia, el coste o las valoraciones de las partes interesadas clave. Necesitará métricas que midan cada componente, cómo interactúan los componentes entre sí y el sistema en su conjunto.
- Jueces de LLM: dada la naturaleza abierta de las respuestas de LLM, no es factible leer cada una de las respuestas cada vez que se evalúa para determinar si el resultado es correcto. Usar un LLM adicional y diferente para revisar los resultados puede ayudar a escalar su evaluación y a usar métricas adicionales, como el fundamento de una respuesta a miles de tokens de contexto, que sería inviable que los evaluadores humanos valoraran eficazmente a escala.
- Arnes de evaluación: durante el desarrollo, un arnés de evaluación le ayuda a ejecutar rápidamente su aplicación para cada registro de su conjunto de evaluación y después ejecutar cada salida a través de sus jueces de LLM y cálculos métricos. Esto es particularmente difícil ya que este paso "bloquea" su bucle de desarrollo interno, por lo que la velocidad es de suma importancia. Un buen arnés de evaluación paraleliza este trabajo en la medida de lo posible, a menudo recurriendo a infraestructuras adicionales como más capacidad de LLM para hacerlo.
- IU de cara a las partes interesadas: como desarrollador, es posible que no sea un experto en el contenido de la aplicación que está desarrollando. Para recopilar comentarios de expertos humanos que puedan evaluar la calidad de su aplicación, necesita una interfaz que les permita interactuar con la aplicación y proporcionar comentarios detallados.
- Registro de seguimiento en producción: una vez en producción, necesitará evaluar una cantidad significativamente mayor de solicitudes/respuestas y cómo se generó cada respuesta. Por ejemplo, necesita saber si la causa de una respuesta de baja calidad se debe al paso de recuperación o a una alucinación. Su registro de producción debe supervisar las entradas, salidas y pasos intermedios, como la recuperación de documentos, para habilitar la supervisión continua y la detección y diagnóstico tempranos de los problemas que surjan en la producción.
Estos documentos cubren la evaluación con mucho más detalle en Evaluar la calidad de RAG.