Flujo de trabajo de desarrollo controlado por evaluación
Esta sección le guía por el flujo de trabajo de desarrollo recomendado de Databricks para compilar, probar e implementar una aplicación RAG de alta calidad: desarrollo controlado por evaluación. Este flujo de trabajo se basa en los procedimientos recomendados del equipo de Investigación de Mosaic para compilar y evaluar aplicaciones RAG de alta calidad. Databricks recomienda el siguiente flujo de trabajo controlado por evaluación:
- Defina los requisitos.
- Recopile comentarios de las partes interesadas para una prueba rápida de concepto (POC).
- Evalúe la calidad de la POC.
- Diagnostique y corrija problemas de calidad de forma iterativa.
- Implementación en producción.
- Supervise en producción.
Hay dos conceptos básicos en el desarrollo controlado por evaluación:
Métricas: definir qué significa de alta calidad.
De forma similar a cómo establece los objetivos empresariales cada año, debe definir los medios de alta calidad para su caso de uso. La evaluación del agente de IA de Mosaic proporciona un conjunto sugerido de métricas que se van a usar, la más importante de las cuales es la precisión o corrección de la respuesta, ¿la aplicación RAG proporciona la respuesta correcta?
Conjunto de evaluación: mide objetivamente las métricas.
Para medir objetivamente la calidad, necesita un conjunto de evaluación, que contiene preguntas con respuestas válidas conocidas validadas por los seres humanos. Esta guía le guía a través del proceso de desarrollo y refinación iterativa de este conjunto de evaluación.
El delimitador con métricas y un conjunto de evaluación proporciona las siguientes ventajas:
- Puede refinar de forma iterativa y segura la calidad de la aplicación durante el desarrollo, sin tener que adivinar si un cambio dio lugar a una mejora.
- La alineación con las partes interesadas empresariales sobre la preparación de la aplicación para producción se vuelve más sencilla cuando puede indicar con confianza, "sabemos que nuestra aplicación responde a las preguntas más críticas a nuestra empresa correctamente y no alucina".
Para ver un tutorial paso a paso que ilustra el flujo de trabajo basado en la evaluación, comience con Requisitos previos: recopilación de requisitos.