Definición de "calidad": conjuntos de evaluación
En este artículo se describen los conjuntos de evaluación y cómo ayudan a garantizar la calidad de la aplicación.
¿Qué es un conjunto de evaluación?
Para medir la calidad, Databricks recomienda crear un conjunto de evaluación etiquetado por usuarios. Un conjunto de evaluación es un conjunto de consultas mantenido y representativo, junto con respuestas de verdad fundamental y, de manera opcional, los documentos auxiliares correctos que se deben recuperar. La entrada humana es fundamental en este proceso, ya que garantiza que el conjunto de evaluación refleje con precisión las expectativas y los requisitos de los usuarios finales.
La selección de etiquetas humanas puede ser un proceso que consume mucho tiempo. Puede empezar creando un conjunto de evaluación que solo incluya preguntas y agregar las respuestas de verdad fundamental a lo largo del tiempo. La evaluación del agente de Mosaic AI puede evaluar la calidad de la cadena sin la verdad fundamental, aunque, si la verdad fundamental está disponible, calcula métricas adicionales, como la veracidad de las respuestas.
Elementos de un buen conjunto de evaluación
Un buen conjunto de evaluación tiene las siguientes características:
- Representativo: refleja con precisión la variedad de solicitudes que la aplicación encontrará en producción.
- Desafiante: el conjunto debe incluir casos difíciles y diversos para probar eficazmente las funcionalidades del modelo. Idealmente, incluye ejemplos adversarios, como preguntas que intentan la inyección de indicaciones o preguntas que intentan generar respuestas inapropiadas a partir del LLM.
- Actualización continua: el conjunto debe actualizarse periódicamente para reflejar cómo se usa la aplicación en producción, la naturaleza cambiante de los datos indexados y los cambios en los requisitos de la aplicación.
Databricks recomienda incluir al menos 30 preguntas en el conjunto de evaluación e, idealmente, de 100 a 200. Los mejores conjuntos de evaluación aumentarán con el tiempo para contener miles de preguntas.
Conjuntos de entrenamiento, prueba y validación
Para evitar el sobreajuste, Databricks recomienda dividir el conjunto de evaluación en conjuntos de entrenamiento, prueba y validación:
- Conjunto de entrenamiento: ~70 % de las preguntas. Se usa para un pase inicial para evaluar cada experimento para identificar los que tiene el potencial más alto.
- Conjunto de pruebas: ~20 % de las preguntas. Se usa para evaluar los experimentos de mayor rendimiento del conjunto de entrenamiento.
- Conjunto de validación: ~10 % de las preguntas. Se usa para una comprobación de validación final antes de implementar un experimento en producción.
La evaluación del agente de Mosaic AI le ayuda a crear un conjunto de evaluación proporcionando una interfaz de chat basada en web para que las partes interesadas proporcionen comentarios sobre las salidas de la aplicación. Las salidas de la cadena y los comentarios de las partes interesadas se guardan en tablas delta, que luego se pueden mantener en un conjunto de evaluación. Consulte Selección de un conjunto de evaluación en la sección de implementación de esta guía paso a paso para obtener instrucciones prácticas con código de ejemplo.