Paso 5. Identificar la causa principal de los problemas de calidad

Artículo
01/31/2025

flujo de trabajo con paso iterado resaltado

Consulte el repositorio de GitHub para ver el código de ejemplo de esta sección.

Tiempo esperado: 60 minutos.

Requisitos

Los resultados de evaluación de la POC están disponibles en MLflow. Si ha seguido paso 4. Evalúe la calidad de POC, los resultados están disponibles en MLflow.
Todos los requisitos de los pasos anteriores.

Información general

Las causas más probables de problemas de calidad son los pasos de recuperación y generación. Para determinar dónde centrarse en primer lugar, use la salida de los jueces LLM de Evaluación del agente de IA de Mosaico que ha ejecutado en el paso anterior para identificar la causa principal más frecuente que afecta a la calidad de la aplicación.

Cada fila del conjunto de evaluación se etiqueta de la siguiente manera:

Evaluación general: superar o no superar.
Causa principal: Improve Retrieval o Improve Generation.
Justificación de la causa principal: una breve descripción de por qué se ha seleccionado la causa principal.

Instrucciones

El enfoque depende de si el conjunto de evaluación contiene las respuestas básicas a sus preguntas. Estas respuestas se almacenan en expected_response. Si tiene disponibleexpected_response, use la tabla Análisis de causa raíz si la verdad del suelo está disponible. De lo contrario, use la tabla Análisis de causa raíz si la verdad del suelo no está disponible.

Abre el cuaderno B_quality_iteration/01_root_cause_quality_issues.
Ejecute las celdas pertinentes para su caso de uso, por ejemplo, si lo hace o no tiene expected_response
Revise las tablas de salida para determinar la causa principal más frecuente en la aplicación.
Para cada causa principal, siga los pasos que se indican a continuación para depurar e identificar posibles correcciones:
- Calidad de recuperación de depuración
- Calidad de generación de depuración

Análisis de causa principal si la verdad del suelo está disponible

Nota:

Si tiene una etiqueta de verdad básica humana para la que se debe recuperar el documento para cada pregunta, puede sustituir retrieval/llm_judged/chunk_relevance/precision/average opcionalmente por la puntuación de retrieval/ground_truth/document_recall/average.

Precisión de relevancia del fragmento	Base	Exactitud	Relevancia de la consulta	Resumen del problema	Causa principal	Clasificación general
<50 %	Incorrecto	Incorrecto	Incorrecto	La recuperación es deficiente.	`Improve Retrieval`	Incorrecto
<50 %	Incorrecto	Incorrecto	Aprobado	LLM genera una respuesta relevante, pero la recuperación es deficiente. Por ejemplo, LLM omite la recuperación y usa sus conocimientos de entrenamiento para responder.	`Improve Retrieval`	Incorrecto
<50 %	Incorrecto	Aprobado	Superar o no superar	La calidad de recuperación es deficiente, pero LLM obtiene la respuesta correcta independientemente.	`Improve Retrieval`	Incorrecto
<50 %	Aprobado	Incorrecto	Incorrecto	La respuesta se basa en la recuperación, pero la recuperación es deficiente.	`Improve Retrieval`	Incorrecto
<50 %	Aprobado	Incorrecto	Aprobado	Respuesta relevante en el contexto recuperado, pero es posible que la recuperación no esté relacionada con la respuesta esperada.	`Improve Retrieval`	Incorrecto
<50 %	Aprobado	Aprobado	Superar o no superar	La recuperación busca suficiente información para que LLM responda correctamente.	None	Aprobado
>50 %	Incorrecto	Incorrecto	Superar o no superar	Alucinación.	`Improve Generation`	Incorrecto
>50 %	Incorrecto	Aprobado	Superar o no superar	Alucinación, correcta, pero genera detalles no en el contexto.	`Improve Generation`	Incorrecto
>50 %	Aprobado	Incorrecto	Incorrecto	Una buena recuperación, pero LLM no proporciona una respuesta pertinente.	`Improve Generation`	Incorrecto
>50 %	Aprobado	Incorrecto	Aprobado	Buena recuperación y respuesta relevante, pero no correcta.	`Improve Generation`	Incorrecto
>50 %	Aprobado	Aprobado	Aprobado	No hay ningún problema.	None	Aprobado

Análisis de causa principal si la verdad de la base no está disponible

Precisión de relevancia del fragmento	Base	Relevancia de la consulta	Resumen del problema	Causa principal	Clasificación general
<50 %	Incorrecto	Incorrecto	La calidad de recuperación es deficiente.	`Improve Retrieval`	Incorrecto
<50 %	Incorrecto	Aprobado	La calidad de recuperación es deficiente.	`Improve Retrieval`	Incorrecto
<50 %	Aprobado	Incorrecto	La respuesta se basa en la recuperación, pero la recuperación es deficiente.	`Improve Retrieval`	Incorrecto
<50 %	Aprobado	Aprobado	Respuesta relevante fundamentada en el contexto recuperado y relevante, pero la recuperación es deficiente.	`Improve Retrieval`	Aprobado
>50 %	Incorrecto	Incorrecto	Alucinación.	`Improve Generation`	Incorrecto
>50 %	Incorrecto	Aprobado	Alucinación.	`Improve Generation`	Incorrecto
>50 %	Aprobado	Incorrecto	Buena recuperación y puesta en tierra, pero LLM no proporciona una respuesta relevante.	`Improve Generation`	Incorrecto
>50 %	Aprobado	Aprobado	Buena recuperación y respuesta relevante. Recopile la verdad básica para saber si la respuesta es correcta.	None	Aprobado

Paso siguiente

Consulte las páginas siguientes para depurar los problemas identificados:

< Anterior: Paso 4. Evaluación de la calidad de POC

Siguiente: Paso 5.1. Depurar la calidad de recuperación >

Compartir a través de