Paso 5. Identificar la causa principal de los problemas de calidad
Consulte el repositorio de GitHub para ver el código de ejemplo de esta sección.
Tiempo esperado: 60 minutos.
Requisitos
- Los resultados de evaluación de la POC están disponibles en MLflow. Si ha seguido paso 4. Evalúe la calidad de POC, los resultados están disponibles en MLflow.
- Todos los requisitos de los pasos anteriores.
Información general
Las causas más probables de problemas de calidad son los pasos de recuperación y generación. Para determinar dónde centrarse en primer lugar, use la salida de los jueces LLM de Evaluación del agente de IA de Mosaico que ha ejecutado en el paso anterior para identificar la causa principal más frecuente que afecta a la calidad de la aplicación.
Cada fila del conjunto de evaluación se etiqueta de la siguiente manera:
- Evaluación general: superar o no superar.
- Causa principal:
Improve Retrieval
oImprove Generation
. - Justificación de la causa principal: una breve descripción de por qué se ha seleccionado la causa principal.
Instrucciones
El enfoque depende de si el conjunto de evaluación contiene las respuestas básicas a sus preguntas. Estas respuestas se almacenan en expected_response
. Si tiene disponibleexpected_response
, use la tabla Análisis de causa raíz si la verdad del suelo está disponible. De lo contrario, use la tabla Análisis de causa raíz si la verdad del suelo no está disponible.
- Abre el cuaderno B_quality_iteration/01_root_cause_quality_issues.
- Ejecute las celdas pertinentes para su caso de uso, por ejemplo, si lo hace o no tiene expected_response
- Revise las tablas de salida para determinar la causa principal más frecuente en la aplicación.
- Para cada causa principal, siga los pasos que se indican a continuación para depurar e identificar posibles correcciones:
Análisis de causa principal si la verdad del suelo está disponible
Nota:
Si tiene una etiqueta de verdad básica humana para la que se debe recuperar el documento para cada pregunta, puede sustituir retrieval/llm_judged/chunk_relevance/precision/average
opcionalmente por la puntuación de retrieval/ground_truth/document_recall/average
.
Precisión de relevancia del fragmento | Base | Exactitud | Relevancia de la consulta | Resumen del problema | Causa principal | Clasificación general |
---|---|---|---|---|---|---|
<50 % | Incorrecto | Incorrecto | Incorrecto | La recuperación es deficiente. | Improve Retrieval |
Error |
<50 % | Incorrecto | Incorrecto | Aprobado | LLM genera una respuesta relevante, pero la recuperación es deficiente. Por ejemplo, LLM omite la recuperación y usa sus conocimientos de entrenamiento para responder. | Improve Retrieval |
Error |
<50 % | Error | Aprobado | Superar o no superar | La calidad de recuperación es deficiente, pero LLM obtiene la respuesta correcta independientemente. | Improve Retrieval |
Error |
<50 % | Correcto | No superada | Incorrecto | La respuesta se basa en la recuperación, pero la recuperación es deficiente. | Improve Retrieval |
Error |
<50 % | Correcto | No superada | Aprobado | Respuesta relevante en el contexto recuperado, pero es posible que la recuperación no esté relacionada con la respuesta esperada. | Improve Retrieval |
Error |
<50 % | Pass (pasado) | Pass (pasado) | Superar o no superar | La recuperación busca suficiente información para que LLM responda correctamente. | None | Aprobado |
>50 % | Incorrecto | Incorrecto | Superar o no superar | Alucinación. | Improve Generation |
Error |
>50 % | Error | Aprobado | Superar o no superar | Alucinación, correcta, pero genera detalles no en el contexto. | Improve Generation |
Error |
>50 % | Correcto | No superada | Incorrecto | Una buena recuperación, pero LLM no proporciona una respuesta pertinente. | Improve Generation |
Error |
>50 % | Correcto | No superada | Aprobado | Buena recuperación y respuesta relevante, pero no correcta. | Improve Generation |
Error |
>50 % | Pass (pasado) | Pass (pasado) | Pass (pasado) | No hay ningún problema. | None | Aprobado |
Análisis de causa principal si la verdad de la base no está disponible
Precisión de relevancia del fragmento | Base | Relevancia de la consulta | Resumen del problema | Causa principal | Clasificación general |
---|---|---|---|---|---|
<50 % | Incorrecto | Incorrecto | La calidad de recuperación es deficiente. | Improve Retrieval |
Error |
<50 % | Error | Aprobado | La calidad de recuperación es deficiente. | Improve Retrieval |
Error |
<50 % | Correcto | No superada | La respuesta se basa en la recuperación, pero la recuperación es deficiente. | Improve Retrieval |
Error |
<50 % | Pass (pasado) | Pass (pasado) | Respuesta relevante fundamentada en el contexto recuperado y relevante, pero la recuperación es deficiente. | Improve Retrieval |
Aprobado |
>50 % | Incorrecto | Incorrecto | Alucinación. | Improve Generation |
Error |
>50 % | Error | Aprobado | Alucinación. | Improve Generation |
Error |
>50 % | Correcto | No superada | Buena recuperación y puesta en tierra, pero LLM no proporciona una respuesta relevante. | Improve Generation |
Error |
>50 % | Pass (pasado) | Pass (pasado) | Buena recuperación y respuesta relevante. Recopile la verdad básica para saber si la respuesta es correcta. | None | Aprobado |
Paso siguiente
Consulte las páginas siguientes para depurar los problemas identificados: