Compartir a través de


Paso 5. Identificar la causa principal de los problemas de calidad

flujo de trabajo con paso iterado resaltado

Consulte el repositorio de GitHub para ver el código de ejemplo de esta sección.

Tiempo esperado: 60 minutos.

Requisitos

  • Los resultados de evaluación de la POC están disponibles en MLflow. Si ha seguido paso 4. Evalúe la calidad de POC, los resultados están disponibles en MLflow.
  • Todos los requisitos de los pasos anteriores.

Información general

Las causas más probables de problemas de calidad son los pasos de recuperación y generación. Para determinar dónde centrarse en primer lugar, use la salida de los jueces LLM de Evaluación del agente de IA de Mosaico que ha ejecutado en el paso anterior para identificar la causa principal más frecuente que afecta a la calidad de la aplicación.

Cada fila del conjunto de evaluación se etiqueta de la siguiente manera:

  • Evaluación general: superar o no superar.
  • Causa principal: Improve Retrieval o Improve Generation.
  • Justificación de la causa principal: una breve descripción de por qué se ha seleccionado la causa principal.

Instrucciones

El enfoque depende de si el conjunto de evaluación contiene las respuestas básicas a sus preguntas. Estas respuestas se almacenan en expected_response. Si tiene disponibleexpected_response, use la tabla Análisis de causa raíz si la verdad del suelo está disponible. De lo contrario, use la tabla Análisis de causa raíz si la verdad del suelo no está disponible.

  1. Abre el cuaderno B_quality_iteration/01_root_cause_quality_issues.
  2. Ejecute las celdas pertinentes para su caso de uso, por ejemplo, si lo hace o no tiene expected_response
  3. Revise las tablas de salida para determinar la causa principal más frecuente en la aplicación.
  4. Para cada causa principal, siga los pasos que se indican a continuación para depurar e identificar posibles correcciones:

Análisis de causa principal si la verdad del suelo está disponible

Nota:

Si tiene una etiqueta de verdad básica humana para la que se debe recuperar el documento para cada pregunta, puede sustituir retrieval/llm_judged/chunk_relevance/precision/average opcionalmente por la puntuación de retrieval/ground_truth/document_recall/average.

Precisión de relevancia del fragmento Base Exactitud Relevancia de la consulta Resumen del problema Causa principal Clasificación general
<50 % Incorrecto Incorrecto Incorrecto La recuperación es deficiente. Improve Retrieval Error
<50 % Incorrecto Incorrecto Aprobado LLM genera una respuesta relevante, pero la recuperación es deficiente. Por ejemplo, LLM omite la recuperación y usa sus conocimientos de entrenamiento para responder. Improve Retrieval Error
<50 % Error Aprobado Superar o no superar La calidad de recuperación es deficiente, pero LLM obtiene la respuesta correcta independientemente. Improve Retrieval Error
<50 % Correcto No superada Incorrecto La respuesta se basa en la recuperación, pero la recuperación es deficiente. Improve Retrieval Error
<50 % Correcto No superada Aprobado Respuesta relevante en el contexto recuperado, pero es posible que la recuperación no esté relacionada con la respuesta esperada. Improve Retrieval Error
<50 % Pass (pasado) Pass (pasado) Superar o no superar La recuperación busca suficiente información para que LLM responda correctamente. None Aprobado
>50 % Incorrecto Incorrecto Superar o no superar Alucinación. Improve Generation Error
>50 % Error Aprobado Superar o no superar Alucinación, correcta, pero genera detalles no en el contexto. Improve Generation Error
>50 % Correcto No superada Incorrecto Una buena recuperación, pero LLM no proporciona una respuesta pertinente. Improve Generation Error
>50 % Correcto No superada Aprobado Buena recuperación y respuesta relevante, pero no correcta. Improve Generation Error
>50 % Pass (pasado) Pass (pasado) Pass (pasado) No hay ningún problema. None Aprobado

Análisis de causa principal si la verdad de la base no está disponible

Precisión de relevancia del fragmento Base Relevancia de la consulta Resumen del problema Causa principal Clasificación general
<50 % Incorrecto Incorrecto La calidad de recuperación es deficiente. Improve Retrieval Error
<50 % Error Aprobado La calidad de recuperación es deficiente. Improve Retrieval Error
<50 % Correcto No superada La respuesta se basa en la recuperación, pero la recuperación es deficiente. Improve Retrieval Error
<50 % Pass (pasado) Pass (pasado) Respuesta relevante fundamentada en el contexto recuperado y relevante, pero la recuperación es deficiente. Improve Retrieval Aprobado
>50 % Incorrecto Incorrecto Alucinación. Improve Generation Error
>50 % Error Aprobado Alucinación. Improve Generation Error
>50 % Correcto No superada Buena recuperación y puesta en tierra, pero LLM no proporciona una respuesta relevante. Improve Generation Error
>50 % Pass (pasado) Pass (pasado) Buena recuperación y respuesta relevante. Recopile la verdad básica para saber si la respuesta es correcta. None Aprobado

Paso siguiente

Consulte las páginas siguientes para depurar los problemas identificados: