Partager via


Étape 5. Identifier la cause racine des problèmes de qualité

Flux de travail avec itération étape mise en surbrillance

Consultez le dépôt GitHub pour obtenir l’exemple de code de cette section.

Délai attendu : 60 minutes.

Spécifications

  • Les résultats d’évaluation pour le POC sont disponibles dans MLflow. Si vous avez suivi l’étape 4. Évaluez la qualité de la POC, les résultats sont disponibles dans MLflow.
  • Toutes les exigences des étapes précédentes.

Vue d’ensemble

Les causes principales les plus probables des problèmes de qualité sont les étapes de récupération et de génération. Pour déterminer où vous devez d’abord vous concentrer, utilisez la sortie des juges LLM d’évaluation de l’agent d’IA Mosaic que vous avez exécutés à l’étape précédente pour identifier la cause racine la plus fréquente qui a un impact sur la qualité de votre application.

Chaque ligne de votre jeu d’évaluation est marquée comme suit :

  • Évaluation globale : réussite ou échec.
  • Cause racine : Improve Retrieval ou Improve Generation.
  • Justification de la cause racine : brève description de la raison pour laquelle la cause racine a été sélectionnée.

Instructions

L’approche dépend si votre jeu d’évaluation contient les réponses de base à vos questions. Ces réponses sont stockées dans expected_response. Si vous avez expected_response disponible, utilisez l’analyse de la cause racine de la table si la vérité de base est disponible. Sinon, utilisez le tableau analyse de la cause racine si la vérité au sol n’est pas disponible.

  1. Ouvrez le notebook B_quality_iteration/01_root_cause_quality_issues.
  2. Exécutez les cellules pertinentes pour votre cas d’usage, par exemple, si vous n’avez pas expected_response
  3. Passez en revue les tables de sortie pour déterminer la cause racine la plus fréquente dans votre application
  4. Pour chaque cause racine, suivez les étapes ci-dessous pour déboguer et identifier les correctifs potentiels :

Analyse de la cause racine si la vérité de base est disponible

Remarque

Si vous avez la vérité de base étiquetée humaine pour laquelle le document doit être récupéré pour chaque question, vous pouvez éventuellement remplacer retrieval/llm_judged/chunk_relevance/precision/average avec le score par retrieval/ground_truth/document_recall/average.

Précision de pertinence du bloc Fondement Exactitude Pertinence à la requête Récapitulatif du problème Cause racine Évaluation du classement
<50% Échec Échec Échec La récupération est médiocre. Improve Retrieval Échec
<50% Échec Échec Réussite LLM génère une réponse pertinente, mais la récupération est médiocre. Par exemple, le LLM ignore la récupération et utilise ses connaissances d’apprentissage pour répondre. Improve Retrieval Échec
<50% Échec Réussite Passer ou échouer La qualité de récupération est médiocre, mais LLM obtient la réponse correcte indépendamment. Improve Retrieval Échec
<50% Réussite Échec Échec La réponse est fondée sur la récupération, mais la récupération est médiocre. Improve Retrieval Échec
<50% Réussite Échec Réussite Réponse pertinente ancrée dans le contexte récupéré, mais la récupération peut ne pas être liée à la réponse attendue. Improve Retrieval Échec
<50% Réussite Réussite Passer ou échouer La récupération trouve suffisamment d’informations pour que le LLM réponde correctement. Aucune Réussite
>50% Échec Échec Passer ou échouer Hallucination. Improve Generation Échec
>50% Échec Réussite Passer ou échouer Hallucination, correcte mais génère des détails non dans le contexte. Improve Generation Échec
>50% Réussite Échec Échec Bonne récupération, mais le LLM ne fournit pas de réponse pertinente. Improve Generation Échec
>50% Réussite Échec Réussite Bonne récupération et réponse pertinente, mais pas correcte. Improve Generation Échec
>50% Réussite Réussite Réussite Aucun problème. Aucune Réussite

Analyse de la cause racine si la vérité de base n’est pas disponible

Précision de pertinence du bloc Fondement Pertinence à la requête Récapitulatif du problème Cause racine Évaluation du classement
<50% Échec Échec La qualité de récupération est médiocre. Improve Retrieval Échec
<50% Échec Réussite La qualité de récupération est médiocre. Improve Retrieval Échec
<50% Réussite Échec La réponse est fondée sur la récupération, mais la récupération est médiocre. Improve Retrieval Échec
<50% Réussite Réussite Réponse pertinente fondée sur le contexte récupéré et pertinente, mais la récupération est médiocre. Improve Retrieval Réussite
>50% Échec Échec Hallucination. Improve Generation Échec
>50% Échec Réussite Hallucination. Improve Generation Échec
>50% Réussite Échec Une bonne récupération et une bonne récupération, mais LLM ne fournit pas de réponse pertinente. Improve Generation Échec
>50% Réussite Réussite Bonne récupération et réponse pertinente. Collectez la vérité au sol pour savoir si la réponse est correcte. Aucune Réussite

Étape suivante

Consultez les pages suivantes pour déboguer les problèmes que vous avez identifiés :

< précédent : étape 4. Évaluer la qualité POC

Suivant : Étape 5.1. Déboguer la qualité de la récupération >