Étape 5. Identifier la cause racine des problèmes de qualité
Consultez le dépôt GitHub pour obtenir l’exemple de code de cette section.
Délai attendu : 60 minutes.
Spécifications
- Les résultats d’évaluation pour le POC sont disponibles dans MLflow. Si vous avez suivi l’étape 4. Évaluez la qualité de la POC, les résultats sont disponibles dans MLflow.
- Toutes les exigences des étapes précédentes.
Vue d’ensemble
Les causes principales les plus probables des problèmes de qualité sont les étapes de récupération et de génération. Pour déterminer où vous devez d’abord vous concentrer, utilisez la sortie des juges LLM d’évaluation de l’agent d’IA Mosaic que vous avez exécutés à l’étape précédente pour identifier la cause racine la plus fréquente qui a un impact sur la qualité de votre application.
Chaque ligne de votre jeu d’évaluation est marquée comme suit :
- Évaluation globale : réussite ou échec.
- Cause racine :
Improve Retrieval
ouImprove Generation
. - Justification de la cause racine : brève description de la raison pour laquelle la cause racine a été sélectionnée.
Instructions
L’approche dépend si votre jeu d’évaluation contient les réponses de base à vos questions. Ces réponses sont stockées dans expected_response
. Si vous avez expected_response
disponible, utilisez l’analyse de la cause racine de la table si la vérité de base est disponible. Sinon, utilisez le tableau analyse de la cause racine si la vérité au sol n’est pas disponible.
- Ouvrez le notebook B_quality_iteration/01_root_cause_quality_issues.
- Exécutez les cellules pertinentes pour votre cas d’usage, par exemple, si vous n’avez pas expected_response
- Passez en revue les tables de sortie pour déterminer la cause racine la plus fréquente dans votre application
- Pour chaque cause racine, suivez les étapes ci-dessous pour déboguer et identifier les correctifs potentiels :
Analyse de la cause racine si la vérité de base est disponible
Remarque
Si vous avez la vérité de base étiquetée humaine pour laquelle le document doit être récupéré pour chaque question, vous pouvez éventuellement remplacer retrieval/llm_judged/chunk_relevance/precision/average
avec le score par retrieval/ground_truth/document_recall/average
.
Précision de pertinence du bloc | Fondement | Exactitude | Pertinence à la requête | Récapitulatif du problème | Cause racine | Évaluation du classement |
---|---|---|---|---|---|---|
<50% | Échec | Échec | Échec | La récupération est médiocre. | Improve Retrieval |
Échec |
<50% | Échec | Échec | Réussite | LLM génère une réponse pertinente, mais la récupération est médiocre. Par exemple, le LLM ignore la récupération et utilise ses connaissances d’apprentissage pour répondre. | Improve Retrieval |
Échec |
<50% | Échec | Réussite | Passer ou échouer | La qualité de récupération est médiocre, mais LLM obtient la réponse correcte indépendamment. | Improve Retrieval |
Échec |
<50% | Réussite | Échec | Échec | La réponse est fondée sur la récupération, mais la récupération est médiocre. | Improve Retrieval |
Échec |
<50% | Réussite | Échec | Réussite | Réponse pertinente ancrée dans le contexte récupéré, mais la récupération peut ne pas être liée à la réponse attendue. | Improve Retrieval |
Échec |
<50% | Réussite | Réussite | Passer ou échouer | La récupération trouve suffisamment d’informations pour que le LLM réponde correctement. | Aucune | Réussite |
>50% | Échec | Échec | Passer ou échouer | Hallucination. | Improve Generation |
Échec |
>50% | Échec | Réussite | Passer ou échouer | Hallucination, correcte mais génère des détails non dans le contexte. | Improve Generation |
Échec |
>50% | Réussite | Échec | Échec | Bonne récupération, mais le LLM ne fournit pas de réponse pertinente. | Improve Generation |
Échec |
>50% | Réussite | Échec | Réussite | Bonne récupération et réponse pertinente, mais pas correcte. | Improve Generation |
Échec |
>50% | Réussite | Réussite | Réussite | Aucun problème. | Aucune | Réussite |
Analyse de la cause racine si la vérité de base n’est pas disponible
Précision de pertinence du bloc | Fondement | Pertinence à la requête | Récapitulatif du problème | Cause racine | Évaluation du classement |
---|---|---|---|---|---|
<50% | Échec | Échec | La qualité de récupération est médiocre. | Improve Retrieval |
Échec |
<50% | Échec | Réussite | La qualité de récupération est médiocre. | Improve Retrieval |
Échec |
<50% | Réussite | Échec | La réponse est fondée sur la récupération, mais la récupération est médiocre. | Improve Retrieval |
Échec |
<50% | Réussite | Réussite | Réponse pertinente fondée sur le contexte récupéré et pertinente, mais la récupération est médiocre. | Improve Retrieval |
Réussite |
>50% | Échec | Échec | Hallucination. | Improve Generation |
Échec |
>50% | Échec | Réussite | Hallucination. | Improve Generation |
Échec |
>50% | Réussite | Échec | Une bonne récupération et une bonne récupération, mais LLM ne fournit pas de réponse pertinente. | Improve Generation |
Échec |
>50% | Réussite | Réussite | Bonne récupération et réponse pertinente. Collectez la vérité au sol pour savoir si la réponse est correcte. | Aucune | Réussite |
Étape suivante
Consultez les pages suivantes pour déboguer les problèmes que vous avez identifiés :
- Étape 5 (récupération). Comment déboguer la qualité de la récupération
- Étape 5 (génération). Comment déboguer la qualité de la génération
< précédent : étape 4. Évaluer la qualité POC
Suivant : Étape 5.1. Déboguer la qualité de la récupération >