Étape 5. Identifier la cause racine des problèmes de qualité

Article
10/14/2024

Flux de travail avec itération étape mise en surbrillance

Consultez le dépôt GitHub pour obtenir l’exemple de code de cette section.

Délai attendu : 60 minutes.

Spécifications

Les résultats d’évaluation pour le POC sont disponibles dans MLflow. Si vous avez suivi l’étape 4. Évaluez la qualité de la POC, les résultats sont disponibles dans MLflow.
Toutes les exigences des étapes précédentes.

Vue d’ensemble

Les causes principales les plus probables des problèmes de qualité sont les étapes de récupération et de génération. Pour déterminer où vous devez d’abord vous concentrer, utilisez la sortie des juges LLM d’évaluation de l’agent d’IA Mosaic que vous avez exécutés à l’étape précédente pour identifier la cause racine la plus fréquente qui a un impact sur la qualité de votre application.

Chaque ligne de votre jeu d’évaluation est marquée comme suit :

Évaluation globale : réussite ou échec.
Cause racine : Improve Retrieval ou Improve Generation.
Justification de la cause racine : brève description de la raison pour laquelle la cause racine a été sélectionnée.

Instructions

L’approche dépend si votre jeu d’évaluation contient les réponses de base à vos questions. Ces réponses sont stockées dans expected_response. Si vous avez expected_response disponible, utilisez l’analyse de la cause racine de la table si la vérité de base est disponible. Sinon, utilisez le tableau analyse de la cause racine si la vérité au sol n’est pas disponible.

Ouvrez le notebook B_quality_iteration/01_root_cause_quality_issues.
Exécutez les cellules pertinentes pour votre cas d’usage, par exemple, si vous n’avez pas expected_response
Passez en revue les tables de sortie pour déterminer la cause racine la plus fréquente dans votre application
Pour chaque cause racine, suivez les étapes ci-dessous pour déboguer et identifier les correctifs potentiels :
- Déboguer la qualité de la récupération
- Déboguer la qualité de la génération

Analyse de la cause racine si la vérité de base est disponible

Remarque

Si vous avez la vérité de base étiquetée humaine pour laquelle le document doit être récupéré pour chaque question, vous pouvez éventuellement remplacer retrieval/llm_judged/chunk_relevance/precision/average avec le score par retrieval/ground_truth/document_recall/average.

Précision de pertinence du bloc	Fondement	Exactitude	Pertinence à la requête	Récapitulatif du problème	Cause racine	Évaluation du classement
<50%	Échec	Échec	Échec	La récupération est médiocre.	`Improve Retrieval`	Échec
<50%	Échec	Échec	Réussite	LLM génère une réponse pertinente, mais la récupération est médiocre. Par exemple, le LLM ignore la récupération et utilise ses connaissances d’apprentissage pour répondre.	`Improve Retrieval`	Échec
<50%	Échec	Réussite	Passer ou échouer	La qualité de récupération est médiocre, mais LLM obtient la réponse correcte indépendamment.	`Improve Retrieval`	Échec
<50%	Réussite	Échec	Échec	La réponse est fondée sur la récupération, mais la récupération est médiocre.	`Improve Retrieval`	Échec
<50%	Réussite	Échec	Réussite	Réponse pertinente ancrée dans le contexte récupéré, mais la récupération peut ne pas être liée à la réponse attendue.	`Improve Retrieval`	Échec
<50%	Réussite	Réussite	Passer ou échouer	La récupération trouve suffisamment d’informations pour que le LLM réponde correctement.	Aucune	Réussite
>50%	Échec	Échec	Passer ou échouer	Hallucination.	`Improve Generation`	Échec
>50%	Échec	Réussite	Passer ou échouer	Hallucination, correcte mais génère des détails non dans le contexte.	`Improve Generation`	Échec
>50%	Réussite	Échec	Échec	Bonne récupération, mais le LLM ne fournit pas de réponse pertinente.	`Improve Generation`	Échec
>50%	Réussite	Échec	Réussite	Bonne récupération et réponse pertinente, mais pas correcte.	`Improve Generation`	Échec
>50%	Réussite	Réussite	Réussite	Aucun problème.	Aucune	Réussite

Analyse de la cause racine si la vérité de base n’est pas disponible

Précision de pertinence du bloc	Fondement	Pertinence à la requête	Récapitulatif du problème	Cause racine	Évaluation du classement
<50%	Échec	Échec	La qualité de récupération est médiocre.	`Improve Retrieval`	Échec
<50%	Échec	Réussite	La qualité de récupération est médiocre.	`Improve Retrieval`	Échec
<50%	Réussite	Échec	La réponse est fondée sur la récupération, mais la récupération est médiocre.	`Improve Retrieval`	Échec
<50%	Réussite	Réussite	Réponse pertinente fondée sur le contexte récupéré et pertinente, mais la récupération est médiocre.	`Improve Retrieval`	Réussite
>50%	Échec	Échec	Hallucination.	`Improve Generation`	Échec
>50%	Échec	Réussite	Hallucination.	`Improve Generation`	Échec
>50%	Réussite	Échec	Une bonne récupération et une bonne récupération, mais LLM ne fournit pas de réponse pertinente.	`Improve Generation`	Échec
>50%	Réussite	Réussite	Bonne récupération et réponse pertinente. Collectez la vérité au sol pour savoir si la réponse est correcte.	Aucune	Réussite

Étape suivante

Consultez les pages suivantes pour déboguer les problèmes que vous avez identifiés :

< précédent : étape 4. Évaluer la qualité POC

Suivant : Étape 5.1. Déboguer la qualité de la récupération >

Partager via