Steg 5. Identifiera grundorsaken till kvalitetsproblem

Artikel
12/26/2024

arbetsflöde med iteratsteg markerat

Se GitHub-lagringsplatsen för exempelkoden i det här avsnittet.

Förväntad tid: 60 minuter.

Krav

Utvärderingsresultat för POC är tillgängliga i MLflow. Om du följde steg 4. Utvärdera POC:s kvalitet, resultaten är tillgängliga i MLflow.
Alla krav från föregående steg.

Översikt

De mest sannolika grundorsakerna till kvalitetsproblem är hämtnings- och genereringsstegen. För att avgöra var du ska fokusera först, använd utdata från Mosaic AI Agent Evaluation LLM-utvärderare som du körde i föregående steg för att identifiera den vanligaste grundorsaken som påverkar kvaliteten på din app.

Varje rad i utvärderingsuppsättningen har taggats på följande sätt:

Övergripande utvärdering: Godkänn eller misslyckas.
Rotorsak: Improve Retrieval eller Improve Generation.
Grundorsaksmotivering: En kort beskrivning av varför rotorsaken valdes.

Instruktioner

Metoden är beroende av om utvärderingsuppsättningen innehåller de faktiska svaren på dina frågor. Dessa svar lagras i expected_response. Om du har expected_response tillgänglig använder du tabellen Rotorsaksanalys om det finns grundsanning. Annars använder du tabellen Rotorsaksanalys om grundsanningen inte är tillgänglig.

Öppna anteckningsboken B_quality_iteration/01_root_cause_quality_issues.
Kör cellerna som är relevanta för ditt användningsfall, t.ex. om du har eller inte har expected_response
Granska resultattabellerna för att fastställa den vanligaste rotorsaken i ditt program
För varje rotorsak följer du stegen nedan för att ytterligare felsöka och identifiera potentiella korrigeringar:
- Felsöka hämtningskvalitet
- Felsöka generationskvalitet

Rotorsaksanalys om grund sanning är tillgänglig

Kommentar

Om du har mänskligt märkt ground-truth för vilket dokument som ska hämtas för varje fråga kan du alternativt ersätta retrieval/llm_judged/chunk_relevance/precision/average med poängen för retrieval/ground_truth/document_recall/average.

Precision för segmentrelevans	Grundstötning	Korrekthet	Relevans för fråga	Problemsammanfattning	Rotorsak	Övergripande omdöme
<50%	Underkänn	Underkänn	Underkänn	Hämtningen är dålig.	`Improve Retrieval`	Underkänn
<50%	Underkänn	Underkänn	Godkänd	LLM genererar relevanta svar, men hämtningen är dålig. Till exempel ignorerar LLM hämtning och använder sina träningskunskaper för att svara.	`Improve Retrieval`	Underkänn
<50%	Underkänn	Godkänd	Skicka eller misslyckas	Hämtningskvaliteten är dålig, men LLM får rätt svar oavsett.	`Improve Retrieval`	Underkänn
<50%	Godkänd	Underkänn	Underkänn	Svaret baseras på hämtning, men hämtningen är dålig.	`Improve Retrieval`	Underkänn
<50%	Godkänd	Underkänn	Godkänd	Relevant svar som baseras på den hämtade kontexten, men hämtningen kanske inte är relaterad till det förväntade svaret.	`Improve Retrieval`	Underkänn
<50%	Godkänd	Godkänd	Skicka eller misslyckas	Hämtningen hittar tillräckligt med information för att LLM ska kunna svara korrekt.	Ingen	Godkänd
>50%	Underkänn	Underkänn	Skicka eller misslyckas	Hallucination.	`Improve Generation`	Underkänn
>50%	Underkänn	Godkänd	Skicka eller misslyckas	Hallucination, korrekt men genererar detaljer inte i sitt sammanhang.	`Improve Generation`	Underkänn
>50%	Godkänd	Underkänn	Underkänn	Bra hämtning, men LLM tillhandahåller inget relevant svar.	`Improve Generation`	Underkänn
>50%	Godkänd	Underkänn	Godkänd	Bra hämtning och relevant svar, men inte korrekt.	`Improve Generation`	Underkänn
>50%	Godkänd	Godkänd	Godkänd	Inga problem.	Ingen	Godkänd

Rotorsaksanalys om grund sanning inte är tillgänglig

Precision för segmentrelevans	Grundstötning	Relevans för fråga	Problemsammanfattning	Rotorsak	Övergripande omdöme
<50%	Underkänn	Underkänn	Hämtningskvaliteten är dålig.	`Improve Retrieval`	Underkänn
<50%	Underkänn	Godkänd	Hämtningskvaliteten är dålig.	`Improve Retrieval`	Underkänn
<50%	Godkänd	Underkänn	Svaret baseras på hämtning, men hämtningen är dålig.	`Improve Retrieval`	Underkänn
<50%	Godkänd	Godkänd	Relevant svar grundat i den hämtade kontexten och relevant, men hämtningen är dålig.	`Improve Retrieval`	Godkänd
>50%	Underkänn	Underkänn	Hallucination.	`Improve Generation`	Underkänn
>50%	Underkänn	Godkänd	Hallucination.	`Improve Generation`	Underkänn
>50%	Godkänd	Underkänn	Bra hämtning och jordad, men LLM ger inget relevant svar.	`Improve Generation`	Underkänn
>50%	Godkänd	Godkänd	Bra hämtning och relevant svar. Samla in grundsanning för att veta om svaret är korrekt.	Ingen	Godkänd

Gå vidare

Se följande sidor för att felsöka de problem som du har identifierat:

< Föregående: Steg 4. Utvärdera POC-kvalitet

Nästa: Steg 5.1. Felsöka hämtningskvalitet >

Dela via