Steg 5. Identifiera grundorsaken till kvalitetsproblem
Se GitHub-lagringsplatsen för exempelkoden i det här avsnittet.
Förväntad tid: 60 minuter.
Krav
- Utvärderingsresultat för POC är tillgängliga i MLflow. Om du följde steg 4. Utvärdera POC:s kvalitet, resultaten är tillgängliga i MLflow.
- Alla krav från föregående steg.
Översikt
De mest sannolika grundorsakerna till kvalitetsproblem är hämtnings- och genereringsstegen. För att avgöra var du ska fokusera först använder du utdata från LLM-domarna för mosaik-AI-agentutvärdering som du körde i föregående steg för att identifiera den vanligaste rotorsaken som påverkar appens kvalitet.
Varje rad som utvärderingsuppsättningen har taggats på följande sätt:
- Övergripande utvärdering: Godkänn eller misslyckas.
- Rotorsak:
Improve Retrieval
ellerImprove Generation
. - Grundorsaksmotivering: En kort beskrivning av varför rotorsaken valdes.
Instruktioner
Metoden beror på om utvärderingsuppsättningen innehåller svar på grundsanningen på dina frågor. Dessa svar lagras i expected_response
. Om du har expected_response
tillgängligt kan du använda tabellen Rotorsaksanalys om grund sanning är tillgänglig. Annars använder du tabellen Rotorsaksanalys om grund sanning inte är tillgänglig.
- Öppna anteckningsboken B_quality_iteration/01_root_cause_quality_issues.
- Kör cellerna som är relevanta för ditt användningsfall, t.ex. om du har eller inte har expected_response
- Granska utdatatabellerna för att fastställa den vanligaste rotorsaken i ditt program
- För varje rotorsak följer du stegen nedan för att ytterligare felsöka och identifiera potentiella korrigeringar:
Rotorsaksanalys om grund sanning är tillgänglig
Kommentar
Om du har mänskligt märkt ground-truth för vilket dokument som ska hämtas för varje fråga kan du alternativt ersätta retrieval/llm_judged/chunk_relevance/precision/average
med poängen för retrieval/ground_truth/document_recall/average
.
Precision för segmentrelevans | Grundstötning | Korrekthet | Relevans för fråga | Problemsammanfattning | Rotorsak | Övergripande omdöme |
---|---|---|---|---|---|---|
<50% | Underkänn | Underkänn | Underkänn | Hämtningen är dålig. | Improve Retrieval |
Underkänn |
<50% | Underkänn | Underkänn | Godkänd | LLM genererar relevanta svar, men hämtningen är dålig. Till exempel ignorerar LLM hämtning och använder sina träningskunskaper för att svara. | Improve Retrieval |
Underkänn |
<50% | Underkänn | Godkänd | Skicka eller misslyckas | Hämtningskvaliteten är dålig, men LLM får rätt svar oavsett. | Improve Retrieval |
Underkänn |
<50% | Godkänd | Ej godkänd | Underkänn | Svaret baseras på hämtning, men hämtningen är dålig. | Improve Retrieval |
Underkänn |
<50% | Godkänd | Ej godkänd | Godkänd | Relevant svar som baseras på den hämtade kontexten, men hämtningen kanske inte är relaterad till det förväntade svaret. | Improve Retrieval |
Underkänn |
<50% | Godkänd | Godkänd | Skicka eller misslyckas | Hämtningen hittar tillräckligt med information för att LLM ska kunna svara korrekt. | Ingen | Godkänd |
>50% | Underkänn | Underkänn | Skicka eller misslyckas | Hallucination. | Improve Generation |
Underkänn |
>50% | Underkänn | Godkänd | Skicka eller misslyckas | Hallucination, korrekt men genererar detaljer inte i sitt sammanhang. | Improve Generation |
Underkänn |
>50% | Godkänd | Ej godkänd | Underkänn | Bra hämtning, men LLM tillhandahåller inget relevant svar. | Improve Generation |
Underkänn |
>50% | Godkänd | Ej godkänd | Godkänd | Bra hämtning och relevant svar, men inte korrekt. | Improve Generation |
Underkänn |
>50% | Godkänd | Godkänd | Godkänd | Inga problem. | Ingen | Godkänd |
Rotorsaksanalys om grund sanning inte är tillgänglig
Precision för segmentrelevans | Grundstötning | Relevans för fråga | Problemsammanfattning | Rotorsak | Övergripande omdöme |
---|---|---|---|---|---|
<50% | Underkänn | Underkänn | Hämtningskvaliteten är dålig. | Improve Retrieval |
Underkänn |
<50% | Underkänn | Godkänd | Hämtningskvaliteten är dålig. | Improve Retrieval |
Underkänn |
<50% | Godkänd | Ej godkänd | Svaret baseras på hämtning, men hämtningen är dålig. | Improve Retrieval |
Underkänn |
<50% | Godkänd | Godkänd | Relevant svar grundat i den hämtade kontexten och relevant, men hämtningen är dålig. | Improve Retrieval |
Godkänd |
>50% | Underkänn | Underkänn | Hallucination. | Improve Generation |
Underkänn |
>50% | Underkänn | Godkänd | Hallucination. | Improve Generation |
Underkänn |
>50% | Godkänd | Ej godkänd | Bra hämtning och jordad, men LLM ger inget relevant svar. | Improve Generation |
Underkänn |
>50% | Godkänd | Godkänd | Bra hämtning och relevant svar. Samla in grundsanning för att veta om svaret är korrekt. | Ingen | Godkänd |
Gå vidare
Se följande sidor för att felsöka de problem som du har identifierat: