Dela via


Steg 5. Identifiera grundorsaken till kvalitetsproblem

arbetsflöde med iteratsteg markerat

Se GitHub-lagringsplatsen för exempelkoden i det här avsnittet.

Förväntad tid: 60 minuter.

Krav

  • Utvärderingsresultat för POC är tillgängliga i MLflow. Om du följde steg 4. Utvärdera POC:s kvalitet, resultaten är tillgängliga i MLflow.
  • Alla krav från föregående steg.

Översikt

De mest sannolika grundorsakerna till kvalitetsproblem är hämtnings- och genereringsstegen. För att avgöra var du ska fokusera först använder du utdata från LLM-domarna för mosaik-AI-agentutvärdering som du körde i föregående steg för att identifiera den vanligaste rotorsaken som påverkar appens kvalitet.

Varje rad som utvärderingsuppsättningen har taggats på följande sätt:

  • Övergripande utvärdering: Godkänn eller misslyckas.
  • Rotorsak: Improve Retrieval eller Improve Generation.
  • Grundorsaksmotivering: En kort beskrivning av varför rotorsaken valdes.

Instruktioner

Metoden beror på om utvärderingsuppsättningen innehåller svar på grundsanningen på dina frågor. Dessa svar lagras i expected_response. Om du har expected_response tillgängligt kan du använda tabellen Rotorsaksanalys om grund sanning är tillgänglig. Annars använder du tabellen Rotorsaksanalys om grund sanning inte är tillgänglig.

  1. Öppna anteckningsboken B_quality_iteration/01_root_cause_quality_issues.
  2. Kör cellerna som är relevanta för ditt användningsfall, t.ex. om du har eller inte har expected_response
  3. Granska utdatatabellerna för att fastställa den vanligaste rotorsaken i ditt program
  4. För varje rotorsak följer du stegen nedan för att ytterligare felsöka och identifiera potentiella korrigeringar:

Rotorsaksanalys om grund sanning är tillgänglig

Kommentar

Om du har mänskligt märkt ground-truth för vilket dokument som ska hämtas för varje fråga kan du alternativt ersätta retrieval/llm_judged/chunk_relevance/precision/average med poängen för retrieval/ground_truth/document_recall/average.

Precision för segmentrelevans Grundstötning Korrekthet Relevans för fråga Problemsammanfattning Rotorsak Övergripande omdöme
<50% Underkänn Underkänn Underkänn Hämtningen är dålig. Improve Retrieval Underkänn
<50% Underkänn Underkänn Godkänd LLM genererar relevanta svar, men hämtningen är dålig. Till exempel ignorerar LLM hämtning och använder sina träningskunskaper för att svara. Improve Retrieval Underkänn
<50% Underkänn Godkänd Skicka eller misslyckas Hämtningskvaliteten är dålig, men LLM får rätt svar oavsett. Improve Retrieval Underkänn
<50% Godkänd Ej godkänd Underkänn Svaret baseras på hämtning, men hämtningen är dålig. Improve Retrieval Underkänn
<50% Godkänd Ej godkänd Godkänd Relevant svar som baseras på den hämtade kontexten, men hämtningen kanske inte är relaterad till det förväntade svaret. Improve Retrieval Underkänn
<50% Godkänd Godkänd Skicka eller misslyckas Hämtningen hittar tillräckligt med information för att LLM ska kunna svara korrekt. Ingen Godkänd
>50% Underkänn Underkänn Skicka eller misslyckas Hallucination. Improve Generation Underkänn
>50% Underkänn Godkänd Skicka eller misslyckas Hallucination, korrekt men genererar detaljer inte i sitt sammanhang. Improve Generation Underkänn
>50% Godkänd Ej godkänd Underkänn Bra hämtning, men LLM tillhandahåller inget relevant svar. Improve Generation Underkänn
>50% Godkänd Ej godkänd Godkänd Bra hämtning och relevant svar, men inte korrekt. Improve Generation Underkänn
>50% Godkänd Godkänd Godkänd Inga problem. Ingen Godkänd

Rotorsaksanalys om grund sanning inte är tillgänglig

Precision för segmentrelevans Grundstötning Relevans för fråga Problemsammanfattning Rotorsak Övergripande omdöme
<50% Underkänn Underkänn Hämtningskvaliteten är dålig. Improve Retrieval Underkänn
<50% Underkänn Godkänd Hämtningskvaliteten är dålig. Improve Retrieval Underkänn
<50% Godkänd Ej godkänd Svaret baseras på hämtning, men hämtningen är dålig. Improve Retrieval Underkänn
<50% Godkänd Godkänd Relevant svar grundat i den hämtade kontexten och relevant, men hämtningen är dålig. Improve Retrieval Godkänd
>50% Underkänn Underkänn Hallucination. Improve Generation Underkänn
>50% Underkänn Godkänd Hallucination. Improve Generation Underkänn
>50% Godkänd Ej godkänd Bra hämtning och jordad, men LLM ger inget relevant svar. Improve Generation Underkänn
>50% Godkänd Godkänd Bra hämtning och relevant svar. Samla in grundsanning för att veta om svaret är korrekt. Ingen Godkänd

Gå vidare

Se följande sidor för att felsöka de problem som du har identifierat: