Dela via


Steg 5. Identifiera grundorsaken till kvalitetsproblem

arbetsflöde med iteratsteg markerat

Se GitHub-lagringsplatsen för exempelkoden i det här avsnittet.

Förväntad tid: 60 minuter.

Krav

  • Utvärderingsresultat för POC är tillgängliga i MLflow. Om du följde steg 4. Utvärdera POC:s kvalitet, resultaten är tillgängliga i MLflow.
  • Alla krav från föregående steg.

Översikt

De mest sannolika grundorsakerna till kvalitetsproblem är hämtnings- och genereringsstegen. För att avgöra var du ska fokusera först, använd utdata från Mosaic AI Agent Evaluation LLM-utvärderare som du körde i föregående steg för att identifiera den vanligaste grundorsaken som påverkar kvaliteten på din app.

Varje rad i utvärderingsuppsättningen har taggats på följande sätt:

  • Övergripande utvärdering: Godkänn eller misslyckas.
  • Rotorsak: Improve Retrieval eller Improve Generation.
  • Grundorsaksmotivering: En kort beskrivning av varför rotorsaken valdes.

Instruktioner

Metoden är beroende av om utvärderingsuppsättningen innehåller de faktiska svaren på dina frågor. Dessa svar lagras i expected_response. Om du har expected_response tillgänglig använder du tabellen Rotorsaksanalys om det finns grundsanning. Annars använder du tabellen Rotorsaksanalys om grundsanningen inte är tillgänglig.

  1. Öppna anteckningsboken B_quality_iteration/01_root_cause_quality_issues.
  2. Kör cellerna som är relevanta för ditt användningsfall, t.ex. om du har eller inte har expected_response
  3. Granska resultattabellerna för att fastställa den vanligaste rotorsaken i ditt program
  4. För varje rotorsak följer du stegen nedan för att ytterligare felsöka och identifiera potentiella korrigeringar:

Rotorsaksanalys om grund sanning är tillgänglig

Kommentar

Om du har mänskligt märkt ground-truth för vilket dokument som ska hämtas för varje fråga kan du alternativt ersätta retrieval/llm_judged/chunk_relevance/precision/average med poängen för retrieval/ground_truth/document_recall/average.

Precision för segmentrelevans Grundstötning Korrekthet Relevans för fråga Problemsammanfattning Rotorsak Övergripande omdöme
<50% Underkänn Underkänn Underkänn Hämtningen är dålig. Improve Retrieval Underkänn
<50% Underkänn Underkänn Godkänd LLM genererar relevanta svar, men hämtningen är dålig. Till exempel ignorerar LLM hämtning och använder sina träningskunskaper för att svara. Improve Retrieval Underkänn
<50% Underkänn Godkänd Skicka eller misslyckas Hämtningskvaliteten är dålig, men LLM får rätt svar oavsett. Improve Retrieval Underkänn
<50% Godkänd Underkänn Underkänn Svaret baseras på hämtning, men hämtningen är dålig. Improve Retrieval Underkänn
<50% Godkänd Underkänn Godkänd Relevant svar som baseras på den hämtade kontexten, men hämtningen kanske inte är relaterad till det förväntade svaret. Improve Retrieval Underkänn
<50% Godkänd Godkänd Skicka eller misslyckas Hämtningen hittar tillräckligt med information för att LLM ska kunna svara korrekt. Ingen Godkänd
>50% Underkänn Underkänn Skicka eller misslyckas Hallucination. Improve Generation Underkänn
>50% Underkänn Godkänd Skicka eller misslyckas Hallucination, korrekt men genererar detaljer inte i sitt sammanhang. Improve Generation Underkänn
>50% Godkänd Underkänn Underkänn Bra hämtning, men LLM tillhandahåller inget relevant svar. Improve Generation Underkänn
>50% Godkänd Underkänn Godkänd Bra hämtning och relevant svar, men inte korrekt. Improve Generation Underkänn
>50% Godkänd Godkänd Godkänd Inga problem. Ingen Godkänd

Rotorsaksanalys om grund sanning inte är tillgänglig

Precision för segmentrelevans Grundstötning Relevans för fråga Problemsammanfattning Rotorsak Övergripande omdöme
<50% Underkänn Underkänn Hämtningskvaliteten är dålig. Improve Retrieval Underkänn
<50% Underkänn Godkänd Hämtningskvaliteten är dålig. Improve Retrieval Underkänn
<50% Godkänd Underkänn Svaret baseras på hämtning, men hämtningen är dålig. Improve Retrieval Underkänn
<50% Godkänd Godkänd Relevant svar grundat i den hämtade kontexten och relevant, men hämtningen är dålig. Improve Retrieval Godkänd
>50% Underkänn Underkänn Hallucination. Improve Generation Underkänn
>50% Underkänn Godkänd Hallucination. Improve Generation Underkänn
>50% Godkänd Underkänn Bra hämtning och jordad, men LLM ger inget relevant svar. Improve Generation Underkänn
>50% Godkänd Godkänd Bra hämtning och relevant svar. Samla in grundsanning för att veta om svaret är korrekt. Ingen Godkänd

Gå vidare

Se följande sidor för att felsöka de problem som du har identifierat:

< Föregående: Steg 4. Utvärdera POC-kvalitet

Nästa: Steg 5.1. Felsöka hämtningskvalitet >