Sdílet prostřednictvím


Krok 5. Identifikace původní příčiny problémů s kvalitou

pracovní postup se zvýrazněným iteracem

Podívejte se na úložiště GitHub pro vzorový kód v této části.

Očekávaný čas: 60 minut.

Požadavky

  • Výsledky vyhodnocení pro POC jsou k dispozici v MLflow. Pokud jste postupovali podle kroku 4. Vyhodnoťte kvalitu POC, výsledky jsou k dispozici v MLflow.
  • Všechny požadavky z předchozích kroků.

Přehled

Nejpravděpodobnější hlavní příčiny problémů s kvalitou jsou kroky načítání a generování. Pokud chcete určit, kde se zaměřit jako první, použijte výstup hodnocení agenta Mosaic AI LLM, který jste spustili v předchozím kroku, abyste identifikovali nejčastější hlavní příčinu, která má vliv na kvalitu aplikace.

Každý řádek ve vaší hodnotící sadě je označen takto:

  • Celkové hodnocení: Pass or fail.
  • Původní příčina: Improve Retrieval nebo Improve Generation.
  • Odůvodnění původní příčiny: Stručný popis, proč byla vybrána původní příčina.

Pokyny

Přístup závisí na tom, zda vaše evaluační sada obsahuje skutečné odpovědi na vaše otázky. Tyto odpovědi jsou uloženy v expected_response. Použijte tabulku analýzy kořenových příčin, pokud je k dispozici expected_response a máte k dispozici skutečná data. Jinak použijte tabulku analýza kořenových příčin, pokud nejsou k dispozici reálná data.

  1. Otevřete poznámkový blok B_quality_iteration/01_root_cause_quality_issues.
  2. Spusťte buňky, které jsou relevantní pro váš případ použití, například pokud máte nebo nemáte expected_response
  3. Projděte si výstupní tabulky a zjistěte nejčastější hlavní příčinu ve vaší aplikaci.
  4. Pro každou původní příčinu postupujte podle následujících kroků a proveďte další ladění a identifikaci potenciálních oprav:

Analýza původní příčiny, pokud je k dispozici základní pravda

Poznámka:

Pokud máte lidsky označenou základní pravdu, pro který dokument by se měl načíst pro každou otázku, můžete volitelně nahradit retrieval/llm_judged/chunk_relevance/precision/average skóre .retrieval/ground_truth/document_recall/average

Přesnost relevance bloku dat Uzemnění Správnost Relevance pro dotaz Souhrn problému Původní příčina Celkové hodnocení
<50% Neúspěch Neúspěch Neúspěch Načítání je špatné. Improve Retrieval Neúspěch
<50% Neúspěch Neúspěch Úspěšné absolvování LLM generuje relevantní odpověď, ale načítání je špatné. LLM například ignoruje načítání a používá své trénovací znalosti k zodpovězení. Improve Retrieval Neúspěch
<50% Neúspěch Úspěšné absolvování Předat nebo selhat Kvalita načítání je špatná, ale LLM získá správnou odpověď bez ohledu na to. Improve Retrieval Neúspěch
<50% Úspěšné absolvování Neúspěch Neúspěch Odpověď je uzemněna při načítání, ale načítání je špatné. Improve Retrieval Neúspěch
<50% Úspěšné absolvování Neúspěch Úspěšné absolvování Relevantní odpověď uzemněná v načtených kontextech, ale načtení nemusí souviset s očekávanou odpovědí. Improve Retrieval Neúspěch
<50% Úspěšné absolvování Úspěšné absolvování Předat nebo selhat Načtení najde dostatek informací, aby LLM správně odpověděl. Nic Úspěšné absolvování
>50% Neúspěch Neúspěch Předat nebo selhat Halucinace. Improve Generation Neúspěch
>50% Neúspěch Úspěšné absolvování Předat nebo selhat Halucinace, správná, ale generuje podrobnosti ne v kontextu. Improve Generation Neúspěch
>50% Úspěšné absolvování Neúspěch Neúspěch Dobré načtení, ale LLM neposkytuje relevantní odpověď. Improve Generation Neúspěch
>50% Úspěšné absolvování Neúspěch Úspěšné absolvování Dobrá načtení a relevantní odpověď, ale není správná. Improve Generation Neúspěch
>50% Úspěšné absolvování Úspěšné absolvování Úspěšné absolvování Žádné problémy. Nic Úspěšné absolvování

Analýza původní příčiny, pokud není k dispozici základní pravda

Přesnost relevance bloku dat Uzemnění Relevance pro dotaz Souhrn problému Původní příčina Celkové hodnocení
<50% Neúspěch Neúspěch Kvalita načítání je špatná. Improve Retrieval Neúspěch
<50% Neúspěch Úspěšné absolvování Kvalita načítání je špatná. Improve Retrieval Neúspěch
<50% Úspěšné absolvování Neúspěch Odpověď je uzemněna při načítání, ale načítání je špatné. Improve Retrieval Neúspěch
<50% Úspěšné absolvování Úspěšné absolvování Relevantní odpověď uzemněná v načtených kontextech a relevantních, ale načítání je špatné. Improve Retrieval Úspěšné absolvování
>50% Neúspěch Neúspěch Halucinace. Improve Generation Neúspěch
>50% Neúspěch Úspěšné absolvování Halucinace. Improve Generation Neúspěch
>50% Úspěšné absolvování Neúspěch Dobré načítání a uzemnění, ale LLM neposkytuje relevantní odpověď. Improve Generation Neúspěch
>50% Úspěšné absolvování Úspěšné absolvování Dobrá odpověď na načtení a relevantní odpověď. Shromážděte základní pravdu, abyste věděli, jestli je odpověď správná. Nic Úspěšné absolvování

Další krok

Pokud chcete ladit zjištěné problémy, podívejte se na následující stránky:

< předchozí: Krok 4. Vyhodnocení kvality POC

Další: Krok 5.1. Ladění kvality načítání informací >