Krok 5. Identifikace původní příčiny problémů s kvalitou
Podívejte se na úložiště GitHub pro vzorový kód v této části.
Očekávaný čas: 60 minut.
Požadavky
- Výsledky vyhodnocení pro POC jsou k dispozici v MLflow. Pokud jste postupovali podle kroku 4. Vyhodnoťte kvalitu POC, výsledky jsou k dispozici v MLflow.
- Všechny požadavky z předchozích kroků.
Přehled
Nejpravděpodobnější hlavní příčiny problémů s kvalitou jsou kroky načítání a generování. Pokud chcete určit, kde se zaměřit jako první, použijte výstup hodnocení agenta Mosaic AI LLM, který jste spustili v předchozím kroku, abyste identifikovali nejčastější hlavní příčinu, která má vliv na kvalitu aplikace.
Každý řádek ve vaší hodnotící sadě je označen takto:
- Celkové hodnocení: Pass or fail.
-
Původní příčina:
Improve Retrieval
neboImprove Generation
. - Odůvodnění původní příčiny: Stručný popis, proč byla vybrána původní příčina.
Pokyny
Přístup závisí na tom, zda vaše evaluační sada obsahuje skutečné odpovědi na vaše otázky. Tyto odpovědi jsou uloženy v expected_response
. Použijte tabulku analýzy kořenových příčin, pokud je k dispozici expected_response
a máte k dispozici skutečná data. Jinak použijte tabulku analýza kořenových příčin, pokud nejsou k dispozici reálná data.
- Otevřete poznámkový blok B_quality_iteration/01_root_cause_quality_issues.
- Spusťte buňky, které jsou relevantní pro váš případ použití, například pokud máte nebo nemáte expected_response
- Projděte si výstupní tabulky a zjistěte nejčastější hlavní příčinu ve vaší aplikaci.
- Pro každou původní příčinu postupujte podle následujících kroků a proveďte další ladění a identifikaci potenciálních oprav:
Analýza původní příčiny, pokud je k dispozici základní pravda
Poznámka:
Pokud máte lidsky označenou základní pravdu, pro který dokument by se měl načíst pro každou otázku, můžete volitelně nahradit retrieval/llm_judged/chunk_relevance/precision/average
skóre .retrieval/ground_truth/document_recall/average
Přesnost relevance bloku dat | Uzemnění | Správnost | Relevance pro dotaz | Souhrn problému | Původní příčina | Celkové hodnocení |
---|---|---|---|---|---|---|
<50% | Neúspěch | Neúspěch | Neúspěch | Načítání je špatné. | Improve Retrieval |
Neúspěch |
<50% | Neúspěch | Neúspěch | Úspěšné absolvování | LLM generuje relevantní odpověď, ale načítání je špatné. LLM například ignoruje načítání a používá své trénovací znalosti k zodpovězení. | Improve Retrieval |
Neúspěch |
<50% | Neúspěch | Úspěšné absolvování | Předat nebo selhat | Kvalita načítání je špatná, ale LLM získá správnou odpověď bez ohledu na to. | Improve Retrieval |
Neúspěch |
<50% | Úspěšné absolvování | Neúspěch | Neúspěch | Odpověď je uzemněna při načítání, ale načítání je špatné. | Improve Retrieval |
Neúspěch |
<50% | Úspěšné absolvování | Neúspěch | Úspěšné absolvování | Relevantní odpověď uzemněná v načtených kontextech, ale načtení nemusí souviset s očekávanou odpovědí. | Improve Retrieval |
Neúspěch |
<50% | Úspěšné absolvování | Úspěšné absolvování | Předat nebo selhat | Načtení najde dostatek informací, aby LLM správně odpověděl. | Nic | Úspěšné absolvování |
>50% | Neúspěch | Neúspěch | Předat nebo selhat | Halucinace. | Improve Generation |
Neúspěch |
>50% | Neúspěch | Úspěšné absolvování | Předat nebo selhat | Halucinace, správná, ale generuje podrobnosti ne v kontextu. | Improve Generation |
Neúspěch |
>50% | Úspěšné absolvování | Neúspěch | Neúspěch | Dobré načtení, ale LLM neposkytuje relevantní odpověď. | Improve Generation |
Neúspěch |
>50% | Úspěšné absolvování | Neúspěch | Úspěšné absolvování | Dobrá načtení a relevantní odpověď, ale není správná. | Improve Generation |
Neúspěch |
>50% | Úspěšné absolvování | Úspěšné absolvování | Úspěšné absolvování | Žádné problémy. | Nic | Úspěšné absolvování |
Analýza původní příčiny, pokud není k dispozici základní pravda
Přesnost relevance bloku dat | Uzemnění | Relevance pro dotaz | Souhrn problému | Původní příčina | Celkové hodnocení |
---|---|---|---|---|---|
<50% | Neúspěch | Neúspěch | Kvalita načítání je špatná. | Improve Retrieval |
Neúspěch |
<50% | Neúspěch | Úspěšné absolvování | Kvalita načítání je špatná. | Improve Retrieval |
Neúspěch |
<50% | Úspěšné absolvování | Neúspěch | Odpověď je uzemněna při načítání, ale načítání je špatné. | Improve Retrieval |
Neúspěch |
<50% | Úspěšné absolvování | Úspěšné absolvování | Relevantní odpověď uzemněná v načtených kontextech a relevantních, ale načítání je špatné. | Improve Retrieval |
Úspěšné absolvování |
>50% | Neúspěch | Neúspěch | Halucinace. | Improve Generation |
Neúspěch |
>50% | Neúspěch | Úspěšné absolvování | Halucinace. | Improve Generation |
Neúspěch |
>50% | Úspěšné absolvování | Neúspěch | Dobré načítání a uzemnění, ale LLM neposkytuje relevantní odpověď. | Improve Generation |
Neúspěch |
>50% | Úspěšné absolvování | Úspěšné absolvování | Dobrá odpověď na načtení a relevantní odpověď. Shromážděte základní pravdu, abyste věděli, jestli je odpověď správná. | Nic | Úspěšné absolvování |
Další krok
Pokud chcete ladit zjištěné problémy, podívejte se na následující stránky:
< předchozí: Krok 4. Vyhodnocení kvality POC