Krok 5. Identyfikowanie głównej przyczyny problemów z jakością

Artykuł
01/23/2025

przepływ pracy z wyróżnionym krokiem iterowania

Zobacz repozytorium GitHub, aby zapoznać się z przykładowym kodem w tej sekcji.

Oczekiwany czas: 60 minut.

Wymagania

Wyniki oceny koncepcji są dostępne w narzędziu MLflow. Jeśli wykonano krok 4. Oceń jakość weryfikacji koncepcji, a wyniki są dostępne w narzędziu MLflow.
Wszystkie wymagania z poprzednich kroków.

Omówienie

Najbardziej prawdopodobną główną przyczyną problemów z jakością są kroki pobierania i generowania. Aby określić, gdzie skupić się najpierw, użyj danych wyjściowych z oceny agenta mozaiki AI przez sędziów LLM, uruchomionych w poprzednim kroku, aby zidentyfikować najczęstszą główną przyczynę wpływającą na jakość twojej aplikacji.

Każdy wiersz zestawu oceny jest otagowany w następujący sposób:

Ogólna ocena: powodzenie lub niepowodzenie.
Główna przyczyna: Improve Retrieval lub Improve Generation.
Uzasadnienie głównej przyczyny: krótki opis przyczyny wybrania głównej przyczyny.

Instrukcje

Podejście zależy od tego, czy zestaw oceny zawiera odpowiedzi na pytania podstawowe. Te odpowiedzi są przechowywane w pliku expected_response. Jeśli masz dostęp do expected_response, użyj tabeli analiza przyczyny źródłowej, jeśli rzeczywisty stan rzeczy jest dostępny. W przeciwnym razie użyj tabeli analiza pierwotnej przyczyny, jeśli dane referencyjne są niedostępne.

Otwórz notes B_quality_iteration/01_root_cause_quality_issues.
Uruchom komórki, które są istotne dla twojego przypadku użycia, np. jeśli to zrobisz lub nie masz expected_response
Przejrzyj tabele wyjściowe, aby określić najczęstszą główną przyczynę w aplikacji
Dla każdej głównej przyczyny wykonaj poniższe kroki, aby dodatkowo debugować i zidentyfikować potencjalne poprawki:
- Jakość pobierania debugowania
- Jakość generowania debugowania

Analiza głównej przyczyny, jeśli jest dostępna podstawowa prawda

Uwaga

Jeśli masz ludzką etykietę ground-truth, dla której dokumentu należy pobrać dla każdego pytania, możesz opcjonalnie zastąpić retrieval/llm_judged/chunk_relevance/precision/average wynik .retrieval/ground_truth/document_recall/average

Precyzja istotności fragmentów	Uziemienie	Poprawność	Istotność zapytania	Podsumowanie problemu	Główna przyczyna	Ogólna ocena
<50%	Niepowodzenie	Niepowodzenie	Niepowodzenie	Pobieranie jest słabe.	`Improve Retrieval`	Niepowodzenie
<50%	Niepowodzenie	Niepowodzenie	Zdane	Funkcja LLM generuje odpowiednią odpowiedź, ale pobieranie jest słabe. Na przykład llM ignoruje pobieranie i wykorzystuje swoją wiedzę szkoleniową do udzielenia odpowiedzi.	`Improve Retrieval`	Niepowodzenie
<50%	Niepowodzenie	Zdane	Przekazywanie lub niepowodzenie	Jakość pobierania jest niska, ale LLM otrzymuje odpowiedź poprawną niezależnie od tego.	`Improve Retrieval`	Niepowodzenie
<50%	Zdane	Niepowodzenie	Niepowodzenie	Odpowiedź jest uziemiona w pobieraniu, ale pobieranie jest słabe.	`Improve Retrieval`	Niepowodzenie
<50%	Zdane	Niepowodzenie	Zdane	Odpowiednia odpowiedź uziemiona w pobranym kontekście, ale pobieranie może nie być powiązane z oczekiwaną odpowiedzią.	`Improve Retrieval`	Niepowodzenie
<50%	Zdane	Zdane	Przekazywanie lub niepowodzenie	Pobieranie znajduje wystarczającą ilość informacji, aby usługa LLM poprawnie odpowiedziała.	Brak	Zdane
>50%	Niepowodzenie	Niepowodzenie	Przekazywanie lub niepowodzenie	Halucynacja.	`Improve Generation`	Niepowodzenie
>50%	Niepowodzenie	Zdane	Przekazywanie lub niepowodzenie	Halucynacja, poprawna, ale generuje szczegóły nie w kontekście.	`Improve Generation`	Niepowodzenie
>50%	Zdane	Niepowodzenie	Niepowodzenie	Dobre pobieranie, ale LLM nie zapewnia odpowiedniej odpowiedzi.	`Improve Generation`	Niepowodzenie
>50%	Zdane	Niepowodzenie	Zdane	Dobre pobieranie i odpowiednia odpowiedź, ale nie jest poprawna.	`Improve Generation`	Niepowodzenie
>50%	Zdane	Zdane	Zdane	Brak problemów.	Brak	Zdane

Analiza głównej przyczyny, jeśli prawda jest niedostępna

Precyzja istotności fragmentów	Uziemienie	Istotność zapytania	Podsumowanie problemu	Główna przyczyna	Ogólna ocena
<50%	Niepowodzenie	Niepowodzenie	Jakość pobierania jest niska.	`Improve Retrieval`	Niepowodzenie
<50%	Niepowodzenie	Zdane	Jakość pobierania jest niska.	`Improve Retrieval`	Niepowodzenie
<50%	Zdane	Niepowodzenie	Odpowiedź jest uziemiona w pobieraniu, ale pobieranie jest słabe.	`Improve Retrieval`	Niepowodzenie
<50%	Zdane	Zdane	Odpowiednia odpowiedź uziemiona w pobranym kontekście i odpowiednim, ale pobieranie jest słabe.	`Improve Retrieval`	Zdane
>50%	Niepowodzenie	Niepowodzenie	Halucynacja.	`Improve Generation`	Niepowodzenie
>50%	Niepowodzenie	Zdane	Halucynacja.	`Improve Generation`	Niepowodzenie
>50%	Zdane	Niepowodzenie	Dobre pobieranie i uziemione, ale LLM nie zapewnia odpowiedniej odpowiedzi.	`Improve Generation`	Niepowodzenie
>50%	Zdane	Zdane	Dobre pobieranie i odpowiednia odpowiedź. Zbierz podstawy prawdy, aby dowiedzieć się, czy odpowiedź jest poprawna.	Brak	Zdane

Następny krok

Zapoznaj się z następującymi stronami, aby debugować zidentyfikowane problemy:

< poprzedni: Krok 4. Ocena jakości POC

Dalej: Krok 5.1. > jakości debugowania pobierania

Udostępnij za pośrednictwem