Krok 5. Identyfikowanie głównej przyczyny problemów z jakością
Zobacz repozytorium GitHub, aby zapoznać się z przykładowym kodem w tej sekcji.
Oczekiwany czas: 60 minut.
Wymagania
- Wyniki oceny koncepcji są dostępne w narzędziu MLflow. Jeśli wykonano krok 4. Oceń jakość weryfikacji koncepcji, a wyniki są dostępne w narzędziu MLflow.
- Wszystkie wymagania z poprzednich kroków.
Omówienie
Najbardziej prawdopodobną główną przyczyną problemów z jakością są kroki pobierania i generowania. Aby określić, gdzie skupić się najpierw, użyj danych wyjściowych z oceny agenta mozaiki AI przez sędziów LLM, uruchomionych w poprzednim kroku, aby zidentyfikować najczęstszą główną przyczynę wpływającą na jakość twojej aplikacji.
Każdy wiersz zestawu oceny jest otagowany w następujący sposób:
- Ogólna ocena: powodzenie lub niepowodzenie.
-
Główna przyczyna:
Improve Retrieval
lubImprove Generation
. - Uzasadnienie głównej przyczyny: krótki opis przyczyny wybrania głównej przyczyny.
Instrukcje
Podejście zależy od tego, czy zestaw oceny zawiera odpowiedzi na pytania podstawowe. Te odpowiedzi są przechowywane w pliku expected_response
. Jeśli masz dostęp do expected_response
, użyj tabeli analiza przyczyny źródłowej, jeśli rzeczywisty stan rzeczy jest dostępny. W przeciwnym razie użyj tabeli analiza pierwotnej przyczyny, jeśli dane referencyjne są niedostępne.
- Otwórz notes B_quality_iteration/01_root_cause_quality_issues.
- Uruchom komórki, które są istotne dla twojego przypadku użycia, np. jeśli to zrobisz lub nie masz expected_response
- Przejrzyj tabele wyjściowe, aby określić najczęstszą główną przyczynę w aplikacji
- Dla każdej głównej przyczyny wykonaj poniższe kroki, aby dodatkowo debugować i zidentyfikować potencjalne poprawki:
Analiza głównej przyczyny, jeśli jest dostępna podstawowa prawda
Uwaga
Jeśli masz ludzką etykietę ground-truth, dla której dokumentu należy pobrać dla każdego pytania, możesz opcjonalnie zastąpić retrieval/llm_judged/chunk_relevance/precision/average
wynik .retrieval/ground_truth/document_recall/average
Precyzja istotności fragmentów | Uziemienie | Poprawność | Istotność zapytania | Podsumowanie problemu | Główna przyczyna | Ogólna ocena |
---|---|---|---|---|---|---|
<50% | Niepowodzenie | Niepowodzenie | Niepowodzenie | Pobieranie jest słabe. | Improve Retrieval |
Niepowodzenie |
<50% | Niepowodzenie | Niepowodzenie | Zdane | Funkcja LLM generuje odpowiednią odpowiedź, ale pobieranie jest słabe. Na przykład llM ignoruje pobieranie i wykorzystuje swoją wiedzę szkoleniową do udzielenia odpowiedzi. | Improve Retrieval |
Niepowodzenie |
<50% | Niepowodzenie | Zdane | Przekazywanie lub niepowodzenie | Jakość pobierania jest niska, ale LLM otrzymuje odpowiedź poprawną niezależnie od tego. | Improve Retrieval |
Niepowodzenie |
<50% | Zdane | Niepowodzenie | Niepowodzenie | Odpowiedź jest uziemiona w pobieraniu, ale pobieranie jest słabe. | Improve Retrieval |
Niepowodzenie |
<50% | Zdane | Niepowodzenie | Zdane | Odpowiednia odpowiedź uziemiona w pobranym kontekście, ale pobieranie może nie być powiązane z oczekiwaną odpowiedzią. | Improve Retrieval |
Niepowodzenie |
<50% | Zdane | Zdane | Przekazywanie lub niepowodzenie | Pobieranie znajduje wystarczającą ilość informacji, aby usługa LLM poprawnie odpowiedziała. | Brak | Zdane |
>50% | Niepowodzenie | Niepowodzenie | Przekazywanie lub niepowodzenie | Halucynacja. | Improve Generation |
Niepowodzenie |
>50% | Niepowodzenie | Zdane | Przekazywanie lub niepowodzenie | Halucynacja, poprawna, ale generuje szczegóły nie w kontekście. | Improve Generation |
Niepowodzenie |
>50% | Zdane | Niepowodzenie | Niepowodzenie | Dobre pobieranie, ale LLM nie zapewnia odpowiedniej odpowiedzi. | Improve Generation |
Niepowodzenie |
>50% | Zdane | Niepowodzenie | Zdane | Dobre pobieranie i odpowiednia odpowiedź, ale nie jest poprawna. | Improve Generation |
Niepowodzenie |
>50% | Zdane | Zdane | Zdane | Brak problemów. | Brak | Zdane |
Analiza głównej przyczyny, jeśli prawda jest niedostępna
Precyzja istotności fragmentów | Uziemienie | Istotność zapytania | Podsumowanie problemu | Główna przyczyna | Ogólna ocena |
---|---|---|---|---|---|
<50% | Niepowodzenie | Niepowodzenie | Jakość pobierania jest niska. | Improve Retrieval |
Niepowodzenie |
<50% | Niepowodzenie | Zdane | Jakość pobierania jest niska. | Improve Retrieval |
Niepowodzenie |
<50% | Zdane | Niepowodzenie | Odpowiedź jest uziemiona w pobieraniu, ale pobieranie jest słabe. | Improve Retrieval |
Niepowodzenie |
<50% | Zdane | Zdane | Odpowiednia odpowiedź uziemiona w pobranym kontekście i odpowiednim, ale pobieranie jest słabe. | Improve Retrieval |
Zdane |
>50% | Niepowodzenie | Niepowodzenie | Halucynacja. | Improve Generation |
Niepowodzenie |
>50% | Niepowodzenie | Zdane | Halucynacja. | Improve Generation |
Niepowodzenie |
>50% | Zdane | Niepowodzenie | Dobre pobieranie i uziemione, ale LLM nie zapewnia odpowiedniej odpowiedzi. | Improve Generation |
Niepowodzenie |
>50% | Zdane | Zdane | Dobre pobieranie i odpowiednia odpowiedź. Zbierz podstawy prawdy, aby dowiedzieć się, czy odpowiedź jest poprawna. | Brak | Zdane |
Następny krok
Zapoznaj się z następującymi stronami, aby debugować zidentyfikowane problemy:
- Krok 5 (pobieranie). Jak debugować jakość pobierania
- Krok 5 (generacja). Jak debugować jakość generowania
< poprzedni: Krok 4. Ocena jakości POC
Dalej: Krok 5.1. > jakości debugowania pobierania