Krok 5. Identyfikowanie głównej przyczyny problemów z jakością
Zobacz repozytorium GitHub, aby zapoznać się z przykładowym kodem w tej sekcji.
Oczekiwany czas: 60 minut.
Wymagania
- Wyniki oceny koncepcji są dostępne w narzędziu MLflow. Jeśli wykonano krok 4. Oceń jakość weryfikacji koncepcji, a wyniki są dostępne w narzędziu MLflow.
- Wszystkie wymagania z poprzednich kroków.
Omówienie
Najbardziej prawdopodobną główną przyczyną problemów z jakością są kroki pobierania i generowania. Aby określić, gdzie najpierw skupić się, użyj danych wyjściowych sędziów oceny agenta sztucznej inteligencji mozaiki, które uruchomiliśmy w poprzednim kroku, aby zidentyfikować najczęstszą główną przyczynę, która ma wpływ na jakość aplikacji.
Każdy wiersz zestawu oceny jest otagowany w następujący sposób:
- Ogólna ocena: powodzenie lub niepowodzenie.
- Główna przyczyna:
Improve Retrieval
lubImprove Generation
. - Uzasadnienie głównej przyczyny: krótki opis przyczyny wybrania głównej przyczyny.
Instrukcje
Podejście zależy od tego, czy zestaw oceny zawiera odpowiedzi na pytania podstawowe. Te odpowiedzi są przechowywane w pliku expected_response
. Jeśli masz expected_response
dostęp, użyj analizy głównej przyczyny tabeli , jeśli jest dostępna prawda podstawy. W przeciwnym razie użyj analizy głównej przyczyny tabeli , jeśli prawda jest niedostępna.
- Otwórz notes B_quality_iteration/01_root_cause_quality_issues.
- Uruchom komórki, które są istotne dla twojego przypadku użycia, np. jeśli to zrobisz lub nie masz expected_response
- Przejrzyj tabele wyjściowe, aby określić najczęstszą główną przyczynę w aplikacji
- Dla każdej głównej przyczyny wykonaj poniższe kroki, aby dodatkowo debugować i zidentyfikować potencjalne poprawki:
Analiza głównej przyczyny, jeśli jest dostępna podstawowa prawda
Uwaga
Jeśli masz ludzką etykietę ground-truth, dla której dokumentu należy pobrać dla każdego pytania, możesz opcjonalnie zastąpić retrieval/llm_judged/chunk_relevance/precision/average
wynik .retrieval/ground_truth/document_recall/average
Precyzja istotności fragmentów | Uziemienie | Poprawność | Istotność zapytania | Podsumowanie problemu | Główna przyczyna | Ogólna ocena |
---|---|---|---|---|---|---|
<50% | Niepowodzenie | Niepowodzenie | Niepowodzenie | Pobieranie jest słabe. | Improve Retrieval |
Niepowodzenie |
<50% | Niepowodzenie | Niepowodzenie | Zdane | Funkcja LLM generuje odpowiednią odpowiedź, ale pobieranie jest słabe. Na przykład llM ignoruje pobieranie i wykorzystuje swoją wiedzę szkoleniową do udzielenia odpowiedzi. | Improve Retrieval |
Niepowodzenie |
<50% | Niepowodzenie | Zdane | Przekazywanie lub niepowodzenie | Jakość pobierania jest niska, ale LLM otrzymuje odpowiedź poprawną niezależnie od tego. | Improve Retrieval |
Niepowodzenie |
<50% | Zaliczenie | Niepowodzenie | Niepowodzenie | Odpowiedź jest uziemiona w pobieraniu, ale pobieranie jest słabe. | Improve Retrieval |
Niepowodzenie |
<50% | Zaliczenie | Niepowodzenie | Zdane | Odpowiednia odpowiedź uziemiona w pobranym kontekście, ale pobieranie może nie być powiązane z oczekiwaną odpowiedzią. | Improve Retrieval |
Niepowodzenie |
<50% | Zdane | Zdane | Przekazywanie lub niepowodzenie | Pobieranie znajduje wystarczającą ilość informacji, aby usługa LLM poprawnie odpowiedziała. | Brak | Zdane |
>50% | Niepowodzenie | Niepowodzenie | Przekazywanie lub niepowodzenie | Halucynacja. | Improve Generation |
Niepowodzenie |
>50% | Niepowodzenie | Zdane | Przekazywanie lub niepowodzenie | Halucynacja, poprawna, ale generuje szczegóły nie w kontekście. | Improve Generation |
Niepowodzenie |
>50% | Zaliczenie | Niepowodzenie | Niepowodzenie | Dobre pobieranie, ale LLM nie zapewnia odpowiedniej odpowiedzi. | Improve Generation |
Niepowodzenie |
>50% | Zaliczenie | Niepowodzenie | Zdane | Dobre pobieranie i odpowiednia odpowiedź, ale nie jest poprawna. | Improve Generation |
Niepowodzenie |
>50% | Zdane | Zdane | Zdane | Brak problemów. | Brak | Zdane |
Analiza głównej przyczyny, jeśli prawda jest niedostępna
Precyzja istotności fragmentów | Uziemienie | Istotność zapytania | Podsumowanie problemu | Główna przyczyna | Ogólna ocena |
---|---|---|---|---|---|
<50% | Niepowodzenie | Niepowodzenie | Jakość pobierania jest niska. | Improve Retrieval |
Niepowodzenie |
<50% | Niepowodzenie | Zdane | Jakość pobierania jest niska. | Improve Retrieval |
Niepowodzenie |
<50% | Zaliczenie | Niepowodzenie | Odpowiedź jest uziemiona w pobieraniu, ale pobieranie jest słabe. | Improve Retrieval |
Niepowodzenie |
<50% | Zdane | Zdane | Odpowiednia odpowiedź uziemiona w pobranym kontekście i odpowiednim, ale pobieranie jest słabe. | Improve Retrieval |
Zdane |
>50% | Niepowodzenie | Niepowodzenie | Halucynacja. | Improve Generation |
Niepowodzenie |
>50% | Niepowodzenie | Zdane | Halucynacja. | Improve Generation |
Niepowodzenie |
>50% | Zaliczenie | Niepowodzenie | Dobre pobieranie i uziemione, ale LLM nie zapewnia odpowiedniej odpowiedzi. | Improve Generation |
Niepowodzenie |
>50% | Zdane | Zdane | Dobre pobieranie i odpowiednia odpowiedź. Zbierz podstawy prawdy, aby dowiedzieć się, czy odpowiedź jest poprawna. | Brak | Zdane |
Następny krok
Zapoznaj się z następującymi stronami, aby debugować zidentyfikowane problemy: