Udostępnij za pośrednictwem


Krok 5. Identyfikowanie głównej przyczyny problemów z jakością

przepływ pracy z wyróżnionym krokiem iterowania

Zobacz repozytorium GitHub, aby zapoznać się z przykładowym kodem w tej sekcji.

Oczekiwany czas: 60 minut.

Wymagania

  • Wyniki oceny koncepcji są dostępne w narzędziu MLflow. Jeśli wykonano krok 4. Oceń jakość weryfikacji koncepcji, a wyniki są dostępne w narzędziu MLflow.
  • Wszystkie wymagania z poprzednich kroków.

Omówienie

Najbardziej prawdopodobną główną przyczyną problemów z jakością są kroki pobierania i generowania. Aby określić, gdzie najpierw skupić się, użyj danych wyjściowych sędziów oceny agenta sztucznej inteligencji mozaiki, które uruchomiliśmy w poprzednim kroku, aby zidentyfikować najczęstszą główną przyczynę, która ma wpływ na jakość aplikacji.

Każdy wiersz zestawu oceny jest otagowany w następujący sposób:

  • Ogólna ocena: powodzenie lub niepowodzenie.
  • Główna przyczyna: Improve Retrieval lub Improve Generation.
  • Uzasadnienie głównej przyczyny: krótki opis przyczyny wybrania głównej przyczyny.

Instrukcje

Podejście zależy od tego, czy zestaw oceny zawiera odpowiedzi na pytania podstawowe. Te odpowiedzi są przechowywane w pliku expected_response. Jeśli masz expected_response dostęp, użyj analizy głównej przyczyny tabeli , jeśli jest dostępna prawda podstawy. W przeciwnym razie użyj analizy głównej przyczyny tabeli , jeśli prawda jest niedostępna.

  1. Otwórz notes B_quality_iteration/01_root_cause_quality_issues.
  2. Uruchom komórki, które są istotne dla twojego przypadku użycia, np. jeśli to zrobisz lub nie masz expected_response
  3. Przejrzyj tabele wyjściowe, aby określić najczęstszą główną przyczynę w aplikacji
  4. Dla każdej głównej przyczyny wykonaj poniższe kroki, aby dodatkowo debugować i zidentyfikować potencjalne poprawki:

Analiza głównej przyczyny, jeśli jest dostępna podstawowa prawda

Uwaga

Jeśli masz ludzką etykietę ground-truth, dla której dokumentu należy pobrać dla każdego pytania, możesz opcjonalnie zastąpić retrieval/llm_judged/chunk_relevance/precision/average wynik .retrieval/ground_truth/document_recall/average

Precyzja istotności fragmentów Uziemienie Poprawność Istotność zapytania Podsumowanie problemu Główna przyczyna Ogólna ocena
<50% Niepowodzenie Niepowodzenie Niepowodzenie Pobieranie jest słabe. Improve Retrieval Niepowodzenie
<50% Niepowodzenie Niepowodzenie Zdane Funkcja LLM generuje odpowiednią odpowiedź, ale pobieranie jest słabe. Na przykład llM ignoruje pobieranie i wykorzystuje swoją wiedzę szkoleniową do udzielenia odpowiedzi. Improve Retrieval Niepowodzenie
<50% Niepowodzenie Zdane Przekazywanie lub niepowodzenie Jakość pobierania jest niska, ale LLM otrzymuje odpowiedź poprawną niezależnie od tego. Improve Retrieval Niepowodzenie
<50% Zaliczenie Niepowodzenie Niepowodzenie Odpowiedź jest uziemiona w pobieraniu, ale pobieranie jest słabe. Improve Retrieval Niepowodzenie
<50% Zaliczenie Niepowodzenie Zdane Odpowiednia odpowiedź uziemiona w pobranym kontekście, ale pobieranie może nie być powiązane z oczekiwaną odpowiedzią. Improve Retrieval Niepowodzenie
<50% Zdane Zdane Przekazywanie lub niepowodzenie Pobieranie znajduje wystarczającą ilość informacji, aby usługa LLM poprawnie odpowiedziała. Brak Zdane
>50% Niepowodzenie Niepowodzenie Przekazywanie lub niepowodzenie Halucynacja. Improve Generation Niepowodzenie
>50% Niepowodzenie Zdane Przekazywanie lub niepowodzenie Halucynacja, poprawna, ale generuje szczegóły nie w kontekście. Improve Generation Niepowodzenie
>50% Zaliczenie Niepowodzenie Niepowodzenie Dobre pobieranie, ale LLM nie zapewnia odpowiedniej odpowiedzi. Improve Generation Niepowodzenie
>50% Zaliczenie Niepowodzenie Zdane Dobre pobieranie i odpowiednia odpowiedź, ale nie jest poprawna. Improve Generation Niepowodzenie
>50% Zdane Zdane Zdane Brak problemów. Brak Zdane

Analiza głównej przyczyny, jeśli prawda jest niedostępna

Precyzja istotności fragmentów Uziemienie Istotność zapytania Podsumowanie problemu Główna przyczyna Ogólna ocena
<50% Niepowodzenie Niepowodzenie Jakość pobierania jest niska. Improve Retrieval Niepowodzenie
<50% Niepowodzenie Zdane Jakość pobierania jest niska. Improve Retrieval Niepowodzenie
<50% Zaliczenie Niepowodzenie Odpowiedź jest uziemiona w pobieraniu, ale pobieranie jest słabe. Improve Retrieval Niepowodzenie
<50% Zdane Zdane Odpowiednia odpowiedź uziemiona w pobranym kontekście i odpowiednim, ale pobieranie jest słabe. Improve Retrieval Zdane
>50% Niepowodzenie Niepowodzenie Halucynacja. Improve Generation Niepowodzenie
>50% Niepowodzenie Zdane Halucynacja. Improve Generation Niepowodzenie
>50% Zaliczenie Niepowodzenie Dobre pobieranie i uziemione, ale LLM nie zapewnia odpowiedniej odpowiedzi. Improve Generation Niepowodzenie
>50% Zdane Zdane Dobre pobieranie i odpowiednia odpowiedź. Zbierz podstawy prawdy, aby dowiedzieć się, czy odpowiedź jest poprawna. Brak Zdane

Następny krok

Zapoznaj się z następującymi stronami, aby debugować zidentyfikowane problemy: