Udostępnij za pośrednictwem


Ocena wydajności: Metryki, które mają znaczenie

W tym artykule opisano pomiar wydajności aplikacji RAG pod kątem jakości pobierania, odpowiedzi i wydajności systemu.

Pobieranie, odpowiedź i wydajność

Za pomocą zestawu oceny można zmierzyć wydajność aplikacji RAG w wielu różnych wymiarach, w tym:

  • Jakość pobierania: Metryki pobierania oceniają, jak pomyślnie aplikacja RAG pobiera odpowiednie dane pomocnicze. Precyzja i kompletność to dwie kluczowe metryki pobierania.
  • Jakość odpowiedzi: Metryki jakości odpowiedzi oceniają, jak dobrze aplikacja RAG odpowiada na żądanie użytkownika. Metryki odpowiedzi mogą na przykład mierzyć, jeśli wynikowa odpowiedź jest dokładna zgodnie z prawdą, jak dobrze uziętą odpowiedź otrzymała pobrany kontekst (na przykład czy halucynat LLM?) lub jak bezpieczna była odpowiedź (innymi słowy, brak toksyczności).
  • Wydajność systemu (koszt i opóźnienie): Metryki przechwytują ogólny koszt i wydajność aplikacji RAG. Ogólne opóźnienie i użycie tokenu to przykłady metryk wydajności łańcucha.

Bardzo ważne jest zbieranie metryk odpowiedzi i pobierania. Aplikacja RAG może reagować źle pomimo pobierania poprawnego kontekstu; może również zapewnić dobre odpowiedzi na podstawie wadliwych pobierania. Tylko poprzez pomiar obu składników możemy dokładnie zdiagnozować i rozwiązać problemy w aplikacji.

Podejścia do mierzenia wydajności

Istnieją dwa kluczowe podejścia do mierzenia wydajności w tych metrykach:

  • Miara deterministyczna: Metryki kosztów i opóźnień można obliczyć deterministycznie na podstawie danych wyjściowych aplikacji. Jeśli zestaw oceny zawiera listę dokumentów, które zawierają odpowiedź na pytanie, można również obliczyć podzbiór metryk pobierania.
  • Pomiar oparty na sędziach LLM: W tym podejściu oddzielny moduł LLM działa jako sędzia w celu oceny jakości pobierania i odpowiedzi aplikacji RAG. Niektórzy sędziowie LLM, tacy jak poprawność odpowiedzi, porównują prawdę podstaw z etykietą człowieka a dane wyjściowe aplikacji. Inni sędziowie LLM, tacy jak uziemienie, nie wymagają od człowieka podstawy prawdy, aby ocenić swoje dane wyjściowe aplikacji.

Ważne

Aby sędzia LLM był skuteczny, należy go dostroić, aby zrozumieć przypadek użycia. Wymaga to starannej uwagi, aby zrozumieć, gdzie sędzia nie działa i nie działa dobrze, a następnie dostrajając sędziego, aby poprawić go w sprawach niepowodzeń.

Ocena agenta mozaiki sztucznej inteligencji zapewnia wbudowaną implementację przy użyciu hostowanych modeli sędziów LLM dla każdej metryki omówionej na tej stronie. W dokumentacji oceny agenta omówiono szczegóły wdrażania tych metryk i sędziów oraz możliwości dostosowywania sędziów do danych w celu zwiększenia ich dokładności

Omówienie metryk

Poniżej przedstawiono podsumowanie metryk zalecanych przez usługę Databricks do mierzenia jakości, kosztów i opóźnień aplikacji RAG. Te metryki są implementowane w narzędziu Mosaic AI Agent Evaluation.

Wymiar Nazwa metryki Pytanie Mierzony przez Potrzebuje podstawowej prawdy?
Pobieranie chunk_relevance/precyzja Jaki procent pobranych fragmentów jest istotny dla żądania? Sędzia LLM Nie.
Pobieranie document_recall Jaki procent dokumentów podstawowych prawdy są reprezentowane we pobranych fragmentach? Deterministyczny Tak
Response dokładność Ogólnie rzecz biorąc, czy agent wygenerował poprawną odpowiedź? Sędzia LLM Tak
Response relevance_to_query Czy odpowiedź dotyczy żądania? Sędzia LLM Nie.
Response uzięcie Czy odpowiedź jest halucynacją, czy uziemiona w kontekście? Sędzia LLM Nie.
Response bezpieczeństwo Czy w odpowiedzi znajduje się szkodliwa zawartość? Sędzia LLM Nie.
Koszty total_token_count, total_input_token_count, total_output_token_count Jaka jest łączna liczba tokenów dla generacji LLM? Deterministyczny Nie.
Opóźnienie latency_seconds Jakie jest opóźnienie wykonywania aplikacji? Deterministyczny Nie.

Jak działają metryki pobierania

Metryki pobierania pomagają zrozumieć, czy usługa retriever dostarcza odpowiednie wyniki. Metryki pobierania są oparte na precyzji i kompletności.

Nazwa metryki Odpowiedź na pytanie Szczegóły
Dokładność Jaki procent pobranych fragmentów jest istotny dla żądania? Precyzja to proporcja pobranych dokumentów, które są rzeczywiście istotne dla żądania użytkownika. Sędzia LLM może służyć do oceny istotności każdego pobranego fragmentu żądania użytkownika.
Odwołaj Jaki procent dokumentów podstawowych prawdy są reprezentowane we pobranych fragmentach? Kompletność to proporcja dokumentów podstawowych prawdy, które są reprezentowane w pobranych fragmentach. Jest to miara kompletności wyników.

Precyzja i kompletność

Poniżej znajduje się szybki podkład na precyzję i kompletność zaadaptowana z doskonałego artykułu w Wikipedii.

Formuła precyzji

Miary precyzji "Z pobranych fragmentów, jaki procent tych elementów są rzeczywiście istotne dla zapytania mojego użytkownika?" Precyzja obliczeniowa nie wymaga znajomości wszystkich odpowiednich elementów.

Formuła do obliczania dokładności.

Formuła odwołania

Przypomnij sobie miary "Ze wszystkich dokumentów, które wiem, są istotne dla zapytania mojego użytkownika, z jakiego procentu pobrałem fragment?" Kompletność obliczeń wymaga, aby podstawowe informacje zawierały wszystkie istotne elementy. Elementy mogą być dokumentem lub fragmentem dokumentu.

Formuła do obliczania kompletności.

W poniższym przykładzie dwa z trzech pobranych wyników były istotne dla zapytania użytkownika, więc precyzja wynosiła 0,66 (2/3). Pobrane dokumenty zawierały dwie z czterech odpowiednich dokumentów, więc kompletność wynosiła 0,5 (2/4).

Diagram przedstawiający dokładność i pomiar kompletności.

< Poprzedni: Definiowanie jakości

Dalej: Włącz ocenę >