Włącz pomiar: obsługa infrastruktury
W tym artykule szczegółowo opisano infrastrukturę potrzebną do mierzenia jakości i sposobu jej zapewniania przez usługę Databricks. Pomiar jakości nie jest łatwy i wymaga znacznych inwestycji w infrastrukturę.
Szczegółowe rejestrowanie śledzenia
Podstawą logiki aplikacji RAG jest seria kroków w łańcuchu. Aby ocenić i debugować jakość, należy zaimplementować instrumentację, która śledzi dane wejściowe i wyjściowe łańcucha, wraz z każdym krokiem łańcucha oraz skojarzonymi z nimi danymi wejściowymi i wyjściowymi. Instrumentacja, którą tworzysz, powinna działać w taki sam sposób, jak w środowisku deweloperskim i produkcyjnym.
W usłudze Databricks śledzenie platformy MLflow zapewnia tę funkcję. Dzięki funkcji rejestrowania śledzenia MLflow instrumentujesz kod w środowisku produkcyjnym i uzyskujesz te same ślady podczas opracowywania i produkcji. Ślady produkcji są rejestrowane w ramach tabeli wnioskowania.
Interfejs użytkownika przeglądu uczestników projektu
Najczęściej jako deweloper nie jesteś ekspertem w dziedzinie zawartości opracowywanej aplikacji. Aby zebrać opinie od ekspertów ludzkich, którzy mogą ocenić jakość danych wyjściowych aplikacji, potrzebny jest interfejs, który umożliwia im interakcję z wczesnymi wersjami aplikacji i przekazywanie szczegółowych opinii. Ponadto potrzebny jest sposób ładowania określonych danych wyjściowych aplikacji dla uczestników projektu w celu oceny ich jakości.
Ten interfejs musi śledzić dane wyjściowe aplikacji i skojarzone opinie w sposób ustrukturyzowany, przechowując pełny ślad aplikacji i szczegółową opinię w tabeli danych.
W usłudze Databricks ta funkcja zapewnia aplikację Do przeglądu oceny agenta.
Struktura metryk jakości, kosztów i opóźnień
Potrzebujesz sposobu definiowania metryk, które kompleksowo mierzą jakość każdego składnika łańcucha i kompleksowej aplikacji. Najlepiej, aby platforma udostępniała zestaw standardowych metryk poza obsługą dostosowywania, dzięki czemu można dodawać metryki, które testują konkretne aspekty jakości, które są unikatowe dla Twojej firmy.
W usłudze Databricks ocena agenta zapewnia wbudowaną implementację, korzystając z hostowanych modeli sędziów LLM, dla niezbędnych metryk jakości, kosztów i opóźnień.
Uprzęże ewaluacyjne
Potrzebujesz sposobu szybkiego i wydajnego pobierania danych wyjściowych z łańcucha dla każdego pytania w zestawie oceny, a następnie oceny poszczególnych danych wyjściowych dotyczących odpowiednich metryk. Ta uprzęża musi być tak wydajna, jak to możliwe, ponieważ przeprowadzisz ocenę po każdym eksperymencie, który próbujesz poprawić jakość.
W usłudze Databricks ocena agenta zapewnia wykorzystanie ewaluacyjne zintegrowane z platformą MLflow.
Zarządzanie zestawem oceny
Zestaw oceny to żywy, oddychający zestaw pytań, który będzie aktualizowany iteracyjnie w trakcie opracowywania i cyklu życia produkcyjnego aplikacji.
W usłudze Databricks możesz zarządzać zestawem oceny jako tabelą delty. Podczas oceny za pomocą biblioteki MLflow narzędzie MLflow automatycznie rejestruje migawkę używanej wersji zestawu ewaluacyjnego.
Struktura śledzenia eksperymentów
Podczas opracowywania aplikacji wypróbujesz wiele różnych eksperymentów. Struktura śledzenia eksperymentów umożliwia rejestrowanie każdego eksperymentu i śledzenie metryk w porównaniu z innymi eksperymentami.
W usłudze Databricks platforma MLflow zapewnia możliwości śledzenia eksperymentów.
Struktura parametryzacji łańcucha
Wiele eksperymentów, które próbujesz wykonać, wymaga trzymania stałej kodu łańcucha podczas iteracji na różnych parametrach używanych przez kod. Potrzebujesz struktury, która umożliwia wykonanie tej czynności.
W usłudze Databricks konfiguracja modelu MLflow zapewnia te możliwości.
Monitorowanie w trybie online
Po wdrożeniu potrzebny jest sposób monitorowania kondycji aplikacji i trwającej jakości, kosztów i opóźnień.
W usłudze Databricks usługa Model Serving zapewnia monitorowanie kondycji aplikacji i monitorowanie usługi Lakehouse zapewnia dane wyjściowe na pulpicie nawigacyjnym i monitoruje jakość, koszty i opóźnienia.