Przepływ pracy programowania opartego na ocenie
W tej sekcji przedstawiono zalecany przepływ pracy programowania usługi Databricks na potrzeby tworzenia, testowania i wdrażania wysokiej jakości aplikacji RAG: programowanie oparte na ocenie. Ten przepływ pracy jest oparty na zalecanych najlepszych rozwiązaniach zespołu Mosaic Research w zakresie tworzenia i oceniania wysokiej jakości aplikacji RAG. Usługa Databricks zaleca następujący przepływ pracy oparty na ocenie:
- Zdefiniuj wymagania.
- Zbieraj opinie uczestników projektu na temat szybkiego weryfikacji koncepcji.
- Oceń jakość weryfikacji koncepcji.
- Iteracyjne diagnozowanie i rozwiązywanie problemów z jakością.
- Wdrażanie w środowisku produkcyjnym.
- Monitorowanie w środowisku produkcyjnym.
Istnieją dwie podstawowe pojęcia dotyczące opracowywania opartego na ocenie:
Metryki: Definiowanie, co oznacza wysoka jakość.
Podobnie jak w przypadku określania celów biznesowych każdego roku, należy zdefiniować, co oznacza wysoka jakość przypadku użycia. Ocena agenta mozaiki sztucznej inteligencji zawiera sugerowany zestaw metryk do użycia, z których najważniejszy jest dokładność odpowiedzi lub poprawność — czy aplikacja RAG zapewnia właściwą odpowiedź?
Zestaw oceny: celowe mierzenie metryk.
Aby obiektywnie zmierzyć jakość, potrzebny jest zestaw oceny zawierający pytania ze znanymi dobrymi odpowiedziami zweryfikowanymi przez ludzi. Ten przewodnik przeprowadzi Cię przez proces opracowywania i iteracyjnego udoskonalania tego zestawu ewaluacyjnego.
Zakotwiczenie względem metryk i zestawu oceny zapewnia następujące korzyści:
- Jakość aplikacji można iteracyjnie i pewnie uściślić podczas opracowywania — nie można już odgadnąć, czy zmiana doprowadziła do poprawy.
- Dostosowanie osób biorących udział w projekcie biznesowym w zakresie gotowości aplikacji do produkcji staje się bardziej proste, gdy można bezpiecznie określić, "wiemy, że nasza aplikacja odpowiada na najbardziej krytyczne pytania do naszej firmy i nie ma halucynacji".
Aby zapoznać się z przewodnikiem krok po kroku ilustrującym przepływ pracy oparty na ocenie, zacznij od sekcji Wymagania wstępne: zbierz wymagania.