Povolení měření: Podpora infrastruktury

Článek
10/29/2024

Tento článek podrobně popisuje infrastrukturu potřebnou k měření kvality a způsobu, jakým je Databricks poskytuje. Měření kvality není snadné a vyžaduje významnou investici do infrastruktury.

Podrobné protokolování trasování

Jádrem logiky aplikace RAG je řada kroků v řetězci. Pokud chcete vyhodnotit a ladit kvalitu, musíte implementovat instrumentaci, která sleduje vstupy a výstupy řetězu spolu s každým krokem řetězce a souvisejícími vstupy a výstupy. Instrumentace, kterou jste zavedli, by měla fungovat stejným způsobem jako ve vývoji a produkci.

V Databricks poskytuje trasování MLflow tuto funkci. Pomocí protokolování trasování MLflow instrumentujete kód v produkčním prostředí a během vývoje a v produkčním prostředí získáte stejné trasování. Produkční trasování se protokoluje jako součást tabulky odvozování.

Uživatelské rozhraní pro kontrolu účastníků

Nejčastěji jako vývojář nejste odborníkem na doménu v obsahu aplikace, kterou vyvíjíte. Abyste mohli shromáždit zpětnou vazbu od lidských odborníků, kteří můžou posoudit kvalitu výstupu vaší aplikace, potřebujete rozhraní, které jim umožní pracovat s dřívějšími verzemi aplikace a poskytnout podrobnou zpětnou vazbu. Dále potřebujete způsob, jak načíst konkrétní výstupy aplikace, aby zúčastněné strany posoudily jejich kvalitu.

Toto rozhraní musí sledovat výstupy aplikace a související zpětnou vazbu strukturovaným způsobem, ukládat úplné trasování aplikací a podrobnou zpětnou vazbu do tabulky dat.

V Databricks poskytuje tato funkce aplikace pro vyhodnocení agenta.

Architektura metrik kvality, nákladů a latence

Potřebujete způsob, jak definovat metriky, které komplexně měří kvalitu každé komponenty vašeho řetězce a komplexní aplikace. V ideálním případě by architektura kromě podpory přizpůsobení poskytovala sadu standardních metrik, takže můžete přidat metriky, které testují konkrétní aspekty kvality, které jsou pro vaši firmu jedinečné.

Vyhodnocení agenta v Databricks poskytuje předem připravenou implementaci s využitím hostovaných modelů posouzení LLM pro potřebnou kvalitu, náklady a latenci.

Vyhodnocovací postroj

Potřebujete způsob, jak rychle a efektivně získat výstupy z řetězu pro každou otázku v sadě vyhodnocení a pak vyhodnotit každý výstup relevantních metrik. Tento nástroj musí být co nejefektivnější, protože po každém experimentu, který se pokusíte zlepšit kvalitu, spustíte hodnocení.

V Databricks poskytuje vyhodnocení agenta sadu pro vyhodnocení, která je integrovaná s MLflow.

Správa zkušební sady

Vaše testovací sada je živý a dechový soubor otázek, které budete aktualizovat iterativním způsobem v průběhu vývojového a produkčního životního cyklu vaší aplikace.

V Databricks můžete testovací sadu spravovat jako tabulku Delta. Při vyhodnocování pomocí MLflow bude MLflow automaticky protokolovat snímek použité zkušební sady.

Architektura sledování experimentů

Během vývoje aplikací vyzkoušíte mnoho různých experimentů. Architektura pro sledování experimentů umožňuje protokolovat každý experiment a sledovat metriky a další experimenty.

V Databricks nabízí MLflow možnosti sledování experimentů.

Architektura řetězení parametrizace

Mnoho experimentů, které se pokusíte vyzkoušet, vyžaduje, abyste při iterování na různých parametrech používaných kódem drželi konstantu řetězce. Potřebujete architekturu, která vám to umožní.

V Databricks poskytuje konfigurace modelu MLflow tyto funkce.

Online monitorování

Po nasazení potřebujete způsob, jak monitorovat stav aplikace a aktuální kvalitu, náklady a latenci.

V Databricks poskytuje služba Model Serving monitorování stavu aplikace a monitorování Lakehouse poskytuje průběžné výstupy na řídicím panelu a monitoruje kvalitu, náklady a latenci.

< Předchozí: Posouzení výkonu

Další: Vývoj řízený vyhodnocením >

Sdílet prostřednictvím