Definovat "kvalitu": Sady vyhodnocení
Tento článek popisuje sady vyhodnocení a způsob, jakým pomáhají zajistit kvalitu vaší aplikace.
Co je testovací sada?
Databricks doporučuje pro měření kvality vytvořit sadu hodnocení označenou člověkem. Sada hodnocení je kurátorovaná reprezentativní sada dotazů spolu s odpověďmi na pravdu a (volitelně) správnými podpůrnými dokumenty, které by se měly načíst. Lidský vstup je v tomto procesu zásadní, protože zajišťuje, aby sada hodnocení přesně odrážela očekávání a požadavky koncových uživatelů.
Kurátorování lidských popisků může být časově náročný proces. Můžete začít vytvořením sady vyhodnocení, která obsahuje jenom otázky, a přidat základní odpovědi na pravdu v průběhu času. Hodnocení agenta AI vyhodnocuje kvalitu vašeho řetězce bez základní pravdy, i když je k dispozici základní pravda, vypočítá další metriky, jako je správnost odpovědí.
Prvky vhodné sady hodnocení
Dobrá sada hodnocení má následující charakteristiky:
- Zástupce: Přesně odpovídá různým požadavkům, se kterými se aplikace setká v produkčním prostředí.
- Náročné: Sada by měla zahrnovat obtížné a různorodé případy pro efektivní testování schopností modelu. V ideálním případě obsahuje nežádoucí příklady, jako jsou otázky, které se pokoušejí injektáž výzvy nebo otázky, které se pokoušejí generovat nevhodné odpovědi z LLM.
- Průběžně aktualizováno: Sada se musí pravidelně aktualizovat, aby odrážela způsob použití aplikace v produkčním prostředí, měnící se povahu indexovaných dat a všechny změny požadavků aplikace.
Databricks doporučuje minimálně 30 otázek ve vaší sadě hodnocení a ideálně 100 –200. Nejlepší sady hodnocení se v průběhu času zvětšují tak, aby obsahovaly 1 000 otázek.
Trénovací, testovací a ověřovací sady
Aby se zabránilo přeurčení, databricks doporučuje rozdělit sadu vyhodnocení na trénovací, testovací a ověřovací sady:
- Trénovací sada: přibližně 70 % otázek. Používá se k počátečnímu průchodu k vyhodnocení každého experimentu za účelem identifikace nejvyšších potenciálních experimentů.
- Testovací sada: přibližně 20 % otázek. Slouží k vyhodnocení nejvýkonnějších experimentů z trénovací sady.
- Sada ověření: přibližně 10 % otázek. Slouží k závěrečné kontrole ověření před nasazením experimentu do produkčního prostředí.
Hodnocení agenta Pro architekturu AI vám pomůže vytvořit sadu vyhodnocení tím, že účastníkům poskytne webové chatovací rozhraní, které bude poskytovat zpětnou vazbu k výstupům aplikace. Výstupy řetězu a zpětná vazba účastníků se ukládají do tabulek Delta, které je pak možné kurátorovat do sady vyhodnocení. Podívejte se na vytvrzení sady vyhodnocení v části implementace této kuchařky, kde najdete praktické pokyny s ukázkovým kódem.