Krok 3. Kurátorovat sadu hodnocení od zpětné vazby účastníků
Podívejte se na úložiště GitHub pro vzorový kód v této části.
Očekávaný čas: 10 – 60 minut. Doba se liší v závislosti na kvalitě odpovědí poskytovaných zúčastněnými stranami. Pokud jsou odpovědi neuspořádané nebo obsahují spoustu irelevantních dotazů, budete muset strávit více času filtrováním a čištěním dat.
Přehled a očekávaný výsledek
Tento krok spustí testovací sadu se zpětnou vazbou, kterou účastníci poskytli pomocí aplikace Review. Všimněte si, že testovací sadu můžete spustit jenom s otázkami, takže i když účastníci chatovali jenom s aplikací a poskytli zpětnou vazbu, můžete postupovat podle tohoto kroku.
Schéma sady vyhodnocení agenta naleznete ve vstupním schématu vyhodnocení agenta. Na pole v tomto schématu se odkazuje ve zbytku této části.
Na konci tohoto kroku budete mít sadu vyhodnocení, která obsahuje následující:
- Požadavky s palec nahoru 👍:
-
request
: zadané uživatelem. -
expected_response
: Odpověď upravená uživatelem. Pokud uživatel odpověď neupravil, odpověď vygenerovaná modelem.
-
- Požadavky s palcem dolů 👎:
-
request
: zadané uživatelem. -
expected_response
: Odpověď upravená uživatelem. Pokud uživatel odpověď neupravil, má odpověď hodnotu null.
-
- Žádosti bez zpětné vazby (bez palec nahoru 👍 nebo palce dolů 👎)
-
request
: zadané uživatelem.
-
U všech požadavků platí, že pokud uživatel vybere palec nahoru 👍 pro blok dat z retrieved_context
příslušného bloku , doc_uri
je daný blok dat zahrnut do expected_retrieved_context
otázky.
Důležité
Databricks doporučuje, aby vaše testovací sada obsahovala aspoň 30 otázek, abyste mohli začít. Přečtěte si podrobné informace o tom, co je "dobrá" sada hodnocení.
Požadavky
- Účastníci použili vaši poc a poskytli zpětnou vazbu.
- Všechny požadavky z předchozích kroků.
Pokyny
- Otevřete poznámkový blok 04_create_evaluation_set a klikněte na Spustit vše.
- Zkontrolujte sadu vyhodnocení, abyste porozuměli zahrnutým datům. Musíte ověřit, že sada hodnocení obsahuje reprezentativní a náročnou sadu otázek. Upravte sadu vyhodnocení podle potřeby.
- Ve výchozím nastavení se vaše testovací sada uloží do tabulky Delta nakonfigurované v
EVALUATION_SET_FQN
poznámkovém bloku 00_global_config.
Další krok
Když teď máte sadu vyhodnocení, použijte ji k vyhodnocení kvality, nákladů a latence aplikace POC. Viz krok 4. Vyhodnoťte kvalitu POC.
< Předchozí: Krok 2. Nasazení POC a shromáždění zpětné vazby