Sdílet prostřednictvím


Krok 3. Kurátorovat sadu hodnocení od zpětné vazby účastníků

pracovní postup se zvýrazněnou sadou vyhodnocení

Podívejte se na úložiště GitHub pro vzorový kód v této části.

Očekávaný čas: 10 – 60 minut. Doba se liší v závislosti na kvalitě odpovědí poskytovaných zúčastněnými stranami. Pokud jsou odpovědi neuspořádané nebo obsahují spoustu irelevantních dotazů, budete muset strávit více času filtrováním a čištěním dat.

Přehled a očekávaný výsledek

Tento krok spustí testovací sadu se zpětnou vazbou, kterou účastníci poskytli pomocí aplikace Review. Všimněte si, že testovací sadu můžete spustit jenom s otázkami, takže i když účastníci chatovali jenom s aplikací a poskytli zpětnou vazbu, můžete postupovat podle tohoto kroku.

Schéma sady vyhodnocení agenta naleznete ve vstupním schématu vyhodnocení agenta. Na pole v tomto schématu se odkazuje ve zbytku této části.

Na konci tohoto kroku budete mít sadu vyhodnocení, která obsahuje následující:

  • Požadavky s palec nahoru 👍:
    • request: zadané uživatelem.
    • expected_response: Odpověď upravená uživatelem. Pokud uživatel odpověď neupravil, odpověď vygenerovaná modelem.
  • Požadavky s palcem dolů 👎:
    • request: zadané uživatelem.
    • expected_response: Odpověď upravená uživatelem. Pokud uživatel odpověď neupravil, má odpověď hodnotu null.
  • Žádosti bez zpětné vazby (bez palec nahoru 👍 nebo palce dolů 👎)
    • request: zadané uživatelem.

U všech požadavků platí, že pokud uživatel vybere palec nahoru 👍 pro blok dat z retrieved_contextpříslušného bloku , doc_uri je daný blok dat zahrnut do expected_retrieved_context otázky.

Důležité

Databricks doporučuje, aby vaše testovací sada obsahovala aspoň 30 otázek, abyste mohli začít. Přečtěte si podrobné informace o tom, co je "dobrá" sada hodnocení.

Požadavky

  • Účastníci použili vaši poc a poskytli zpětnou vazbu.
  • Všechny požadavky z předchozích kroků.

Pokyny

  1. Otevřete poznámkový blok 04_create_evaluation_set a klikněte na Spustit vše.
  2. Zkontrolujte sadu vyhodnocení, abyste porozuměli zahrnutým datům. Musíte ověřit, že sada hodnocení obsahuje reprezentativní a náročnou sadu otázek. Upravte sadu vyhodnocení podle potřeby.
  3. Ve výchozím nastavení se vaše testovací sada uloží do tabulky Delta nakonfigurované v EVALUATION_SET_FQN poznámkovém bloku 00_global_config.

Další krok

Když teď máte sadu vyhodnocení, použijte ji k vyhodnocení kvality, nákladů a latence aplikace POC. Viz krok 4. Vyhodnoťte kvalitu POC.

< Předchozí: Krok 2. Nasazení POC a shromáždění zpětné vazby

Další: Krok 4. Vyhodnocení kvality POC >