Dela via


Steg 3. Kurera en utvärderingsuppsättning från feedback från intressenter

arbetsflöde med utvärderingsuppsättningen markerad

Se GitHub-lagringsplatsen för exempelkoden i det här avsnittet.

Förväntad tid: 10–60 minuter. Tiden varierar beroende på kvaliteten på de svar som tillhandahålls av dina intressenter. Om svaren är röriga eller innehåller många irrelevanta frågor måste du ägna mer tid åt att filtrera och rensa data.

Översikt och förväntat resultat

Det här steget startar en utvärderingsuppsättning med den feedback som intressenterna har gett med hjälp av granskningsappen. Observera att du kan starta en utvärderingsuppsättning med bara frågor, så även om dina intressenter bara chattade med appen jämfört med att ge feedback kan du följa det här steget.

Schemat för utvärderingsuppsättningen för agentutvärdering finns i Indataschema för agentutvärdering. Fälten i det här schemat refereras i resten av det här avsnittet.

I slutet av det här steget har du en utvärderingsuppsättning som innehåller följande:

  • Begäranden med tummen upp 👍:
    • request: enligt användarens inmatning.
    • expected_response: Svar som redigerats av användaren. Om användaren inte redigerade svaret genereras svaret av modellen.
  • Begäranden med tummen ned 👎:
    • request: enligt användarens inmatning.
    • expected_response: Svar som redigerats av användaren. Om användaren inte redigerade svaret är svaret null.
  • Begäranden utan feedback (inga tummen upp 👍 eller tummen ner 👎)
    • request: enligt användarens inmatning.

För alla begäranden, om användaren väljer tummen upp 👍 för ett segment från retrieved_context, doc_uri ingår segmentet i expected_retrieved_context för frågan.

Viktigt!

Databricks rekommenderar att utvärderingsuppsättningen innehåller minst 30 frågor för att komma igång. Läs djupdykningen i utvärderingsuppsättningen för att lära dig mer om vad en "bra" utvärderingsuppsättning är.

Krav

  • Intressenter har använt din POC och gett feedback.
  • Alla krav från föregående steg.

Instruktioner

  1. Öppna 04_create_evaluation_set notebook-filen och klicka på Kör alla.
  2. Granska utvärderingsuppsättningen för att förstå de data som ingår. Du måste verifiera att utvärderingsuppsättningen innehåller en representativ och utmanande uppsättning frågor. Justera utvärderingsuppsättningen efter behov.
  3. Som standard sparas utvärderingsuppsättningen i deltatabellen som konfigurerats i EVALUATION_SET_FQN 00_global_config notebook-filen.

Gå vidare

Nu när du har en utvärderingsuppsättning använder du den för att utvärdera POC-appens kvalitet, kostnad och svarstid. Se Steg 4. Utvärdera POC:s kvalitet.

< Föregående: Steg 2. Distribuera POC och samla in feedback

Nästa: Steg 4. Utvärdera POC-kvalitet >