Dela via


Definiera "kvalitet": Utvärderingssatser

I den här artikeln beskrivs utvärderingsuppsättningar och hur de bidrar till att säkerställa programmets kvalitet.

Vad är en utvärderingsdataset?

För att mäta kvalitet rekommenderar Databricks att du skapar en utvärderingsuppsättning med mänsklig etikett. En utvärderingsuppsättning är en kuraterad, representativ uppsättning frågor, tillsammans med grundsanningssvar och (valfritt) rätt stöddokument som ska hämtas. Mänsklig indata är avgörande i den här processen eftersom den säkerställer att utvärderingsuppsättningen korrekt återspeglar slutanvändarnas förväntningar och krav.

Att hantera mänsklig etikettering kan vara en tidskrävande process. Du kan komma igång genom att skapa en utvärderingsuppsättning som bara innehåller frågor och lägga till grund sanningssvar över tid. Mosaic AI Agent Evaluation kan utvärdera din kedjas kvalitet utan grundsanning, men om grund sanning är tillgänglig beräknar den ytterligare mått, till exempel korrekt svar.

Element i en bra utvärderingsuppsättning

En bra utvärderingsuppsättning har följande egenskaper:

  • Representant: Återspeglar exakt de olika begäranden som programmet kommer att stöta på i produktion.
  • Utmanande: Uppsättningen bör innehålla svåra och olika fall för att effektivt testa modellens funktioner. Helst innehåller den kontradiktoriska exempel som frågor som försöker få en snabbinmatning eller frågor som försöker generera olämpliga svar från LLM.
  • Uppdateras kontinuerligt: Uppsättningen måste uppdateras regelbundet för att återspegla hur programmet används i produktion, indexerade datas föränderliga karaktär och eventuella ändringar i programkraven.

Databricks rekommenderar minst 30 frågor i utvärderingsuppsättningen och helst 100–200. De bästa utvärderingsuppsättningarna växer med tiden och innehåller 1 000-talet frågor.

Utbildnings-, testnings- och valideringsuppsättningar

För att undvika överanpassning rekommenderar Databricks att du delar upp utvärderingsuppsättningen i tränings-, test- och valideringsuppsättningar:

  • Träningsuppsättning: ~70% av frågorna. Används för en första omgång för att utvärdera varje experiment och identifiera de med störst potential.
  • Testuppsättning: ~20% av frågorna. Används för att utvärdera experiment med högst prestanda från träningsuppsättningen.
  • Valideringsuppsättning: ~10% av frågorna. Används för en slutlig valideringskontroll innan du distribuerar ett experiment till produktion.

Mosaic AI Agent Evaluation hjälper dig att skapa en utvärderingsuppsättning genom att tillhandahålla ett webbaserat chattgränssnitt för dina intressenter för att ge feedback om programmets utdata. Kedjans utdata och feedback från intressenter sparas i Delta-tabeller, som sedan kan kureras till en utvärderingsuppsättning. Se kuratering av en utvärderingsuppsättning i implementeringssektionen i denna kokbok för praktiska exempel med kod.