Definiera "kvalitet": Utvärderingsuppsättningar
I den här artikeln beskrivs utvärderingsuppsättningar och hur de bidrar till att säkerställa programmets kvalitet.
Vad är en utvärderingsuppsättning?
För att mäta kvalitet rekommenderar Databricks att du skapar en utvärderingsuppsättning med mänsklig etikett. En utvärderingsuppsättning är en kuraterad, representativ uppsättning frågor, tillsammans med grundsanningssvar och (valfritt) rätt stöddokument som ska hämtas. Mänsklig indata är avgörande i den här processen eftersom den säkerställer att utvärderingsuppsättningen korrekt återspeglar slutanvändarnas förväntningar och krav.
Att kurera mänskliga etiketter kan vara en tidskrävande process. Du kan komma igång genom att skapa en utvärderingsuppsättning som bara innehåller frågor och lägga till grund sanningssvar över tid. Mosaic AI Agent Evaluation kan utvärdera din kedjas kvalitet utan grundsanning, men om grund sanning är tillgänglig beräknar den ytterligare mått, till exempel korrekt svar.
Element i en bra utvärderingsuppsättning
En bra utvärderingsuppsättning har följande egenskaper:
- Representant: Återspeglar exakt de olika begäranden som programmet kommer att stöta på i produktion.
- Utmanande: Uppsättningen bör innehålla svåra och olika fall för att effektivt testa modellens funktioner. Helst innehåller den kontradiktoriska exempel som frågor som försöker få en snabbinmatning eller frågor som försöker generera olämpliga svar från LLM.
- Uppdateras kontinuerligt: Uppsättningen måste uppdateras regelbundet för att återspegla hur programmet används i produktion, indexerade datas föränderliga karaktär och eventuella ändringar i programkraven.
Databricks rekommenderar minst 30 frågor i utvärderingsuppsättningen och helst 100–200. De bästa utvärderingsuppsättningarna växer med tiden och innehåller 1 000-talet frågor.
Utbildnings-, testnings- och valideringsuppsättningar
För att undvika överanpassning rekommenderar Databricks att du delar upp utvärderingsuppsättningen i tränings-, test- och valideringsuppsättningar:
- Träningsuppsättning: ~70 % av frågorna. Används för ett första pass för att utvärdera varje experiment för att identifiera de högsta potentiella.
- Testuppsättning: ~20 % av frågorna. Används för att utvärdera experiment med högst prestanda från träningsuppsättningen.
- Verifieringsuppsättning: ~10 % av frågorna. Används för en slutlig valideringskontroll innan du distribuerar ett experiment till produktion.
Mosaic AI Agent Evaluation hjälper dig att skapa en utvärderingsuppsättning genom att tillhandahålla ett webbaserat chattgränssnitt för dina intressenter för att ge feedback om programmets utdata. Kedjans utdata och feedback från intressenter sparas i Delta-tabeller, som sedan kan kureras till en utvärderingsuppsättning. Se kurera en utvärderingsuppsättning i implementeringsavsnittet i den här kokboken för praktiska instruktioner med exempelkod.