Definire "quality": Set di valutazione
Questo articolo descrive i set di valutazione e come consentono di garantire la qualità dell'applicazione.
Che cos'è un set di valutazione?
Per misurare la qualità, Databricks consiglia di creare un set di valutazione con etichetta umana. Un set di valutazione è un set curato e rappresentativo di query, insieme alle risposte alla verità sul terreno e (facoltativamente) ai documenti di supporto corretti che devono essere recuperati. L'input umano è fondamentale in questo processo, in quanto garantisce che il set di valutazione rifletta accuratamente le aspettative e i requisiti degli utenti finali.
La cura delle etichette umane può richiedere molto tempo. È possibile iniziare creando un set di valutazione che include solo domande e aggiungere le risposte alla verità di base nel tempo. La valutazione dell'agente di intelligenza artificiale mosaico può valutare la qualità della catena senza verità sul terreno, anche se, se la verità è disponibile, calcola metriche aggiuntive, ad esempio la correttezza delle risposte.
Elementi di un set di valutazione valido
Un buon prompt presenta le seguenti caratteristiche:
- Rappresentante: riflette accuratamente la varietà di richieste che l'applicazione incontrerà nell'ambiente di produzione.
- Difficile: il set deve includere casi difficili e diversi per testare efficacemente le funzionalità del modello. Idealmente, include esempi antagonisti, ad esempio domande che tentano di inviare richieste di inserimento o domande che tentano di generare risposte inappropriate da LLM.
- Continuamente aggiornato: il set deve essere aggiornato periodicamente per riflettere il modo in cui l'applicazione viene usata nell'ambiente di produzione, la modifica della natura dei dati indicizzati e le eventuali modifiche ai requisiti dell'applicazione.
Databricks consiglia almeno 30 domande nel set di valutazione e idealmente da 100 a 200. I set di valutazione migliori cresceranno nel tempo per contenere 1.000 domande.
Set di training, test e convalida
Per evitare l'overfitting, Databricks consiglia di suddividere il set di valutazione in set di training, test e convalida:
- Set di training: ~70% delle domande. Usato per un passaggio iniziale per valutare ogni esperimento per identificare i potenziali più elevati.
- Set di test: ~20% delle domande. Usato per valutare gli esperimenti con le prestazioni più elevate del set di training.
- Set di convalida: ~10% delle domande. Usato per un controllo di convalida finale prima di distribuire un esperimento nell'ambiente di produzione.
Mosaic AI Agent Evaluation consente di creare un set di valutazione fornendo un'interfaccia di chat basata sul Web per gli stakeholder per fornire commenti e suggerimenti sugli output dell'applicazione. Gli output della catena e il feedback degli stakeholder vengono salvati in tabelle Delta, che possono quindi essere curate in un set di valutazione. Per istruzioni dettagliate con codice di esempio, vedere cura di un set di valutazione nella sezione relativa all'implementazione di questo cookbook.