Abilitare la misurazione: supporto dell'infrastruttura

Articolo
01/23/2025

Questo articolo illustra in dettaglio l'infrastruttura necessaria per misurare la qualità e il modo in cui Databricks la fornisce. La misurazione della qualità non è semplice e richiede un investimento significativo nell'infrastruttura.

Log di traccia dettagliati

Il nucleo della logica dell'applicazione RAG è una serie di passaggi nella catena. Per valutare ed eseguire il debug della qualità, è necessario implementare la strumentazione che tiene traccia degli input e degli output della catena, insieme a ogni passaggio della catena e agli input e output associati. La strumentazione inserita dovrebbe funzionare allo stesso modo nello sviluppo e nella produzione.

In Databricks, MLflow Tracing offre questa funzionalità. Con MLflow Trace Logging, si instrumenta il codice nell'ambiente di produzione e si ottengono le stesse tracce durante lo sviluppo e l'ambiente di produzione. Le tracce di produzione vengono registrate come parte della tabella di inferenza.

Interfaccia utente della revisione degli stakeholder

Spesso, gli sviluppatori, non sono esperti di dominio nel contenuto dell'applicazione in fase di sviluppo. Per raccogliere feedback da esperti umani che possono valutare la qualità output dell'applicazione, è necessaria un'interfaccia che consente di interagire con le prime versioni dell'applicazione e fornire feedback dettagliato. Inoltre, è necessario un modo per caricare output di applicazioni specifici perché gli stakeholder ne possano valutare la qualità.

Questa interfaccia deve tenere traccia degli output dell'applicazione e del feedback associato in modo strutturato, archiviando la traccia completa dell'applicazione e il feedback dettagliato in una tabella dati.

In Databricks l'app Agent Evaluation Review offre questa funzionalità.

Framework delle metriche di qualità, costi e latenza

È necessario un modo per definire le metriche che misurano in modo completo la qualità di ogni componente della catena e dell'applicazione end-to-end. Idealmente, il framework fornirà una suite di metriche standard predefinite, oltre a supportare la personalizzazione, in modo da poter aggiungere metriche che testano aspetti specifici della qualità univoci per l'azienda.

In Databricks, Agent Evaluation usa modelli di giudice LLM ospitati per offrire un'implementazione predefinita per le metriche di qualità, costi e latenza necessarie.

Harness di valutazione

È necessario un modo per ottenere in modo rapido ed efficiente output dalla catena per ogni domanda nel set di valutazione e quindi valutare ogni output sulle metriche pertinenti. Questo harness deve essere fatto nel modo più efficiente possibile, visto che si eseguirà la valutazione dopo ogni esperimento rivolto a migliorare la qualità.

In Databricks, Agent Evaluation fornisce un'harness di valutazione integrata con MLflow.

Gestione dei set di valutazione

Il set di valutazione è un set di domande viventi e respiratorie che verranno aggiornate in modo iterativo nel corso del ciclo di vita di sviluppo e produzione dell'applicazione.

In Databricks è possibile gestire il set di valutazione come tabella Delta. Durante la valutazione con MLflow, MLflow registra automaticamente uno snapshot della versione del set di valutazione usato.

Framework di rilevamento dell'esperimento

Durante lo sviluppo di applicazioni si proveranno molti esperimenti diversi. Un framework di rilevamento consente di registrare ogni esperimento e di tenere traccia delle metriche in confronto ad altri esperimenti.

In Databricks, MLflow offre funzionalità di rilevamento degli esperimenti.

Framework di parametrizzazione della catena

Molti esperimenti che si tenta di provare richiedono di contenere la costante di codice della catena durante l'iterazione su vari parametri usati dal codice. È necessario un framework che consenta di eseguire questa operazione.

In Databricks, la configurazione del modello MLflow offre queste funzionalità.

Monitoraggio online

Dopo la distribuzione, è necessario un modo per monitorare l'integrità dell'applicazione e la qualità, i costi e la latenza in corso.

In Databricks, Model Serving fornisce il monitoraggio dell'integrità delle applicazioni, mentre il monitoraggio di Lakehouse fornisce output in corso a un dashboard e monitora qualità, costi e latenza.

< Precedente: Valutare le prestazioni

Avanti: Sviluppo basato sulla valutazione >

Condividi tramite