Condividi tramite


Introduzione al monitoraggio di Databricks Lakehouse

Questo articolo descrive il monitoraggio di Databricks Lakehouse. Illustra i vantaggi del monitoraggio dei dati e offre una panoramica dei componenti e dell'utilizzo di Databricks Lakehouse Monitoring.

Databricks Lakehouse Monitoring consente di monitorare le proprietà statistiche e la qualità dei dati in tutte le tabelle dell'account. È anche possibile usarlo per tenere traccia delle prestazioni dei modelli di Machine Learning e degli endpoint di gestione dei modelli monitorando le tabelle di inferenza che contengono input e stime del modello. Il diagramma mostra il flusso dei dati attraverso le pipeline di dati e ML in Databricks e come è possibile usare il monitoraggio per tenere traccia in modo continuo della qualità dei dati e delle prestazioni del modello.

Panoramica del monitoraggio di Databricks Lakehouse

Perché usare Il monitoraggio di Databricks Lakehouse?

Per trarre informazioni dettagliate utili dai dati, è necessario avere fiducia nella qualità dei dati. Il monitoraggio dei dati fornisce misure quantitative che consentono di tenere traccia e confermare la qualità e la coerenza dei dati nel tempo. Quando si rilevano modifiche nella distribuzione dei dati della tabella o nelle prestazioni del modello corrispondente, le tabelle create da Databricks Lakehouse Monitoring possono acquisire e avvisare l'utente alla modifica e consentono di identificare la causa.

Databricks Lakehouse Monitoring consente di rispondere a domande come le seguenti:

  • Che aspetto ha l'integrità dei dati e come cambia nel tempo? Ad esempio, qual è la frazione di valori nulli o zero nei dati correnti ed è aumentata la loro percentuale?
  • Qual è l'aspetto della distribuzione statistica dei dati e come cambia nel tempo? Ad esempio, qual è il 90° percentile di una colonna numerica? In alternativa, qual è la distribuzione dei valori in una colonna categorica e in che modo differisce da ieri?
  • Esiste una deviazione tra i dati correnti e una baseline nota o tra finestre temporali successive dei dati?
  • Qual è l'aspetto della distribuzione statistica o della deriva di un subset o di una sezione dei dati?
  • In che modo gli input e le stime del modello di Machine Learning cambiano nel tempo?
  • Qual è la tendenza delle prestazioni del modello nel tempo? La versione del modello ha prestazioni migliori rispetto alla versione B?

Databricks Lakehouse Monitoring consente inoltre di controllare la granularità temporale delle osservazioni e di configurare metriche personalizzate.

Requisiti

Per usare Databricks Lakehouse Monitoring, è necessario quanto segue:

  • L'area di lavoro deve essere abilitata per Unity Catalog ed è necessario avere accesso a Databricks SQL.
  • Per il monitoraggio sono supportate solo le tabelle Delta e la tabella deve essere uno dei tipi di tabella seguenti: tabelle gestite, tabelle esterne, viste, viste materializzate o tabelle di streaming.
  • I monitoraggi creati su viste materializzate e tabelle di streaming non supportano l'elaborazione incrementale.
  • Non tutte le aree sono supportate. Per il supporto a livello di area, vedere la colonna monitoraggio di Lakehouse nella tabella intelligenza artificiale e apprendimento automatico .

Nota

Databricks Lakehouse Monitoring usa il calcolo serverless per i processi. Per informazioni sul monitoraggio delle spese per il monitoraggio di Lakehouse, vedere View Lakehouse Monitoring expenses.For information about tracking Lakehouse Monitoring expenses, see View Lakehouse Monitoring expenses.

Funzionamento di Lakehouse Monitoring su Databricks

Per monitorare una tabella in Databricks, creare un monitor collegato alla tabella. Per monitorare le prestazioni di un modello di apprendimento automatico, collegare il monitor a una tabella di inferenza che contiene gli input del modello e le previsioni corrispondenti.

Databricks Lakehouse Monitoring offre i tipi di analisi seguenti: serie temporale, snapshot e inferenza.

Tipo profilo Descrizione
Serie temporale Utilizzare per le tabelle che contengono un insieme di dati di serie temporale basato su una colonna marcatempo. Il monitoraggio calcola le metriche relative alla qualità dei dati nelle finestre basate sul tempo della serie temporale.
Inferenza Utilizzare per le tabelle che contengono il log delle richieste per un modello. Ogni riga è una richiesta, con colonne per il timestamp , gli input del modello, la stima corrispondente e (facoltativo) etichetta di verità. Il monitoraggio confronta le metriche relative alle prestazioni del modello e alla qualità dei dati nelle finestre basate sul tempo del log delle richieste.
Snapshot Utilizzare per tutti gli altri tipi di tabelle. Il monitoraggio calcola le metriche relative alla qualità dei dati su tutti i dati nella tabella. La tabella completa viene elaborata con ogni aggiornamento.

Questa sezione descrive brevemente le tabelle di input usate da Databricks Lakehouse Monitoring e le tabelle delle metriche generate. Il diagramma mostra la relazione tra le tabelle di input, le tabelle delle metriche, il monitoraggio e il dashboard.

Diagramma di monitoraggio di Databricks Lakehouse

tabella primaria e tabella di base

Oltre alla tabella da monitorare, denominata "tabella primaria", è possibile specificare facoltativamente una tabella di base da usare come riferimento per misurare la deriva o la modifica dei valori nel tempo. Una tabella di riferimento è utile quando si dispone di un campione che mostra come si prevede che i dati debbano apparire. L'idea è che la deriva viene quindi calcolata in relazione ai valori e alle distribuzioni dei dati previsti.

La tabella di base deve contenere un set di dati che riflette la qualità prevista dei dati di input, in termini di distribuzioni statistiche, distribuzioni di singole colonne, valori mancanti e altre caratteristiche. Deve corrispondere allo schema della tabella monitorata. L'eccezione è la colonna timestamp per le tabelle usate con profili di inferenza o serie temporale. Se le colonne non sono presenti nella tabella primaria o nella tabella di base, il monitoraggio usa euristiche di miglior sforzo per determinare le metriche di output.

Per i monitor che utilizzano un profilo snapshot, la tabella di base dovrebbe contenere uno snapshot dei dati in cui la distribuzione rappresenta uno standard di qualità accettabile. Ad esempio, nei dati di distribuzione dei voti, si potrebbe impostare la linea di base su una classe precedente in cui i voti erano distribuiti in modo uniforme.

Per i monitoraggi che usano un profilo time series, la tabella di base deve contenere dati che rappresentano intervalli di tempo in cui le distribuzioni di dati rappresentano uno standard di qualità accettabile. Ad esempio, nei dati meteo, è possibile impostare la baseline su una settimana, un mese o un anno in cui la temperatura era vicina alle temperature normali previste.

Per i monitoraggi che usano un profilo di inferenza, una buona scelta per una baseline è i dati usati per eseguire il training o la convalida del modello monitorato. In questo modo, gli utenti possono essere avvisati quando i dati sono stati deviati rispetto a quello su cui è stato eseguito il training e la convalida del modello. Questa tabella deve contenere le stesse colonne di funzionalità della tabella primaria e deve inoltre avere lo stesso model_id_col specificato per InferenceLog della tabella primaria in modo che i dati vengano aggregati in modo coerente. Idealmente, il set di test o di convalida usato per valutare il modello deve essere usato per garantire metriche di qualità del modello simili.

Tabelle e dashboard delle metriche

Un monitor di tabelle crea due tabelle metriche e un dashboard. I valori delle metriche vengono calcolati per l'intera tabella, per gli intervalli temporali e per i subset di dati (o "sezioni") che si specificano quando si crea il monitor. Inoltre, per l'analisi dell'inferenza, le metriche vengono calcolate per ogni ID modello. Per altre informazioni sulle tabelle delle metriche, vedere Monitorare le tabelle delle metriche.

  • La tabella delle metriche del profilo contiene statistiche di riepilogo. Vedi lo schema della tabella delle metriche del profilo .
  • La tabella delle metriche di deriva contiene statistiche correlate alla deriva dei dati nel tempo. Se viene fornita una tabella di base, viene monitorata anche la deriva rispetto ai valori di base. Vedere lo schema della tabella delle metriche di deriva .

Le tabelle delle metriche sono tabelle Delta e vengono archiviate in uno schema del Unity Catalog che specifichi. È possibile visualizzare queste tabelle usando l'interfaccia utente di Databricks, eseguire query usando Databricks SQL e creare dashboard e avvisi in base a essi.

Per ogni monitoraggio, Databricks crea automaticamente un dashboard per visualizzare e presentare i risultati del monitoraggio. Il dashboard è completamente personalizzabile. Vedere Dashboard.

Iniziare a usare Il monitoraggio di Lakehouse in Databricks

Per iniziare, vedere gli articoli seguenti: