Creare un monitoraggio usando l'interfaccia utente di Databricks

Articolo
01/23/2025

Questo articolo illustra come creare un monitoraggio dati usando l'interfaccia utente di Databricks. È anche possibile usare l'API.

Per accedere all'interfaccia utente di Databricks, eseguire le operazioni seguenti:

Nella barra laterale sinistra dell'area di lavoro, fare clic sull'icona per aprire Catalogo Explorer.
Passare alla tabella da monitorare.
Fare clic sulla scheda Qualità .
Fare clic sul pulsante Inizia.
In Crea monitor, scegli le opzioni che desideri configurare.

Profilatura

Dal menu Tipo di profilo selezionare il tipo di monitoraggio da creare. I tipi di profilo vengono visualizzati nella tabella .

Tipo profilo	Descrizione
Profilo serie temporali	Tabella contenente valori misurati nel tempo. Questa tabella include una colonna con un marcatore temporale.
Profilo di inferenza	Tabella contenente i valori stimati restituiti da un modello di classificazione o regressione di Machine Learning. Questa tabella include un timestamp, un ID modello, input del modello (funzionalità), una colonna contenente stime del modello e colonne facoltative contenenti ID di osservazione univoci ed etichette di verità di base. Può anche contenere metadati, ad esempio informazioni demografiche, che non vengono usate come input per il modello, ma possono essere utili per le indagini di equità e distorsione o per altri monitoraggi.
Profilo snapshot	Qualsiasi tabella Delta gestita, tabella esterna, vista, vista materializzata o tabella streaming.

Se si seleziona TimeSeries o Inference, sono necessari parametri aggiuntivi e sono descritti nelle sezioni seguenti.

Nota

Quando si crea per la prima volta un profilo di serie temporali o di inferenze, il monitor analizza solo i dati dei 30 giorni precedenti alla sua creazione. Dopo aver creato il monitor, tutti i nuovi dati vengono elaborati.
I monitoraggi definiti nelle viste materializzate e nelle tabelle di streaming non supportano l'elaborazione incrementale.

Suggerimento

Per i profili TimeSeries e Inference, è una pratica ottimale attivare il feed di dati delle modifiche su una tabella. Quando CDF è abilitato, vengono elaborati solo i dati appena accodati anziché rielaborare l'intera tabella ogni aggiornamento. In questo modo l'esecuzione risulta più efficiente e riduce i costi man mano che si ridimensiona il monitoraggio in molte tabelle.

Profilo `TimeSeries`

Per un TimeSeries profilo, è necessario effettuare le selezioni seguenti:

Specificare le granularità delle metriche che determinano come suddividere i dati nelle finestre in base al tempo.
Specifica la colonna timestamp , ovvero la colonna nella tabella che contiene il timestamp. Il tipo di dati della colonna timestamp deve essere TIMESTAMP o un tipo che può essere convertito in timestamp usando la funzione PySpark to_timestamp.

Profilo `Inference`

Per un Inference profilo, oltre alle granularità e al timestamp, è necessario effettuare le selezioni seguenti:

Selezionare il tipo di problema , classificazione o regressione.
Specificare la colonna Prediction, la colonna contenente i valori stimati del modello.
Facoltativamente, specificare la colonna Label, ovvero la colonna che contiene i dati di riferimento per le previsioni del modello.
Specificare la colonna ID modello , la colonna contenente l'ID del modello usato per la stima.

Programmazione

Per configurare un monitoraggio per l'esecuzione su base pianificata, selezionare Aggiorna in base alla pianificazione e selezionare la frequenza e l'ora per l'esecuzione del monitoraggio. Se non si vuole che il monitoraggio venga eseguito automaticamente, selezionare Aggiorna manualmente. Se si seleziona Ricarica manualmente, è possibile aggiornare le metriche dalla scheda qualità.

Notifications

Per configurare le notifiche tramite posta elettronica per un monitoraggio, immettere il messaggio di posta elettronica per ricevere una notifica e selezionare le notifiche da abilitare. Sono supportati fino a 5 messaggi di posta elettronica per ogni tipo di evento di notifica.

Generali

Nella sezione Generale è necessario specificare un'impostazione obbligatoria e alcune opzioni di configurazione aggiuntive:

È necessario specificare lo schema del catalogo Unity in cui vengono archiviate le tabelle delle metriche create dal monitoraggio. Il percorso deve essere nel formato {catalog}. {schema}.

È anche possibile specificare le impostazioni seguenti:

Directory Assets. Immettere il percorso assoluto della directory esistente per archiviare gli asset di monitoraggio, ad esempio il dashboard generato. Per impostazione predefinita, gli asset vengono archiviati nella directory predefinita: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se si immette un percorso diverso in questo campo, gli asset vengono creati in "/{table_name}" nella directory specificata. Questa directory può trovarsi in qualsiasi punto dell'area di lavoro. Per i monitoraggi destinati a essere condivisi all'interno di un'organizzazione, è possibile usare un percorso nella directory "/Condiviso/".

Questo campo non può essere lasciato vuoto.
nome della tabella di base del Catalogo Unity. Nome di una tabella o di una vista contenente i dati di base per il confronto. Per altre informazioni sulle tabelle di base, vedere tabella di input primaria e tabella di base.
Espressioni di sezionamento delle metriche. Le espressioni di sezionamento consentono di definire subset della tabella da monitorare oltre alla tabella nel suo complesso. Per creare un'espressione di sezionamento, fare clic su Aggiungi espressione e immettere la definizione dell'espressione. Ad esempio, l'espressione "col_2 > 10" genera due sezioni: una per col_2 > 10 e una per col_2 <= 10. Come altro esempio, l'espressione "col_1" genererà una sezione per ogni valore univoco in col_1. I dati vengono raggruppati in base a ogni espressione in modo indipendente, generando una sezione separata per ogni predicato e i relativi complementi.
Metriche personalizzate. Le metriche personalizzate vengono visualizzate nelle tabelle delle metriche come qualsiasi metrica predefinita. Per informazioni dettagliate, vedere Usare metriche personalizzate con Databricks Lakehouse Monitoring. Per configurare una metrica personalizzata, fare clic su Aggiungi metrica personalizzata.
- Immettere un nome per la metrica personalizzata.
- Selezionare la metrica personalizzata Tipo, una delle Aggregate, Derivedo Drift. Per le definizioni, vedere Tipi di metriche personalizzate.
- Nell'elenco a discesa in Colonne di input, selezionare le colonne a cui applicare la metrica.
- Nel campo Tipo di output selezionare il tipo di dati Spark della metrica.
- Nel campo Definizione immettere codice SQL che definisce la metrica personalizzata.

Modificare le impostazioni di monitoraggio nell'interfaccia utente

Dopo aver creato un monitoraggio, è possibile apportare modifiche alle impostazioni del monitoraggio facendo clic sul pulsante Modifica configurazione monitoraggio nella scheda Qualità .

Aggiornare e visualizzare i risultati del monitoraggio nell'interfaccia utente

Per eseguire manualmente il monitoraggio, fare clic su Aggiorna metriche.

Per informazioni sulle statistiche archiviate nelle tabelle delle metriche di monitoraggio, vedere Monitorare le tabelle delle metriche. Le tabelle delle metriche sono tabelle del catalogo Unity. È possibile eseguire query nei notebook o in Esplora query SQL e visualizzare i risultati in Esplora Cataloghi.

Controllare l'accesso per monitorare gli output

Le tabelle delle metriche e il dashboard creati da un monitor sono di proprietà dell'utente che ha creato il monitor. È possibile usare i privilegi del catalogo Unity per controllare l'accesso alle tabelle delle metriche. Per condividere i dashboard all'interno di un'area di lavoro, fare clic sul pulsante Condividi in alto a destra del dashboard.

Eliminare un monitoraggio dall'interfaccia utente

Per eliminare un monitor dall'interfaccia utente, fare clic sul menu kebab accanto al pulsante Aggiorna metriche e selezionare Elimina monitor.

Condividi tramite

Creare un monitoraggio usando l'interfaccia utente di Databricks

Profilatura

Profilo `TimeSeries`

Profilo `Inference`

Programmazione

Notifications

Generali

Modificare le impostazioni di monitoraggio nell'interfaccia utente

Aggiornare e visualizzare i risultati del monitoraggio nell'interfaccia utente

Controllare l'accesso per monitorare gli output

Eliminare un monitoraggio dall'interfaccia utente

Commenti e suggerimenti

Risorse aggiuntive

Condividi tramite

Creare un monitoraggio usando l'interfaccia utente di Databricks

Profilatura

Profilo TimeSeries

Profilo Inference

Programmazione

Notifications

Generali

Modificare le impostazioni di monitoraggio nell'interfaccia utente

Aggiornare e visualizzare i risultati del monitoraggio nell'interfaccia utente

Controllare l'accesso per monitorare gli output

Eliminare un monitoraggio dall'interfaccia utente

Commenti e suggerimenti

Risorse aggiuntive

Profilo `TimeSeries`

Profilo `Inference`