Creare un monitoraggio usando l'interfaccia utente di Databricks
Questo articolo illustra come creare un monitoraggio dati usando l'interfaccia utente di Databricks. È anche possibile usare l'API.
Per accedere all'interfaccia utente di Databricks, eseguire le operazioni seguenti:
- Nella barra laterale sinistra dell'area di lavoro fare clic per aprire Esplora cataloghi.
- Passare alla tabella da monitorare.
- Fare clic sulla scheda Qualità .
- Fare clic sul pulsante Informazioni di base.
- In Crea monitoraggio scegliere le opzioni da configurare per il monitoraggio.
Profilatura
Dal menu Tipo di profilo selezionare il tipo di monitoraggio che si vuole creare. I tipi di profilo vengono visualizzati nella tabella .
Tipo profilo | Descrizione |
---|---|
Profilo serie temporali | Tabella contenente valori misurati nel tempo. Questa tabella include una colonna timestamp. |
Profilo di inferenza | Tabella contenente i valori stimati restituiti da un modello di classificazione o regressione di Machine Learning. Questa tabella include un timestamp, un ID modello, input del modello (funzionalità), una colonna contenente stime del modello e colonne facoltative contenenti ID di osservazione univoci ed etichette di verità di base. Può anche contenere metadati, ad esempio informazioni demografiche, che non vengono usate come input per il modello, ma possono essere utili per le indagini di equità e distorsione o per altri monitoraggi. |
Profilo snapshot | Qualsiasi tabella gestita Delta, tabella esterna, vista, vista materializzata o tabella di streaming. |
Se si seleziona TimeSeries
o Inference
, sono necessari parametri aggiuntivi e sono descritti nelle sezioni seguenti.
Nota
- Quando si crea per la prima volta un profilo di serie temporali o di inferenze, il monitor analizza solo i dati dei 30 giorni precedenti alla sua creazione. Dopo aver creato il monitor, tutti i nuovi dati vengono elaborati.
- I monitor definiti su viste materializzate e tabelle in streaming non supportano l'elaborazione incrementale.
Suggerimento
Per i profili TimeSeries
e Inference
è consigliabile abilitare il feed di dati (CDF) delle modifiche nella tabella. Quando il CDF è abilitato, invece di rielaborare l'intera tabella a ogni aggiornamento, vengono elaborati solo i dati recentemente aggiunti. In questo modo l'esecuzione risulta più efficiente e riduce i costi man mano che si ridimensiona il monitoraggio in molte tabelle.
Profilo TimeSeries
Per un TimeSeries
profilo, è necessario effettuare le selezioni seguenti:
- Specificare le granularità delle metriche che determinano come partizionare i dati nelle finestre nel tempo.
- Specificare la colonna Timestamp, la colonna nella tabella contenente il timestamp. Il tipo di dati della colonna timestamp deve essere
TIMESTAMP
oppure un tipo che può essere convertito in timestamp utilizzando lato_timestamp
funzione PySpark funzione.
Profilo Inference
Per un Inference
profilo, oltre alle granularità e al timestamp, è necessario effettuare le selezioni seguenti:
- Selezionare il tipo di problema, ovvero la classificazione o la regressione.
- Specificare la colonna Stima, ovvero la colonna contenente i valori stimati del modello.
- Facoltativamente, specificare la colonna Etichetta, la colonna contenente la verità del terreno per le stime del modello.
- Specificare la colonna ID modello contenente l'ID del modello usato per la stima.
Programmazione
Per configurare un monitoraggio da eseguire in base a una pianificazione, selezionare Aggiorna in base alla pianificazione e selezionare la frequenza e l'ora per l'esecuzione del monitoraggio. Se non si vuole che il monitoraggio venga eseguito automaticamente, selezionare Aggiorna manualmente. Se si seleziona Aggiorna manualmente, è possibile aggiornare le metriche nella scheda Qualità .
Notifications
Per configurare le notifiche tramite posta elettronica per un monitoraggio, immettere il messaggio di posta elettronica per ricevere una notifica e selezionare le notifiche da abilitare. Sono supportati fino a 5 messaggi di posta elettronica per ogni tipo di evento di notifica.
Generali
Nella sezione Generale è necessario specificare un'impostazione obbligatoria e alcune opzioni di configurazione aggiuntive:
- È necessario specificare lo schema del catalogo Unity in cui vengono archiviate le tabelle delle metriche create dal monitoraggio. Il percorso deve essere nel formato {catalog}. {schema}.
È anche possibile specificare le impostazioni seguenti:
Directory Assets. Immettere il percorso assoluto della directory esistente per archiviare gli asset di monitoraggio, ad esempio il dashboard generato. Per impostazione predefinita, gli asset vengono archiviati nella directory predefinita: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se si immette un percorso diverso in questo campo, gli asset vengono creati in "/{table_name}" nella directory specificata. Questa directory può trovarsi in qualsiasi punto dell'area di lavoro. Per i monitoraggi destinati a essere condivisi all'interno di un'organizzazione, è possibile usare un percorso nella directory "/Condiviso/".
Questo campo non può essere lasciato vuoto.
Nome della tabella di base del catalogo Unity. Nome di una tabella o di una vista contenente i dati di base per il confronto. Per altre informazioni sulle tabelle di base, vedere Tabella di input primaria e tabella di base.
Espressioni di sezionamento delle metriche. Le espressioni di sezionamento consentono di definire subset della tabella da monitorare oltre alla tabella nel suo complesso. Per creare un'espressione di sezionamento, fare clic su Aggiungi espressione e immettere la definizione dell'espressione. Ad esempio, l'espressione
"col_2 > 10"
genera due sezioni: una percol_2 > 10
e una percol_2 <= 10
. Come altro esempio, l'espressione"col_1"
genererà una sezione per ogni valore univoco incol_1
. I dati vengono raggruppati in base a ogni espressione in modo indipendente, generando una sezione separata per ogni predicato e i relativi complementi.Metriche personalizzate. Le metriche personalizzate vengono visualizzate nelle tabelle delle metriche come qualsiasi metrica predefinita. Per informazioni dettagliate, vedere Usare metriche personalizzate con Databricks Lakehouse Monitoring. Per configurare una metrica personalizzata, fare clic su Aggiungi metrica personalizzata.
- Immettere un nome per la metrica personalizzata.
- Selezionare il tipo di metrica personalizzato, uno di
Aggregate
,Derived
oDrift
. Per le definizioni, vedere Tipi di metriche personalizzate. - Nell'elenco a discesa in Colonne di input selezionare le colonne a cui applicare la metrica.
- Nel campo Tipo di output selezionare il tipo di dati Spark della metrica.
- Nel campo Definizione immettere codice SQL che definisce la metrica personalizzata.
Modificare le impostazioni di monitoraggio nell'interfaccia utente
Dopo aver creato un monitoraggio, è possibile apportare modifiche alle impostazioni del monitoraggio facendo clic sul pulsante Modifica configurazione monitoraggio nella scheda Qualità .
Aggiornare e visualizzare i risultati del monitoraggio nell'interfaccia utente
Per eseguire manualmente il monitoraggio, fare clic su Aggiorna metriche.
Per informazioni sulle statistiche archiviate nelle tabelle delle metriche di monitoraggio, vedere Monitorare le tabelle delle metriche. Le tabelle delle metriche sono tabelle del catalogo Unity. È possibile interrogare le tabelle nei notebook o in nell’esplora query SQL e visualizzarli nel Catalog Explorer.
Controllare l'accesso per monitorare gli output
Le tabelle delle metriche e il dashboard creati da un monitor sono di proprietà dell'utente che ha creato il monitoraggio. È possibile usare i privilegi dello Unity Catalog per controllare l'accesso alle tabelle delle metriche. Per condividere i dashboard all'interno di un'area di lavoro, fare clic sul pulsante Condividi in alto a destra del dashboard.
Eliminare un monitoraggio dall'interfaccia utente
Per eliminare un monitoraggio dall'interfaccia utente, fare clic sul menu kebab accanto al pulsante Aggiorna metriche e selezionare Elimina monitoraggio.