Creare un monitoraggio usando l'interfaccia utente di Databricks
Questo articolo illustra come creare un monitoraggio dati usando l'interfaccia utente di Databricks. È anche possibile usare l'API.
Per accedere all'interfaccia utente di Databricks, eseguire le operazioni seguenti:
- Nella barra laterale sinistra dell'area di lavoro, fare clic sull'icona per aprire Catalogo Explorer.
- Passare alla tabella da monitorare.
- Fare clic sulla scheda Qualità .
- Fare clic sul pulsante Inizia.
- In Crea monitor, scegli le opzioni che desideri configurare.
Profilatura
Dal menu Tipo di profilo selezionare il tipo di monitoraggio da creare. I tipi di profilo vengono visualizzati nella tabella .
Tipo profilo | Descrizione |
---|---|
Profilo serie temporali | Tabella contenente valori misurati nel tempo. Questa tabella include una colonna con un marcatore temporale. |
Profilo di inferenza | Tabella contenente i valori stimati restituiti da un modello di classificazione o regressione di Machine Learning. Questa tabella include un timestamp, un ID modello, input del modello (funzionalità), una colonna contenente stime del modello e colonne facoltative contenenti ID di osservazione univoci ed etichette di verità di base. Può anche contenere metadati, ad esempio informazioni demografiche, che non vengono usate come input per il modello, ma possono essere utili per le indagini di equità e distorsione o per altri monitoraggi. |
Profilo snapshot | Qualsiasi tabella Delta gestita, tabella esterna, vista, vista materializzata o tabella streaming. |
Se si seleziona TimeSeries
o Inference
, sono necessari parametri aggiuntivi e sono descritti nelle sezioni seguenti.
Nota
- Quando si crea per la prima volta un profilo di serie temporali o di inferenze, il monitor analizza solo i dati dei 30 giorni precedenti alla sua creazione. Dopo aver creato il monitor, tutti i nuovi dati vengono elaborati.
- I monitoraggi definiti nelle viste materializzate e nelle tabelle di streaming non supportano l'elaborazione incrementale.
Suggerimento
Per i profili TimeSeries
e Inference
, è una pratica ottimale attivare il feed di dati delle modifiche su una tabella. Quando CDF è abilitato, vengono elaborati solo i dati appena accodati anziché rielaborare l'intera tabella ogni aggiornamento. In questo modo l'esecuzione risulta più efficiente e riduce i costi man mano che si ridimensiona il monitoraggio in molte tabelle.
Profilo TimeSeries
Per un TimeSeries
profilo, è necessario effettuare le selezioni seguenti:
- Specificare le granularità delle metriche che determinano come suddividere i dati nelle finestre in base al tempo.
- Specifica la colonna timestamp , ovvero la colonna nella tabella che contiene il timestamp. Il tipo di dati della colonna timestamp deve essere
TIMESTAMP
o un tipo che può essere convertito in timestamp usando la funzione PySparkto_timestamp
.
Profilo Inference
Per un Inference
profilo, oltre alle granularità e al timestamp, è necessario effettuare le selezioni seguenti:
- Selezionare il tipo di problema , classificazione o regressione.
- Specificare la colonna Prediction, la colonna contenente i valori stimati del modello.
- Facoltativamente, specificare la colonna Label, ovvero la colonna che contiene i dati di riferimento per le previsioni del modello.
- Specificare la colonna ID modello , la colonna contenente l'ID del modello usato per la stima.
Programmazione
Per configurare un monitoraggio per l'esecuzione su base pianificata, selezionare Aggiorna in base alla pianificazione e selezionare la frequenza e l'ora per l'esecuzione del monitoraggio. Se non si vuole che il monitoraggio venga eseguito automaticamente, selezionare Aggiorna manualmente. Se si seleziona Ricarica manualmente, è possibile aggiornare le metriche dalla scheda qualità.
Notifications
Per configurare le notifiche tramite posta elettronica per un monitoraggio, immettere il messaggio di posta elettronica per ricevere una notifica e selezionare le notifiche da abilitare. Sono supportati fino a 5 messaggi di posta elettronica per ogni tipo di evento di notifica.
Generali
Nella sezione Generale è necessario specificare un'impostazione obbligatoria e alcune opzioni di configurazione aggiuntive:
- È necessario specificare lo schema del catalogo Unity in cui vengono archiviate le tabelle delle metriche create dal monitoraggio. Il percorso deve essere nel formato {catalog}. {schema}.
È anche possibile specificare le impostazioni seguenti:
Directory Assets. Immettere il percorso assoluto della directory esistente per archiviare gli asset di monitoraggio, ad esempio il dashboard generato. Per impostazione predefinita, gli asset vengono archiviati nella directory predefinita: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se si immette un percorso diverso in questo campo, gli asset vengono creati in "/{table_name}" nella directory specificata. Questa directory può trovarsi in qualsiasi punto dell'area di lavoro. Per i monitoraggi destinati a essere condivisi all'interno di un'organizzazione, è possibile usare un percorso nella directory "/Condiviso/".
Questo campo non può essere lasciato vuoto.
nome della tabella di base del Catalogo Unity. Nome di una tabella o di una vista contenente i dati di base per il confronto. Per altre informazioni sulle tabelle di base, vedere tabella di input primaria e tabella di base.
Espressioni di sezionamento delle metriche. Le espressioni di sezionamento consentono di definire subset della tabella da monitorare oltre alla tabella nel suo complesso. Per creare un'espressione di sezionamento, fare clic su Aggiungi espressione e immettere la definizione dell'espressione. Ad esempio, l'espressione
"col_2 > 10"
genera due sezioni: una percol_2 > 10
e una percol_2 <= 10
. Come altro esempio, l'espressione"col_1"
genererà una sezione per ogni valore univoco incol_1
. I dati vengono raggruppati in base a ogni espressione in modo indipendente, generando una sezione separata per ogni predicato e i relativi complementi.Metriche personalizzate. Le metriche personalizzate vengono visualizzate nelle tabelle delle metriche come qualsiasi metrica predefinita. Per informazioni dettagliate, vedere Usare metriche personalizzate con Databricks Lakehouse Monitoring. Per configurare una metrica personalizzata, fare clic su Aggiungi metrica personalizzata.
- Immettere un nome per la metrica personalizzata.
- Selezionare la metrica personalizzata Tipo, una delle
Aggregate
,Derived
oDrift
. Per le definizioni, vedere Tipi di metriche personalizzate. - Nell'elenco a discesa in Colonne di input, selezionare le colonne a cui applicare la metrica.
- Nel campo Tipo di output selezionare il tipo di dati Spark della metrica.
- Nel campo Definizione immettere codice SQL che definisce la metrica personalizzata.
Modificare le impostazioni di monitoraggio nell'interfaccia utente
Dopo aver creato un monitoraggio, è possibile apportare modifiche alle impostazioni del monitoraggio facendo clic sul pulsante Modifica configurazione monitoraggio nella scheda Qualità .
Aggiornare e visualizzare i risultati del monitoraggio nell'interfaccia utente
Per eseguire manualmente il monitoraggio, fare clic su Aggiorna metriche.
Per informazioni sulle statistiche archiviate nelle tabelle delle metriche di monitoraggio, vedere Monitorare le tabelle delle metriche. Le tabelle delle metriche sono tabelle del catalogo Unity. È possibile eseguire query nei notebook o in Esplora query SQL e visualizzare i risultati in Esplora Cataloghi.
Controllare l'accesso per monitorare gli output
Le tabelle delle metriche e il dashboard creati da un monitor sono di proprietà dell'utente che ha creato il monitor. È possibile usare i privilegi del catalogo Unity per controllare l'accesso alle tabelle delle metriche. Per condividere i dashboard all'interno di un'area di lavoro, fare clic sul pulsante Condividi in alto a destra del dashboard.
Eliminare un monitoraggio dall'interfaccia utente
Per eliminare un monitor dall'interfaccia utente, fare clic sul menu kebab accanto al pulsante Aggiorna metriche e selezionare Elimina monitor.