Condividi tramite


Creare un monitoraggio usando l'interfaccia utente di Databricks

Questo articolo illustra come creare un monitoraggio dati usando l'interfaccia utente di Databricks. È anche possibile usare l'API.

Per accedere all'interfaccia utente di Databricks, eseguire le operazioni seguenti:

  1. Nella barra laterale sinistra dell'area di lavoro fare clic per Icona catalogo aprire Esplora cataloghi.
  2. Passare alla tabella da monitorare.
  3. Fare clic sulla scheda Qualità .
  4. Fare clic sul pulsante Informazioni di base.
  5. In Crea monitoraggio scegliere le opzioni da configurare per il monitoraggio.

Profilatura

Dal menu Tipo di profilo selezionare il tipo di monitoraggio che si vuole creare. I tipi di profilo vengono visualizzati nella tabella .

Tipo profilo Descrizione
Profilo serie temporali Tabella contenente valori misurati nel tempo. Questa tabella include una colonna timestamp.
Profilo di inferenza Tabella contenente i valori stimati restituiti da un modello di classificazione o regressione di Machine Learning. Questa tabella include un timestamp, un ID modello, input del modello (funzionalità), una colonna contenente stime del modello e colonne facoltative contenenti ID di osservazione univoci ed etichette di verità di base. Può anche contenere metadati, ad esempio informazioni demografiche, che non vengono usate come input per il modello, ma possono essere utili per le indagini di equità e distorsione o per altri monitoraggi.
Profilo snapshot Qualsiasi tabella gestita Delta, tabella esterna, vista, vista materializzata o tabella di streaming.

Se si seleziona TimeSeries o Inference, sono necessari parametri aggiuntivi e sono descritti nelle sezioni seguenti.

Nota

  • Quando si crea per la prima volta un profilo di serie temporali o di inferenze, il monitor analizza solo i dati dei 30 giorni precedenti alla sua creazione. Dopo aver creato il monitor, tutti i nuovi dati vengono elaborati.
  • I monitor definiti su viste materializzate e tabelle in streaming non supportano l'elaborazione incrementale.

Suggerimento

Per i profili TimeSeries e Inference è consigliabile abilitare il feed di dati (CDF) delle modifiche nella tabella. Quando il CDF è abilitato, invece di rielaborare l'intera tabella a ogni aggiornamento, vengono elaborati solo i dati recentemente aggiunti. In questo modo l'esecuzione risulta più efficiente e riduce i costi man mano che si ridimensiona il monitoraggio in molte tabelle.

Profilo TimeSeries

Per un TimeSeries profilo, è necessario effettuare le selezioni seguenti:

  • Specificare le granularità delle metriche che determinano come partizionare i dati nelle finestre nel tempo.
  • Specificare la colonna Timestamp, la colonna nella tabella contenente il timestamp. Il tipo di dati della colonna timestamp deve essere TIMESTAMP oppure un tipo che può essere convertito in timestamp utilizzando la to_timestamp funzione PySpark funzione.

Profilo Inference

Per un Inference profilo, oltre alle granularità e al timestamp, è necessario effettuare le selezioni seguenti:

  • Selezionare il tipo di problema, ovvero la classificazione o la regressione.
  • Specificare la colonna Stima, ovvero la colonna contenente i valori stimati del modello.
  • Facoltativamente, specificare la colonna Etichetta, la colonna contenente la verità del terreno per le stime del modello.
  • Specificare la colonna ID modello contenente l'ID del modello usato per la stima.

Programmazione

Per configurare un monitoraggio da eseguire in base a una pianificazione, selezionare Aggiorna in base alla pianificazione e selezionare la frequenza e l'ora per l'esecuzione del monitoraggio. Se non si vuole che il monitoraggio venga eseguito automaticamente, selezionare Aggiorna manualmente. Se si seleziona Aggiorna manualmente, è possibile aggiornare le metriche nella scheda Qualità .

Notifications

Per configurare le notifiche tramite posta elettronica per un monitoraggio, immettere il messaggio di posta elettronica per ricevere una notifica e selezionare le notifiche da abilitare. Sono supportati fino a 5 messaggi di posta elettronica per ogni tipo di evento di notifica.

Generali

Nella sezione Generale è necessario specificare un'impostazione obbligatoria e alcune opzioni di configurazione aggiuntive:

  • È necessario specificare lo schema del catalogo Unity in cui vengono archiviate le tabelle delle metriche create dal monitoraggio. Il percorso deve essere nel formato {catalog}. {schema}.

È anche possibile specificare le impostazioni seguenti:

  • Directory Assets. Immettere il percorso assoluto della directory esistente per archiviare gli asset di monitoraggio, ad esempio il dashboard generato. Per impostazione predefinita, gli asset vengono archiviati nella directory predefinita: "/Users/{user_name}/databricks_lakehouse_monitoring/{table_name}". Se si immette un percorso diverso in questo campo, gli asset vengono creati in "/{table_name}" nella directory specificata. Questa directory può trovarsi in qualsiasi punto dell'area di lavoro. Per i monitoraggi destinati a essere condivisi all'interno di un'organizzazione, è possibile usare un percorso nella directory "/Condiviso/".

    Questo campo non può essere lasciato vuoto.

  • Nome della tabella di base del catalogo Unity. Nome di una tabella o di una vista contenente i dati di base per il confronto. Per altre informazioni sulle tabelle di base, vedere Tabella di input primaria e tabella di base.

  • Espressioni di sezionamento delle metriche. Le espressioni di sezionamento consentono di definire subset della tabella da monitorare oltre alla tabella nel suo complesso. Per creare un'espressione di sezionamento, fare clic su Aggiungi espressione e immettere la definizione dell'espressione. Ad esempio, l'espressione "col_2 > 10" genera due sezioni: una per col_2 > 10 e una per col_2 <= 10. Come altro esempio, l'espressione "col_1" genererà una sezione per ogni valore univoco in col_1. I dati vengono raggruppati in base a ogni espressione in modo indipendente, generando una sezione separata per ogni predicato e i relativi complementi.

  • Metriche personalizzate. Le metriche personalizzate vengono visualizzate nelle tabelle delle metriche come qualsiasi metrica predefinita. Per informazioni dettagliate, vedere Usare metriche personalizzate con Databricks Lakehouse Monitoring. Per configurare una metrica personalizzata, fare clic su Aggiungi metrica personalizzata.

    • Immettere un nome per la metrica personalizzata.
    • Selezionare il tipo di metrica personalizzato, uno di Aggregate, Derivedo Drift. Per le definizioni, vedere Tipi di metriche personalizzate.
    • Nell'elenco a discesa in Colonne di input selezionare le colonne a cui applicare la metrica.
    • Nel campo Tipo di output selezionare il tipo di dati Spark della metrica.
    • Nel campo Definizione immettere codice SQL che definisce la metrica personalizzata.

Modificare le impostazioni di monitoraggio nell'interfaccia utente

Dopo aver creato un monitoraggio, è possibile apportare modifiche alle impostazioni del monitoraggio facendo clic sul pulsante Modifica configurazione monitoraggio nella scheda Qualità .

Aggiornare e visualizzare i risultati del monitoraggio nell'interfaccia utente

Per eseguire manualmente il monitoraggio, fare clic su Aggiorna metriche.

Per informazioni sulle statistiche archiviate nelle tabelle delle metriche di monitoraggio, vedere Monitorare le tabelle delle metriche. Le tabelle delle metriche sono tabelle del catalogo Unity. È possibile interrogare le tabelle nei notebook o in nell’esplora query SQL e visualizzarli nel Catalog Explorer.

Controllare l'accesso per monitorare gli output

Le tabelle delle metriche e il dashboard creati da un monitor sono di proprietà dell'utente che ha creato il monitoraggio. È possibile usare i privilegi dello Unity Catalog per controllare l'accesso alle tabelle delle metriche. Per condividere i dashboard all'interno di un'area di lavoro, fare clic sul pulsante Condividi in alto a destra del dashboard.

Eliminare un monitoraggio dall'interfaccia utente

Per eliminare un monitoraggio dall'interfaccia utente, fare clic sul menu kebab accanto al pulsante Aggiorna metriche e selezionare Elimina monitoraggio.