Automatizzare le trasformazioni dei dati

Completato

La preparazione dei dati per l'apprendimento automatico è un passaggio necessario quando si vogliono creare modelli efficaci. Azure Databricks può elaborare e preparare in modo efficiente set di dati di grandi dimensioni a causa della potenza di calcolo di Spark.

Si esaminerà ora come eseguire ogni passaggio del flusso di lavoro di Machine Learning correlato ai dati in Azure Databricks.

Archiviare i dati raccolti in Archiviazione di Azure

Quando si raccolgono dati da varie origini, è consigliabile archiviare i dati in una soluzione di archiviazione come Archiviazione BLOB di Azure o Azure Data Lake.

L'archiviazione dei dati in una soluzione di archiviazione di Azure anziché direttamente in Azure Databricks offre una migliore scalabilità, sicurezza avanzata e integrazione con altri servizi di Azure.

Le soluzioni di archiviazione di Azure offrono un ambiente affidabile e flessibile per la gestione di set di dati di grandi dimensioni, assicurando che i dati siano facilmente disponibili per l'elaborazione e l'analisi.

Per gestire l'accesso a tutti i dati archiviati nell'archiviazione cloud, usare Unity Catalog. Unity Catalog offre una soluzione di governance unificata per tutti gli asset di dati, consentendo di gestire le autorizzazioni e i controlli di accesso all'interno del patrimonio di dati.

Esplorare e preparare i dati

Dopo la connessione ai dati, si vogliono esplorare i dati tramite Analisi esplorativa dei dati (Exploratory Data Analysis). In base ai risultati ottenuti, si preparano i dati per gestire i dati mancanti, eseguire la progettazione delle funzionalità ed eseguire qualsiasi altra trasformazione dei dati che si ritiene di trarre vantaggio dalle prestazioni del modello.

Per l'analisi iniziale, usare i notebook di Databricks per esplorare e comprendere i dati. È possibile usare Spark SQL o PySpark per lavorare con set di dati di grandi dimensioni, riepilogare i dati, verificare la presenza di valori null e comprendere le distribuzioni dei dati.

Automatizzare la progettazione delle funzionalità in Azure Databricks

Gli strumenti e le librerie automatizzate di progettazione delle funzionalità, ad esempio Featuretools e AutoFeat, stanno ottenendo popolarità man mano che semplificano il processo di generazione e selezione delle funzionalità. Questi strumenti usano algoritmi per creare automaticamente funzionalità da dati non elaborati, valutarne l'importanza e selezionare quelle più rilevanti per la modellazione. Questo approccio consente di risparmiare tempo e riduce la dipendenza dalla progettazione manuale delle funzionalità.

Automatizzare le trasformazioni dati di base in Azure Databricks

Dopo l'esplorazione, è possibile scegliere di automatizzare le trasformazioni dei dati configurando le pipeline. Un modo per ottenere l'automazione consiste nel configurare processi in Azure Databricks per automatizzare notebook e script. I processi di Azure Databricks consentono di pianificare ed eseguire i notebook o i file JAR come processi, consentendo di automatizzare i flussi di lavoro di elaborazione dei dati.

Per configurare un processo in Azure Databricks, seguire questa procedura:

  1. Creare un processo: Nell'area di lavoro Databricks, passare alla scheda Processi e selezionare su Create job. Specificare un nome per il processo e specificare il notebook o il file JAR da eseguire.
  2. Configurare il processo: Impostare i parametri per il processo, ad esempio la configurazione del cluster, la pianificazione per l'esecuzione del processo e le eventuali dipendenze. È anche possibile specificare notifiche tramite posta elettronica per gli aggiornamenti dello stato del processo.
  3. Eseguire e monitorare il processo: Dopo aver configurato il processo, è possibile eseguirlo manualmente o farlo eseguire in base alla pianificazione impostata. È possibile monitorare lo stato del processo e visualizzare i log per risolvere eventuali problemi.

Suggerimento

Altre informazioni su come creare ed eseguire processi di Azure Databricks.

In alternativa, è possibile usare i servizi di Azure per creare pipeline di dati automatizzate.

Automatizzare l'integrazione dei dati con Azure Data Factory

Azure Data Factory è uno strumento per la compilazione e la gestione delle pipeline di dati. Consente di creare flussi di lavoro basati sui dati per orchestrare lo spostamento e la trasformazione dei dati.

Per creare una pipeline di dati in Azure Data Factory, seguire questa procedura:

  1. Creare una Data Factory: Nel portale di Azure, creare una nuova istanza di Data Factory.
  2. Creare una pipeline: Nell'interfaccia utente di Data Factory creare una nuova pipeline e aggiungervi attività. Le attività possono includere operazioni di spostamento dei dati, trasformazione dei dati e flusso di controllo.
  3. Configurare le attività: Impostare i parametri per ogni attività, ad esempio gli archivi dati di origine e di destinazione, la logica di trasformazione e le eventuali dipendenze.
  4. Pianificazione e monitoraggio: Pianificare l'esecuzione della pipeline a intervalli specificati e monitorarne l'esecuzione. È possibile visualizzare i log e configurare gli avvisi per eventuali problemi.

Suggerimento

Altre informazioni su Azure Data Factory.

Automatizzando le trasformazioni e i flussi di lavoro dei dati con i processi di Azure Databricks o Azure Data Factory, si garantisce un'elaborazione coerente dei dati, rendendo i modelli di Machine Learning più efficienti e affidabili.