Condividi tramite


Trasformare i dati eseguendo un'attività Azure Databricks

L'attività di Azure Databricks in Data Factory per Microsoft Fabric consente di orchestrare i processi di Azure Databricks seguenti:

  • Notebook
  • Jar
  • Python

Questo articolo fornisce una procedura dettagliata che descrive come creare un'attività di Azure Databricks usando l'interfaccia Data Factory.

Prerequisiti

Per iniziare, è necessario soddisfare i prerequisiti seguenti:

Configurazione di un'attività di Azure Databricks

Per usare un'attività di Azure Databricks in una pipeline, completare la procedura seguente:

Configurazione delle connessioni

  1. Creare una nuova pipeline nell'area di lavoro.

  2. Fare clic su Aggiungi un'attività della pipeline e cercare Azure Databricks.

    Screenshot della pagina di destinazione delle pipeline di dati di Fabric e dell'attività di Azure Databricks evidenziata.

  3. In alternativa, è possibile cercare Azure Databricks nel riquadro Attività della pipeline e selezionarlo per aggiungerlo all'area di lavoro della pipeline.

    Screenshot dell'interfaccia utente di Fabric con il riquadro Attività e l'attività di Azure Databricks evidenziata.

  4. Selezionare la nuova attività di Azure Databricks nell'area di lavoro, se non è già selezionata.

    Screenshot che mostra la scheda Impostazioni generali dell'attività di Azure Databricks.

Consultare la guida sulle Impostazioni generali per configurare la scheda Impostazioni generali.

Configurazione dei cluster

  1. Selezionare la scheda Cluster. Quindi scegliere una connessione esistente o creare una nuova connessione di Azure Databricks e poi selezionare un nuovo cluster di processi, un cluster interattivo esistente o un pool di istanze esistente.

  2. A seconda di ciò che si sceglie per il cluster, compilare i campi corrispondenti come mostrato.

    • Nel nuovo cluster di processi e nel pool di istanze esistente è anche possibile configurare il numero di ruoli di lavoro e abilitare istanze spot.
  3. È anche possibile specificare impostazioni del cluster aggiuntive, ad esempio Criteri del cluster, configurazione Spark, variabili di ambiente Spark e tag personalizzati, in base alle esigenze del cluster a cui ci si connette. È inoltre possibile aggiungere gli script init di Databricks e il percorso di destinazione del registro cluster nelle impostazioni aggiuntive del cluster.

    Nota

    Tutte le proprietà avanzate del cluster e le espressioni dinamiche supportate nel servizio collegato Azure Databricks di Azure Data Factory sono ora supportate anche nell'attività Azure Databricks in Microsoft Fabric nella sezione "Configurazione cluster aggiuntiva" nell'interfaccia utente. Poiché queste proprietà sono ora incluse nell'interfaccia utente dell'attività, possono essere facilmente utilizzate con un'espressione (contenuto dinamico) senza la necessità della specifica JSON avanzata nel servizio collegato Azure Databricks di Azure Data Factory.

    Screenshot che mostra la scheda Impostazioni del cluster dell'attività di Azure Databricks.

  4. L'attività di Azure Databricks garantisce ora anche i criteri dei cluster e il supporto di Unity Catalog.

    • In Impostazioni avanzate è possibile scegliere i criteri del cluster in modo da specificare le configurazioni del cluster consentite.
    • Inoltre, in Impostazioni avanzate è possibile configurare la modalità di accesso a Unity Catalog per una maggiore sicurezza. I tipi di modalità di accesso disponibili sono:
      • Modalità accesso utente singolo Questa modalità è progettata per scenari in cui ogni cluster viene usato da un singolo utente. Garantisce che l'accesso ai dati all'interno del cluster sia limitato solo all'utente. Questa modalità è utile per le attività che richiedono isolamento e gestione individuale dei dati.
      • Modalità di accesso condiviso In questa modalità, più utenti possono accedere allo stesso cluster. Combina la governance dei dati di Unity Catalog con gli elenchi di controllo degli accessi (ACL) delle tabelle legacy. Questa modalità consente l'accesso collaborativo ai dati mantenendo al contempo protocolli di governance e sicurezza. Tuttavia, presenta alcune limitazioni, come il mancato supporto per Databricks Runtime ML, per i processi di invio di Spark e per specifiche API e funzioni definite dall'utente di Spark.
      • Nessuna modalità di accesso Questa modalità disabilita l'interazione con Unity Catalog, il che significa che i cluster non hanno accesso ai dati gestiti da Unity Catalog. Questa modalità è utile per i carichi di lavoro che non richiedono le funzionalità di governance di Unity Catalog.

    Screenshot che mostra l'ID criterio e il supporto di Unity Catalog nella scheda Impostazioni cluster dell'attività di Azure Databricks.

Configurazione delle impostazioni

Selezionando la scheda Impostazioni, è possibile scegliere tra 3 opzioni di tipo Azure Databricks da orchestrare.

Screenshot che mostra la scheda Impostazioni dell'attività di Azure Databricks.

Orchestrazione del tipo Notebook nell'attività di Azure Databricks:

  1. Nella scheda Impostazioni è possibile scegliere il pulsante di opzione Notebook per eseguire un notebook. Sarà necessario specificare il percorso del notebook da eseguire in Azure Databricks, i parametri di base facoltativi da passare al notebook e le eventuali librerie aggiuntive da installare nel cluster per eseguire il processo.

    Screenshot che mostra il tipo Notebook dell'attività di Azure Databricks.

Orchestrazione del tipo Jar nell'attività di Azure Databricks:

  1. Nella scheda Impostazioni è possibile scegliere il pulsante di opzione Jar per eseguire un file Jar. Sarà necessario specificare il nome della classe da eseguire in Azure Databricks, i parametri di base facoltativi da passare al file Jar e le eventuali librerie aggiuntive da installare nel cluster per eseguire il processo.

    Screenshot che mostra il tipo Jar dell'attività di Azure Databricks.

Orchestrazione del tipo Python nell'attività di Azure Databricks:

  1. Nella scheda Impostazioni è possibile scegliere il pulsante di opzione Python per eseguire un file Python. Sarà necessario specificare il percorso all'interno di Azure Databricks verso un file Python da eseguire, i parametri di base facoltativi da passare e le eventuali librerie aggiuntive da installare nel cluster per eseguire il processo.

    Screenshot che mostra il tipo Python dell'attività di Azure Databricks.

Librerie supportate per le attività di Azure Databricks

Nella definizione dell'attività di Databricks sopra riportata, è possibile specificare i seguenti tipi di libreria: jar, egg, whl, maven, pypi e cran.

Per altre informazioni, consultare la documentazione di Databricks sui tipi di libreria.

Passaggio di parametri tra attività e pipeline di Azure Databricks

È possibile passare parametri ai notebook usando la proprietà baseParameters nell'attività Databricks.

In alcuni casi, potrebbe essere necessario trasferire alcuni valori dal notebook al servizio, che possono essere utilizzati per il flusso di controllo (controlli condizionali) nel servizio o essere utilizzati da attività a valle (il limite di dimensione è di 2 MB).

  1. Nel notebook, ad esempio, è possibile chiamare dbutils.notebook.exit("returnValue") e il corrispondente "returnValue" verrà restituito al servizio.

  2. È possibile utilizzare l'output nel servizio tramite espressioni come @{activity('databricks activity name').output.runOutput}.

Screenshot che mostra come passare i parametri di base nell'attività di Azure Databricks.

Salvare ed eseguire o pianificare la pipeline

Dopo aver configurato tutte le altre attività necessarie per la pipeline, passare alla scheda Home nella parte superiore dell’editor della pipeline e selezionare il pulsante Salva per salvare la pipeline. Selezionare Esegui per eseguirla direttamente o Pianificare per pianificarla. Qui è anche possibile visualizzare la cronologia delle esecuzioni o configurare altre impostazioni.

Screenshot che mostra come salvare ed eseguire la pipeline.

Come monitorare le esecuzioni delle pipeline