Trasformare i dati eseguendo un’attività di definizione processo Spark
L’attività di “definizione processo Spark” in Data Factory per Microsoft Fabric consente di creare connessioni alle definizioni dei processi Spark ed eseguirle da una pipeline di dati.
Prerequisiti
Per iniziare, è necessario soddisfare i prerequisiti seguenti:
- Un account tenant con una sottoscrizione attiva. Creare un account gratuitamente.
- Viene creata un’area di lavoro.
Aggiungere un’attività Di definizione processo Spark a una pipeline con l’interfaccia utente
Creare una nuova libreria nell’area di lavoro di Databricks.
Cercare Spark Job Definition (Definizione processo Spark) dalla scheda della schermata iniziale e selezionarla o selezionarla dalla barra Attività per aggiungerla all’area di disegno della pipeline.
Selezionare la nuova attività di definizione processo Spark nell’area di disegno dell’editor della pipeline, se non è già selezionata.
Fare riferimento alle indicazioni sulle impostazioni generali per configurare le opzioni disponibili nella scheda Impostazioni generali.
Attività di definizione del processo Spark
Selezionare la scheda Impostazioni nel riquadro delle proprietà dell'attività, quindi selezionare l’area di lavoro infrastruttura che contiene la definizione del processo Spark da eseguire.
Limitazioni note
Le limitazioni correnti nell’attività di definizione del processo Spark per Fabric Data Factory sono elencate qui. L’elenco è soggetto a variazioni.
- Attualmente non è supportata la creazione di una nuova attività di definizione del processo Spark all’interno dell’attività (in Impostazioni)
- Il supporto per la parametrizzazione non è disponibile.
- Anche se è supportato il monitoraggio dell’attività tramite la scheda di output, non è ancora possibile monitorare la definizione del processo Spark a un livello più granulare. Ad esempio, i collegamenti alla pagina di monitoraggio, allo stato, alla durata e alle esecuzioni precedenti della definizione del processo Spark non sono disponibili direttamente in Data Factory. Tuttavia, è possibile visualizzare dettagli più granulari nella pagina di monitoraggio della definizione del processo Spark.
Salvare ed eseguire o pianificare la pipeline
Dopo aver configurato tutte le altre attività necessarie per la pipeline, passare alla scheda Home nella parte superiore dell’editor della pipeline e selezionare il pulsante Salva per salvare la pipeline. Selezionare Esegui per eseguirla direttamente o Pianificare per pianificarla. Qui è anche possibile visualizzare la cronologia delle esecuzioni o configurare altre impostazioni.