Condividi tramite


Trasformare i dati eseguendo un’attività di definizione processo Spark

L’attività di “definizione processo Spark” in Data Factory per Microsoft Fabric consente di creare connessioni alle definizioni dei processi Spark ed eseguirle da una pipeline di dati.

Prerequisiti

Per iniziare, è necessario soddisfare i prerequisiti seguenti:

Aggiungere un’attività Di definizione processo Spark a una pipeline con l’interfaccia utente

  1. Creare una nuova libreria nell’area di lavoro di Databricks.

  2. Cercare Spark Job Definition (Definizione processo Spark) dalla scheda della schermata iniziale e selezionarla o selezionarla dalla barra Attività per aggiungerla all’area di disegno della pipeline.

    • Creazione dell'attività dalla scheda della schermata iniziale:

      Screenshot che mostra dove creare una nuova attività di definizione del processo Spark.

    • Creazione dell’attività dalla barra Attività:

      Screenshot che mostra dove creare una nuova attività di definizione processo Spark dalla barra Attività nella finestra dell'editor della pipeline.

  3. Selezionare la nuova attività di definizione processo Spark nell’area di disegno dell’editor della pipeline, se non è già selezionata.

    Screenshot che mostra l’attività di definizione processo Spark nell’area di disegno dell’editor della pipeline.

    Fare riferimento alle indicazioni sulle impostazioni generali per configurare le opzioni disponibili nella scheda Impostazioni generali.

Attività di definizione del processo Spark

Selezionare la scheda Impostazioni nel riquadro delle proprietà dell'attività, quindi selezionare l’area di lavoro infrastruttura che contiene la definizione del processo Spark da eseguire.

Screenshot che mostra la scheda Impostazioni delle pagine delle proprietà di definizione del processo Spark nella finestra dell’editor della pipeline.

Limitazioni note

Le limitazioni correnti nell’attività di definizione del processo Spark per Fabric Data Factory sono elencate qui. L’elenco è soggetto a variazioni.

  • Attualmente non è supportata la creazione di una nuova attività di definizione del processo Spark all’interno dell’attività (in Impostazioni)
  • Il supporto per la parametrizzazione non è disponibile.
  • Anche se è supportato il monitoraggio dell’attività tramite la scheda di output, non è ancora possibile monitorare la definizione del processo Spark a un livello più granulare. Ad esempio, i collegamenti alla pagina di monitoraggio, allo stato, alla durata e alle esecuzioni precedenti della definizione del processo Spark non sono disponibili direttamente in Data Factory. Tuttavia, è possibile visualizzare dettagli più granulari nella pagina di monitoraggio della definizione del processo Spark.

Salvare ed eseguire o pianificare la pipeline

Dopo aver configurato tutte le altre attività necessarie per la pipeline, passare alla scheda Home nella parte superiore dell’editor della pipeline e selezionare il pulsante Salva per salvare la pipeline. Selezionare Esegui per eseguirla direttamente o Pianificare per pianificarla. Qui è anche possibile visualizzare la cronologia delle esecuzioni o configurare altre impostazioni.

Screenshot che mostra la schermata Home dell’editor della pipeline, evidenziando i pulsanti Salva, Esegui e Pianifica.

Come monitorare le esecuzioni delle pipeline