Che cos’è una definizione processo di Apache Spark?
Una definizione processo Apache Spark è un elemento di codice di Microsoft Fabric che consente di inviare processi batch/streaming a cluster Spark. Caricando i file binari dall'output di compilazione di linguaggi diversi (ad esempio .jar da Java), è possibile applicare logica di trasformazione diversa ai dati ospitati in un lakehouse. Oltre al file binario, è possibile personalizzare ulteriormente il comportamento del processo caricando più librerie e argomenti della riga di comando.
Per eseguire una definizione processo Spark, è necessario avere almeno un lakehouse associato. Questo contesto lakehouse predefinito funge da file system predefinito per il runtime di Spark. Per qualsiasi codice Spark che usa un percorso relativo per i dati di lettura/scrittura, i dati vengono forniti dal lakehouse predefinito.
Suggerimento
Per eseguire un elemento di definizione processo Spark, è necessario disporre di un file di definizione principale e di un contesto lakehouse predefinito. Se non esiste un lakehouse, crearne uno seguendo i passaggi descritti in Creare un lakehouse.