Condividi tramite


Integrazione di Git della definizione processo Spark

Questo articolo illustra il funzionamento dell'integrazione di Git per le definizioni processo Spark (SJD) in Microsoft Fabric. Informazioni su come configurare una connessione al repository, gestire le modifiche alle definizioni processo Spark tramite il controllo del codice sorgente e distribuirle in varie aree di lavoro.

L'abilitazione dell'integrazione di Git per le definizioni processo Spark in Azure DevOps consente di tenere traccia delle modifiche tramite la cronologia di Git completa. Se è selezionato PySpark o SparkR, il file di definizione principale e il file di riferimento vengono inclusi come parte del commit. Vengono tracciate anche le modifiche apportate al codice sorgente all'interno di questi file.

Importante

Questa funzionalità è in anteprima.

Configurare una connessione

Dalle impostazioni dell'area di lavoro è possibile configurare facilmente una connessione al repository per eseguire il commit e la sincronizzazione delle modifiche. Per configurare la connessione, vedere l'articolo Informazioni di base sull'integrazione di Git. Una volta connessi, gli elementi, ad esempio le definizioni processo Spark, saranno visibili nel pannello Controllo del codice sorgente.

Screenshot del pannello di controllo del codice sorgente dell'area di lavoro.

Dopo aver eseguito il commit della definizione processo Spark nel repository Git, la struttura delle cartelle della definizione processo appare nel repository.

Rappresentazione della definizione processo Spark in Git

L'immagine seguente è un esempio della struttura di file di ogni elemento di definizione processo Spark nel repository:

Screenshot della struttura di file del repository Git sjd.

Quando si esegue il commit dell'elemento di definizione processo Spark nel repository, viene creata una cartella Git per ogni elemento e viene denominata in base a questo schema: <Nome elemento> + "SparkJobDefinition". Non rinominare la cartella perché viene usata per tenere traccia dell'elemento nell'area di lavoro. Ad esempio, se il nome dell'elemento è "sjd1", il nome della cartella Git sarà "sjd1SparkJobDefinition".

La cartella Git include due sottocartelle. Queste sono main e reference. La cartella main contiene il file di definizione principale e la cartella reference contiene il file di riferimento.

Oltre ai file principali e di riferimento, è presente anche un file SparkJobDefinitionV1.json. Contiene i metadati per l'elemento di definizione processo Spark, quindi non modificarli. Il file .platform contiene le informazioni sulla piattaforma correlate alla configurazione Git> che non deve essere modificata.

Nota

  • Se si sceglie Java o Scala come linguaggio, non verrà eseguito il commit dei file principali e di riferimento come file .jar.
  • L'ambiente collegato persiste in una definizione processo Spark dopo la sincronizzazione dal repository a un'area di lavoro di Fabric. Attualmente, gli ambienti di riferimento tra aree di lavoro non sono supportati. Per eseguire la definizione processo, è necessario collegarsi manualmente a un nuovo ambiente o usare le impostazioni predefinite dell'area di lavoro.
  • La definizione processo Spark mantiene l'ID lakehouse predefinito durante la sincronizzazione dal repository a un'area di lavoro di Fabric. Se si esegue il commit di un notebook con il lakehouse predefinito, sarà necessario fare riferimento manualmente a un elemento lakehouse appena creato. Per altre informazioni, vedere Integrazione di Git di Lakehouse.