Git-Integration für Spark-Auftragsdefinitionen
Dieser Artikel erläutert die Funktionsweise der Git-Integration für Spark-Auftragsdefinitionen (SJD) in Microsoft Fabric. Hier erfahren Sie, wie Sie eine Repositoryverbindung einrichten, Änderungen von Spark-Auftragsdefinitionen über die Quellcodeverwaltung verwalten und in verschiedenen Arbeitsbereichen bereitstellen können.
Durch Aktivieren der Git-Integration für Spark-Auftragsdefinitionen in Azure DevOps können Sie Änderungen über den vollständigen Git-Verlauf nachverfolgen. Wenn PySpark oder SparkR ausgewählt ist, sind die Hauptdefinitionsdatei und die Referenzdatei als Teil des Commits enthalten. Die Änderungen am Quellcode in diesen Dateien werden ebenfalls nachverfolgt.
Wichtig
Dieses Feature befindet sich in der Vorschauphase.
Herstellen einer Verbindung
Über Ihre Arbeitsbereichseinstellungen können Sie ganz einfach eine Verbindung mit Ihrem Repository einrichten, um Änderungen zu committen und zu synchronisieren. Informationen zum Einrichten der Verbindung finden Sie im Artikel Erste Schritte mit der Git-Integration. Sobald die Verbindung hergestellt ist, werden Ihre Elemente, wie z. B. Spark-Auftragsdefinitionen, im Bereich Quellcodeverwaltung angezeigt.
Nach erfolgtem Commit der Spark-Auftragsdefinition an das Git-Repository wird die Ordnerstruktur der Auftragsdefinition im Repository angezeigt.
Darstellung der Spark-Auftragsdefinition in Git
Die folgende Abbildung ist ein Beispiel für die Dateistruktur der einzelnen Elemente der Spark-Auftragsdefinition im Repository:
Beim Committen des Spark-Auftragsdefinitionselements an das Repository wird für jedes Element ein Git-Ordner erstellt und nach dem folgenden Schema benannt: <Elementname> + „SparkJobDefinition“. Benennen Sie den Ordner nicht um, denn er dient zum Nachverfolgen des Elements im Arbeitsbereich. Wenn der Elementname beispielsweise „sjd1“ lautet, lautet der Git-Ordnername „sjd1SparkJobDefinition“.
Es gibt zwei Unterordner im Git-Ordner. Dabei handelt es sich um den Hauptordner und den Referenzordner. Der Hauptordner enthält die Hauptdefinitionsdatei, und der Referenzordner enthält die Referenzdatei.
Neben der Haupt- und Referenzdatei gibt es auch eine Datei SparkJobDefinitionV1.json. Sie enthält die Metadaten für das Spark-Auftragsdefinitionselement und darf deshalb nicht geändert werden. Die .platform-Datei enthält die Plattforminformationen zum Git-Setup> und sollte ebenfalls nicht geändert werden.
Hinweis
- Wenn Sie Java oder Scala als Sprache wählen, erfolgt kein Commit der Haupt- und Referenzdatei beim Hochladen als .jar-Datei.
- Die zugehörige Umgebung bleibt nach der Synchronisierung aus dem Repository mit einem Fabric-Arbeitsbereich in einer Spark-Auftragsdefinition erhalten. Derzeit werden arbeitsbereichsübergreifende Verweisumgebungen nicht unterstützt. Sie müssen zum Ausführen der Auftragsdefinition manuell eine neue Umgebung anfügen oder Standardeinstellungen für einen Arbeitsbereich verwenden.
- Beim Synchronisieren vom Repository mit einem Fabric-Arbeitsbereich behält die Spark-Auftragsdefinition die Standard-Lakehouse-ID. Wenn Sie ein Notebook mit dem Standard-Lakehouse committen, müssen Sie manuell auf ein neu erstelltes Lakehouse-Element verweisen. Weitere Informationen finden Sie im Thema zur Lakehouse Git-Integration.