Delen via


Git-integratie van Spark-taakdefinitie

In dit artikel wordt uitgelegd hoe Git-integratie voor Spark-taakdefinities (SJD) in Microsoft Fabric werkt. Meer informatie over het instellen van een opslagplaatsverbinding, het beheren van wijzigingen in spark-taakdefinities via broncodebeheer en het implementeren ervan in verschillende werkruimten.

Door Git-integratie in te schakelen voor Spark-taakdefinities in Azure DevOps, kunt u wijzigingen bijhouden via de volledige Git-geschiedenis. Als PySpark of SparkR is geselecteerd, worden het hoofddefinitiebestand en het referentiebestand opgenomen als onderdeel van de doorvoering. De wijzigingen in de broncode in deze bestanden worden ook bijgehouden.

Belangrijk

Deze functie is beschikbaar als preview-versie.

Een verbinding instellen

Vanuit uw werkruimte-instellingen kunt u eenvoudig een verbinding met uw opslagplaats instellen om wijzigingen door te voeren en te synchroniseren. Zie het artikel Aan de slag met Git-integratie om de verbinding in te stellen. Nadat u verbinding hebt gemaakt, zijn uw items, zoals Spark-taakdefinities, zichtbaar in het configuratiescherm Bron .

Schermopname van het configuratiescherm van de werkruimtebron.

Zodra u de Spark-taakdefinitie doorvoert in de Git-opslagplaats, wordt de structuur van de taakdefinitiemap weergegeven in de opslagplaats.

Spark-taakdefinitieweergave in Git

De volgende afbeelding is een voorbeeld van de bestandsstructuur van elk Spark-taakdefinitie-item in de opslagplaats:

Schermopname van de structuur van het Sjd Git-opslagplaatsbestand.

Wanneer u het Taakdefinitie-item van Spark doorvoert in de opslagplaats, wordt er een Git-map gemaakt voor elk item en wordt deze benoemd volgens dit schema: <Itemnaam> + SparkJobDefinition. Wijzig de naam van de map niet omdat deze wordt gebruikt om het item in de werkruimte bij te houden. Als de itemnaam bijvoorbeeld 'sjd1' is, is de naam van de Git-map 'sjd1SparkJobDefinition'.

Er bevinden zich twee submappen in de Git-map. Ze zijn de belangrijkste en de verwijzing. De hoofdmap bevat het hoofddefinitiebestand en de referentiemap bevat het referentiebestand.

Naast de hoofd- en referentiebestanden is er ook een SparkJobDefinitionV1.json bestand. Het bevat de metagegevens voor het Spark-taakdefinitie-item, dus wijzig het niet. Het .platform-bestand bevat de platforminformatie met betrekking tot de Git-installatie> , die niet ook mag worden gewijzigd.

Notitie

  • Als u Java of Scala als taal kiest, worden de hoofd- en referentiebestanden niet doorgevoerd wanneer ze worden geĆ¼pload als een .jar-bestand.
  • De gekoppelde omgeving blijft behouden in een Spark-taakdefinitie nadat deze is gesynchroniseerd vanuit de opslagplaats naar een Infrastructuurwerkruimte. Op dit moment worden referentieomgevingen voor meerdere werkruimten niet ondersteund. U moet handmatig koppelen aan een nieuwe omgeving of de standaardinstellingen van de werkruimte gebruiken om de taakdefinitie uit te voeren.
  • De Spark-taakdefinitie behoudt de standaard lakehouse-id bij het synchroniseren van de opslagplaats naar een Infrastructuurwerkruimte. Als u een notitieblok doorvoert met het standaard lakehouse, moet u handmatig verwijzen naar een nieuw gemaakt Lakehouse-item. Zie De Git-integratie van Lakehouse voor meer informatie.