Del via


Git-integration af Spark-jobdefinition

I denne artikel forklares det, hvordan Git-integration for Spark Job Definitions (SJD) i Microsoft Fabric fungerer. Få mere at vide om, hvordan du konfigurerer en lagerforbindelse, administrerer ændringer i Definitionen af Spark-job via kildekontrol og udruller dem på tværs af forskellige arbejdsområder.

Aktivering af Git-integration for Spark-jobdefinitioner i Azure DevOps giver dig mulighed for at spore ændringer via fuld git-historik. Hvis PySpark eller SparkR er valgt, medtages hoveddefinitionsfilen og referencefilen som en del af bekræftelsen. Ændringerne af kildekoden i disse filer spores også.

Vigtigt

Denne funktion er en prøveversion.

Konfigurer en forbindelse

Fra indstillingerne for dit arbejdsområde kan du nemt konfigurere en forbindelse til dit lager for at bekræfte og synkronisere ændringer. Hvis du vil konfigurere forbindelsen, skal du se Artiklen Kom i gang med Git-integration . Når du har oprettet forbindelse, vil dine elementer, f.eks. Spark-jobdefinitioner, være synlige i kontrolpanelet Kilde.

Skærmbillede af kontrolpanelet for arbejdsområdets kilde.

Når du har bekræftet Spark-jobdefinitionen til Git-lageret, vises strukturen for jobdefinitionsmappen i lageret.

Spark Jobdefinitionsrepræsentation i Git

Følgende billede er et eksempel på filstrukturen for hvert Spark-jobdefinitionselement i lageret:

Skærmbillede af strukturen i git-lagerfilen.

Når du sender Spark-jobdefinitionselementet til lageret, oprettes der en git-mappe for hvert element og navngives i henhold til dette skema: <Elementnavn> + "SparkJobDefinition". Omdøb ikke mappen, som den bruges til at spore elementet i arbejdsområdet. Hvis elementnavnet f.eks. er "sjd1", vil navnet på git-mappen være "sjd1SparkJobDefinition".

Der er to undermapper i git-mappen. De er de vigtigste og referencen. Hovedmappen indeholder hoveddefinitionsfilen, og referencemappen indeholder referencefilen.

Ud over de primære filer og referencefilerne er der også en SparkJobDefinitionV1.json fil. Den indeholder metadataene for spark-jobdefinitionselementet, så du skal ikke ændre det. .platform-filen indeholder de platformoplysninger, der er relateret til Git-konfigurationen>, og den bør heller ikke ændres.

Bemærk

  • Hvis du vælger Java eller Scala som sprog, bekræftes hoved- og referencefilerne ikke, når de uploades som en .jar fil.
  • Det tilknyttede miljø bevares i en Spark-jobdefinition efter synkronisering fra lageret til et Fabric-arbejdsområde. Referencemiljøer på tværs af arbejdsområder understøttes i øjeblikket ikke. Du skal manuelt vedhæfte til et nyt miljø eller bruge standardindstillingerne for arbejdsområdet til at køre jobdefinitionen.
  • Spark-jobdefinitionen bevarer standard-lakehouse-id'et, når der synkroniseres fra lageret til et Fabric-arbejdsområde. Hvis du sender en notesbog med standardsøhuset, skal du manuelt referere til et nyoprettet lakehouse-element. Du kan få flere oplysninger under Integration af Lakehouse Git.