Overfør Spark-jobbdefinisjon fra Azure Synapse til Fabric

Artikkel
12/06/2023

Hvis du vil flytte Spark-jobbdefinisjoner (SJD) fra Azure Synapse til Fabric, har du to forskjellige alternativer:

Alternativ 1: Opprett Spark-jobbdefinisjon manuelt i Fabric.
Alternativ 2: Du kan bruke et skript til å eksportere Spark-jobbdefinisjoner fra Azure Synapse og importere dem i Fabric ved hjelp av API-en.

Se forskjeller mellom Azure Synapse Spark og Fabric for vurderinger av Spark-jobbdefinisjoner.

Forutsetning

Hvis du ikke allerede har en, oppretter du et Fabric-arbeidsområde i leieren.

Alternativ 1: Opprett Spark-jobbdefinisjon manuelt

Slik eksporterer du en Spark-jobbdefinisjon fra Azure Synapse:

Åpne Synapse Studio: Logg på Azure. Gå til Azure Synapse-arbeidsområdet og åpne Synapse Studio.
Finn Python/Scala/R Spark-jobben: Finn og identifiser jobbdefinisjonen for Python/Scala/R Spark som du vil overføre.
Eksporter konfigurasjonen for jobbdefinisjon:
- Åpne Spark Job Definition i Synapse Studio.
- Eksporter eller noter ned konfigurasjonsinnstillingene, inkludert skriptfilplassering, avhengigheter, parametere og andre relevante detaljer.

Slik oppretter du en ny Spark-jobbdefinisjon (SJD) basert på den eksporterte SJD-informasjonen i Fabric:

Access Fabric-arbeidsområdet: Logg deg på Fabric og få tilgang til arbeidsområdet.
Opprett en ny Spark-jobbdefinisjon i Fabric:
- I Fabric går du til hjemmesiden Dataingeniør ing.
- Velg Spark Job Definition.
- Konfigurer jobben ved hjelp av informasjonen du eksporterte fra Synapse, inkludert skriptplassering, avhengigheter, parametere og klyngeinnstillinger.
Tilpass og test: Gjør alle nødvendige tilpasninger til skriptet eller konfigurasjonen for å passe til Stoff-miljøet. Test jobben i Fabric for å sikre at den kjører riktig.

Skjermbilde som viser oppretting av Spark-jobbdefinisjon.

Når Spark-jobbdefinisjonen er opprettet, validerer du avhengigheter:

Kontroller at du bruker samme Spark-versjon.
Valider eksistensen av hoveddefinisjonsfilen.
Valider eksistensen av de refererte filene, avhengighetene og ressursene.
Koblede tjenester, datakildetilkoblinger og monteringspunkter.

Mer informasjon om hvordan du oppretter en Apache Spark-jobbdefinisjon i Fabric.

Alternativ 2: Bruk stoff-API-en

Følg disse viktige trinnene for overføring:

Forutsetninger.
Trinn 1: Eksporter Spark-jobbdefinisjon fra Azure Synapse til OneLake (.json).
Trinn 2: Importer Spark-jobbdefinisjonen automatisk til Fabric ved hjelp av Fabric-API-en.

Forutsetning

Forutsetningene omfatter handlinger du må vurdere før du starter Overføring av Spark-jobbdefinisjon til Fabric.

Et stoffarbeidsområde.
Hvis du ikke har en allerede, kan du opprette et Fabric Lakehouse i arbeidsområdet.

Trinn 1: Eksporter Spark-jobbdefinisjon fra Azure Synapse-arbeidsområdet

Fokuset for trinn 1 er å eksportere Spark-jobbdefinisjon fra Azure Synapse-arbeidsområdet til OneLake i json-format. Denne prosessen er som følger:

1.1) Importer SJD-overføringsnotatblokk til Fabric-arbeidsområdet . Denne notatblokken eksporterer alle Spark-jobbdefinisjoner fra et gitt Azure Synapse-arbeidsområde til en mellomliggende katalog i OneLake. Synapse-API brukes til å eksportere SJD.
1.2) Konfigurer parameterne i den første kommandoen for å eksportere Spark-jobbdefinisjon til en mellomliggende lagringsplass (OneLake). Dette eksporterer bare json-metadatafilen. Følgende kodesnutt brukes til å konfigurere kilde- og målparameterne. Sørg for å erstatte dem med dine egne verdier.

# Azure config
azure_client_id = "<client_id>"
azure_tenant_id = "<tenant_id>"
azure_client_secret = "<client_secret>"

# Azure Synapse workspace config
synapse_workspace_name = "<synapse_workspace_name>"

# Fabric config
workspace_id = "<workspace_id>"
lakehouse_id = "<lakehouse_id>"
export_folder_name = f"export/{synapse_workspace_name}"
prefix = "" # this prefix is used during import {prefix}{sjd_name}

output_folder = f"abfss://{workspace_id}@onelake.dfs.fabric.microsoft.com/{lakehouse_id}/Files/{export_folder_name}"

1.3) Kjør de to første cellene i eksport-/importnotatblokken for å eksportere metadata for Spark-jobbdefinisjon til OneLake. Når cellene er fullført, opprettes denne mappestrukturen under den mellomliggende utdatakatalogen.

Skjermbilde som viser eksport av Spark-jobbdefinisjon i OneLake.

Trinn 2: Importer Spark-jobbdefinisjon til Fabric

Trinn 2 er når Spark-jobbdefinisjoner importeres fra mellomliggende lagringsplass til Fabric-arbeidsområdet. Denne prosessen er som følger:

2.1) Valider konfigurasjonene i 1.2 for å sikre at det riktige arbeidsområdet og prefikset er angitt for å importere Spark-jobbdefinisjonene.
2.2) Kjør den tredje cellen i eksport-/importnotatblokken for å importere alle Spark-jobbdefinisjoner fra mellomliggende plassering.

Merk

Eksportalternativet sender ut en json-metadatafil. Kontroller at kjørbare filer, referansefiler og argumenter for Spark-jobbdefinisjon er tilgjengelige fra Fabric.

Del via

Overfør Spark-jobbdefinisjon fra Azure Synapse til Fabric

Forutsetning

Alternativ 1: Opprett Spark-jobbdefinisjon manuelt

Alternativ 2: Bruk stoff-API-en

Forutsetning

Trinn 1: Eksporter Spark-jobbdefinisjon fra Azure Synapse-arbeidsområdet

Trinn 2: Importer Spark-jobbdefinisjon til Fabric

Tilbakemeldinger

Flere ressurser

Del via

Overfør Spark-jobbdefinisjon fra Azure Synapse til Fabric

Forutsetning

Alternativ 1: Opprett Spark-jobbdefinisjon manuelt

Alternativ 2: Bruk stoff-API-en

Forutsetning

Trinn 1: Eksporter Spark-jobbdefinisjon fra Azure Synapse-arbeidsområdet

Trinn 2: Importer Spark-jobbdefinisjon til Fabric

Relatert innhold

Tilbakemeldinger

Flere ressurser