Del via


Overfør Spark-jobdefinition fra Azure Synapse til Fabric

Hvis du vil flytte Spark-jobdefinitioner (SJD) fra Azure Synapse til Fabric, har du to forskellige muligheder:

  • Mulighed 1: Opret definitionen af Spark-job manuelt i Fabric.
  • Mulighed 2: Du kan bruge et script til at eksportere Spark-jobdefinitioner fra Azure Synapse og importere dem i Fabric ved hjælp af API'en.

Du kan finde flere oplysninger om definition af Spark-job i forskelle mellem Azure Synapse Spark og Fabric.

Forudsætninger

Hvis du ikke allerede har et, kan du oprette et Fabric-arbejdsområde i din lejer.

Mulighed 1: Opret definitionen af Spark-job manuelt

Sådan eksporterer du en Spark-jobdefinition fra Azure Synapse:

  1. Åbn Synapse Studio: Log på Azure. Gå til dit Azure Synapse-arbejdsområde, og åbn Synapse Studio.
  2. Find Python/Scala/R Spark-jobbet: Find og identificer den Python/Scala/R Spark-jobdefinition, du vil overføre.
  3. Eksportér jobdefinitionskonfigurationen:
    • Åbn Spark Job Definition i Synapse Studio.
    • Eksportér eller notér konfigurationsindstillingerne, herunder placeringen af scriptfilen, afhængigheder, parametre og andre relevante oplysninger.

Sådan opretter du en ny Spark-jobdefinition (SJD) baseret på de eksporterede SJD-oplysninger i Fabric:

  1. Access Fabric-arbejdsområde: Log på Fabric , og få adgang til dit arbejdsområde.
  2. Opret en ny Spark-jobdefinition i Fabric:
    • I Fabric skal du gå til startsiden for Dataudvikler.
    • Vælg Spark-jobdefinition.
    • Konfigurer jobbet ved hjælp af de oplysninger, du eksporterede fra Synapse, herunder scriptplacering, afhængigheder, parametre og klyngeindstillinger.
  3. Tilpas og test: Foretag den nødvendige tilpasning til scriptet eller konfigurationen, så den passer til Fabric-miljøet. Test jobbet i Fabric for at sikre, at det kører korrekt.

Skærmbillede, der viser oprettelsen af Spark-jobdefinitionen.

Når definitionen af Spark-job er oprettet, skal du validere afhængigheder:

  • Sørg for at bruge den samme Spark-version.
  • Valider, at hoveddefinitionsfilen findes.
  • Valider eksistensen af de filer, afhængigheder og ressourcer, der refereres til.
  • Sammenkædede tjenester, datakildeforbindelser og tilslutningspunkter.

Få mere at vide om, hvordan du opretter en Apache Spark-jobdefinition i Fabric.

Mulighed 2: Brug Fabric-API'en

Følg disse vigtige trin for migrering:

  • Forudsætninger.
  • Trin 1: Eksportér Spark-jobdefinition fra Azure Synapse til OneLake (.json).
  • Trin 2: Importér automatisk Spark-jobdefinitionen til Fabric ved hjælp af Fabric-API'en.

Forudsætninger

Forudsætningerne omfatter handlinger, du skal overveje, før du starter migreringen af Spark-jobdefinitionen til Fabric.

  • Et Fabric-arbejdsområde.
  • Hvis du ikke allerede har et, kan du oprette et Fabric lakehouse i dit arbejdsområde.

Trin 1: Eksportér Spark-jobdefinition fra Azure Synapse-arbejdsområdet

I trin 1 fokuseres der på eksport af Spark-jobdefinition fra Azure Synapse-arbejdsområdet til OneLake i json-format. Denne proces er som følger:

  • 1.1) Importér SJD-migreringsnotesbog til Fabric-arbejdsområdet . Denne notesbog eksporterer alle Spark-jobdefinitioner fra et givet Azure Synapse-arbejdsområde til en mellemliggende mappe i OneLake. Synapse API bruges til at eksportere SJD.
  • 1.2) Konfigurer parametrene i den første kommando for at eksportere Definitionen af Spark-job til et mellemliggende lager (OneLake). Dette eksporterer kun json-metadatafilen. Følgende kodestykke bruges til at konfigurere kilde- og destinationsparametrene. Sørg for at erstatte dem med dine egne værdier.
# Azure config
azure_client_id = "<client_id>"
azure_tenant_id = "<tenant_id>"
azure_client_secret = "<client_secret>"

# Azure Synapse workspace config
synapse_workspace_name = "<synapse_workspace_name>"

# Fabric config
workspace_id = "<workspace_id>"
lakehouse_id = "<lakehouse_id>"
export_folder_name = f"export/{synapse_workspace_name}"
prefix = "" # this prefix is used during import {prefix}{sjd_name}

output_folder = f"abfss://{workspace_id}@onelake.dfs.fabric.microsoft.com/{lakehouse_id}/Files/{export_folder_name}"
  • 1.3) Kør de første to celler i eksport-/importnotesbogen for at eksportere metadata for Spark-jobdefinitionen til OneLake. Når cellerne er fuldført, oprettes denne mappestruktur under den mellemliggende outputmappe.

Skærmbillede, der viser eksport af Spark-jobdefinition i OneLake.

Trin 2: Importér Spark-jobdefinition til Fabric

Trin 2 er, når Spark-jobdefinitioner importeres fra mellemlageret til Fabric-arbejdsområdet. Denne proces er som følger:

  • 2.1) Valider konfigurationerne i 1.2 for at sikre, at det rigtige arbejdsområde og præfiks er angivet til at importere Spark-jobdefinitionerne.
  • 2.2) Kør den tredje celle i eksport-/importnotesbogen for at importere alle Spark-jobdefinitioner fra den mellemliggende placering.

Bemærk

Eksportindstillingen opretter en json-metadatafil. Sørg for, at eksekverbare filer, referencefiler og argumenter i Spark-jobdefinitionen er tilgængelige fra Fabric.