Spark-työmäärityksen siirtäminen Azure Synapse:stä Fabriciin
Jos haluat siirtää Spark-työmääritykset (SJD) Azure Synapse:stä Fabric-tiedostoon, sinulla on kaksi eri vaihtoehtoa:
- Vaihtoehto 1: luo Spark-työn määritys manuaalisesti Fabricissa.
- Vaihtoehto 2: voit komentosarjan avulla viedä Spark-työmääritykset Azure Synapse ja tuoda ne Fabricissa ohjelmointirajapinnan avulla.
Spark-työmääritelmissä on huomioitavia seikkoja Azure Synapse Sparkin ja Fabricin välisistä eroista.
Edellytykset
Jos sinulla ei vielä ole Fabric-työtilaa vuokraajassasi, luo Fabric-työtila .
Vaihtoehto 1: Spark-työn määrityksen luominen manuaalisesti
Spark-työn määrityksen vieminen Azure Synapse:
- Avaa Synapse Studio: Kirjaudu sisään Azureen. Siirry Azure Synapse työtilaan ja avaa Synapse Studio.
- Etsi Python/Scala/R Spark -työ: Etsi ja tunnista Python/Scala/R Spark -työmääritelmä, jonka haluat siirtää.
- Vie työn määritykset:
- Avaa Synapse Studiossa Spark-työn määritys.
- Vie tai kirjoita muistiin määritysasetukset, kuten komentosarjatiedoston sijainti, riippuvuudet, parametrit ja muut olennaiset tiedot.
Kun haluat luoda uuden Spark-työmääritelmän (SJD) viedyille SJD-tiedoille Fabricissa, toimi seuraavasti:
- Access Fabric -työtila: Kirjaudu sisään Fabriciin ja käytä työtilaasi.
- Luo Uusi Spark-työmääritelmä Fabricissa:
- Siirry Fabricissa Tietotekniikan kotisivulle.
- Valitse Spark-työn määritys.
- Määritä työ käyttämällä Synapsesta viemiäsi tietoja, kuten komentosarjan sijaintia, riippuvuuksia, parametreja ja klusteriasetuksia.
- Sopeuta ja testaa: Tee tarvittavat mukautukset komentosarjaan tai määrityksiin Fabric-ympäristöön sopivaksi. Testaa kankaan toiminta ja varmista, että se toimii oikein.
Kun Spark-työn määritys on luotu, tarkista riippuvuudet:
- Varmista, että käytät samaa Spark-versiota.
- Vahvista päämääritystiedoston olemassaolo.
- Vahvista viitattujen tiedostojen, riippuvuuksien ja resurssien olemassaolo.
- Linkitetyt palvelut, tietolähdeyhteydet ja käyttöönottopisteet.
Lue lisätietoja Apache Spark -työmääritelmän luomisesta Fabricissa.
Vaihtoehto 2: Fabric-ohjelmointirajapinnan käyttäminen
Noudata näitä siirron tärkeimpiä vaiheita:
- Edellytykset.
- Vaihe 1: Vie Spark-työn määritelmä Azure Synapse OneLakeen (.json).
- Vaihe 2: Tuo Spark-työmääritelmä automaattisesti Fabric-ohjelmointirajapinnan avulla.
Edellytykset
Edellytykset edellyttävät toimia, jotka on otettava huomioon ennen Spark-työmääritelmän siirtämisen aloittamista Fabriciin.
- Fabric-työtila.
- Jos sinulla ei vielä ole Fabric Lakehousea , luo Fabric Lakehouse työtilaasi.
Vaihe 1: Vie Spark-työn määritys Azure Synapse työtilasta
Vaiheessa 1 keskitytään Spark-työn määrityksen viemiseen Azure Synapse työtilasta OneLakeen json-muodossa. Tämä prosessi on seuraava:
- 1.1) Tuo SJD-siirtomuistikirja Fabric-työtilaan. Tämä muistikirja vie kaikki Spark-työmääritykset tietystä Azure Synapse työtilasta OneLaken välihakemistoon. Synapse-ohjelmointirajapintaa käytetään SJD-viemiseen.
- 1.2) Määritä ensimmäisen komennon parametrit , jotta Spark-työn määritys voidaan viedä välitallennustilaan (OneLake). Tämä vie vain json-metatietotiedoston. Lähde- ja kohdeparametrit määritetään seuraavalla katkelmassa. Varmista, että korvaat ne omilla arvoillasi.
# Azure config
azure_client_id = "<client_id>"
azure_tenant_id = "<tenant_id>"
azure_client_secret = "<client_secret>"
# Azure Synapse workspace config
synapse_workspace_name = "<synapse_workspace_name>"
# Fabric config
workspace_id = "<workspace_id>"
lakehouse_id = "<lakehouse_id>"
export_folder_name = f"export/{synapse_workspace_name}"
prefix = "" # this prefix is used during import {prefix}{sjd_name}
output_folder = f"abfss://{workspace_id}@onelake.dfs.fabric.microsoft.com/{lakehouse_id}/Files/{export_folder_name}"
- 1.3) Vie Spark-työmäärityksen metatiedot OneLakeen suorittamalla vienti-/tuontimuistikirjan kaksi ensimmäistä solua . Kun solut on suoritettu, järjestelmä luo tämän välitulosteen hakemiston alla olevan kansiorakenteen.
Vaihe 2: Tuo Spark-työmääritelmä Fabriciin
Vaihe 2 tarkoittaa sitä, kun Spark-työmääritykset tuodaan välitallennustilasta Fabric-työtilaan. Tämä prosessi on seuraava:
- 2.1) Varmista 1.2:n määritysten tarkistaminen, että oikea työtila ja etuliite merkitään Spark-työmääritysten tuomista varten.
- 2.2) Suorita vienti-/tuontimuistikirjan kolmas solu , jotta voit tuoda kaikki Spark-työmääritykset välisijainnista.
Muistiinpano
Vientitoiminto tulostaa json-metatietotiedoston. Varmista, että Spark-työmäärityksen suoritettavat tiedostot, viitetiedostot ja argumentit ovat käytettävissä Fabricista.