Jaa


Apache Spark -työmäärityksen luominen Fabricissa

Tässä opetusohjelmassa opit luomaan Spark-työmäärityksen Microsoft Fabricissa.

Edellytykset

Ennen kuin aloitat, tarvitset seuraavat asiat:

  • Fabric-vuokraajatili, jolla on aktiivinen tilaus. Luo ilmainen tili.

Vihje

Spark-työn määrityskohteen suorittaminen edellyttää päämääritystiedostoa ja oletuskontekstia. Jos sinulla ei ole Lakehouse-majaa, voit luoda sellaisen noudattamalla kohdassa Luo lakehouse -järvi.

Spark-työn määrityksen luominen

Spark-työn määrityksen luontiprosessi on nopea ja yksinkertainen. Voit aloittaa usealla eri tavalla.

Vaihtoehdot Spark-työn määrityksen luomiseksi

Luontiprosessin voi aloittaa muutamalla eri tavalla:

  • Tietotekniikan aloitussivu: Voit helposti luoda Spark-työn määrityksen spark-työn määritys -kortin kautta aloitussivun Uusi-osiossa .

    Näyttökuva, jossa näkyy Spark-työn määrityskortin valinta.

  • Työtila-näkymä: Voit myös luoda Spark-työn määrityksen tietotekniikan työtilan kautta käyttämällä avattavaa Uusi-valikkoa.

    Näyttökuva, jossa näkyy Spark-työn määrityksen valinta Uusi-valikossa.

  • Luo näkymä: Toinen aloituskohta Spark-työn määrityksen luomiseen on Tietotekniikka-kohdassa oleva Luo-sivu.

    Näyttökuva, jossa näkyy Spark-työn määrityksen valinta luontikeskuksessa.

Sinun on annettava Spark-työmääritykselle nimi, kun luot sen. Nimen on oltava yksilöivä nykyisessä työtilassa. Uusi Spark-työn määritys luodaan nykyiseen työtilaasi.

Spark-työn määrityksen luominen PySparkille (Python)

Spark-työmääritelmän luominen PySparkille:

  1. Lataa Parquet-mallitiedosto yellow_tripdata_2022-01.parquet ja lataa se Lakehousen tiedostot-osaan.

  2. Luo uusi Spark-työn määritys.

  3. Valitse PySpark (Python) avattavasta Kieli-valikosta.

  4. Lataa createTablefromParquet.py malli ja lataa se pääasiallisena määritystiedostona. Päämääritelmätiedosto (työ. Päätiedosto) on tiedosto, joka sisältää sovelluslogiikan ja joka on pakollinen Spark-työn suorittamiseksi. Voit ladata kustakin Spark-työn määrityksestä vain yhden päämääritelmätiedoston.

    Voit ladata päämääritelmätiedoston paikallisesta työpöydältä tai ladata olemassa olevasta Azure Data Lake Storage (ADLS) Gen2: sta antamalla tiedoston koko ABFSS-polun. Esimerkki: abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  5. Lataa viitetiedostot .py tiedostoina. Viitetiedostot ovat python-moduuleja, jotka päämääritystiedosto tuo. Voit ladata sen työpöydältäsi tai aiemmin luodusta ADLS Gen2 :sta samaan tapaan kuin päämääritystiedoston. Useita viitetiedostoja tuetaan.

    Vihje

    Jos käytät ADLS Gen2 -polkua varmistaaksesi, että tiedosto on käytettävissä, sinun on annettava työtä suorittavalle käyttäjätilille oikeat käyttöoikeudet tallennustiliin. Suosittelemme tätä kahta eri tapaa:

    • Määritä käyttäjätilille Osallistuja-rooli tallennustilille.
    • Myönnä tiedoston luku- ja suoritusoikeus käyttäjätilille ADLS Gen2 Käyttöoikeuksien hallinta -luettelon (ACL) kautta.

    Manuaalista suorittamista varten työn suorittamiseen käytetään nykyisen kirjautumiskäyttäjän tiliä.

  6. Anna tarvittaessa työn komentoriviargumentit. Erota argumentit osiin käyttämällä välilyöntiä jakoperusteena.

  7. Lisää Lakehouse-viittaus työhön. Työhön täytyy lisätä vähintään yksi Lakehouse-viittaus. Tämä lakehouse on oletus lakehouse-konteksti työlle.

    Useita lakehouse-viittauksia tuetaan. Etsi muu kuin oletusasetus Lakehouse-nimi ja koko OneLake-URL-osoite Spark-asetukset-sivulta.

    Näyttökuva, jossa näkyy esimerkki täytetystä päämääritystiedoston näytöstä.

Skalaa/Javaavan Spark-työn määrityksen luominen

Skalaa/Javaavan Spark-työn määrityksen luominen:

  1. Luo uusi Spark-työn määritys.

  2. Valitse Spark(Scala/Java) avattavasta Kieli-valikosta.

  3. Lataa päämääritystiedosto .jar tiedostona. Tärkein määritystiedosto on tiedosto, joka sisältää tämän työn sovelluslogiikan ja joka on pakollinen Spark-työn suorittamiseksi. Voit ladata kustakin Spark-työn määrityksestä vain yhden päämääritelmätiedoston. Anna Pääluokan nimi.

  4. Lataa viitetiedostot .jar tiedostoina. Viitetiedostot ovat tiedostoja, joihin päämääritelmätiedosto viittaa/tuodaan.

  5. Anna tarvittaessa työn komentoriviargumentit.

  6. Lisää Lakehouse-viittaus työhön. Työhön täytyy lisätä vähintään yksi Lakehouse-viittaus. Tämä lakehouse on oletus lakehouse-konteksti työlle.

Spark-työn määrityksen luominen R:lle

SparkR(R)-työn määrityksen luominen:

  1. Luo uusi Spark-työn määritys.

  2. Valitse SparkR(R) avattavasta Kieli-valikosta.

  3. Lataa päämääritystiedosto nimellä . R-tiedosto . Tärkein määritystiedosto on tiedosto, joka sisältää tämän työn sovelluslogiikan ja joka on pakollinen Spark-työn suorittamiseksi. Voit ladata kustakin Spark-työn määrityksestä vain yhden päämääritelmätiedoston.

  4. Lataa viitetiedostot nimellä . R-tiedostot . Viitetiedostot ovat tiedostoja, joihin päämääritelmätiedosto viittaa/tuodaan.

  5. Anna tarvittaessa työn komentoriviargumentit.

  6. Lisää Lakehouse-viittaus työhön. Työhön täytyy lisätä vähintään yksi Lakehouse-viittaus. Tämä lakehouse on oletus lakehouse-konteksti työlle.

Muistiinpano

Spark-työn määritys luodaan nykyiseen työtilaasi.

Vaihtoehdot Spark-työn määritelmien mukauttamiseen

Spark-työmääritysten suorittamista voidaan mukauttaa edelleen muutamilla eri vaihtoehdoilla.

  • Spark Compute: Spark Compute -välilehdessä näet Runtime-version , joka on työn suorittamiseen käytettävä Spark-versio. Näet myös Spark-määritysasetukset, joita käytetään työn suorittamiseen. Voit mukauttaa Spark-määritysasetuksia napsauttamalla Lisää-painiketta.
  • Optimointi: Optimointi-välilehdessä voit ottaa käyttöön ja määrittää työn uudelleenyritysten käytännön . Kun se on käytössä, työtä yritetään uudelleen, jos se epäonnistuu. Voit myös määrittää uudelleenten enimmäismäärän ja uudelleenlyöntien välisen välin. Kunkin uudelleenyritysyrityksen työ käynnistetään uudelleen. Varmista, että työ on idempotenttia.

    Näyttökuva, jossa näkyy uudelleenyritysten käytännön määrityspaikka.