Jaa


Fabric Data Engineeringin ja Azure Synapse Sparkin vertailu

Fabric Data Engineeringin ja Azure Synapse Sparkin vertailu tarjoaa yhteenvedon tärkeimmistä ominaisuuksista ja syvällisen analyysin eri luokista, joita ovat Spark-varannot, konfigurointi, kirjastot, muistikirjat ja Spark-työmääritykset.

Seuraavassa taulukossa verrataan Azure Synapse Sparkiä ja Fabric Sparkiä eri luokkiin:

Luokka Azure Synapse Spark Kangas Spark
Spark-altaat Spark-varanto
-
-
Aloitusvarannon / mukautettu varanto
V-järjestys
Suuri samanaikaisuus
Spark-määritykset Varannon taso
Muistikirja- tai Spark-työmääritelmän taso
Ympäristötaso
Muistikirja - tai Spark-työmääritelmän taso
Spark-kirjastot Työtilatason paketit
Varannon tason paketit
Sisäiset paketit
-
Ympäristökirjastot
Sisäiset kirjastot
Resursseja Notebook (Python, Scala, Spark SQL, R, .NET)
Spark-työn määritelmä (Python, Scala, .NET)
Synapse-tietoputket
Jakson aktiviteetit (muistikirja, SJD)
Notebook (Python, Scala, Spark SQL, R)
Spark-työn määritelmä (Python, Scala, R)
Data Factory -tietoputket
Jakson aktiviteetit (muistikirja, SJD)
Tiedot Ensisijainen tallennustila (ADLS Gen2)
Tietojen tallennussijainti (klusteri/aluepohjainen)
Ensisijainen tallennustila (OneLake)
Tietojen sijainti (kapasiteetti/aluepohjainen)
Metatiedot Internal Hive Metastore (HMS)
Ulkoinen HMS (Azure SQL DB:n avulla)
Internal HMS (Lakehouse)
-
Yhteydet Liitintyyppi (linkitetyt palvelut)
Tietolähteet
Tietolähde conn. työtilan käyttäjätiedoilla
Liittimen tyyppi (DMTS)
Tietolähteet
-
Suojaus RBAC ja käyttöoikeuksien valvonta
Tallennustilan käyttöoikeusluettelot (ADLS Gen2)
Yksityiset linkit
Managed VNet (verkon eristys)
Synapse-työtilan käyttäjätiedot
Tietojen suodatussuojaus (DEP)
Palvelutunnisteet
Key Vault (mssparkutilsin/ linkitetyn palvelun kautta)
RBAC ja käyttöoikeuksien valvonta
OneLake RBAC
Yksityiset linkit
Managed VNet
Työtilan käyttäjätiedot
-
Palvelutunnisteet
Key Vault (muistikirjojen apuohjelmienkautta )
DevOps Azure DevOps -integrointi
CI/CD (ei sisäistä tukea)
Azure DevOps -integrointi
Käyttöönottoputket
Kehittäjän kokemus Integrointi integroitu kehitysympäristössä (IntelliJ)
Synapse Studion käyttöliittymä
Yhteistyö (työtilat)
Livy-ohjelmointirajapinta
Ohjelmointirajapinta/SDK
mssparkutils
Integrointi IDE:hin (VS Code)
Fabric UI
Yhteistyö (työtilat ja jakaminen)
Livy -ohjelmointirajapinnan
Ohjelmointirajapinta/SDK
muistikirjojen
Kirjaaminen ja valvonta Spark Advisor
Sisäiset valvontavarannot ja työt (Synapse Studion kautta)
Spark-historiapalvelin
Prometheus/Grafana
Log Analytics
Tallennustili
Tapahtumatoiminnot
Spark Advisor
Sisäiset valvontavarannot ja työt (valvontakeskuksen kautta)
Spark-historiapalvelin
-
Log Analytics
-tallennustilin
Event Hubs
Liiketoiminnan jatkuvuus ja järjestelmäpalautus (BCDR) BCDR (data) ADLS Gen2 BCDR (data) OneLake

Huomioitavat asiat ja rajoitukset:

  • DMTS-integrointi: Et voi käyttää DMTS:iä muistikirjojen ja Spark-työmääritelmien kautta.

  • Kuormitustason RBAC: Fabric tukee neljää eri työtilaroolia. Lisätietoja on artikkelissa Roolit työtiloissa Microsoft Fabricissa.

  • Hallitut käyttäjätiedot: Tällä hetkellä Fabric ei tue käynnissä olevia muistikirjoja ja Spark-työmääritelmiä käyttämällä työtilan käyttäjätietoja tai Azure KeyVaultin hallittuja käyttäjätietoja muistikirjoissa.

  • CI/CD: Voit käyttää Fabric-ohjelmointirajapinnan/SDK:n ja käyttöönottoputkia.

  • Muita huomioitavia seikkoja:

    • JDBC: JDBC-yhteyden tuki ei ole tällä hetkellä saatavilla Fabricissa.

Spark-varantovertailu

Seuraavassa taulukossa verrataan Azure Synapse Spark- ja Fabric Spark -altaita.

Spark-asetus Azure Synapse Spark Kangas Spark
Reaaliaikainen uima-allas (lämpimät esiintymät) - Kyllä, Aloitus-varannot
Mukautettu varanto Kyllä Kyllä
Spark-versiot (suorituspalvelu) 2.4, 3.1, 3.2, 3.3, 3.4 3.3, 3.4, 3.5
Automaattinen skaalaaminen Kyllä Kyllä
Suoritusten dynaamiset kohdistukset Kyllä, enintään 200 Kyllä, kapasiteetin perusteella
Säädettävissä olevat solmukoot Kyllä, 3–200 Kyllä, 1-pohjainen kapasiteetti
Solmun vähimmäismääritys 3 solmua 1 solmu
Solmun kokoperhe Optimoitu muisti, GPU nopeutettu Optimoitu muisti
Solmun koko Small-XXXLarge Small-XXLarge
Automaattinen ruutu Kyllä, mukautettavissa vähintään 5 minuuttia Kyllä, ei-muokattavissa 2 minuuttia
Suuri samanaikaisuus Ei Kyllä
V-järjestys Ei Kyllä
Spark autotune Ei Kyllä
Alkuperäinen suoritusmoduuli Ei Kyllä
Samanaikaisuusrajoitukset Korjattu Kapasiteettiin perustuva muuttuja
Useita Spark-altaita Kyllä Kyllä (ympäristöt)
Älykäs välimuisti Kyllä Kyllä
Ohjelmointirajapinnan/SDK:n tuki Kyllä Kyllä
  • Suorituspalvelu: Fabric ei tue Spark 2.4-, 3.1- ja 3.2-versioita. Fabric Spark tukee Spark 3.3:a ja Delta 2.2:ta Runtime 1.1:ssä, Spark 3.4:ää ja Delta 2.4:ää Runtime 1.2:ssa ja Spark 3.5:tä ja Spark 3.1:tä Runtime 1.3:ssa.

  • Automaattinen skaalaus: Azure Synapse Spark -ympäristössä uima-allas voi skaalata jopa 200 solmua solmun koosta riippumatta. Fabric-kankaalla solmujen enimmäismäärään sovelletaan solmun kokoa ja valmistelukapasiteettia. Katso seuraavaa esimerkkiä F64-varastointiyksikölle.

    Spark-varannon koko Azure Synapse Spark Fabric Spark (mukautettu uima-allas, SKU F64)
    Pieni Pienin arvo: 3, suurin: 200 Pienin arvo: 1, suurin: 32
    Keskitaso Pienin arvo: 3, suurin: 200 Pienin arvo: 1, enintään: 16
    Suuri Pienin arvo: 3, suurin: 200 Pienin arvo: 1, enintään: 8
    X-Large Pienin arvo: 3, suurin: 200 Pienin arvo: 1, enintään: 4
    XX-Suuri Pienin arvo: 3, suurin: 200 Pienin arvo: 1, enintään: 2
  • Säädettävät solmukoot: Azure Synapse Sparkissä voit siirtyä enintään 200 solmuun. Fabricissa mukautetun Spark-varannon solmujen määrä riippuu solmun koosta ja Fabric-kapasiteetista. Kapasiteetti mittaa, kuinka paljon laskentatehoa voit käyttää Azuressa. Yksi tapa ajatella sitä on, että kaksi Spark-näennäisydintä (Sparkin laskentatehoyksikkö) on yhtä kapasiteettiyksikköä. Esimerkiksi Fabric-kapasiteetin SKU F64 -kapasiteetilla on 64 kapasiteettiyksikköä, mikä vastaa 128 Spark VCorea. Jos siis valitset pienen solmukoon, uima-altaassa voi olla enintään 32 solmua (128/4 = 32). Sitten vCoreen kokonaismäärä kapasiteetissa/vCoressa solmukokoa kohti = käytettävissä olevien solmujen kokonaismäärä. Lisätietoja on artikkelissa Spark-käsittely.

  • Solmun kokoperhe: Fabric Spark -altaat tukevat vain Muistin optimoidun solmun kokoperhettä toistaiseksi. Jos käytät GPU:n nopeuttamia SKU Spark -altaita Azure Synapse, ne eivät ole käytettävissä Fabricissa.

  • Solmun koko: xx-suuren solmun koko sisältää 432 Gt muistia Azure Synapse, kun taas saman solmun koolla on 512 Gt Fabricissa, mukaan lukien 64 näennäisydintä. Muissa solmukokoissa (pienistä x-suuriin) on samat vCoret ja muisti sekä Azure Synapseettä Fabricissa.

  • Automaattinen keskeyttäminen: Jos otat sen käyttöön Azure Synapse Sparkissä, Apache Spark -varanto pysähtyy automaattisesti tietyn käyttämättömyysajan jälkeen. Tämä asetus on määritettävissä Azure Synapse (vähintään 5 minuuttia), mutta mukautettujen altaiden oletusarvoinen automaattisen määrityksen kesto on 2 minuuttia Fabricissa istunnon päättymisen jälkeen. Oletusistunnon vanhentumisaika On 20 minuuttia Fabric-ominaisuudessa.

  • Korkea samanaikaisuus: Kangas tukee muistikirjoissa suurta samanaikaiuutta. Lisätietoja on artikkelissa Fabric Sparkin samanaikaisuustila.

  • Samanaikaisuusrajat: samanaikaisuuden kannalta Azure Synapse Sparkissä on samanaikaisesti enintään 50 samanaikaista juoksevaa työpaikkaa Spark-poolia kohti ja 200 jonotyöpaikkaa Spark-poolia kohden. Aktiivisia töitä voi olla enintään 250 spark-varantoa kohden ja 1 000 työtilaa kohden. Microsoft Fabric Sparkissä kapasiteetin varastointiyksiköt määrittävät samanaikaisuusrajoitukset. Varastointiyksiköillä on vaihtelevia rajoituksia samanaikaisten töiden enimmäismäärälle, jotka ovat välillä 1–512. Fabric Sparkissä on myös dynaaminen varantopohjainen rajoittamisjärjestelmä samanaikaisuuden hallintaan ja tasaisen toiminnan varmistamiseen myös huippukäyttöhuippuaikoina. Lisätietoja on artikkelissa Samanaikaisuuden rajoitukset ja jonotus Microsoft Fabric Spark - ja Fabric-kapasiteeteissa.

  • Useita Spark-altaita: Jos haluat useita Spark-altaita, valitse Fabric-ympäristöjen avulla uima-allas muistikirjan tai Spark-työmäärityksen mukaan. Lisätietoja on artikkelissa Ympäristön luominen, määrittäminen ja käyttäminen Microsoft Fabricissa.

Huomautus

Opi siirtämään Azure Synapse Spark-altaat Fabriciin.

Spark-määritysten vertailu

Spark-määrityksiä voi käyttää eri tasoilla:

  • Ympäristötaso: Näitä määrityksiä käytetään oletusmäärityksinä kaikissa ympäristön Spark-työissä.
  • Sisäinen taso: Määritä Spark-määritykset tekstiin muistikirjojen ja Spark-työmääritysten avulla.

Kumpaakin vaihtoehtoa tuetaan Azure Synapse Sparkissä ja Fabricissa, mutta tähän liittyy joitakin huomioon otettavia seikkoja:

Spark-määritys Azure Synapse Spark Kangas Spark
Ympäristötaso Kyllä, altaat Kyllä, ympäristöt
Tekstiin sidottu Kyllä Kyllä
Tuonti ja vienti Kyllä Kyllä (.yml ympäristöistä)
Ohjelmointirajapinnan/SDK:n tuki Kyllä Kyllä
  • Ympäristötaso: Azure Synapse voit määrittää useita Spark-määrityksiä ja määrittää ne eri Spark-varantoihin. Voit tehdä tämän Fabricissa ympäristöjen avulla.

  • Sisäinen: Azure Synapse sekä muistikirjat että Spark-työt tukevat eri Spark-kokoonpanojen liittämistä. Fabricissa istuntotason määritykset mukautetaan asetuksen mukaan spark.conf.set(<conf_name>, <conf_value>) . Erätöissä voit käyttää määrityksiä myös SparkConfin kautta.

  • Tuonti/vienti: Tämä spark-määritysvaihtoehto on saatavilla Fabric-ympäristöissä.

  • Muita huomioitavia seikkoja:

    • Muuttumattomat Spark-määritykset: Jotkin Spark-määritykset ovat muuttumattomia. Jos näyttöön tulee sanoma AnalysisException: Can't modify the value of a Spark config: <config_name>, kyseessä oleva ominaisuus on muuttumaton.
    • KÄYTIN: REILUa ajoitustoimintoa käytetään suuren samanaikaisuuden tilassa.
    • V-Order: V-Order on kirjoitusajan optimointi, jota käytetään oletuksena käytössä oletuksena Fabric Spark -varannoissa käytössä oletuksena parquet-tiedostoissa.
    • Optimoitu kirjoitus: Optimoitu kirjoitus on oletusarvoisesti poistettu käytöstä Azure Synapse mutta oletusarvoisesti käytössä Fabric Sparkille.

Spark-kirjastojen vertailu

Voit käyttää Spark-kirjastoja eri tasoilla:

  • Työtilataso: Et voi ladata tai asentaa näitä kirjastoja työtilaasi ja määrittää niitä myöhemmin tiettyyn Spark-varantoon Azure Synapse.
  • Ympäristötaso: Voit ladata tai asentaa kirjastoja ympäristöön. Ympäristötason kirjastot ovat käytettävissä kaikissa muistikirjoissa ja ympäristössä suoritettavissa Spark-työmääritelmissä.
  • Sisäinen: Ympäristötason kirjastojen lisäksi voit määrittää myös sisäiset kirjastot. Esimerkiksi muistikirjaistunnon alussa.

Huomioon otettavia seikkoja:

Spark-kirjasto Azure Synapse Spark Kangas Spark
Työtilataso Kyllä Ei
Ympäristötaso Kyllä, Altaat Kyllä, ympäristöt
Tekstiin sidottu Kyllä Kyllä
Tuonti ja vienti Kyllä Kyllä
Ohjelmointirajapinnan/SDK:n tuki Kyllä Kyllä
  • Muita huomioitavia seikkoja:
    • Sisäiset kirjastot: Kankaalla ja Azure Synapse on sparkin yhteinen ydin, mutta niiden suorituksenaikaisten kirjastojen tuki eroaa hieman toisistaan. Yleensä koodin käyttäminen on yhteensopiva eräiden poikkeuksien kanssa. Tässä tapauksessa käyttäjät saattavat tarvita kääntämistä, mukautettujen kirjastojen lisäämistä ja syntaksin muokkaamista. Katso sisäiset Fabric Spark -suorituspalvelukirjastot täältä.

Huomautus

Opi siirtämään Azure Synapse Spark-kirjastoja Fabriciin.

Muistikirjavertailu

Muistikirjat ja Spark-työmääritykset ovat ensisijaisia koodikohteita Apache Spark -töiden kehittämiseen Fabricissa. Azure Synapse Spark-muistikirjojen ja Fabric Spark -muistikirjojen välillä on joitakin eroja:

Muistikirjaominaisuus Azure Synapse Spark Kangas Spark
Tuonti ja vienti Kyllä Kyllä
Istunnon määrittäminen Kyllä, käyttöliittymä ja sisäinen Kyllä, käyttöliittymä (ympäristö) ja sisäinen
IntelliSense Kyllä Kyllä
mssparkutils Kyllä Kyllä
Muistikirjaresurssit Ei Kyllä
Tee yhteistyötä Ei Kyllä
Suuri samanaikaisuus Ei Kyllä
.NET for Spark C# Kyllä Ei
Jakson toimintojen tuki Kyllä Kyllä
Sisäinen ajoitetun suorituksen tuki Ei Kyllä
Ohjelmointirajapinnan/SDK:n tuki Kyllä Kyllä
  • mssparkutils: Koska DMTS-yhteyksiä ei vielä tueta Fabricissa, vain getToken ja getSecret niitä tuetaan toistaiseksi Kohteessa Fabric for mssparkutils.credentials.

  • Muistikirjojen resurssit: Kangasmuistikirjat tarjoavat Unix-kaltaisen tiedostojärjestelmän, jonka avulla voit hallita kansioita ja tiedostoja. Lisätietoja on artikkelissa Microsoft Fabric -muistikirjojen käyttäminen.

  • Yhteistyö: Fabric-muistikirja on yhteistyökohde, joka tukee useita käyttäjiä, jotka muokkaavat samaa muistikirjaa. Lisätietoja on artikkelissa Microsoft Fabric -muistikirjojen käyttäminen.

  • Suuri samanaikaisuus: Fabric-kankaalla voit liittää muistikirjoja suuren samanaikaisuuden istuntoon. Tämä vaihtoehto on vaihtoehto käyttäjille, jotka käyttävät ThreadPoolExecutor-funktiota Azure Synapse. Lisätietoja on kohdassa Suuren samanaikaisuuden tilan määrittäminen Fabric-muistikirjoille.

  • .NET for Spark C#: Fabric ei tue .NET Sparkiä (C#). Suositus, jonka mukaan käyttäjät, joilla on olemassa olevia kuormituksia, jotka on kirjoitettu C#:lla tai F#:lla, siirtyvät Pythoniin tai Scala.

  • Sisäänrakennettu ajoitetun suorituksen tuki: Fabric tukee muistikirjojen ajoitettuja suorituksia.

  • Muita huomioitavia seikkoja:

    • Voit käyttää muistikirjassa olevia ominaisuuksia, joita tuetaan vain tietyssä Spark-versiossa. Muista, että Spark 2.4:ää ja 3.1:ää ei tueta Fabricissa.
    • Jos muistikirja- tai Spark-työ käyttää linkitettyä palvelua, jossa on eri tietolähdeyhteyksiä tai käyttöönottopisteitä, muokkaa Spark-töitäsi ja käytä vaihtoehtoisia menetelmiä yhteyksien käsittelemiseen ulkoisiin tietolähteisiin ja nieluihin. Käytä Spark-koodia yhteyden muodostamiseen tietolähteisiin käytettävissä olevien Spark-kirjastojen avulla.

Huomautus

Opi siirtämään muistikirjat Azure Synapse:stä Fabriciin.

Spark-määrityksen vertailu

Huomioitavaa Spark-työn määrityksessä :

Spark-työn ominaisuus Azure Synapse Spark Kangas Spark
PySpark Kyllä Kyllä
Scala Kyllä Kyllä
.NET for Spark C# Kyllä Ei
SparkR Ei Kyllä
Tuonti ja vienti Kyllä (UI) Ei
Jakson toimintojen tuki Kyllä Kyllä
Sisäinen ajoitetun suorituksen tuki Ei Kyllä
Uudelleenyritysten käytännöt Ei Kyllä
Ohjelmointirajapinnan/SDK:n tuki Kyllä Kyllä
  • Spark-työt: Voit tuoda .py/. R/jar-tiedostot. Kangas tukee SparkR:iä. Spark-työmääritys tukee viitetiedostoja, komentoriviargumentteja, Spark-määrityksiä ja Lakehouse-viittauksia.

  • Tuonti/vienti: Azure Synapse voit tuoda/viedä json-pohjaisia Spark-työmääritelmiä käyttöliittymästä. Tämä ominaisuus ei ole vielä käytettävissä Fabricissa.

  • .NET for Spark C#: Fabric ei tue .NET Sparkiä (C#). Suositus on kuitenkin, että käyttäjät, joiden aiemmin luodut kuormitukset on kirjoitettu C#:lla tai F#:lla, siirtyvät Pythoniin tai Scalaan.

  • Sisäänrakennettu ajoitetun suorituksen tuki: Fabric tukee ajoitettuja suorityksiä Spark-työmääritykselle.

  • Uudelleenyritysten käytännöt: Tämän asetuksen avulla käyttäjät voivat suorittaa Spark-jäsennettyjä suoratoistotöitä loputtomiin.

Huomautus

Opi siirtämään Spark-työmääritykset Azure Synapse:stä Fabriciin.

Hive Metastore (HMS) -vertailu

Hive MetaStore (HMS) -erot ja huomioitavat asiat:

HMS-tyyppi Azure Synapse Spark Kangas Spark
Sisäinen HMS Kyllä Kyllä (Lakehouse)
Ulkoinen HMS Kyllä Ei
  • Ulkoinen HMS: Fabric ei tällä hetkellä tue hakemiston ohjelmointirajapintaa ja pääsyä ulkoiseen Hive Metastoreen (HMS).

Huomautus

Lue, miten voit siirtää Azure Synapse Spark-hakemiston HMS-metatiedot Fabriciin.