Fabric Data Engineeringin ja Azure Synapse Sparkin vertailu
Fabric Data Engineeringin ja Azure Synapse Sparkin vertailu tarjoaa yhteenvedon tärkeimmistä ominaisuuksista ja syvällisen analyysin eri luokista, joita ovat Spark-varannot, konfigurointi, kirjastot, muistikirjat ja Spark-työmääritykset.
Seuraavassa taulukossa verrataan Azure Synapse Sparkiä ja Fabric Sparkiä eri luokkiin:
Luokka | Azure Synapse Spark | Kangas Spark |
---|---|---|
Spark-altaat | Spark-varanto - - |
Aloitusvarannon / mukautettu varanto V-järjestys Suuri samanaikaisuus |
Spark-määritykset | Varannon taso Muistikirja- tai Spark-työmääritelmän taso |
Ympäristötaso Muistikirja - tai Spark-työmääritelmän taso |
Spark-kirjastot | Työtilatason paketit Varannon tason paketit Sisäiset paketit |
- Ympäristökirjastot Sisäiset kirjastot |
Resursseja | Notebook (Python, Scala, Spark SQL, R, .NET) Spark-työn määritelmä (Python, Scala, .NET) Synapse-tietoputket Jakson aktiviteetit (muistikirja, SJD) |
Notebook (Python, Scala, Spark SQL, R) Spark-työn määritelmä (Python, Scala, R) Data Factory -tietoputket Jakson aktiviteetit (muistikirja, SJD) |
Tiedot | Ensisijainen tallennustila (ADLS Gen2) Tietojen tallennussijainti (klusteri/aluepohjainen) |
Ensisijainen tallennustila (OneLake) Tietojen sijainti (kapasiteetti/aluepohjainen) |
Metatiedot | Internal Hive Metastore (HMS) Ulkoinen HMS (Azure SQL DB:n avulla) |
Internal HMS (Lakehouse) - |
Yhteydet | Liitintyyppi (linkitetyt palvelut) Tietolähteet Tietolähde conn. työtilan käyttäjätiedoilla |
Liittimen tyyppi (DMTS) Tietolähteet - |
Suojaus | RBAC ja käyttöoikeuksien valvonta Tallennustilan käyttöoikeusluettelot (ADLS Gen2) Yksityiset linkit Managed VNet (verkon eristys) Synapse-työtilan käyttäjätiedot Tietojen suodatussuojaus (DEP) Palvelutunnisteet Key Vault (mssparkutilsin/ linkitetyn palvelun kautta) |
RBAC ja käyttöoikeuksien valvonta OneLake RBAC Yksityiset linkit Managed VNet Työtilan käyttäjätiedot - Palvelutunnisteet Key Vault (muistikirjojen apuohjelmienkautta ) |
DevOps | Azure DevOps -integrointi CI/CD (ei sisäistä tukea) |
Azure DevOps -integrointi Käyttöönottoputket |
Kehittäjän kokemus | Integrointi integroitu kehitysympäristössä (IntelliJ) Synapse Studion käyttöliittymä Yhteistyö (työtilat) Livy-ohjelmointirajapinta Ohjelmointirajapinta/SDK mssparkutils |
Integrointi IDE:hin (VS Code) Fabric UI Yhteistyö (työtilat ja jakaminen) Livy -ohjelmointirajapinnan Ohjelmointirajapinta/SDK muistikirjojen |
Kirjaaminen ja valvonta | Spark Advisor Sisäiset valvontavarannot ja työt (Synapse Studion kautta) Spark-historiapalvelin Prometheus/Grafana Log Analytics Tallennustili Tapahtumatoiminnot |
Spark Advisor Sisäiset valvontavarannot ja työt (valvontakeskuksen kautta) Spark-historiapalvelin - Log Analytics -tallennustilin Event Hubs |
Liiketoiminnan jatkuvuus ja järjestelmäpalautus (BCDR) | BCDR (data) ADLS Gen2 | BCDR (data) OneLake |
Huomioitavat asiat ja rajoitukset:
DMTS-integrointi: Et voi käyttää DMTS:iä muistikirjojen ja Spark-työmääritelmien kautta.
Kuormitustason RBAC: Fabric tukee neljää eri työtilaroolia. Lisätietoja on artikkelissa Roolit työtiloissa Microsoft Fabricissa.
Hallitut käyttäjätiedot: Tällä hetkellä Fabric ei tue käynnissä olevia muistikirjoja ja Spark-työmääritelmiä käyttämällä työtilan käyttäjätietoja tai Azure KeyVaultin hallittuja käyttäjätietoja muistikirjoissa.
CI/CD: Voit käyttää Fabric-ohjelmointirajapinnan/SDK:n ja käyttöönottoputkia.
Muita huomioitavia seikkoja:
- JDBC: JDBC-yhteyden tuki ei ole tällä hetkellä saatavilla Fabricissa.
Spark-varantovertailu
Seuraavassa taulukossa verrataan Azure Synapse Spark- ja Fabric Spark -altaita.
Spark-asetus | Azure Synapse Spark | Kangas Spark |
---|---|---|
Reaaliaikainen uima-allas (lämpimät esiintymät) | - | Kyllä, Aloitus-varannot |
Mukautettu varanto | Kyllä | Kyllä |
Spark-versiot (suorituspalvelu) | 2.4, 3.1, 3.2, 3.3, 3.4 | 3.3, 3.4, 3.5 |
Automaattinen skaalaaminen | Kyllä | Kyllä |
Suoritusten dynaamiset kohdistukset | Kyllä, enintään 200 | Kyllä, kapasiteetin perusteella |
Säädettävissä olevat solmukoot | Kyllä, 3–200 | Kyllä, 1-pohjainen kapasiteetti |
Solmun vähimmäismääritys | 3 solmua | 1 solmu |
Solmun kokoperhe | Optimoitu muisti, GPU nopeutettu | Optimoitu muisti |
Solmun koko | Small-XXXLarge | Small-XXLarge |
Automaattinen ruutu | Kyllä, mukautettavissa vähintään 5 minuuttia | Kyllä, ei-muokattavissa 2 minuuttia |
Suuri samanaikaisuus | Ei | Kyllä |
V-järjestys | Ei | Kyllä |
Spark autotune | Ei | Kyllä |
Alkuperäinen suoritusmoduuli | Ei | Kyllä |
Samanaikaisuusrajoitukset | Korjattu | Kapasiteettiin perustuva muuttuja |
Useita Spark-altaita | Kyllä | Kyllä (ympäristöt) |
Älykäs välimuisti | Kyllä | Kyllä |
Ohjelmointirajapinnan/SDK:n tuki | Kyllä | Kyllä |
Suorituspalvelu: Fabric ei tue Spark 2.4-, 3.1- ja 3.2-versioita. Fabric Spark tukee Spark 3.3:a ja Delta 2.2:ta Runtime 1.1:ssä, Spark 3.4:ää ja Delta 2.4:ää Runtime 1.2:ssa ja Spark 3.5:tä ja Spark 3.1:tä Runtime 1.3:ssa.
Automaattinen skaalaus: Azure Synapse Spark -ympäristössä uima-allas voi skaalata jopa 200 solmua solmun koosta riippumatta. Fabric-kankaalla solmujen enimmäismäärään sovelletaan solmun kokoa ja valmistelukapasiteettia. Katso seuraavaa esimerkkiä F64-varastointiyksikölle.
Spark-varannon koko Azure Synapse Spark Fabric Spark (mukautettu uima-allas, SKU F64) Pieni Pienin arvo: 3, suurin: 200 Pienin arvo: 1, suurin: 32 Keskitaso Pienin arvo: 3, suurin: 200 Pienin arvo: 1, enintään: 16 Suuri Pienin arvo: 3, suurin: 200 Pienin arvo: 1, enintään: 8 X-Large Pienin arvo: 3, suurin: 200 Pienin arvo: 1, enintään: 4 XX-Suuri Pienin arvo: 3, suurin: 200 Pienin arvo: 1, enintään: 2 Säädettävät solmukoot: Azure Synapse Sparkissä voit siirtyä enintään 200 solmuun. Fabricissa mukautetun Spark-varannon solmujen määrä riippuu solmun koosta ja Fabric-kapasiteetista. Kapasiteetti mittaa, kuinka paljon laskentatehoa voit käyttää Azuressa. Yksi tapa ajatella sitä on, että kaksi Spark-näennäisydintä (Sparkin laskentatehoyksikkö) on yhtä kapasiteettiyksikköä. Esimerkiksi Fabric-kapasiteetin SKU F64 -kapasiteetilla on 64 kapasiteettiyksikköä, mikä vastaa 128 Spark VCorea. Jos siis valitset pienen solmukoon, uima-altaassa voi olla enintään 32 solmua (128/4 = 32). Sitten vCoreen kokonaismäärä kapasiteetissa/vCoressa solmukokoa kohti = käytettävissä olevien solmujen kokonaismäärä. Lisätietoja on artikkelissa Spark-käsittely.
Solmun kokoperhe: Fabric Spark -altaat tukevat vain Muistin optimoidun solmun kokoperhettä toistaiseksi. Jos käytät GPU:n nopeuttamia SKU Spark -altaita Azure Synapse, ne eivät ole käytettävissä Fabricissa.
Solmun koko: xx-suuren solmun koko sisältää 432 Gt muistia Azure Synapse, kun taas saman solmun koolla on 512 Gt Fabricissa, mukaan lukien 64 näennäisydintä. Muissa solmukokoissa (pienistä x-suuriin) on samat vCoret ja muisti sekä Azure Synapseettä Fabricissa.
Automaattinen keskeyttäminen: Jos otat sen käyttöön Azure Synapse Sparkissä, Apache Spark -varanto pysähtyy automaattisesti tietyn käyttämättömyysajan jälkeen. Tämä asetus on määritettävissä Azure Synapse (vähintään 5 minuuttia), mutta mukautettujen altaiden oletusarvoinen automaattisen määrityksen kesto on 2 minuuttia Fabricissa istunnon päättymisen jälkeen. Oletusistunnon vanhentumisaika On 20 minuuttia Fabric-ominaisuudessa.
Korkea samanaikaisuus: Kangas tukee muistikirjoissa suurta samanaikaiuutta. Lisätietoja on artikkelissa Fabric Sparkin samanaikaisuustila.
Samanaikaisuusrajat: samanaikaisuuden kannalta Azure Synapse Sparkissä on samanaikaisesti enintään 50 samanaikaista juoksevaa työpaikkaa Spark-poolia kohti ja 200 jonotyöpaikkaa Spark-poolia kohden. Aktiivisia töitä voi olla enintään 250 spark-varantoa kohden ja 1 000 työtilaa kohden. Microsoft Fabric Sparkissä kapasiteetin varastointiyksiköt määrittävät samanaikaisuusrajoitukset. Varastointiyksiköillä on vaihtelevia rajoituksia samanaikaisten töiden enimmäismäärälle, jotka ovat välillä 1–512. Fabric Sparkissä on myös dynaaminen varantopohjainen rajoittamisjärjestelmä samanaikaisuuden hallintaan ja tasaisen toiminnan varmistamiseen myös huippukäyttöhuippuaikoina. Lisätietoja on artikkelissa Samanaikaisuuden rajoitukset ja jonotus Microsoft Fabric Spark - ja Fabric-kapasiteeteissa.
Useita Spark-altaita: Jos haluat useita Spark-altaita, valitse Fabric-ympäristöjen avulla uima-allas muistikirjan tai Spark-työmäärityksen mukaan. Lisätietoja on artikkelissa Ympäristön luominen, määrittäminen ja käyttäminen Microsoft Fabricissa.
Huomautus
Opi siirtämään Azure Synapse Spark-altaat Fabriciin.
Spark-määritysten vertailu
Spark-määrityksiä voi käyttää eri tasoilla:
- Ympäristötaso: Näitä määrityksiä käytetään oletusmäärityksinä kaikissa ympäristön Spark-työissä.
- Sisäinen taso: Määritä Spark-määritykset tekstiin muistikirjojen ja Spark-työmääritysten avulla.
Kumpaakin vaihtoehtoa tuetaan Azure Synapse Sparkissä ja Fabricissa, mutta tähän liittyy joitakin huomioon otettavia seikkoja:
Spark-määritys | Azure Synapse Spark | Kangas Spark |
---|---|---|
Ympäristötaso | Kyllä, altaat | Kyllä, ympäristöt |
Tekstiin sidottu | Kyllä | Kyllä |
Tuonti ja vienti | Kyllä | Kyllä (.yml ympäristöistä) |
Ohjelmointirajapinnan/SDK:n tuki | Kyllä | Kyllä |
Ympäristötaso: Azure Synapse voit määrittää useita Spark-määrityksiä ja määrittää ne eri Spark-varantoihin. Voit tehdä tämän Fabricissa ympäristöjen avulla.
Sisäinen: Azure Synapse sekä muistikirjat että Spark-työt tukevat eri Spark-kokoonpanojen liittämistä. Fabricissa istuntotason määritykset mukautetaan asetuksen mukaan
spark.conf.set(<conf_name>, <conf_value>)
. Erätöissä voit käyttää määrityksiä myös SparkConfin kautta.Tuonti/vienti: Tämä spark-määritysvaihtoehto on saatavilla Fabric-ympäristöissä.
Muita huomioitavia seikkoja:
-
Muuttumattomat Spark-määritykset: Jotkin Spark-määritykset ovat muuttumattomia. Jos näyttöön tulee sanoma
AnalysisException: Can't modify the value of a Spark config: <config_name>
, kyseessä oleva ominaisuus on muuttumaton. - KÄYTIN: REILUa ajoitustoimintoa käytetään suuren samanaikaisuuden tilassa.
- V-Order: V-Order on kirjoitusajan optimointi, jota käytetään oletuksena käytössä oletuksena Fabric Spark -varannoissa käytössä oletuksena parquet-tiedostoissa.
- Optimoitu kirjoitus: Optimoitu kirjoitus on oletusarvoisesti poistettu käytöstä Azure Synapse mutta oletusarvoisesti käytössä Fabric Sparkille.
-
Muuttumattomat Spark-määritykset: Jotkin Spark-määritykset ovat muuttumattomia. Jos näyttöön tulee sanoma
Huomautus
Opi siirtämään Spark-määritykset Azure Synapse:stä Fabriciin.
Spark-kirjastojen vertailu
Voit käyttää Spark-kirjastoja eri tasoilla:
- Työtilataso: Et voi ladata tai asentaa näitä kirjastoja työtilaasi ja määrittää niitä myöhemmin tiettyyn Spark-varantoon Azure Synapse.
- Ympäristötaso: Voit ladata tai asentaa kirjastoja ympäristöön. Ympäristötason kirjastot ovat käytettävissä kaikissa muistikirjoissa ja ympäristössä suoritettavissa Spark-työmääritelmissä.
- Sisäinen: Ympäristötason kirjastojen lisäksi voit määrittää myös sisäiset kirjastot. Esimerkiksi muistikirjaistunnon alussa.
Huomioon otettavia seikkoja:
Spark-kirjasto | Azure Synapse Spark | Kangas Spark |
---|---|---|
Työtilataso | Kyllä | Ei |
Ympäristötaso | Kyllä, Altaat | Kyllä, ympäristöt |
Tekstiin sidottu | Kyllä | Kyllä |
Tuonti ja vienti | Kyllä | Kyllä |
Ohjelmointirajapinnan/SDK:n tuki | Kyllä | Kyllä |
-
Muita huomioitavia seikkoja:
- Sisäiset kirjastot: Kankaalla ja Azure Synapse on sparkin yhteinen ydin, mutta niiden suorituksenaikaisten kirjastojen tuki eroaa hieman toisistaan. Yleensä koodin käyttäminen on yhteensopiva eräiden poikkeuksien kanssa. Tässä tapauksessa käyttäjät saattavat tarvita kääntämistä, mukautettujen kirjastojen lisäämistä ja syntaksin muokkaamista. Katso sisäiset Fabric Spark -suorituspalvelukirjastot täältä.
Huomautus
Opi siirtämään Azure Synapse Spark-kirjastoja Fabriciin.
Muistikirjavertailu
Muistikirjat ja Spark-työmääritykset ovat ensisijaisia koodikohteita Apache Spark -töiden kehittämiseen Fabricissa. Azure Synapse Spark-muistikirjojen ja Fabric Spark -muistikirjojen välillä on joitakin eroja:
Muistikirjaominaisuus | Azure Synapse Spark | Kangas Spark |
---|---|---|
Tuonti ja vienti | Kyllä | Kyllä |
Istunnon määrittäminen | Kyllä, käyttöliittymä ja sisäinen | Kyllä, käyttöliittymä (ympäristö) ja sisäinen |
IntelliSense | Kyllä | Kyllä |
mssparkutils | Kyllä | Kyllä |
Muistikirjaresurssit | Ei | Kyllä |
Tee yhteistyötä | Ei | Kyllä |
Suuri samanaikaisuus | Ei | Kyllä |
.NET for Spark C# | Kyllä | Ei |
Jakson toimintojen tuki | Kyllä | Kyllä |
Sisäinen ajoitetun suorituksen tuki | Ei | Kyllä |
Ohjelmointirajapinnan/SDK:n tuki | Kyllä | Kyllä |
mssparkutils: Koska DMTS-yhteyksiä ei vielä tueta Fabricissa, vain
getToken
jagetSecret
niitä tuetaan toistaiseksi Kohteessa Fabric formssparkutils.credentials
.Muistikirjojen resurssit: Kangasmuistikirjat tarjoavat Unix-kaltaisen tiedostojärjestelmän, jonka avulla voit hallita kansioita ja tiedostoja. Lisätietoja on artikkelissa Microsoft Fabric -muistikirjojen käyttäminen.
Yhteistyö: Fabric-muistikirja on yhteistyökohde, joka tukee useita käyttäjiä, jotka muokkaavat samaa muistikirjaa. Lisätietoja on artikkelissa Microsoft Fabric -muistikirjojen käyttäminen.
Suuri samanaikaisuus: Fabric-kankaalla voit liittää muistikirjoja suuren samanaikaisuuden istuntoon. Tämä vaihtoehto on vaihtoehto käyttäjille, jotka käyttävät ThreadPoolExecutor-funktiota Azure Synapse. Lisätietoja on kohdassa Suuren samanaikaisuuden tilan määrittäminen Fabric-muistikirjoille.
.NET for Spark C#: Fabric ei tue .NET Sparkiä (C#). Suositus, jonka mukaan käyttäjät, joilla on olemassa olevia kuormituksia, jotka on kirjoitettu C#:lla tai F#:lla, siirtyvät Pythoniin tai Scala.
Sisäänrakennettu ajoitetun suorituksen tuki: Fabric tukee muistikirjojen ajoitettuja suorituksia.
Muita huomioitavia seikkoja:
- Voit käyttää muistikirjassa olevia ominaisuuksia, joita tuetaan vain tietyssä Spark-versiossa. Muista, että Spark 2.4:ää ja 3.1:ää ei tueta Fabricissa.
- Jos muistikirja- tai Spark-työ käyttää linkitettyä palvelua, jossa on eri tietolähdeyhteyksiä tai käyttöönottopisteitä, muokkaa Spark-töitäsi ja käytä vaihtoehtoisia menetelmiä yhteyksien käsittelemiseen ulkoisiin tietolähteisiin ja nieluihin. Käytä Spark-koodia yhteyden muodostamiseen tietolähteisiin käytettävissä olevien Spark-kirjastojen avulla.
Huomautus
Opi siirtämään muistikirjat Azure Synapse:stä Fabriciin.
Spark-määrityksen vertailu
Huomioitavaa Spark-työn määrityksessä :
Spark-työn ominaisuus | Azure Synapse Spark | Kangas Spark |
---|---|---|
PySpark | Kyllä | Kyllä |
Scala | Kyllä | Kyllä |
.NET for Spark C# | Kyllä | Ei |
SparkR | Ei | Kyllä |
Tuonti ja vienti | Kyllä (UI) | Ei |
Jakson toimintojen tuki | Kyllä | Kyllä |
Sisäinen ajoitetun suorituksen tuki | Ei | Kyllä |
Uudelleenyritysten käytännöt | Ei | Kyllä |
Ohjelmointirajapinnan/SDK:n tuki | Kyllä | Kyllä |
Spark-työt: Voit tuoda .py/. R/jar-tiedostot. Kangas tukee SparkR:iä. Spark-työmääritys tukee viitetiedostoja, komentoriviargumentteja, Spark-määrityksiä ja Lakehouse-viittauksia.
Tuonti/vienti: Azure Synapse voit tuoda/viedä json-pohjaisia Spark-työmääritelmiä käyttöliittymästä. Tämä ominaisuus ei ole vielä käytettävissä Fabricissa.
.NET for Spark C#: Fabric ei tue .NET Sparkiä (C#). Suositus on kuitenkin, että käyttäjät, joiden aiemmin luodut kuormitukset on kirjoitettu C#:lla tai F#:lla, siirtyvät Pythoniin tai Scalaan.
Sisäänrakennettu ajoitetun suorituksen tuki: Fabric tukee ajoitettuja suorityksiä Spark-työmääritykselle.
Uudelleenyritysten käytännöt: Tämän asetuksen avulla käyttäjät voivat suorittaa Spark-jäsennettyjä suoratoistotöitä loputtomiin.
Huomautus
Opi siirtämään Spark-työmääritykset Azure Synapse:stä Fabriciin.
Hive Metastore (HMS) -vertailu
Hive MetaStore (HMS) -erot ja huomioitavat asiat:
HMS-tyyppi | Azure Synapse Spark | Kangas Spark |
---|---|---|
Sisäinen HMS | Kyllä | Kyllä (Lakehouse) |
Ulkoinen HMS | Kyllä | Ei |
- Ulkoinen HMS: Fabric ei tällä hetkellä tue hakemiston ohjelmointirajapintaa ja pääsyä ulkoiseen Hive Metastoreen (HMS).
Huomautus
Lue, miten voit siirtää Azure Synapse Spark-hakemiston HMS-metatiedot Fabriciin.
Liittyvä sisältö
- Lue lisätietoja Spark-varannon, määritysten, kirjastojen, muistikirjojen ja Spark-työmääritelmien siirtovaihtoehdoista
- Tietojen ja putkien siirtäminen
- Hive-metasäilön metatietojen siirtäminen