Jaa


Samanaikaisuusrajat ja jonotus Microsoft Fabricin Apache Sparkissä

Koskee seuraavia:✅ Microsoft Fabricin tietotekniikka ja datatiede

Microsoft Fabric mahdollistaa käsittelyyksiköiden varaamisen kapasiteetin kautta. Se on tietty resurssijoukko, joka on käytettävissä tiettynä ajankohtana. Kapasiteetti määrittää resurssin mahdollisuuden suorittaa toiminto tai tuottaa tulosta. Eri kohteet kuluttavat eri kapasiteettia tiettynä ajankohtana. Microsoft Fabric tarjoaa kapasiteettia Fabric-varastointiyksiköiden ja kokeiluversioiden avulla. Lisätietoja on ohjeartikkelissa Mikä on kapasiteetti?.

Kun käyttäjät luovat Microsoft Fabric -kapasiteetin Azuressa, he valitsevat kapasiteetin koon analytiikan kuormituksen koon mukaan. Apache Sparkissä käyttäjät saavat kaksi Apache Spark -näennäisydintä kullekin kapasiteettiyksikölle, jonka he varaavat osana varastointiyksikköään.

Yksi kapasiteettiyksikkö = kaksi Spark-näennäisydintä

Kun järjestelmänvalvojat ovat ostaneet kapasiteetin, he voivat luoda työtiloja Microsoft Fabric -kapasiteetissa. Kapasiteettiin liittyvät Spark-näennäisytimet jaetaan kaikkien niissä luoduissa Apache Spark -pohjaisissa kohteissa, kuten muistikirjoissa, Apache Spark -työmääritelmissä ja näissä työtiloissa luoduissa lakehouseissa.

Samanaikaisuuden rajoittaminen ja jonottaminen

Spark for Fabric käyttää ydinpohjaista rajoittamis- ja jonotusmekanismia, jossa käyttäjät voivat lähettää töitä ostettujen Fabric-kapasiteetin varastointiyksiköiden perusteella. Jonotusmekanismi on yksinkertainen FIFO-pohjainen jono, joka tarkistaa käytettävissä olevat työpaikkapaikat ja tekee työt automaattisesti uudelleen, kun kapasiteetti on tullut saataville. Kun käyttäjät lähettävät muistikirja- tai Lakehouse-töitä, kuten Lataa taulukkoon, kun niiden kapasiteetti on mahdollisimman suuri, koska heillä on samanaikaisia käynnissä olevia töitä, joissa käytetään kaikkia heidän ostamalleen Fabric-kapasiteetin SKU:lle saatavilla olevia Spark-näennäiskoneita, he voivat alkaa käyttää viestiä.

HTTP-vastauskoodi 430: Tätä Spark-työtä ei voi suorittaa, koska spark-käsittely- tai ohjelmointirajapintanopeuden raja on ylittynyt. Jos haluat suorittaa tämän Spark-työn, peruuta aktiivinen Spark-työ valvontakeskuksen kautta tai valitse suurempi kapasiteetti-SKU tai yritä myöhemmin uudelleen.

Kun jonotus on käytössä, jaksoista ja töiden ajoitustoiminnosta käynnistetyt muistikirjatyöt ja Spark-työn määritykset lisätään jonoon ja yritetään automaattisesti uudelleen, kun kapasiteetti vapautetaan. Jonon vanhentuminen on 24 tunnin päässä työn lähettämisajasta. Tämän ajanjakson jälkeen työt on lähetättävä uudelleen.

Fabric-kapasiteetit ovat käytössä purskeella, minkä avulla voit käyttää ylimääräisiä käsittelyytimiä yli sen, mitä on ostettu kuormituksen suorituksen nopeuttamiseksi. Kun Apache Spark -kuormitukset halkeavat, käyttäjät voivat lähettää työpaikkoja, joissa on yhteensä 3x Spark VCoren ostamia.

Muistiinpano

Halkeamakerroin vain lisää Spark-näennäisytimien kokonaismäärää samanaikaisuuden helpottamiseksi, mutta ei kasvata työn enimmäisytimiä. Käyttäjät eivät voi lähettää työtä, joka vaatii enemmän ytimiä kuin Fabric-kapasiteetti tarjoaa.

Seuraavassa osiossa luetellaan useita ydinpohjaisia rajoituksia Microsoft Fabric -kapasiteetin varastointiyksiköihin perustuville Spark-kuormituksille:

Fabric-kapasiteetin SKU Vastaava Power BI -varastointiyksikkö Spark-näennäisytimet Enintään Spark-näennäisytimet ja purskekerroin Jonon rajoitus
F2 - 4 20 4
F4 - 8 24 4
F8 - 16 48 8
F16 - 32 96 16
F32 - 64 192 32
F64 P1 128 384 64
F128 P2 256 768 128
F256 P3 512 1536 256
F512 P4 1024 3072 512
F1024 - 2048 6144 1024
F2048 - 4096 12288 2048
Kokeiluversion kapasiteetti P1 128 128 Ei ole

Esimerkkilaskenta: F64 SKU tarjoaa 128 Spark VCorea. F64-varastointiyksikön purskekerroin on 3, joka antaa yhteensä 384 Spark-näennäisydintä. Purskekerrointa käytetään vain samanaikaisuuden apuna, eikä se lisää yksittäiselle Spark-työlle saatavissa olevia enimmäisytimiä. Tämä tarkoittaa sitä, että yksittäinen muistikirja- tai Spark-työmääritys tai Lakehouse-työ voi käyttää enintään 128 näennäisydintä ja 3 työpaikkaa, joilla on sama määritys, voidaan suorittaa samanaikaisesti. Jos muistikirjoissa käytetään pienempää käsittelymääritystä, ne voidaan suorittaa samanaikaisesti, kunnes suurin käyttö saavuttaa 384 SparkVcore-rajan.

Muistiinpano

Työtöiden jonon vanhentumisaika on 24 tuntia, jonka jälkeen ne on peruutettu, ja käyttäjien on annettava ne uudelleen työn suorittamista varten.

Spark for Fabric -rajoittaminen ei ole pakottanut mielivaltaisia työpohjaisia rajoja, ja rajoittaminen perustuu vain ostetun Fabric-kapasiteetin SKU:n sallittujen ydinten määrään. Työpaikkojen myöntäminen oletuksena on optimistinen sisäänpääsyn hallinta, jossa työt otetaan vastaan minimiytimien vaatimuksen perusteella. Lisätietoja optimistisesta työtilan sisäänpääsystä ja hallinnasta Jos työtilaan on valittu oletusvaranto (Starter Pool), seuraavassa taulukossa on lueteltu samanaikaisuuden enimmäistyörajat.

Lue lisätietoja oletusaloitusvarannon määrityksistä Fabric-kapasiteetin SKU-määritysasetusten perusteella.

Työtaso halkeaa

Järjestelmänvalvojat voivat määrittää Apache Spark -varannot hyödyntääkseen spark-ytimien enimmäiskäyttöä, kun purskekerroin on koko kapasiteetin käytettävissä. Esimerkiksi työtilan järjestelmänvalvoja, jonka työtila on liitetty F64 Fabric -kapasiteettiin, voi nyt määrittää Spark-varannon (aloitusvarannon tai mukautetun varannon) 384 Spark-näennäisyhteyksiin, joissa Starter-altaiden solmujen enimmäismääräksi voidaan määrittää 48 tai järjestelmänvalvojat voivat määrittää XX Large node -kokovarannon, jossa on enintään kuusi solmua.