Samtidighetsgrenser og kø i Apache Spark for Microsoft Fabric

Artikkel
06/13/2024

Gjelder for:✅ Dataingeniør ing og datavitenskap i Microsoft Fabric

Microsoft Fabric tillater tildeling av databehandlingsenheter gjennom kapasitet, som er et dedikert sett med ressurser som er tilgjengelig på et gitt tidspunkt som skal brukes. Kapasitet definerer en ressurss mulighet til å utføre en aktivitet eller produsere utdata. Ulike elementer bruker forskjellig kapasitet på et bestemt tidspunkt. Microsoft Fabric tilbyr kapasitet gjennom Fabric SKU-er og prøveversjoner. Hvis du vil ha mer informasjon, kan du se Hva er kapasitet?.

Når brukere oppretter en Microsoft Fabric-kapasitet på Azure, velger de en kapasitetsstørrelse basert på arbeidsbelastningsstørrelsen for analyser. I Apache Spark får brukerne to Apache Spark VCores for hver kapasitetsenhet de reserverer som en del av SKU-en.

Én kapasitetsenhet = to Spark VCores

Når de har kjøpt kapasiteten, kan administratorer opprette arbeidsområder i kapasiteten i Microsoft Fabric. Spark VCores som er knyttet til kapasiteten, deles mellom alle Apache Spark-baserte elementer som notatblokker, Apache Spark-jobbdefinisjoner og lakehouses som er opprettet i disse arbeidsområdene.

Samtidighetsbegrensning og kø

Spark for Fabric håndhever en kjernebasert begrensnings- og kømekanisme, der brukere kan sende inn jobber basert på de kjøpte fabric-kapasitets-SKU-ene. Kømekanismen er en enkel FIFO-basert kø, som ser etter tilgjengelige jobbspor og automatisk sender jobbene på nytt når kapasiteten er blitt tilgjengelig. Når brukere sender inn notatblokk- eller lakehouse-jobber som Load to Table når kapasiteten er på sitt maksimale utnyttelse på grunn av samtidige kjørejobber ved hjelp av alle Spark Vcores som er tilgjengelige for SKU-en for den kjøpte Fabric-kapasiteten, blir de begrenset med meldingen

HTTP-svarkode 430: Denne Spark-jobben kan ikke kjøres fordi du har nådd en Spark-databehandlings- eller API-rentegrense. Hvis du vil kjøre spark-jobben, må du avbryte en aktiv Spark-jobb gjennom overvåkingshuben, eller velge en større kapasitets-SKU eller prøve på nytt senere.

Når køaktivering er aktivert, legges notatblokkjobber utløst fra datasamlebånd og jobbplanlegger og Spark-jobbdefinisjoner til i køen og prøves automatisk på nytt når kapasiteten frigjøres. Utløpsdatoen for køen er satt til 24 timer fra innsendingstiden for jobben. Etter denne perioden må jobbene sendes inn på nytt.

Stoffkapasiteter er aktivert med sprengning, noe som gjør at du kan bruke ekstra databehandlingskjerner utover det som er kjøpt for å øke hastigheten på utførelsen av en arbeidsbelastning. For Apache Spark-arbeidsbelastninger kan brukere sende inn jobber med totalt 3X Spark VCores kjøpt.

Merk

Den sprengende faktoren øker bare det totale antallet Spark VCores for å hjelpe til med samtidigheten, men øker ikke de maksimale kjernene per jobb. Brukere kan ikke sende inn en jobb som krever flere kjerner enn hva fabric-kapasiteten tilbyr.

Den følgende delen viser ulike kjernebaserte grenser for Spark-arbeidsbelastninger basert på SKU-er med Microsoft Fabric-kapasitet:

SKU for stoffkapasitet	Tilsvarende Power BI SKU	Spark VCores	Max Spark VCores med burst-faktor	Køgrense
F2	-	4	20	4
F4	-	8	24	4
F8	-	16	48	8
F16	-	32	96	16
F32	-	64	192	32
F64	P1	128	384	64
F128	P2	256	768	128
F256	P3	512	1536	256
F512	P4	1024	3072	512
F1024	-	2048	6144	1024
F2048	-	4096	12288	2048
Prøveversjonskapasitet	P1	128	128	Ikke tilgjengelig

Eksempelberegning: F64 SKU tilbyr 128 Spark VCores. Burst-faktoren som brukes for en F64 SKU er 3, noe som gir totalt 384 Spark Vcores. Burst-faktoren brukes bare for å hjelpe med samtidighet og øker ikke de maksimale kjernene som er tilgjengelige for en enkelt Spark-jobb. Det betyr at én enkelt notatblokk- eller Spark-jobbdefinisjon eller lakehouse-jobb kan bruke en utvalgskonfigurasjon på maksimalt 128 vCores og 3 jobber med samme konfigurasjon kan kjøres samtidig. Hvis notatblokker bruker en mindre databehandlingskonfigurasjon, kan de kjøres samtidig til maksimal utnyttelse når 384 SparkVcore-grensen.

Merk

Jobbene har en utløpsperiode for kø på 24 timer, hvoretter de avbrytes, og brukerne må sende dem inn på nytt for jobbkjøring.

Spark for Fabric-begrensning har ikke håndhevet vilkårlige jobbbaserte grenser, og begrensningen er bare basert på antall kjerner som er tillatt for den kjøpte Fabric-kapasitets-SKU-en. Jobbopptaket som standard vil være en optimistisk opptakskontroll, hvor jobbene tas opp basert på deres minimumskrav til kjerner. Mer informasjon om optimistisk jobbopptak Jobbopptak og administrasjon Hvis standardutvalget (Startutvalg)-alternativet er valgt for arbeidsområdet, viser tabellen nedenfor de maksimale jobbgrensene for samtidighet.

Mer informasjon om standard konfigurasjoner for startutvalg basert på SKU for stoffkapasitetKonfigurerer startutvalg.

Sprekker på jobbnivå

Administratorer kan konfigurere Apache Spark-bassengene sine til å bruke de maksimale Spark-kjernene med burst-faktor som er tilgjengelig for hele kapasiteten. En arbeidsområdeadministrator som for eksempel har arbeidsområdet knyttet til en F64 Fabric-kapasitet, kan nå konfigurere Spark-utvalget (starterutvalget eller det egendefinerte utvalget) til 384 Spark VCores, der maksimalt antall noder i Starter-bassenger kan settes til 48, eller administratorer kan konfigurere et utvalg med XX-størrelse med 6 maksimale noder.

Kom i gang med administrasjonsinnstillinger for Apache Spark-arbeidsområdet i Microsoft Fabric.
Finn ut mer om Apache Spark-databehandlingen for datateknikk og datavitenskapsopplevelser i Fabric .

Del via

Samtidighetsgrenser og kø i Apache Spark for Microsoft Fabric

Samtidighetsbegrensning og kø

Sprekker på jobbnivå

Tilbakemeldinger

Flere ressurser

Del via

Samtidighetsgrenser og kø i Apache Spark for Microsoft Fabric

Samtidighetsbegrensning og kø

Sprekker på jobbnivå

Relatert innhold

Tilbakemeldinger

Flere ressurser