Režim vysoké souběžnosti v Apache Sparku for Fabric

Článek
06/29/2024

Režim vysoké souběžnosti umožňuje uživatelům sdílet stejné relace Sparku ve Sparku for Fabric pro úlohy přípravy dat a datových věd. Položka, jako je poznámkový blok, používá ke spuštění standardní relaci Sparku. V režimu vysoké souběžnosti může relace Sparku podporovat nezávislé spouštění více položek v rámci jednotlivých jader repl (read-eval-print), které existují v rámci aplikace Spark. Tato jádra REPL poskytují izolaci pro každou položku a brání přepsání místních proměnných poznámkového bloku proměnnými se stejným názvem z jiných poznámkových bloků, které sdílejí stejnou relaci.

Vzhledem k tomu, že už relace běží, poskytuje uživatelům okamžité prostředí pro spuštění při opakovaném použití relace napříč několika poznámkovými bloky.

Poznámka:

V případě vlastních fondů s režimem vysoké souběžnosti získají uživatelé 36X rychlejší spouštění relací v porovnání se standardní relací Sparku.

Důležité

Mezi podmínky sdílení relací patří:

Relace by měly být v rámci jedné hranice uživatele.
Relace by měly mít stejnou výchozí konfiguraci lakehouse.
Relace by měly mít stejné výpočetní vlastnosti Sparku.

V rámci inicializace relace Sparku se vytvoří jádro REPL. Pokaždé, když nová položka začne sdílet stejnou relaci a exekutory se přidělují spravedlivým způsobem těmto poznámkovým blokům spuštěným v těchto jádrech REPL v aplikaci Spark, aby se zabránilo scénářům hladovění.

Pokud chcete začít s režimem vysoké souběžnosti v poznámkových blocích, přečtěte si téma Konfigurace režimu vysoké souběžnosti pro poznámkové bloky Fabric.

Sdílet prostřednictvím

Režim vysoké souběžnosti v Apache Sparku for Fabric

Váš názor

Další materiály

Sdílet prostřednictvím

Režim vysoké souběžnosti v Apache Sparku for Fabric

Související obsah

Váš názor

Další materiály