Režim vysoké souběžnosti v Apache Sparku for Fabric
Režim vysoké souběžnosti umožňuje uživatelům sdílet stejné relace Sparku ve Sparku for Fabric pro úlohy přípravy dat a datových věd. Položka, jako je poznámkový blok, používá ke spuštění standardní relaci Sparku. V režimu vysoké souběžnosti může relace Sparku podporovat nezávislé spouštění více položek v rámci jednotlivých jader repl (read-eval-print), které existují v rámci aplikace Spark. Tato jádra REPL poskytují izolaci pro každou položku a brání přepsání místních proměnných poznámkového bloku proměnnými se stejným názvem z jiných poznámkových bloků, které sdílejí stejnou relaci.
Vzhledem k tomu, že už relace běží, poskytuje uživatelům okamžité prostředí pro spuštění při opakovaném použití relace napříč několika poznámkovými bloky.
Poznámka:
V případě vlastních fondů s režimem vysoké souběžnosti získají uživatelé 36X rychlejší spouštění relací v porovnání se standardní relací Sparku.
Důležité
Mezi podmínky sdílení relací patří:
- Relace by měly být v rámci jedné hranice uživatele.
- Relace by měly mít stejnou výchozí konfiguraci lakehouse.
- Relace by měly mít stejné výpočetní vlastnosti Sparku.
V rámci inicializace relace Sparku se vytvoří jádro REPL. Pokaždé, když nová položka začne sdílet stejnou relaci a exekutory se přidělují spravedlivým způsobem těmto poznámkovým blokům spuštěným v těchto jádrech REPL v aplikaci Spark, aby se zabránilo scénářům hladovění.
Související obsah
- Pokud chcete začít s režimem vysoké souběžnosti v poznámkových blocích, přečtěte si téma Konfigurace režimu vysoké souběžnosti pro poznámkové bloky Fabric.