Co je výpočetní prostředí Apache Spark v Microsoft Fabricu?
Platí pro:✅ Datoví technici ing a Datová Věda v Microsoft Fabric
Prostředí Microsoft Fabric Datoví technici a Datová Věda fungují na plně spravované výpočetní platformě Apache Spark. Tato platforma je navržená tak, aby poskytovala jedinečnou rychlost a efektivitu. U počátečních fondů můžete očekávat rychlé inicializace relace Apache Sparku, obvykle do 5 až 10 sekund, bez nutnosti ručního nastavení. Získáte také flexibilitu při přizpůsobení fondů Apache Sparku podle vašich specifických požadavků na datové vědy a datové vědy. Platforma umožňuje optimalizované a přizpůsobené analytické prostředí. Stručně řečeno, počáteční fond představuje rychlý způsob použití předem nakonfigurovaného Sparku, zatímco fond Spark nabízí přizpůsobení a flexibilitu.
Úvodní fondy
Úvodní fondy představují rychlý a snadný způsob použití Sparku na platformě Microsoft Fabric během několika sekund. Relace Sparku můžete hned používat, a nemusíte čekat, až Spark nastaví uzly za vás, což vám pomůže s daty dělat víc a rychleji získat přehledy.
Úvodní fondy mají clustery Apache Spark, které jsou vždy zapnuté a připravené pro vaše požadavky. Používají střední uzly, které se dynamicky škálují na základě vašich potřeb úloh Sparku.
Úvodní fondy mají také výchozí nastavení, která umožňují rychle instalovat knihovny, aniž by se zpomalovaly čas spuštění relace. Pokud ale chcete použít další vlastní vlastnosti Nebo knihovny Apache Sparku z vašeho pracovního prostoru nebo nastavení kapacity, trvá spark déle, než získá uzly za vás. Pokud jde o fakturaci a spotřebu kapacity, účtuje se vám spotřeba kapacity při spuštění poznámkového bloku nebo definice úlohy Apache Spark. Za dobu nečinnosti clusterů ve fondu se vám neúčtují poplatky.
Pokud například odešlete úlohu poznámkového bloku do počátečního fondu, účtuje se vám jenom časové období, ve kterém je relace poznámkového bloku aktivní. Fakturovaný čas nezahrnuje dobu nečinnosti ani čas potřebný k přizpůsobení relace s kontextem Sparku.
Fondy úloh Sparku
Fond Sparku je způsob, jak sparku sdělit, jaký druh prostředků potřebujete pro úlohy analýzy dat. Fond Sparku můžete pojmenovat a zvolit, kolik a kolik uzlů (počítačů, které dělají práci) jsou. Sparku také můžete říct, jak upravit počet uzlů v závislosti na tom, kolik práce máte. Vytvoření fondu Sparku je zdarma; platíte jenom v případě, že ve fondu spustíte úlohu Sparku a pak Spark nastaví uzly za vás.
Pokud fond Sparku nepoužíváte 2 minuty po vypršení platnosti relace, váš fond Sparku se uvolní. Toto výchozí časové období vypršení platnosti relace je nastavené na 20 minut a pokud chcete, můžete ho změnit. Pokud jste správcem pracovního prostoru, můžete také vytvořit vlastní fondy Sparku pro váš pracovní prostor a nastavit je jako výchozí pro ostatní uživatele. Díky tomu můžete ušetřit čas a vyhnout se nastavení nového fondu Spark při každém spuštění poznámkového bloku nebo úlohy Sparku. Spuštění vlastních fondů Sparku trvá přibližně tři minuty, protože Spark musí získat uzly z Azure.
Můžete dokonce vytvořit fondy Spark s jedním uzlem nastavením minimálního počtu uzlů na jeden, takže ovladač a exekutor běží v jednom uzlu, který je součástí obnovitelné vysoké dostupnosti a je vhodný pro malé úlohy.
Velikost a počet uzlů, které můžete mít ve vlastním fondu Sparku, závisí na vaší kapacitě Microsoft Fabric. Kapacita je míra výpočetního výkonu, který můžete použít v Azure. Jedním ze způsobů, jak si to představit, je, že dvě virtuální jádra Apache Sparku (jednotka výpočetního výkonu Sparku) se rovná jedné kapacitní jednotce.
Poznámka:
V Apache Sparku uživatelé získají dvě virtuální jádra Apache Sparku pro každou jednotku kapacity, kterou si rezervují jako součást své skladové položky. Jedna jednotka kapacity = dvě virtuální jádra Sparku, takže F64 => 128 virtuálních jader Sparku a na kterých se použije 3x burstový násobitel, který poskytuje celkem 384 virtuálních jader Sparku
Skladová položka kapacity Infrastruktury F64 má například 64 jednotek kapacity, což odpovídá 384 virtuálním jádrům Sparku (64 × 2 × 3X Burst Multiplier). Pomocí těchto virtuálních jader Sparku můžete vytvořit uzly různých velikostí pro vlastní fond Sparku, pokud celkový počet virtuálních jader Sparku nepřekračuje 384.
Fondy Sparku se účtují jako počáteční fondy; Za vlastní fondy Sparku, které jste vytvořili, neplatíte, pokud nemáte vytvořenou aktivní relaci Sparku pro spuštění poznámkového bloku nebo definice úlohy Sparku. Účtuje se vám jenom doba trvání spuštění úlohy. Po dokončení úlohy se vám neúčtují fáze, jako je vytvoření clusteru a uvolnění.
Pokud například odešlete úlohu poznámkového bloku do vlastního fondu Sparku, bude se vám účtovat jenom časové období, kdy je relace aktivní. Fakturace pro danou relaci poznámkového bloku se zastaví, jakmile se relace Sparku zastaví nebo vyprší jeho platnost. Za dobu potřebnou k získání instancí clusteru z cloudu ani za dobu potřebnou k inicializaci kontextu Sparku se vám neúčtují poplatky.
Možné vlastní konfigurace fondu pro F64 na základě předchozího příkladu:
Skladová položka kapacity infrastruktury | Jednotky kapacity | Maximální Spark VCores s faktorem burstu | Velikost uzlu | Maximální počet uzlů |
---|---|---|---|---|
F64 | 64 | 384 | Malá | 96 |
F64 | 64 | 384 | Střední | 48 |
F64 | 64 | 384 | Velká | 24 |
F64 | 64 | 384 | X -Large | 12 |
F64 | 64 | 384 | XX-Large | 6 |
Poznámka:
Pokud chcete vytvořit vlastní fondy, potřebujete oprávnění správce pro pracovní prostor. A správce kapacity Microsoft Fabric musí udělit oprávnění, aby správci pracovního prostoru mohli měnit velikost vlastních fondů Sparku. Další informace najdete v tématu Začínáme s vlastními fondy Sparku v prostředcích infrastruktury.
Uzly
Instance fondu Apache Spark se skládá z jednoho hlavního uzlu a pracovních uzlů, může v instanci Sparku spustit minimálně jeden uzel. Hlavní uzel spouští další služby pro správu, jako jsou Livy, Yarn Resource Manager, Zookeeper a ovladač Apache Spark. Všechny uzly spouštějí služby, jako je agent node a Yarn Node Manager. Všechny pracovní uzly spouští službu Apache Spark Executor.
Velikosti uzlů
Fond Sparku je možné definovat s velikostmi uzlů v rozsahu od malého výpočetního uzlu (se 4 virtuálními jádry a 32 GB paměti) až po dvojitý velký výpočetní uzel (s 64 virtuálními jádry a 512 GB paměti na uzel). Velikosti uzlů je možné po vytvoření fondu změnit, i když by se aktivní relace musela restartovat.
Velikost | Virtuální jádro | Memory (Paměť) |
---|---|---|
Malá | 4 | 32 GB |
Střední | 8 | 64 GB |
Velká | 16 | 128 GB |
X -Large | 32 | 256 GB |
XX-Large | 64 | 512 GB |
Poznámka:
Velikosti uzlů X-Large a XX-Large jsou povoleny pouze pro skladové položky prostředků infrastruktury, které nejsou zkušební.
Automatické škálování
Automatické škálování fondů Apache Spark umožňuje automatické vertikální navýšení a snížení kapacity výpočetních prostředků na základě množství aktivity. Když povolíte funkci automatického škálování, nastavíte minimální a maximální počet uzlů, které se mají škálovat. Když funkci automatického škálování zakážete, počet nastavených uzlů zůstane pevný. Toto nastavení můžete po vytvoření fondu změnit, i když možná budete muset instanci restartovat.
Poznámka:
Ve výchozím nastavení je spark.yarn.executor.decommission.enabled nastaven na hodnotu true a umožňuje automatické vypnutí nevyužitých uzlů za účelem optimalizace efektivity výpočetních prostředků. Pokud je upřednostňované méně agresivní vertikální snížení kapacity, může být tato konfigurace nastavená na false.
Dynamické přidělování
Dynamické přidělování umožňuje aplikaci Apache Spark požadovat více exekutorů, pokud úlohy překračují zatížení, které můžou aktuální exekutory nést. Po dokončení úloh také uvolní exekutory a pokud se aplikace Spark přesune do stavu nečinnosti. Podnikoví uživatelé často obtížně ladí konfigurace exekutoru, protože se výrazně liší v různých fázích procesu provádění úloh Sparku. Tyto konfigurace jsou také závislé na objemu zpracovaných dat, které se mění od času do času. Jako součást konfigurace fondu můžete povolit dynamické přidělování exekutorů, což umožňuje automatické přidělování exekutorů do aplikace Spark na základě uzlů dostupných ve fondu Spark.
Když povolíte možnost dynamického přidělování pro každou odeslanou aplikaci Spark, systém si během kroku odeslání úlohy rezervuje exekutory na základě minimálních uzlů. Zadáte maximální počet uzlů pro podporu úspěšných scénářů automatického škálování.