Konfigurace fondu Apache Sparku ve službě Azure Synapse Analytics
Fond Sparku je sada metadat, která definují požadavky na výpočetní prostředky a přidružené charakteristiky chování při vytvoření instance instance Sparku. Mezi tyto charakteristiky patří název, počet uzlů, velikost uzlu, chování škálování a doba provozu. Samotný fond Sparku nevyužívají žádné prostředky. Vytváření fondů Sparku neúčtují žádné náklady. Poplatky se účtují až po provedení úlohy Spark na cílovém fondu úloh Spark a vytvoření instance Spark na vyžádání.
Tady si můžete přečíst, jak vytvořit fond Sparku a zobrazit všechny jejich vlastnosti v tématu Začínáme s fondy Sparku ve službě Synapse Analytics.
Izolované výpočetní prostředky
Možnost Izolované výpočetní prostředky poskytuje větší zabezpečení výpočetních prostředků Sparku z nedůvěryhodných služeb tím, že fyzické výpočetní prostředky oddělí jednomu zákazníkovi. Izolovaná výpočetní možnost je nejvhodnější pro úlohy, které vyžadují vysokou míru izolace od úloh jiných zákazníků z důvodů, které zahrnují splnění požadavků na dodržování předpisů a zákonné požadavky. Možnost Izolované výpočetní prostředky je k dispozici pouze s velikostí uzlu XXXLarge (80 vCPU / 504 GB) a k dispozici pouze v následujících oblastech. Možnost izolovaného výpočetního prostředí je možné povolit nebo zakázat po vytvoření fondu, i když může být potřeba restartovat instanci. Pokud očekáváte, že tuto funkci v budoucnu povolíte, ujistěte se, že se váš pracovní prostor Synapse vytvoří v izolované podporované oblasti výpočetních prostředků.
- USA – východ
- Západní USA 2
- Středojižní USA
- US Gov – Arizona
- US Gov – Virginie
Uzly
Instance fondu Apache Spark se skládá z jednoho hlavního uzlu a dvou nebo více pracovních uzlů s minimálně třemi uzly v instanci Sparku. Hlavní uzel spouští další služby pro správu, jako je Livy, Yarn Resource Manager, Zookeeper a ovladač Spark. Všechny uzly spouštějí služby, jako je agent node a Yarn Node Manager. Všechny pracovní uzly spouští službu Spark Executor.
Velikosti uzlů
Fond Sparku je možné definovat s velikostmi uzlů v rozsahu od malého výpočetního uzlu se 4 virtuálními jádry a 32 GB paměti až do výpočetního uzlu XXLarge s 64 virtuálními jádry a 432 GB paměti na uzel. Velikosti uzlů je možné po vytvoření fondu změnit, i když může být potřeba restartovat instanci.
Velikost | Virtuální jádro | Memory (Paměť) |
---|---|---|
Malá | 4 | 32 GB |
Střední | 8 | 64 GB |
Velká | 16 | 128 GB |
XLarge | 32 | 256 GB |
XXLarge | 64 | 432 GB |
XXX Large (izolované výpočty) | 80 | 504 GB |
Automatické škálování
Automatické škálování fondů Apache Spark umožňuje automatické vertikální navýšení a snížení kapacity výpočetních prostředků na základě množství aktivity. Když je funkce automatického škálování povolená, nastavíte minimální a maximální počet uzlů, které se mají škálovat. Když je funkce automatického škálování zakázaná, počet uzlů zůstane pevný. Toto nastavení lze po vytvoření fondu změnit, i když může být nutné restartovat instanci.
Úložiště elastického fondu
Fondy Apache Sparku teď podporují úložiště elastického fondu. Úložiště elastického fondu umožňuje modulu Spark monitorovat dočasné úložiště pracovních uzlů a v případě potřeby připojit další disky. Fondy Apache Sparku využívají dočasné diskové úložiště při vytváření instancí fondu. Úlohy Sparku zapisují výstupy mapování náhodného prohazování, prohazování dat a přelévání dat na místní disky virtuálních počítačů. Příklady operací, které by mohly využívat místní disk, jsou řazení, ukládání do mezipaměti a trvalé. Pokud dojde k vyčerpání dočasného místa na disku virtuálního počítače, úlohy Sparku můžou selhat kvůli chybě Nedostatek místa na disku (java.io.IOException: Na zařízení nezůstalo žádné místo). Při chybách Nedostatek místa na disku je velká část zátěže, která brání selhání úloh zákazníkovi, aby překonfigurovat úlohy Sparku (například upravit počet oddílů) nebo clusterů (například přidat do clusteru další uzly). Tyto chyby nemusí být konzistentní a uživatel může do značné míry experimentovat spouštěním produkčních úloh. Tento proces může být pro uživatele nákladný v několika dimenzích:
- Promarněný čas. Zákazníci se musí intenzivně experimentovat s konfiguracemi úloh prostřednictvím zkušební verze a chyby a očekává se, že pochopí interní metriky Sparku, aby se správně rozhodli.
- Plýtvání zdroji. Vzhledem k tomu, že produkční úlohy můžou zpracovávat různá množství dat, můžou úlohy Sparku selhat nedeterministicky, pokud nejsou prostředky příliš zřízené. Představte si například problém nerovnoměrné distribuce dat, což může vést k tomu, že několik uzlů vyžaduje více místa na disku než jiné. V současné době v Synapse každý uzel v clusteru získá stejnou velikost místa na disku a zvýšení místa na disku ve všech uzlech není ideálním řešením a vede k obrovskému plýtvání.
- Zpomalení při provádění úlohy V hypotetické situaci, kdy problém řešíme automatickým škálováním uzlů (za předpokladu, že náklady nejsou problémem pro koncového zákazníka), je přidání výpočetního uzlu stále nákladné (trvá několik minut) místo přidání úložiště (trvá několik sekund).
Vy nemusíte provádět žádnou akci a v důsledku toho byste měli vidět méně selhání úloh.
Poznámka:
Úložiště elastického fondu Azure Synapse je aktuálně ve verzi Public Preview. Ve verzi Public Preview se neúčtují žádné poplatky za použití úložiště elastického fondu.
Automatické pozastavení
Funkce automatického pozastavení uvolní prostředky po nastavené době nečinnosti, což snižuje celkové náklady na fond Apache Spark. Po povolení této funkce je možné nastavit počet minut nečinnosti. Funkce automatického pozastavení je nezávislá na funkci automatického škálování. Prostředky je možné pozastavit bez ohledu na to, jestli je povolené nebo zakázané automatické škálování. Toto nastavení je možné po vytvoření fondu změnit, i když je potřeba restartovat aktivní relace.