Doporučení pro konfiguraci výpočetních prostředků
Tento článek obsahuje doporučení a osvědčené postupy související s konfigurací výpočetních prostředků.
Pokud je vaše úloha podporovaná, Databricks doporučuje místo konfigurace vlastního výpočetního prostředku používat bezserverové výpočetní prostředky. Bezserverové výpočetní prostředky jsou nejjednodušší a nejspolehlivější možností výpočetních prostředků. Nevyžaduje žádnou konfiguraci, je vždy dostupná a škáluje se podle vašich úloh. Výpočetní prostředí bez serveru je k dispozici pro poznámkové bloky, úlohy a DLT. Viz Připojení k výpočetním prostředkům bez serveru.
Datoví analytici navíc můžou k dotazování a zkoumání dat v Databricks používat bezserverové sklady SQL. Podívejte se, co jsou bezserverové sklady SQL?
Použití zásad výpočtů
Pokud vytváříte nové výpočetní prostředky úplně od začátku, databricks doporučuje používat zásady výpočetních prostředků. Zásady výpočetních prostředků umožňují vytvářet předem nakonfigurované výpočetní prostředky navržené pro konkrétní účely, jako jsou osobní výpočetní prostředky, sdílené výpočetní prostředky, výkonní uživatelé a úlohy. Zásady omezují rozhodnutí, která musíte provést při konfiguraci nastavení výpočetních prostředků.
Pokud nemáte přístup k zásadám, obraťte se na správce pracovního prostoru. Viz Výchozí zásady a rodiny zásad.
Úvahy o velikosti výpočetních prostředků
Poznámka:
Následující doporučení předpokládají, že máte neomezené vytváření clusteru. Správci pracovních prostorů by toto oprávnění měli udělit jenom pokročilým uživatelům.
Lidé často uvažují o velikosti výpočetních prostředků z hlediska počtu pracovníků, ale je potřeba vzít v úvahu i další důležité faktory:
- Celkový počet jader (výpočet) napříč všemi exekutory. Určuje maximální paralelismus výpočtu.
- Celková paměť exekutoru: Celková velikost paměti RAM napříč všemi exekutory. Určuje, kolik dat může být uloženo v paměti před jejich přelitím na disk.
- Místní úložiště exekutoru: Typ a množství místního diskového úložiště. Místní disk se primárně používá v případě přelití během náhodného prohazování a ukládání do mezipaměti.
Mezi další aspekty patří typ a velikost instance pracovního procesu, které také ovlivňují výše uvedené faktory. Při nastavování velikosti výpočetních prostředků zvažte:
- Kolik dat bude vaše úloha spotřebovávat?
- Jaká je výpočetní složitost vaší úlohy?
- Odkud čtete data?
- Jak jsou data rozdělená do externího úložiště?
- Kolik paralelismu potřebujete?
Zodpovězení těchto otázek vám pomůže určit optimální konfigurace výpočetních prostředků na základě úloh.
Existuje vyrovnávání mezi počtem pracovních procesů a velikostí typů instancí pracovního procesu. Konfigurace výpočetních prostředků se dvěma pracovními procesy, z nichž každý má 16 jader a 128 GB paměti RAM, stejný výpočetní výkon a paměť jako konfigurace výpočetních prostředků s 8 pracovními procesy, každý se 4 jádry a 32 GB paměti RAM.
Příklady konfigurace výpočetních prostředků
Následující příklady ukazují doporučení výpočetních prostředků na základě konkrétních typů úloh. Mezi tyto příklady patří také konfigurace, které se mají vyhnout a proč tyto konfigurace nejsou vhodné pro typy úloh.
Poznámka:
Všechny příklady v této části (kromě trénování strojového učení) můžou těžit z použití bezserverového výpočetního výkonu místo toho, aby se roztáčel nový výpočetní prostředek. Pokud vaše úloha není podporovaná na bezserverové platformě, použijte následující doporučení ke konfiguraci výpočetního prostředku.
Analýza dat
Datoví analytici obvykle provádějí zpracování vyžadující data z více oddílů, což vede k mnoha operacím přeskládání. Výpočetní prostředek s menším počtem větších uzlů může snížit potřebu síťových a diskových I/O operací potřebných k provedení těchto prohození.
Výpočetní prostředky s jedním uzlem s velkým typem virtuálního počítače jsou pravděpodobně nejlepší volbou, zejména pro jednoho analytika.
Analytické úlohy budou pravděpodobně vyžadovat opakované čtení stejných dat, takže doporučené typy uzlů jsou úložiště optimalizované s povolenou mezipamětí disku nebo instancemi s místním úložištěm.
Mezi další funkce doporučené pro analytické úlohy patří:
- Povolte automatické ukončení, abyste zajistili ukončení výpočetních prostředků po určité době nečinnosti.
- Zvažte povolení automatického škálování na základě typické úlohy analytika.
Základní dávka ETL
Jednoduché dávkové úlohy ETL, které nevyžadují rozsáhlé transformace, jako jsou spojení nebo agregace, obvykle využívají Photon. Proto vyberte instanci pro obecné účely, která podporuje Photon.
Instance s nižšími požadavky na paměť a úložiště můžou vést k úsporám nákladů oproti jiným typům pracovních procesů.
Komplexní dávkové ETL
V případě komplexní úlohy ETL, jako je úloha, která vyžaduje sjednocení a spojení napříč více tabulkami, Databricks doporučuje použít méně pracovních procesů ke snížení množství přesouvaných dat. Pokud chcete kompenzovat menší počet workerů, zvětšete velikost vašich instancí.
Složité transformace můžou být náročné na výpočetní výkon. Pokud zaznamenáte významné přelití na disk nebo chyby OOM, zvyšte množství paměti dostupné ve vašich instancích.
Volitelně můžete použít fondy ke snížení časů spuštění výpočetních úloh a zkrátit celkovou dobu běhu při spouštění potrubí úloh.
Trénování modelů strojového učení
K trénování modelů strojového učení doporučuje Databricks vytvořit výpočetní prostředek pomocí zásad osobních výpočetních prostředků .
Pro počáteční experimentování s trénovacími modely strojového učení byste měli použít výpočetní prostředky s jedním uzlem s velkým typem uzlu. Menší počet uzlů snižuje dopad přeskupování.
Přidání více pracovníků může pomoct se stabilitou, ale měli byste se vyhnout přidávání příliš mnoha pracovníků kvůli režii spojené s přesouváním dat.
Doporučené typy pracovních procesů jsou úložiště optimalizované s povoleným ukládáním do mezipaměti na disku nebo instanci s místním úložištěm, která umožňuje opakované čtení stejných dat a ukládání trénovacích dat do mezipaměti.
Mezi další funkce doporučené pro úlohy strojového učení patří:
- Povolte automatické ukončení, abyste zajistili ukončení výpočetních prostředků po určité době nečinnosti.
- Použijte fondy, které umožní omezit výpočetní prostředky na předem schválený typ instance.
- Zajistěte konzistentní konfigurace výpočetních prostředků pomocí zásad.