Sdílet prostřednictvím


Doporučení pro konfiguraci výpočetních prostředků

Tento článek obsahuje doporučení a osvědčené postupy související s konfigurací výpočetních prostředků.

Pokud je vaše úloha podporovaná, Databricks doporučuje místo konfigurace vlastního výpočetního prostředku používat bezserverové výpočetní prostředky. Bezserverové výpočetní prostředky jsou nejjednodušší a nejspolehlivější možností výpočetních prostředků. Nevyžaduje žádnou konfiguraci, je vždy dostupná a škáluje se podle vašich úloh. Výpočetní prostředí bez serveru je k dispozici pro poznámkové bloky, úlohy a tabulky Delta Live. Viz Připojení k výpočetním prostředkům bez serveru.

Datoví analytici navíc můžou k dotazování a zkoumání dat v Databricks používat bezserverové sklady SQL. Podívejte se, co jsou bezserverové sklady SQL?

Použití zásad výpočetních prostředků

Pokud vytváříte nové výpočetní prostředky úplně od začátku, databricks doporučuje používat zásady výpočetních prostředků. Zásady výpočetních prostředků umožňují vytvářet předem nakonfigurované výpočetní prostředky navržené pro konkrétní účely, jako jsou osobní výpočetní prostředky, sdílené výpočetní prostředky, výkonní uživatelé a úlohy. Zásady omezují rozhodnutí, která musíte provést při konfiguraci nastavení výpočetních prostředků.

Pokud nemáte přístup k zásadám, obraťte se na správce pracovního prostoru. Viz Výchozí zásady a rodiny zásad.

Důležité informace o velikosti výpočetních prostředků

Poznámka:

Následující doporučení předpokládají, že máte neomezené vytváření clusteru. Správci pracovních prostorů by toto oprávnění měli udělit jenom pokročilým uživatelům.

Lidé často uvažují o velikosti výpočetních prostředků z hlediska počtu pracovníků, ale je potřeba vzít v úvahu i další důležité faktory:

  • Total Executor cores (compute): Celkový počet jader napříč všemi exekutory. Určuje maximální paralelismus výpočetních prostředků.
  • Celková paměť exekutoru: Celková velikost paměti RAM napříč všemi exekutory. Určuje, kolik dat může být uloženo v paměti před jejich přelitím na disk.
  • Místní úložiště exekutoru: Typ a množství místního diskového úložiště. Místní disk se primárně používá v případě přelití během náhodného prohazování a ukládání do mezipaměti.

Mezi další aspekty patří typ a velikost instance pracovního procesu, které také ovlivňují výše uvedené faktory. Při nastavování velikosti výpočetních prostředků zvažte:

  • Kolik dat bude vaše úloha spotřebovávat?
  • Jaká je výpočetní složitost vaší úlohy?
  • Odkud čtete data?
  • Jak jsou data rozdělená do externího úložiště?
  • Kolik paralelismu potřebujete?

Zodpovězení těchto otázek vám pomůže určit optimální konfigurace výpočetních prostředků na základě úloh.

Existuje vyrovnávání mezi počtem pracovních procesů a velikostí typů instancí pracovního procesu. Konfigurace výpočetních prostředků se dvěma pracovními procesy, z nichž každý má 16 jader a 128 GB paměti RAM, stejný výpočetní výkon a paměť jako konfigurace výpočetních prostředků s 8 pracovními procesy, každý se 4 jádry a 32 GB paměti RAM.

Příklady konfigurace výpočetních prostředků

Následující příklady ukazují doporučení výpočetních prostředků na základě konkrétních typů úloh. Mezi tyto příklady patří také konfigurace, které se mají vyhnout a proč tyto konfigurace nejsou vhodné pro typy úloh.

Poznámka:

Všechny příklady v této části (kromě trénování strojového učení) můžou těžit z použití bezserverového výpočetního výkonu místo toho, aby se roztáčel nový výpočetní prostředek. Pokud vaše úloha není podporovaná na bezserverové platformě, použijte následující doporučení ke konfiguraci výpočetního prostředku.

Analýza dat

Datoví analytici obvykle provádějí zpracování vyžadující data z více oddílů, což vede k mnoha operacím náhodného prohazování. Výpočetní prostředek s menším počtem větších uzlů může snížit počet vstupně-výstupních operací sítě a disku potřebných k provedení těchto náhodného prohazování.

Výpočetní prostředky s jedním uzlem s velkým typem virtuálního počítače jsou pravděpodobně nejlepší volbou, zejména pro jednoho analytika.

Analytické úlohy budou pravděpodobně vyžadovat opakované čtení stejných dat, takže doporučené typy uzlů jsou úložiště optimalizované s povolenou mezipamětí disku nebo instancemi s místním úložištěm.

Mezi další funkce doporučené pro analytické úlohy patří:

  • Povolte automatické ukončení, abyste zajistili ukončení výpočetních prostředků po určité době nečinnosti.
  • Zvažte povolení automatického škálování na základě typické úlohy analytika.

Základní dávka ETL

Jednoduché dávkové úlohy ETL, které nevyžadují rozsáhlé transformace, jako jsou spojení nebo agregace, obvykle využívají Photon. Proto vyberte instanci pro obecné účely, která podporuje Photon.

Instance s nižšími požadavky na paměť a úložiště můžou vést k úsporám nákladů oproti jiným typům pracovních procesů.

Komplexní dávkové ETL

U komplexní úlohy ETL, například úlohy, která vyžaduje sjednocení a spojení napříč více tabulkami, doporučuje Databricks použít méně pracovních procesů ke snížení množství dat prohazovaných dat. Pokud chcete kompenzovat menší počet pracovních procesů, zvětšete velikost instancí.

Složité transformace můžou být náročné na výpočetní výkon. Pokud zaznamenáte významné přelití na disk nebo chyby OOM, zvyšte množství paměti dostupné ve vašich instancích.

Volitelně můžete pomocí fondů snížit časy spuštění výpočetních prostředků a snížit celkový běh při spouštění kanálů úloh.

Trénování modelů strojového učení

K trénování modelů strojového učení doporučuje Databricks vytvořit výpočetní prostředek pomocí zásad osobních výpočetních prostředků .

Pro počáteční experimentování s trénovacími modely strojového učení byste měli použít výpočetní prostředky s jedním uzlem s velkým typem uzlu. Menší počet uzlů snižuje dopad náhodného prohazování.

Přidání dalších pracovníků může pomoct se stabilitou, ale měli byste se vyhnout přidávání příliš mnoha pracovních procesů kvůli režii při náhodném prohazování dat.

Doporučené typy pracovních procesů jsou úložiště optimalizované s povoleným ukládáním do mezipaměti na disku nebo instanci s místním úložištěm, která umožňuje opakované čtení stejných dat a ukládání trénovacích dat do mezipaměti.

Mezi další funkce doporučené pro úlohy strojového učení patří:

  • Povolte automatické ukončení, abyste zajistili ukončení výpočetních prostředků po určité době nečinnosti.
  • Použijte fondy, které umožní omezit výpočetní prostředky na předem schválený typ instance.
  • Zajistěte konzistentní konfigurace výpočetních prostředků pomocí zásad.