Přetížený ovladač Sparku
Takže jste zjistili, že váš řidič je přetížený. Nejběžnějším důvodem je, že v clusteru běží příliš mnoho souběžných věcí. Může to být příliš mnoho datových proudů, dotazů nebo úloh Sparku (někteří zákazníci používají vlákna ke souběžnému spouštění mnoha úloh Sparku).
Může to být také to, že v clusteru spouštíte jiný kód než Spark, který udržuje ovladač zaneprázdněný. Pokud na časové ose uvidíte mezery způsobené spuštěním kódu mimo Spark, znamená to, že vaši pracovníci jsou všichni nečinní a pravděpodobně zabírají peníze během mezer. Možná je to úmyslné a nepoužitelné, ale pokud můžete napsat tento kód pro použití Sparku, plně využijete cluster. V tomto kurzu se dozvíte, jak pracovat se Sparkem.
Pokud máte v clusteru současně spuštěno příliš mnoho věcí, máte tři možnosti:
- Zvětšení velikosti ovladače
- Snížení souběžnosti
- Rozprostření zatížení mezi několik clusterů
Azure Databricks doporučuje nejprve zkusit zdvojnásobit velikost ovladače a zjistit, jak to ovlivňuje vaši úlohu.