Jedna úloha Sparku
Pokud se zobrazí dlouhotrvající fáze s jenom jednou úlohou, je pravděpodobné, že se vyskytl problém. Zatímco tato jedna úloha běží, využívá se pouze jeden procesor a zbytek clusteru může být nečinný. Dochází k tomu v následujících situacích:
- Nákladná funkce definovaná uživatelem u malých dat
-
Funkce Window bez
PARTITION BY
příkazu - Čtení z nerozdělitelného typu souboru. To znamená, že soubor nelze číst v několika částech, takže skončíte s jednou velkou úlohou. Gzip je příklad nedělitelného typu souboru.
- Nastavení možnosti
multiLine
při čtení souboru JSON nebo CSV - Odvozování schématu velkého souboru
- Použití repartition(1) nebo coalesce(1)