Sdílet prostřednictvím


Jedna úloha Sparku

Pokud se zobrazí dlouhotrvající fáze s jenom jednou úlohou, je pravděpodobné, že se vyskytl problém. Zatímco tato jedna úloha běží, využívá se pouze jeden procesor a zbytek clusteru může být nečinný. Dochází k tomu v následujících situacích:

  • Nákladná funkce definovaná uživatelem u malých dat
  • Funkce Window bez PARTITION BY příkazu
  • Čtení z nerozdělitelného typu souboru. To znamená, že soubor nelze číst v několika částech, takže skončíte s jednou velkou úlohou. Gzip je příklad nedělitelného typu souboru.
  • Nastavení možnosti multiLine při čtení souboru JSON nebo CSV
  • Odvozování schématu velkého souboru
  • Použití repartition(1) nebo coalesce(1)