Sdílet prostřednictvím


Mnoho malých úloh Sparku

Pokud vidíte mnoho malých úloh, pravděpodobně provádíte mnoho operací s relativně malými daty (<10 GB). Malé operace trvají jen několik sekund, ale sečtou se a čas vynaložený na režii na operaci se také sčítá.

Nejlepším přístupem k urychlení malých úloh je paralelní spouštění více operací. Delta Live Tables to zařídí automaticky.

Mezi další možnosti patří:

  • Operace oddělte do více poznámkových bloků a spusťte je paralelně ve stejném clusteru pomocí úloh s více úlohami.
  • Pokud jsou všechny dotazy napsané v SQL, použijte SQL Warehouse. Sql Warehouse se velmi dobře škálují pro mnoho dotazů paralelně, protože byly navrženy pro tento typ úlohy.
  • Parametrizujte poznámkový blok a pak použijte pro každý úkol, spustit poznámkový blok několikrát paralelně. Použijte souběžnost k nastavení úrovně paralelizace. To funguje dobře s bezserverovými výpočty.