Mnoho malých úloh Sparku
Pokud vidíte mnoho malých úloh, pravděpodobně provádíte mnoho operací s relativně malými daty (<10 GB). Malé operace trvají jen několik sekund, ale sečtou se a čas vynaložený na režii na operaci se také sčítá.
Nejlepším přístupem k urychlení malých úloh je paralelní spouštění více operací. Delta Live Tables to zařídí automaticky.
Mezi další možnosti patří:
- Operace oddělte do více poznámkových bloků a spusťte je paralelně ve stejném clusteru pomocí úloh s více úlohami.
- Pokud jsou všechny dotazy napsané v SQL, použijte SQL Warehouse. Sql Warehouse se velmi dobře škálují pro mnoho dotazů paralelně, protože byly navrženy pro tento typ úlohy.
- Parametrizujte poznámkový blok a pak použijte pro každý úkol, spustit poznámkový blok několikrát paralelně. Použijte souběžnost k nastavení úrovně paralelizace. To funguje dobře s bezserverovými výpočty.