Wiele małych zadań platformy Spark
Jeśli widzisz wiele małych zadań, prawdopodobnie wykonujesz wiele operacji na stosunkowo małych danych (<10 GB). Małe operacje zajmują tylko kilka sekund każda, ale ich łączny czas się sumuje, a czas spędzony na dodatkowych czynnościach związanych z każdą operacją również się sumuje.
Najlepszym podejściem do przyspieszania małych zadań jest równoległe uruchamianie wielu operacji. Delta Live Tables robi to automatycznie.
Inne opcje to:
- Rozdziel operacje na wiele notesów i uruchom je równolegle w tym samym klastrze przy użyciu zadań wielozdaniowych.
- Użyj SQL warehouses, jeśli wszystkie Twoje zapytania są w SQL. Magazyny SQL są bardzo dobrze skalowane dla wielu zapytań uruchamianych równolegle, ponieważ zostały one zaprojektowane pod kątem tego typu obciążenia.
- Parametryzuj swój notatnik i użyj dla każdego zadania, aby równocześnie uruchamiać notatnik wielokrotnie. Użyj współbieżność, aby ustawić poziom równoległości. Działa to dobrze z bezserwerowymi możliwościami obliczeniowymi .