Wiele małych zadań platformy Spark
Jeśli widzisz wiele małych zadań, prawdopodobnie wykonujesz wiele operacji na stosunkowo małych danych (<10 GB). Małe operacje zajmują tylko kilka sekund każda, ale ich łączny czas się sumuje, a czas spędzony na dodatkowych czynnościach związanych z każdą operacją również się sumuje.
Najlepszym podejściem do przyspieszania małych zadań jest równoległe uruchamianie wielu operacji. DLT zrobi to dla Ciebie automatycznie.
Inne opcje to:
- Rozdziel operacje na wiele notatników i uruchom je równolegle w tym samym klastrze przy użyciu zadań wielozadaniowych.
- Użyj SQL warehouses, jeśli wszystkie Twoje zapytania są w SQL. Magazyny SQL są bardzo dobrze skalowane dla wielu zapytań uruchamianych równolegle, ponieważ zostały one zaprojektowane pod kątem tego typu obciążenia.
- Parametryzuj swój notatnik i użyj dla każdego zadania, aby równocześnie uruchamiać notatnik wielokrotnie. Użyj współbieżność, aby ustawić poziom równoległości. Działa to dobrze z obliczeniami bezserwerowymi .