Veel kleine Spark-taken
Als u veel kleine taken ziet, voert u waarschijnlijk veel bewerkingen uit op relatief kleine gegevens (<10 GB). Kleine bewerkingen duren slechts een paar seconden, maar ze tellen samen en de tijd die per bewerking wordt besteed, telt ook op.
De beste manier om kleine taken te versnellen, is door meerdere bewerkingen parallel uit te voeren. Delta Live Tables dit automatisch voor u doen.
Andere opties zijn:
- Verdeel uw bewerkingen in meerdere notebooks en voer ze parallel uit op hetzelfde cluster met behulp van multitask taken.
- Gebruik SQL-warehouses als al uw query's zijn geschreven in SQL. SQL-warehouses worden zeer goed geschaald voor veel query's die parallel worden uitgevoerd omdat ze zijn ontworpen voor dit type workload.
- het notitieblok parameteriseren en de voor elke taak gebruiken om uw notebook meerdere keren parallel uit te voeren. Gebruik concurrentie om het niveau van parallelisering in te stellen. Dit werkt goed met serverloze computation.