Molte piccole attività Spark
Se si visualizzano molti processi di piccole dimensioni, è probabile che si eseguano molte operazioni su dati relativamente piccoli (<10 GB). Le operazioni di piccole dimensioni richiedono solo pochi secondi ciascuna, ma si sommano, e anche il tempo speso in sovracosti per ogni operazione si accumula.
L'approccio migliore per velocizzare i processi di piccole dimensioni consiste nell'eseguire più operazioni in parallelo. Delta Live Tables esegue automaticamente questa operazione per te.
Altre opzioni includono:
- Separare le operazioni in più notebook ed eseguirle in parallelo nello stesso cluster usando processi con più attività.
- Usare sql warehouse se tutte le query vengono scritte in SQL. I magazzini SQL si ridimensionano molto bene per molte query eseguite in parallelo poiché sono stati progettati per questo tipo di carico di lavoro.
- Parametrizza il tuo notebook e usa il per ogni attività per eseguire il notebook più volte in parallelo. Usa Concorrenza per set il livello di parallelizzazione. Questo funziona bene con il calcolo serverless .