Nombreux petits travaux Spark
Si vous constatez la présence de nombreux petits travaux, il est probable que vous effectuez de nombreuses opérations sur des données relativement petites (<10 Go). Les petites opérations ne prennent que quelques secondes chacune, mais elles s’additionnent, et le temps consacré à la surcharge par opération s’accumule également.
La meilleure approche pour accélérer les petits travaux consiste à exécuter plusieurs opérations en parallèle. Delta Live Tables le fait automatiquement pour vous.
D’autres options incluent les suivantes :
- Séparez vos opérations en plusieurs notebooks, et exécutez-les en parallèle sur le même cluster à l’aide de travaux multitâches.
- Utilisez des entrepôts SQL si toutes vos requêtes sont écrites en langage SQL. Les entrepôts SQL réagissent très bien à une mise à l’échelle pour de nombreuses requêtes exécutées en parallèle, car ils ont été conçus pour ce type de charge de travail.
- Paramétrisez votre notebook et utilisez-le pour que chaque tâche exécute votre notebook plusieurs fois en parallèle. Utilisez la concurrence pour définir le niveau de parallélisation. Cela fonctionne bien avec le calcul serverless.