많은 소규모 Spark 작업
작은 작업이 많은 경우 비교적 작은 데이터(<10GB)에서 많은 작업을 수행할 수 있습니다. 작은 작업은 각각 몇 초 정도만 걸리지만 더해지고 작업당 오버헤드에 소요되는 시간도 늘어나게 됩니다.
소규모 작업을 가속화하는 가장 좋은 방법은 여러 작업을 병렬로 실행하는 것입니다. 델타 라이브 테이블 은 자동으로 이 작업을 수행합니다.
기타 옵션은 다음과 같습니다.
- 작업을 여러 Notebook으로 분리하고 다중 작업 작업을 사용하여 동일한 클러스터에서 병렬로 실행합니다.
- 모든 쿼리가 SQL로 작성된 경우 SQL 웨어하우스를 사용합니다. SQL 웨어하우스는 이러한 유형의 워크로드를 위해 설계된 대로 병렬로 실행되는 많은 쿼리에 대해 매우 잘 확장됩니다.
- Notebook을 매개 변수화하고 각 작업에 대해 전자 필기장을 여러 번 병렬로 실행하는 데 사용합니다. 동시성을 사용하여 병렬 처리 수준을 설정합니다. 이는 서버리스 컴퓨팅에서 잘 작동합니다.