많은 소규모 Spark 작업

아티클
09/01/2024

작은 작업이 많은 경우 비교적 작은 데이터(<10GB)에서 많은 작업을 수행할 수 있습니다. 작은 작업은 각각 몇 초 정도만 걸리지만 더해지고 작업당 오버헤드에 소요되는 시간도 늘어나게 됩니다.

소규모 작업을 가속화하는 가장 좋은 방법은 여러 작업을 병렬로 실행하는 것입니다. 델타 라이브 테이블 은 자동으로 이 작업을 수행합니다.

기타 옵션은 다음과 같습니다.

작업을 여러 Notebook으로 분리하고 다중 작업 작업을 사용하여 동일한 클러스터에서 병렬로 실행합니다.
모든 쿼리가 SQL로 작성된 경우 SQL 웨어하우스를 사용합니다. SQL 웨어하우스는 이러한 유형의 워크로드를 위해 설계된 대로 병렬로 실행되는 많은 쿼리에 대해 매우 잘 확장됩니다.
Notebook을 매개 변수화하고 각 작업에 대해 전자 필기장을 여러 번 병렬로 실행하는 데 사용합니다. 동시성을 사용하여 병렬 처리 수준을 설정합니다. 이는 서버리스 컴퓨팅에서 잘 작동합니다.