Spark 드라이버 오버로드됨
따라서 드라이버가 오버로드되었음을 확인했습니다. 가장 일반적인 이유는 클러스터에서 실행 중인 동시 항목이 너무 많기 때문입니다. 스트림, 쿼리 또는 Spark 작업이 너무 많을 수 있습니다(일부 고객은 스레드를 사용하여 많은 Spark 작업을 동시에 실행함).
또한 드라이버를 사용 중인 상태로 유지하는 클러스터에서 Spark가 아닌 코드를 실행 중일 수도 있습니다. Spark가 아닌 코드를 실행하여 타임라인 간격이 표시되는 경우 이는 작업자가 모두 유휴 상태이며 간격 중에 돈을 낭비할 가능성이 있음을 의미합니다. 의도적이고 피할 수 없는 작업일 수도 있지만 Spark를 사용하기 위해 이 코드를 작성할 수 있는 경우 클러스터를 완전히 활용하게 됩니다. Spark를 사용하여 작업하는 방법을 알아보려면 이 자습서부터 시작합니다.
클러스터에서 동시에 실행되는 항목이 너무 많은 경우 다음 세 가지 옵션이 있습니다.
- 드라이버 크기 늘리기
- 동시성 감소
- 여러 클러스터에 부하 분산
Azure Databricks는 먼저 드라이버 크기를 두 배로 늘리고 작업에 미치는 영향을 확인하는 것이 좋습니다.