다음을 통해 공유


하나의 Spark 작업

하나의 작업으로 장기 실행 단계가 표시되는 경우 이는 문제의 징후일 수 있습니다. 이 하나의 작업이 실행 중인 동안 하나의 CPU만 사용되며 나머지 클러스터는 유휴 상태일 수 있습니다. 이는 다음과 같은 상황에서 가장 자주 발생합니다.

  • 작은 데이터에서 비용이 많이 드는 UDF
  • 분리할 수 없는 파일 형식에서 읽기. 즉, 파일을 여러 부분으로 읽을 수 없으므로 하나의 큰 작업으로 끝납니다. Gzip은 분리할 수 없는 파일 형식의 예입니다.
  • JSON 또는 CSV 파일을 읽는 경우 multiLine 옵션 설정
  • 대용량 파일의 스키마 유추
  • repartition(1) 또는 coalesce(1) 사용