다음을 통해 공유


Spark에서 긴 단계 진단

먼저 작업의 가장 긴 단계를 식별합니다. 작업 페이지 맨 아래로 스크롤하여 스테이지 list를 찾아 그들을 소요 시간에 따라 정렬합니다.

긴 단계

단계별 입출력 세부 정보

이 단계에서 수행한 작업에 대한 개략적인 데이터를 보려면, 입력, 출력, 셔플 읽기, 및 셔플 쓰기columns을 확인하세요.

긴 단계 입출력

columns 다음을 의미합니다.

  • 입력: 이 단계에서 스토리지에서 읽은 데이터의 양입니다. 델타, Parquet, CSV 등에서 읽을 수 있습니다.
  • 출력: 이 단계에서 저장소에 기록한 데이터의 양입니다. 델타, Parquet, CSV 등에 쓸 수 있습니다.
  • 셔플 읽기: 이 단계에서 읽은 셔플 데이터의 양입니다.
  • 셔플 쓰기: 이 단계에서 기록한 셔플 데이터 양입니다.

순서 섞기란 무엇인지 잘 모르는 경우 이제 그 의미를 배울 좋은 시기입니다.

나중에 필요할 수 있으므로 이러한 숫자를 기록해 둡니다.

작업 수

긴 단계에서의 작업 수는 문제 해결의 방향을 가리킬 수 있습니다. 다음을 참조하여 작업 수를 확인할 수 있습니다.

작업 수를 결정하기

하나의 작업이 표시되면 문제의 징후일 수 있습니다. 자세한 내용은 One Spark 작업참조하세요.

자세한 단계 세부 정보 보기

단계에 둘 이상의 업무가 있는 경우 추가로 조사해야 합니다. 스테이지 설명의 링크를 클릭하여 가장 긴 단계에 대한 자세한 정보를 get.

열기 스테이지 정보

이제 단계 페이지에 있으므로 기울기 및 유출을 참조하세요.