Spark에서 긴 단계 진단
먼저 작업의 가장 긴 단계를 식별합니다. 작업 페이지 맨 아래로 스크롤하여 스테이지 list를 찾아 그들을 소요 시간에 따라 정렬합니다.
단계별 입출력 세부 정보
이 단계에서 수행한 작업에 대한 개략적인 데이터를 보려면, 입력, 출력, 셔플 읽기, 및 셔플 쓰기columns을 확인하세요.
columns 다음을 의미합니다.
- 입력: 이 단계에서 스토리지에서 읽은 데이터의 양입니다. 델타, Parquet, CSV 등에서 읽을 수 있습니다.
- 출력: 이 단계에서 저장소에 기록한 데이터의 양입니다. 델타, Parquet, CSV 등에 쓸 수 있습니다.
- 셔플 읽기: 이 단계에서 읽은 셔플 데이터의 양입니다.
- 셔플 쓰기: 이 단계에서 기록한 셔플 데이터 양입니다.
순서 섞기란 무엇인지 잘 모르는 경우 이제 그 의미를 배울
나중에 필요할 수 있으므로 이러한 숫자를 기록해 둡니다.
작업 수
긴 단계에서의 작업 수는 문제 해결의 방향을 가리킬 수 있습니다. 다음을 참조하여 작업 수를 확인할 수 있습니다.
하나의 작업이 표시되면 문제의 징후일 수 있습니다. 자세한 내용은 One Spark 작업참조하세요.
자세한 단계 세부 정보 보기
단계에 둘 이상의 업무가 있는 경우 추가로 조사해야 합니다. 스테이지 설명의 링크를 클릭하여 가장 긴 단계에 대한 자세한 정보를 get.
이제 단계 페이지에 있으므로 기울기 및 유출을 참조하세요.