Databricks 작업에 대한 모니터링 및 관측성
이 문서에서는 Azure Databricks UI에서 액세스할 수 있는 작업을 보고, 작업 실행 기록을 보고, 작업 실행의 세부 정보를 볼 수 있는 기능을 설명합니다. 작업에 대한 알림을 구성하려면 작업알림 추가를 참조하세요.
Databricks CLI를 사용하여 작업을 보고 작업을 실행하는 방법을 알아보려면 CLI 명령 databricks jobs list -h
, databricks jobs get -h
, databricks jobs run-now -h
을 실행하세요. 작업 API 사용에 대한 자세한 내용은 작업 API를 참조하세요.
system.lakeflow
스키마에 액세스할 수 있는 경우 계정 전체에서 작업 실행 및 태스크의 레코드를 보고 쿼리할 수도 있습니다.
작업 시스템 테이블을 참조하세요. 작업 시스템 테이블을 청구 테이블과 조인하여 계정 전체에서 작업 비용을 모니터링할 수도 있습니다.
시스템 테이블사용하여 작업 비용 & 성능 모니터링을 참조하세요.
작업 보기
액세스할 수 있는 작업 목록을 보려면 사이드바에서 워크플로를 클릭합니다. 워크플로 UI의 작업 탭에는 작업 작성자, 작업에 대한 트리거(있는 경우) 및 마지막 5개 실행의 결과와 같은 사용 가능한 모든 작업에 대한 정보가 나열됩니다.
작업 목록에 표시되는 열을 변경하려면 클릭하고 열을 선택하거나 선택 취소합니다.
다음 스크린샷과 같이 작업 목록에서 작업을 필터링할 수 있습니다.
설명선이 있는
- 키워드를 검색합니다. 키워드 검색은 이름, 작업 ID 및 작업 태그 필드에 대해 지원됩니다. 키와 값으로 만든 태그를 검색하려면 키, 값 또는 키와 값 모두로 검색할 수 있습니다. 예를 들어 키
department
와 값finance
가 있는 태그의 경우department
또는finance
를 검색하여 일치하는 작업을 찾을 수 있습니다. 키와 값으로 검색하려면 콜론으로 구분된 키와 값을 입력합니다(예:department:finance
). - 소유한 작업만 선택합니다.
- 권한이 있어 액세스할 수 있는 모든 작업 선택
- 즐겨찾기로 표시한 모든 작업을 선택합니다.
- 태그 사용. 태그별로 검색하려면 태그 드롭다운 메뉴를 사용하여 최대 5개의 태그를 동시에 필터링하거나 키워드 검색을 직접 사용할 수 있습니다.
이름,
작업을 시작하려면 재생 단추를 클릭합니다. 작업을 중지하려면 중지 단추를 클릭합니다. 다른 작업에 액세스하려면 케밥 메뉴 를 클릭합니다(예: 작업을 삭제하려면).
단일 작업에 대한 보기 실행
Apache Airflow 또는 Azure Data Factory와 같은 외부 오케스트레이션 도구에서 시작한 실행을 포함하여 액세스 권한이 있는 작업에 대해 현재 실행되고 최근에 완료된 실행 목록을 볼 수 있습니다. 최근 작업 실행 목록을 보려면 다음을 수행합니다.
- 사이드바에서
워크플로를 클릭합니다.
- 이름 열에서 작업 이름을 클릭합니다. 실행 탭은 활성 및 완료된 실행의 행렬 및 목록 보기와 함께 표시됩니다.
행렬 보기는 각 작업 태스크를 포함하여 작업에 대한 실행 기록을 보여 줍니다.
행렬의 총 실행 시간 행에는 해당 실행의 총 실행 시간과 실행 상태가 표시됩니다. 시작 시간, 실행 시간, 상태를 포함한 실행의 세부 정보를 보려면 총 실행 시간 행의 막대 위로 마우스를 가져갑니다.
작업 행의 각 셀은 작업의 작업 및 해당 상태를 나타냅니다. 시작 시간, 기간, 클러스터 및 상태를 포함하여 각 작업의 세부 정보를 보려면 해당 작업의 셀을 마우스로 가리킵니다.
작업 실행 및 작업 실행 막대는 실행 상태를 나타내기 위해 색으로 구분됩니다. 성공적인 실행은 초록색입니다. 실패한 실행은 빨간색, 건너뛴 실행은 분홍색, 재시도를 기다리는 경우는 노란색입니다. 보류 중인 항목, 취소된 항목, 시간 초과된 항목은 모두 회색입니다. 개별 작업 실행 및 태스크 실행 막대는 높이로 실행 시간을 시각적으로 표시합니다.
예상 완료 시간을 구성한 경우, 실행 간이 구성된 예상 시간을 초과하면 행렬 보기에 경고가 표시됩니다.
기본적으로 실행 목록 보기에는 다음이 표시됩니다.
- 실행 시작 시간입니다.
- 실행 식별자입니다.
- 실행이 작업 일정 또는 API 요청에 의해 트리거되었거나 수동으로 시작되었는지 여부입니다.
- 현재 실행 중인 작업의 경과 시간 또는 완료된 실행의 총 실행 시간 실행 시간이 구성된 예상 완료 시간을 초과한 경우, 경고 표시
- 실행 상태는 대기 중, 보류 중, 실행 중, 건너뜀, 성공, 실패, 시간 초과, 취소 중, 또는 취소됨입니다.
- 실행이 종료된 오류 코드입니다.
- 실행 매개 변수입니다.
현재 활성 작업은 중지 버튼을 표시합니다. 모든 활성 실행 및 대기 중인 실행을 중지하려면 실행 취소를
를 사용하여 완료된 실행에 따른 항목을 삭제하는 등의 추가 컨텍스트별 작업을 실행합니다.
실행에 대한 상황에 맞는 작업에 액세스하려면 케밥 메뉴 을(를) 클릭합니다(예: 활성 실행을 중지하거나 완료된 실행을 삭제하려면).
실행 목록 보기에 표시되는 열을 변경하려면 클릭하고 열을 선택하거나 선택 취소합니다.
작업 실행의
Azure Databricks는 작업 실행 기록을 최대 60일 동안 유지합니다. 작업 실행을 보존해야 하는 경우, 결과 만료되기 전에 결과를 내보내기를 Databricks는 권장합니다. 자세한 내용은 작업 실행 결과 내보내기를 참조하세요.
작업 실행 세부 정보 보기
작업 실행 세부 정보 페이지에는 작업 실행에서 각 작업의 성공 또는 실패에 대한 정보를 포함하여 작업 출력 및 로그에 대한 링크가 포함되어 있습니다. 작업 실행 세부 정보는 작업의 실행 탭에서 액세스할 수 있습니다.
실행 탭에서 작업 실행 세부 정보를 보려면 실행 목록 보기의 시작 시간 열에서 실행 링크를 클릭합니다. 실행 탭으로 돌아가려면 작업 ID를 클릭합니다.
또한 여러 작업이 있는 작업에는 그래프, 타임라인 및 목록 보기가 있습니다.
그래프 보기
그래프에서 작업 노드를 클릭하여 다음을 비롯한 작업 실행 세부 정보를 봅니다.
- 실행, 작업 시작 방법, 시작 시간, 종료 시간, 기간 및 상태를 포함한 작업 세부 정보입니다.
- 소스 코드입니다.
- 작업을 실행하고 쿼리 기록 및 로그에 연결되는 클러스터입니다.
- 작업에 대한 지표입니다.
타임라인 보기
작업이 여러 작업을 포함할 경우, 타임라인 보기를 통해 완료 시간이 오래 걸리는 작업을 식별하고 종속성과 겹침을 이해하여 이러한 업무를 디버그하고 최적화할 수 있습니다.
목록 보기
기본적으로 목록 보기에는 상태, 이름, 유형, 리소스, 기간 및 종속성이 표시됩니다. 이 보기에서 열을 추가하고 제거할 수 있습니다.
이름으로 작업을 검색하고, 작업 상태 또는 작업 유형을 기준으로 필터링하고, 상태, 이름 또는 기간을 기준으로 작업을 정렬할 수 있습니다.
작업 ID 값을 클릭하여 작업의 실행 탭으로 돌아갑니다.
Azure Databricks는 작업 실행 상태를 어떻게 결정하나요?
Azure Databricks는 작업의 리프 태스크 결과에 따라 작업 실행이 성공했는지 여부를 결정합니다. 리프 태스크는 다운스트림 종속성이 없습니다. 작업 실행 결과는 다음 세가지 중 하나입니다.
- 성공: 모든 태스크가 성공했습니다.
- 일부 실패: 일부 태스크는 실패했지만 모든 리프 작업이 성공했습니다.
- 실패: 리프 작업이 하나 이상 실패했습니다.
- 건너뛰기: 작업 실행을 건너뛰었음(예: 작업 또는 작업 영역에 대한 최대 동시 실행을 초과했기 때문에 작업을 건너뛸 수 있음).
- 작업 시간 초과: 작업 실행 완료에 너무 많은 시간이 소요되어 시간이 초과되었습니다.
- 취소됨: 작업 실행이 취소되었습니다(예: 사용자가 진행 중인 실행을 수동으로 취소).
스트리밍 작업에 대한 메트릭 보기
중요하다
Databricks 작업의 스트리밍 가시성은 공개 미리 보기에 있습니다.
작업 실행 세부 정보를 볼 때 작업 UI에서 스트리밍 관찰성 메트릭을 사용하여 스트리밍 워크로드에 대한 데이터를 가져올 수 있습니다. 이러한 메트릭에는 백로그 초, 백로그 바이트, 백로그 레코드 및 백로그 파일이 포함되며, 이는 Apache Kafka, Amazon Kinesis, Auto Loader, Google Pub/Sub 및 Delta 테이블을 포함한 Spark 구조적 스트리밍에서 지원하는 원본을 위한 것입니다. 메트릭은 작업에 대한 실행 세부 정보를 볼 때 오른쪽 창에 차트로 표시됩니다. 각 차트에 표시된 메트릭은 분 단위로 집계된 최대 값이며 이전 48시간까지 포함할 수 있습니다.
각 스트리밍 원본은 특정 메트릭만 지원합니다. 스트리밍 원본에서 지원되지 않는 메트릭은 UI에서 볼 수 없습니다. 다음 표에서는 지원되는 스트리밍 원본에 사용할 수 있는 메트릭을 보여 줍니다.
근원 | 백로그 바이트 | 작업 대기 기록 | 지연 초 | 백로그 파일 |
---|---|---|---|---|
Kafka | ✓ | ✓ | ||
키네시스 | ✓ | ✓ | ||
델타 | ✓ | ✓ | ||
자동 로더 | ✓ | ✓ | ||
Google Pub/Sub | ✓ | ✓ |
또한 각 스트리밍 메트릭에 대한 임계값을 지정하고 작업 실행 중에 스트림이 임계값을 초과하는 경우 알림을 구성할 수 있습니다. 느린 작업에 대한 알림 구성을 참조하세요.
지원되는 구조적 스트리밍 원본 중 하나에서 데이터를 스트리밍하는 작업 실행에 대한 스트리밍 메트릭을 보려면 다음을 수행합니다.
- 작업 실행 세부 정보 페이지에서 메트릭을 보려는 작업을 클릭합니다.
- 작업 실행 창에서 메트릭 탭을 클릭합니다.
- 메트릭에 대한 그래프를 열려면 메트릭 이름 옆에 있는
오른쪽 꺾쇠를 클릭합니다.
- 특정 스트림에 대한 메트릭을 보려면 필터에 stream_id 입력란에 스트림 ID를 입력합니다. 작업 실행의 출력에서 스트림 ID를 찾을 수 있습니다.
- 메트릭 그래프의 기간을 변경하려면 시간 드롭다운 메뉴를 사용합니다.
- 실행에 10개 이상의 스트림이 포함된 경우 스트림을 스크롤하려면, 다음 또는 이전버튼을 클릭하세요.
스트리밍 관찰 가능성 제한 사항
- 메트릭은 실행에 4개 이상의 스트림이 없는 한 1분마다 업데이트됩니다. 실행에 4개 이상의 스트림이 있는 경우 메트릭은 5분마다 업데이트됩니다.
- 메트릭은 각 실행의 처음 50개 스트림에 대해서만 수집됩니다.
태스크 실행 기록 보기
성공 및 실패 실행을 포함하여 태스크의 실행 기록을 보려면 다음을 수행합니다.
- 작업 실행 세부 정보 페이지에서 작업을 클릭합니다. 작업 실행 세부 정보 페이지가 나타납니다.
- 실행 기록 드롭다운 메뉴에서 실행할 작업을 선택합니다.
For each
태스크에 대한 태스크 실행 기록 보기
For each
태스크의 실행 기록에 액세스하는 방법은 표준 Azure Databricks 작업 태스크 액세스 방법과 동일합니다.
For each
페이지에서 태스크 노드를 클릭하거나 행렬 보기에서 해당 셀을 클릭합니다. 그러나 표준 작업과 달리 For each
작업에 대한 실행 세부 정보는 중첩된 작업의 반복 테이블로 표시됩니다.
실패한 반복만 보려면 실패한 반복 한정을 클릭합니다.
반복의 출력을 보려면 시작 시간 또는 종료 시간 반복 값을 클릭합니다.
각 작업 실행 기록에 대한 일자리
모든 작업에서 최근 작업 실행 확인하기
Apache Airflow 또는 Azure Data Factory와 같은 외부 오케스트레이션 도구에서 시작한 실행을 포함하여 액세스할 수 있는 작업 영역의 모든 작업에 대해 현재 실행 중이거나 최근에 완료된 실행 목록을 볼 수 있습니다. 최근 작업 실행 목록을 보려면 다음을 수행합니다.
- 사이드바에서
워크플로를 클릭합니다.
- 작업 실행 탭을 클릭하여 '완료된 실행 수' 그래프와 '작업 실행 목록'을 표시합니다.
완료된 실행 개수 그래프
완료된 실행 개수 그래프에는 지난 48시간 동안 완료된 작업 실행 개수가 표시됩니다. 기본적으로 그래프는 작업 실행의 실패, 건너뛰기, 성공 개수를 표시합니다. 그래프를 필터링하여 특정 실행 상태를 표시하거나 특정 시간 범위로 그래프를 제한할 수도 있습니다. 작업 실행 탭에는 지난 67일 간의 작업 실행 테이블도 포함됩니다. 기본적으로 테이블에는 실패, 건너뛰기 및 성공한 작업 실행에 대한 세부 정보가 포함됩니다.
참고 항목
완료된 실행 개수 그래프는 내 소유를 클릭할 때만 표시됩니다.
실행 상태별로 완료된 실행 개수를 필터링할 수 있습니다.
- 현재 실행 중이거나 실행 대기 중인 작업을 표시하도록 그래프를 업데이트하려면 활성 실행클릭합니다.
- 그래프를 실패, 성공 및 건너뛴 실행을 포함한 완료된 실행만 표시하도록 업데이트하려면 완료된 실행을 클릭합니다.
- 지난 48시간 동안 성공적으로 완료된 실행만 표시하도록 그래프를 업데이트하려면 성공한 실행을 클릭합니다.
- 그래프를 업데이트하여 건너뛴 실행만 표시하려면 건너뛴 실행을 클릭합니다. 작업 영역에서 최대 동시 실행 수를 초과했거나 작업이 작업 구성에서 지정한 최대 동시 실행 수를 초과하면 실행을 건너뜁니다.
- 그래프를 오류 상태에서 완료된 실행만 표시하도록 업데이트하려면 실패한 실행클릭합니다.
필터 단추를 클릭하면 실행 테이블의 실행 목록도 업데이트되어 선택한 상태와 일치하는 작업 실행만 표시됩니다.
완료된 실행 횟수 그래프에 표시되는 시간 범위를 제한하려면 그래프에서 커서를 클릭하여 끌어서 시간 범위를 선택합니다. 표시된 그래프 및 실행 테이블 업데이트는 선택한 시간 범위에서만 실행됩니다.
상위 5개 오류 유형 테이블에는 선택한 시간 범위에서 가장 자주 발생하는 오류 유형 목록이 표시되므로 작업 영역에서 작업 문제의 가장 일반적인 원인을 빠르게 확인할 수 있습니다.
작업 실행 목록
작업 실행 탭에는 지난 60일 간의 작업 실행 테이블도 포함됩니다. 기본적으로 테이블에는 실패, 건너뛰기 및 성공한 작업 실행에 대한 세부 정보가 포함됩니다.
다음을 기준으로 목록에 표시된 실행 목록을 필터링할 수 있습니다.
- 작업: 최대 3개의 작업을 선택하고 이러한 작업에 대한 실행만 확인합니다.
- 실행: 최대 3개의 실행을 ID로 선택하고 이러한 사용자로 실행된 실행만 확인합니다.
- 기간: 이 간격에서 발생한 작업 실행으로 범위를 좁히기 위해 시작 날짜 및 시간과 종료 날짜 및 시간을 선택하십시오.
- 실행 상태: 활성(현재 실행 중), 완료됨(성공 및 실패한 실행을 포함하여 실행 완료), 성공, 실패 및 건너뛴 실행만 표시하도록 필터링합니다.
- 오류 코드: 오류 코드에 따라 목록을 필터링하여 동일한 오류 코드로 실패한 모든 작업을 확인합니다.
기본적으로 실행 테이블의 실행 목록에는 다음이 표시됩니다.
- 실행 시작 시간입니다.
- 실행과 연결된 작업의 이름입니다.
- 작업을 실행할 사용자 이름입니다.
- 실행이 작업 일정 또는 API 요청에 의해 트리거되었거나 수동으로 시작되었는지 여부입니다.
- 현재 실행 중인 작업의 경과 시간 또는 완료된 실행의 총 실행 시간 실행 시간이 구성된 예상 완료 시간을 초과한 경우, 경고 표시
- 실행 상태: 대기 중인, 보류 중인, 실행 중, 건너뛴, 성공한, 실패한, 시간 초과된, 취소 중또는 취소됨.
- 실행이 종료된 모든 오류 코드입니다.
- 실행을 위한 모든 매개변수입니다.
- 실행 중인 작업을 중지하려면 중지 단추를 클릭합니다. 작업의 작업을 수행하려면
을 클릭하십시오(예: 활성 실행을 중지하거나 완료된 실행을 삭제하려면).
실행 목록에 표시되는 열을 변경하려면 클릭하고 열을 선택하거나 선택 취소합니다.
작업의 계보 정보 보기
작업 영역에서 Unity 카탈로그가 활성화된 경우, 워크플로 내 모든 Unity 카탈로그 테이블에 대한 계보 정보를 볼 수 있습니다. 워크플로에 계보 정보를 사용할 수 있는 경우 작업에 대한 작업 세부 정보 패널, 작업 실행 세부 정보 패널 또는 작업 실행에 대한 작업 실행 세부 정보 패널에 업스트림 및 다운스트림 테이블 수가 포함된 링크가 표시됩니다. 링크를 클릭하여 테이블 목록을 표시합니다. 카탈로그 탐색기에서 표를 클릭하면 자세한 정보를 볼 수 있습니다.
Databricks 자산 번들로 만든 작업 보기 및 실행
Azure Databricks 작업 UI를 사용하여 Databricks 자산 번들에 의해 배포된 작업을 보고 실행할 수 있습니다. 기본적으로 이러한 작업은 작업 UI에서 읽기 전용입니다. 번들에 의해 배포된 작업을 편집하려면 번들 구성 파일을 변경하고 작업을 다시 배포합니다. 번들 구성에만 변경 내용을 적용하면 번들 원본 파일이 항상 현재 작업 구성을 캡처할 수 있습니다.
그러나 작업을 즉시 변경해야 하는 경우 번들 구성에서 작업의 연결을 끊어 UI에서 작업 설정을 편집할 수 있습니다. 작업 연결을 끊으려면 원본에서 연결 끊기를 클릭합니다. 원본에서 연결 끊기 대화 상자에서 연결 끊기를 클릭하여 확인합니다.
UI에서 작업을 변경한 내용은 번들 구성에 적용되지 않습니다. UI에서 변경한 내용을 번들에 적용하려면 번들 구성을 수동으로 업데이트해야 합니다. 번들 구성에 작업을 다시 연결하려면 번들을 사용하여 작업을 다시 배포합니다.
작업 실행 결과 내보내기
모든 작업 유형에 대한 Notebook 실행 결과 및 작업 실행 로그를 내보낼 수 있습니다.
Notebook 실행 결과 내보내기
결과를 내보내 작업 실행을 보존할 수 있습니다. Notebook 작업 실행의 경우 나중에 Azure Databricks 작업 영역으로 가져올 수 있는 렌더링된 Notebook을 내보낼 수 있습니다.
단일 태스크가 있는 작업에 대한 Notebook 실행 결과를 내보내려면,
- 작업 세부 정보 페이지에서 완료된 실행(지난 60일) 테이블의 실행 열에 있는 실행에 대해 세부 정보 보기 링크를 클릭합니다.
- HTML로 내보내기를 클릭합니다.
여러 태스크가 있는 작업에 대한 Notebook 실행 결과를 내보내려면,
- 작업 세부 정보 페이지에서 완료된 실행(지난 60일) 테이블의 실행 열에 있는 실행에 대해 세부 정보 보기 링크를 클릭합니다.
- 내보낼 Notebook 태스크를 클릭합니다.
- HTML로 내보내기를 클릭합니다.
작업 실행 로그 내보내기
작업 실행에 대한 로그를 내보낼 수도 있습니다. 작업 컴퓨팅을 구성하는 동안(컴퓨팅 구성 참조참조) 또는 작업 API를 통해 DBFS에 로그를 자동으로 배달하도록 작업을 설정할 수 있습니다. 작업 API의 new_cluster.cluster_log_conf
작업()에 전달된 요청 본문의 POST /jobs/create
개체를 참조하세요.