데이터 팩터리 파이프라인 디버그
고객 요구 사항 및 기대치는 데이터 통합과 관련하여 변합니다. 따라서 ETL(추출, 변환/로드) 및 ELT(추출, 로드/변환) 워크플로를 개발하고 디버그하고자 하는 사용자의 요구 사항은 필수가 됩니다.
Azure Data Factory는 데이터 통합 솔루션을 개발할 때 반복적인 Data Factory 디버그 파이프라인을 빌드하고 개발하는 데 도움이 될 수 있습니다. 파이프라인 캔버스를 사용하여 파이프라인을 작성하면 디버그 기능을 사용하여 작업과 파이프라인을 테스트할 수 있습니다.
Azure Data Factory에서 디버그하기 전에 파이프라인 또는 작업의 변경 내용을 게시할 필요는 없습니다. 이는 변경 내용을 테스트하고 실제로 저장하고 게시하기 전에 예상대로 작동하는지 확인하려는 경우에 유용합니다.
전체 파이프라인을 디버그하지 않고 파이프라인 일부를 테스트하려고 하는 경우도 있습니다. 이런 경우 디버그 실행을 통해 작업을 수행하면 됩니다. 파이프라인의 전체 종단 간을 테스트하거나 중단점을 설정할 수 있습니다. 디버그 모드에서 이 작업을 수행하면 파이프라인을 빌드 및 디버그하는 동안 각 단계의 결과를 대화형으로 볼 수 있습니다.
파이프라인 디버그 및 게시
실행 중인 파이프라인을 만들거나 수정할 때 파이프라인 캔버스의 출력 탭에서 각 작업의 결과를 볼 수 있습니다.
테스트 실행이 성공하고 결과에 만족했다면 파이프라인에 더 많은 작업을 추가하고 반복적으로 디버깅을 계속할 수 있습니다. 결과가 만족스럽지 않거나 디버깅에서 파이프라인을 중지할 경우 진행 중인 테스트 실행을 취소할 수 있습니다. 디버그 슬라이더를 선택하면 실제로 파이프라인이 실행된다는 점에 유의해야 합니다. 예를 들어 파이프라인에 복사 작업이 포함된 경우 테스트 실행은 원본에서 대상으로 데이터를 복사합니다.
결과에 만족하고 파이프라인을 디버깅했을 때 일반적인 작업을 위해 실제 폴더로 전환하도록, 디버그하는 동안 복사 작업 및 기타 작업에서 테스트 폴더를 사용하는 것이 가장 좋습니다.
파이프라인을 디버그하려면 도구 모음에서 디버그를 선택합니다. 창의 아래쪽에 있는 출력 탭에서 파이프라인 실행 상태가 표시됩니다.
파이프라인이 성공적으로 실행되면 위쪽 도구 모음에서 모두 게시를 선택합니다. 이 작업은 사용자가 생성된 엔터티(데이터 세트 및 파이프라인)를 Data Factory에 게시합니다.
게시됨 메시지가 표시될 때까지 기다립니다. 알림 메시지를 보려면 포털의 오른쪽 상단에서 알림 표시(벨 아이콘)을 선택합니다.
맵 데이터 흐름 디버그
데이터 흐름 매핑을 빌드하는 동안 데이터 셰이프 및 변환이 어떻게 실행되는지 대화형으로 관찰하여 디버그할 수 있습니다. 해당 기능을 사용하려면 먼저, “데이터 흐름 디버그” 기능을 활성화해야 합니다.
디버그 세션은 데이터 흐름의 파이프라인 디버그를 실행 중일 때뿐만 아니라 Data Flow 설계 세션에서도 사용할 수 있습니다. 디버그 모드가 활성화되면 실제로 활성 Spark 클러스터를 사용하여 데이터 흐름을 빌드합니다. 디버그가 비활성화된 후에는 Spark 클러스터가 종료됩니다. 사용할 컴퓨팅을 선택할 수 있습니다. 기존 디버그 클러스터를 사용하는 경우 시작 시간을 줄일 수 있습니다. 그러나 복잡한 워크로드 또는 병렬 워크로드의 경우에는 자신만의 고유한 Just-In-Time 클러스터를 실행하는 것이 좋습니다.
데이터 흐름을 디버깅하는 최상의 방법은 디버그 모드를 유지하고 데이터 흐름에 포함된 비즈니스 논리를 확인하고 유효성을 검사하는 것입니다. 데이터 변환 및 셰이프를 시각적으로 보면 변경 내용을 확인할 수 있습니다.
생성한 파이프라인에서 데이터 흐름을 테스트하려는 경우 파이프라인 패널에서 디버그 단추를 사용하는 것이 가장 좋습니다. 데이터 미리 보기는 데이터를 쓰지 않지만, 데이터 흐름 내에서의 디버그 실행은 파이프라인 디버깅과 같이 싱크 대상에 데이터를 씁니다.
디버그 설정
앞서 설명한 것처럼 Azure Data Factory 사용자 인터페이스에서 시작된 각 디버그 세션은 자체 Spark 클러스터가 포함된 새 세션으로 간주됩니다. 세션을 모니터링하기 위해 디버그 세션에 대한 모니터링 보기를 사용하여 설정된 Data Factory당 디버그 세션을 관리할 수 있습니다.
Spark 클러스터가 디버깅할 준비가 되었는지 여부를 확인하려면 디자인 화면 위쪽에서 클러스터 상태 표시를 확인할 수 있습니다. 녹색으로 표시된다면 준비가 된 것입니다. 디버그 모드로 전환했는데 클러스터가 실행되지 않는다면 클러스터를 가동해야 하므로 대기 시간이 5~7분 정도 걸릴 수 있습니다.
디버깅을 마친 후에는 Spark 클러스터가 종료되도록 디버그 모드를 해제하는 것이 가장 좋습니다.
디버깅할 때 디버그 설정을 클릭하여 데이터 흐름의 데이터 미리 보기를 편집할 수 있습니다. 데이터 미리 보기를 변경하는 예로는 행 제한 또는 원본 변형을 사용하는 경우의 파일 원본을 들 수 있습니다. 준비 연결된 서비스를 선택하면 Azure Synapse Analytics를 원본으로 사용할 수 있습니다.
Data Flow 또는 참조된 데이터 세트에 매개 변수가 있는 경우 매개 변수 탭을 선택하여 디버깅 중에 사용할 값을 지정할 수 있습니다. 디버깅 중에는 싱크가 필요하지 않으며 싱크는 데이터 흐름에서 무시됩니다. 변환된 데이터를 테스트하여 싱크에 쓰려면 파이프라인에서 데이터 흐름을 실행하고 파이프라인에서 디버그 실행을 사용하면 됩니다.
앞서 설명했듯이 Azure Data Factory 내에서는 특정 지점이나 작업까지만 디버그할 수 있습니다. 이렇게 하려면 테스트하려는 위치까지 작업에 대한 중단점을 사용한 다음 디버그를 선택합니다. 다음까지 디버그 옵션이 요소의 오른쪽 위 모서리에 빈 빨간색 원으로 표시됩니다. 다음까지 디버그 옵션을 선택하면 중단점이 설정되었음을 나타내기 위해 채워진 빨간색 원으로 바뀝니다. 그러면 Azure Data Factory 파이프라인에서 해당 중단점 작업이 실행될 때까지 테스트가 실행되도록 합니다. 이 기능은 파이프라인에서 작업의 하위 집합만 테스트하려는 경우에 유용합니다.
대부분의 시나리오에서는 Azure Data Factory의 디버그 기능만으로도 충분합니다. 그러나 복제된 샌드박스 환경에서 파이프라인의 변경 내용을 테스트해야 하는 경우도 있습니다. 이를 위한 사용 사례로는 파일 도착 또는 연속 기간 초과를 트리거할 때 어떻게 작동할지 테스트하도록 ETL 파이프라인을 매개 변수화한 경우를 들 수 있습니다. 이 경우 샌드박스 환경의 복제가 더욱 적합할 수 있습니다.
Azure Data Factory에 대해 잘 알고 있어야 하는 것은 대부분의 경우에는 실행 횟수를 기준으로 요금이 청구되기 때문에 두 번째 Data Factory에는 추가 요금이 발생하지 않을 수도 있다는 점입니다.
디버그 실행 모니터링
기록이 표시되지 않으므로 디버그 실행을 모니터링하려면 검색 세션에서 발생한 가장 최근 실행에 대한 출력 탭을 확인하면 됩니다. 디버그 실행 기록을 보거나 모든 활성 디버그 실행을 보려는 경우 모니터 탭으로 이동할 수 있습니다.
한 가지 유의해야 할 점은 Azure Data Factory 서비스는 디버그 실행 기록을 15일 동안만 유지한다는 것입니다. 데이터 흐름 디버그 세션을 모니터링하기 위해 모니터 탭으로 이동할 수도 있습니다.