데이터 품질 검사 구성 및 실행
참고
Microsoft Purview 데이터 카탈로그 이름을 Microsoft Purview 통합 카탈로그로 변경합니다. 모든 기능은 동일하게 유지됩니다. 새 Microsoft Purview 데이터 거버넌스 환경을 해당 지역에서 일반적으로 사용할 수 있는 경우 이름이 변경됩니다. 해당 지역의 이름을 확인합니다.
데이터 품질 검사는 적용된 데이터 품질 규칙에 따라 데이터 자산을 검토하고 점수를 생성합니다. 데이터 관리자는 해당 점수를 사용하여 데이터 상태를 평가하고 데이터 품질을 낮출 수 있는 문제를 해결할 수 있습니다.
필수 구성 요소
- 데이터 품질 평가 검사를 실행하고 예약하려면 사용자가 데이터 품질 관리자 역할에 있어야 합니다.
- 현재 Microsoft Purview 계정은 데이터 품질 검사를 실행할 수 있도록 공용 액세스 또는 관리형 vNet 액세스를 허용하도록 설정할 수 있습니다.
데이터 품질 수명 주기
데이터 품질 검사는 데이터 자산의 데이터 품질 수명 주기의 일곱 번째 단계입니다. 이전 단계는 다음과 같습니다.
- 데이터 카탈로그에 사용자 데이터 품질 관리자 권한을 할당 하여 모든 데이터 품질 기능을 사용합니다.
- Microsoft Purview 데이터 맵 데이터 원본을 등록하고 검사합니다.
- 데이터 제품에 데이터 자산 추가
- 데이터 품질 평가를 위해 원본을 준비하도록 데이터 원본 연결을 설정합니다.
-
데이터 원본의 자산에 대한 데이터 프로파일링을 구성하고 실행합니다.
- 프로파일링이 완료되면 데이터 자산의 각 열에 대한 결과를 찾아 데이터의 현재 구조와 상태를 이해합니다.
- 프로파일링 결과에 따라 데이터 품질 규칙을 설정하고 데이터 자산에 적용합니다.
지원되는 다중 클라우드 데이터 원본
- Azure Data Lake Storage(ADLS Gen2)
- 파일 형식: Delta Parquet 및 Parquet
- Azure SQL 데이터베이스
- OneLake의 패브릭 데이터 자산에는 바로 가기 및 미러링 데이터 자산이 포함됩니다. 데이터 품질 검사는 Lakehouse 델타 테이블 및 parquet 파일에 대해서만 지원됩니다.
- 미러링 데이터 자산: CosmosDB, Snowflake, Azure SQL
- 바로 가기 데이터 자산: AWS S3, GCS, AdlsG2 및 dataverse
- 서버리스 및 데이터 웨어하우스 Azure Synapse
- Azure Databricks Unity 카탈로그
- Snowflake
- Google 빅 쿼리(프라이빗 미리 보기)
중요
Parquet 파일의 데이터 품질은 다음을 지원하도록 설계되었습니다.
- Parquet 파트 파일이 있는 디렉터리입니다. 예: ./Sales/{Parquet Part Files}. 정규화된 이름은 을 따라
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
야 합니다. 디렉터리/하위 디렉터리 구조에 {n} 패턴이 없는지 확인합니다. 대신 {SparkPartitions}로 이어지는 직접 FQN이어야 합니다. - 분할된 Parquet 파일이 있는 디렉터리로, 연도 및 월별로 분할된 판매 데이터와 같이 데이터 세트 내의 열로 분할됩니다. 예: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
일관된 parquet 데이터 세트 스키마를 제공하는 이러한 필수 시나리오가 모두 지원됩니다.
제한: Parquet Files를 사용하여 디렉터리의 N 임의 계층 구조를 지원하거나 지원하지 않습니다.
(1) 또는 (2) 생성된 구조에 데이터를 제시하는 것이 좋습니다.
지원되는 인증 방법
현재 Microsoft Purview는 관리 ID 를 인증 옵션으로 사용하여 데이터 품질 검사만 실행할 수 있습니다. 데이터 품질 서비스는 Apache Spark 3.4 및 Delta Lake 2.4에서 실행됩니다. 지원되는 지역에 대한 자세한 내용은 데이터 품질 개요를 참조하세요.
중요
스키마가 데이터 원본에서 업데이트되는 경우 데이터 품질 검사를 실행하기 전에 데이터 맵 검사를 다시 실행해야 합니다.
데이터 품질 검사 실행
Microsoft Purview 데이터 카탈로그 상태 관리 메뉴 및 데이터 품질 하위 메뉴를 선택합니다.
목록에서 거버넌스 도메인 을 선택합니다.
데이터 제품을 선택하여 해당 제품에 연결된 데이터 자산의 데이터 품질을 평가합니다.
데이터 제품을 선택하면 데이터 품질 개요 페이지로 이동합니다. 이 페이지에서 규칙 메뉴를 선택하여 기존 데이터 품질 규칙을 찾아보고 새 규칙을 추가할 수 있습니다. 이 페이지에서 스키마 메뉴를 선택하여 데이터 자산의 스키마 를 찾아볼 수 있습니다.
선택한 자산에 대한 검사에 이미 추가된 규칙을 찾아 상태 열에서 설정 또는 해제합니다.
개요 페이지에서 품질 검사 실행 단추를 선택하여 품질 검사를 실행 합니다.
검사가 실행되는 동안 거버넌스 도메인의 데이터 품질 모니터링 페이지에서 진행 상황을 추적할 수 있습니다.
데이터 품질 검사 예약
품질 검사 실행 단추를 선택하여 임시로 데이터 품질 검사를 실행할 수 있지만 프로덕션 시나리오에서는 원본 데이터가 지속적으로 업데이트되고 있으므로 문제를 검색하기 위해 정기적으로 데이터 품질을 모니터링하고 있는지 확인하려고 합니다. 품질 검사를 정기적으로 업데이트할 수 있도록 검사 프로세스를 자동화할 수 있습니다.
Microsoft Purview 데이터 카탈로그 상태 관리 메뉴 및 데이터 품질 하위 메뉴를 선택합니다.
목록에서 거버넌스 도메인 을 선택합니다.
페이지 오른쪽에서 관리 단추를 선택하고 예약된 검사를 선택합니다.
예약된 검사 만들기 페이지에서 양식을 작성합니다. 일정을 설정하는 원본의 이름과설명을 추가합니다.
계속을 선택합니다.
범위 탭에서 개별 데이터 제품 및 자산 또는 전체 거버넌스 도메인의 모든 데이터 제품 및 데이터 자산을 선택합니다.
계속을 선택합니다.
기본 설정에 따라 일정을 설정하고 계속을 선택합니다.
검토 탭에서 저장(또는 저장 후 실행하여 즉시 테스트)을 선택하여 데이터 품질 평가 검사 예약을 완료합니다.
검사 탭 아래의 데이터 품질 작업 모니터링 페이지에서 예약된 검사를 모니터링할 수 있습니다 .
이전 데이터 품질 검사 삭제
- Microsoft Purview 데이터 카탈로그 상태 관리 메뉴 및 데이터 품질 하위 메뉴를 선택합니다.
- 목록에서 거버넌스 도메인 을 선택합니다.
- 페이지 맨 위에 있는 줄임표('...') 단추를 선택합니다.
- 데이터 품질 데이터 삭제를 선택하여 데이터 품질 실행 기록을 삭제합니다.
참고
테스트 실행, 오류 데이터 품질 실행 또는 데이터 제품에서 데이터 자산을 제거하는 경우에만 이 삭제를 사용하는 것이 좋습니다.
데이터 제품에서 데이터 자산을 제거하려는 경우 해당 데이터 자산에 데이터 품질 점수가 있는 경우 먼저 데이터 품질 점수를 삭제한 다음 데이터 제품에서 데이터 자산을 제거해야 합니다.
중요
Parquet 파일을 프로파일하려면 데이터 자산 형식을 Parquet로 변경해야 합니다. 아래 스크린샷을 참조하세요.
아래 스크린샷에 표시된 것처럼 데이터 품질 검사 작업을 구성하기 전에 기본 데이터 자산 형식 델타 를 Parquet 로 변경합니다.
관련 콘텐츠
- 패브릭 데이터 자산에 대한 데이터 품질
- 패브릭 미러된 데이터 원본에 대한 데이터 품질
- 패브릭의 데이터 품질 바로 가기 데이터 원본
- Azure Synapse 서버리스 및 데이터 웨어하우스에 대한 데이터 품질
- Azure Databricks Unity 카탈로그에 대한 데이터 품질
- Snowflake 데이터 원본에 대한 데이터 품질
- Google 빅 쿼리에 대한 데이터 품질
다음 단계
- 데이터 품질 검사 모니터링
- 검사 결과를 검토 하여 데이터 제품의 현재 데이터 품질을 평가합니다.
- 데이터 품질 검사 결과에 대한 경고 구성