Microsoft Purview 데이터 품질 개요
Microsoft Purview 데이터 품질 거버넌스 도메인 및 데이터 소유자가 데이터 에코시스템의 품질을 평가하고 감독할 수 있도록 하여 개선을 위한 대상 작업을 용이하게 하는 포괄적인 솔루션입니다. 오늘날의 AI 기반 환경에서 데이터의 안정성은 AI 기반 인사이트 및 권장 사항의 정확도에 직접적인 영향을 줍니다. 신뢰할 수 있는 데이터가 없으면 AI 시스템에 대한 신뢰가 침식되고 채택이 방해될 위험이 있습니다.
데이터 품질이 좋지 않거나 호환되지 않는 데이터 구조는 비즈니스 프로세스 및 의사 결정 기능을 방해할 수 있습니다. Microsoft Purview 데이터 품질 사용자에게 OOB(기본 제공) 규칙 및 AI 생성 규칙을 포함하여 코드 없음/낮은 코드 규칙을 사용하여 데이터 품질을 평가할 수 있는 기능을 제공하여 이러한 문제를 해결합니다. 이러한 규칙은 열 수준에서 적용되고 집계되어 데이터 자산, 데이터 제품 및 거버넌스 도메인 수준에서 점수를 제공하여 각 도메인 내에서 데이터 품질에 대한 엔드 투 엔드 가시성을 보장합니다.
또한 Microsoft Purview 데이터 품질 AI 기반 데이터 프로파일링 기능을 통합하여 프로파일링을 위한 열을 권장하는 동시에 사용자가 개입하여 이러한 권장 사항을 구체화할 수 있도록 합니다. 이 반복 프로세스는 데이터 프로파일링의 정확도를 향상시킬 뿐만 아니라 기본 AI 모델의 지속적인 개선에도 기여합니다.
조직은 Microsoft Purview 데이터 품질 적용하여 데이터 자산의 품질을 효과적으로 측정, 모니터링 및 향상시키고 AI 기반 인사이트의 안정성을 강화하고 AI 기반 의사 결정 프로세스에 대한 신뢰를 높일 수 있습니다.
데이터 품질 수명 주기
- 통합 카탈로그 사용자 데이터 품질 관리자 권한을 할당하여 모든 데이터 품질 기능을 사용합니다.
- Microsoft Purview 데이터 맵 데이터 원본을 등록하고 검사합니다.
- 데이터 제품에 데이터 자산 추가
- 데이터 품질 평가를 위해 원본을 준비하도록 데이터 원본 연결을 설정합니다.
-
데이터 원본의 자산에 대한 데이터 프로파일링을 구성하고 실행합니다.
- 프로파일링이 완료되면 데이터 자산의 각 열에 대한 결과를 찾아 데이터의 현재 구조와 상태를 이해합니다.
- 프로파일링 결과에 따라 데이터 품질 규칙을 설정하고 데이터 자산에 적용합니다.
- 데이터 제품에서 데이터 품질 검사를 구성하고 실행 하여 데이터 제품의 지원되는 모든 자산의 품질을 평가합니다.
- 검사 결과를 검토 하여 데이터 제품의 현재 데이터 품질을 평가합니다.
- 데이터 자산의 수명 주기 동안 주기적으로 5~8단계를 반복하여 품질을 유지합니다.
- 데이터 품질을 지속적으로 모니터링
- 데이터 품질 작업을 검토하여 문제를 식별하고 resolve.
- 품질 문제를 경고하도록 데이터 품질 알림을 설정합니다.
지원되는 데이터 품질 지역
Microsoft Purview 데이터 품질 현재 다음 지역에서 지원됩니다.
지원되는 다중 클라우드 데이터 원본
- Azure Data Lake Storage(ADLS Gen2)
- 파일 형식: Delta Parquet 및 Parquet
- Azure SQL 데이터베이스
- 바로 가기 및 미러링 데이터 자산을 포함하여 OneLake의 패브릭 데이터 자산입니다. 데이터 품질 검사는 Lakehouse 델타 테이블 및 parquet 파일에 대해서만 지원됩니다.
- 미러링 데이터 자산: CosmosDB, Snowflake, Azure SQL
- 바로 가기 데이터 자산: AWS S3, GCS, AdlsG2 및 dataverse
- 서버리스 및 데이터 웨어하우스 Azure Synapse
- Azure Databricks Unity 카탈로그
- Snowflake
- Google 빅 쿼리(프라이빗 미리 보기)
중요
Parquet 파일의 데이터 품질은 다음을 지원하도록 설계되었습니다.
- Parquet 파트 파일이 있는 디렉터리입니다. 예: ./Sales/{Parquet Part Files}. 정규화된 이름은 을 따라
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
야 합니다. 디렉터리/하위 디렉터리 구조에 {n} 패턴이 없는지 확인합니다. 대신 {SparkPartitions}로 이어지는 직접 FQN이어야 합니다. - 분할된 Parquet 파일이 있는 디렉터리로, 연도 및 월별로 분할된 판매 데이터와 같이 데이터 세트 내의 열로 분할됩니다. 예: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.
일관된 parquet 데이터 세트 스키마를 제공하는 이러한 필수 시나리오가 모두 지원됩니다.
제한: Parquet Files를 사용하여 디렉터리의 N 임의 계층 구조를 지원하거나 지원하지 않습니다.
(1) 또는 (2) 생성된 구조에 데이터를 제시하는 것이 좋습니다.
현재 Microsoft Purview는 관리 ID 를 인증 옵션으로 사용하여 데이터 품질 검사만 실행할 수 있습니다. 데이터 품질 서비스는 Apache Spark 3.4 및 Delta Lake 2.4에서 실행됩니다.
데이터 품질 기능
-
데이터 원본 연결 구성
- Purview DQ SaaS 애플리케이션이 품질 검사 및 프로파일링을 위해 데이터에 대한 읽기 액세스 권한을 갖도록 연결을 구성합니다.
- MS Purview는 관리 ID를 인증 옵션으로 사용합니다.
-
데이터 프로파일링
- AI 지원 데이터 프로파일링 환경
- 산업 표준 통계 스냅샷(분포, 최소, 최대, 표준 편차, 고유성, 완전성, 중복, ...)
- 열 수준 프로파일링 측정값을 드릴다운합니다.
-
데이터 품질 규칙
- 6가지 업계 표준 데이터 품질 차원(완전성, 일관성, 적합성, 정확도, 새로 고침 및 고유성)을 측정하는 기본 규칙
- 사용자 지정 규칙 생성 기능에는 기본 제공 함수 수와 식 값이 포함됩니다.
- AI 통합 환경을 사용하여 자동 생성된 규칙
-
데이터 품질 검사
- 데이터 품질 검사를 위해 열을 선택하고 규칙을 할당합니다.
- 엔터티/테이블 수준에서 데이터 새로 고침 규칙을 적용하여 데이터 새로 고침 SLA를 측정합니다.
- 시간(매시간, 매일, 매주, 매월 등)에 대한 데이터 품질 검사 작업 예약
-
데이터 품질 작업 모니터링
- 모니터링 데이터 품질 작업 상태 사용(활성, 완료, 실패 등)
- DQ 검사 기록을 검색할 수 있습니다.
-
데이터 품질 점수 매기기
- 규칙 수준의 데이터 품질 점수(열에 적용된 규칙의 품질 점수는 무엇인가요?
- 데이터 자산, 데이터 제품 및 거버넌스 도메인에 대한 데이터 품질 점수(하나의 거버넌스 도메인에는 많은 데이터 제품이 있을 수 있고, 하나의 데이터 제품에는 많은 데이터 자산이 있을 수 있으며, 하나의 데이터 자산에는 많은 데이터 열이 있을 수 있습니다).
-
중요한 데이터 요소(CDE)에 대한 데이터 품질
- 이는 Purview 데이터 품질의 주요 기능 중 하나이며, CDE의 논리적 구문에 데이터 품질 규칙을 적용한 다음 이를 구성하는 물리적 데이터 요소로 전파하는 기능입니다. 조직은 CDE 수준에서 데이터 품질 규칙을 정의하여 품질을 유지하기 위해 CDE가 충족해야 하는 특정 기준 및 임계값을 설정할 수 있습니다.
-
데이터 품질 경고
- 데이터 품질 임계값이 예상을 놓친 경우 데이터 소유자, 데이터 관리자에게 알리도록 경고를 구성합니다.
- 데이터 품질 문제에 대한 알림을 보내도록 메일 별칭 또는 메일 그룹을 구성합니다.
-
데이터 품질 작업
- DQ 관리자에 대한 진단 쿼리를 포함하여 DQ 변칙 상태를 해결하기 위한 작업이 있는 DQ용 작업 센터는 각 변칙 상태에 대해 수정할 특정 데이터에 대해 0으로 설정합니다.
-
데이터 품질 관리형 가상 네트워크
- 프라이빗 엔드포인트와 Azure 데이터 원본에 연결하는 데이터 품질로 관리되는 가상 네트워크입니다.
제한 사항
- vNet은 Google 빅 쿼리, Snowflake 및 Azure Data bricks Unity 카탈로그에 대해 지원되지 않습니다.
관련 콘텐츠
- 패브릭 데이터 자산에 대한 데이터 품질
- 패브릭 미러된 데이터 원본에 대한 데이터 품질
- 패브릭의 데이터 품질 바로 가기 데이터 원본
- Azure Synapse 서버리스 및 데이터 웨어하우스에 대한 데이터 품질
- Azure Databricks Unity 카탈로그에 대한 데이터 품질
- Snowflake 데이터 원본에 대한 데이터 품질
- Google 빅 쿼리에 대한 데이터 품질
다음 단계
- 통합 카탈로그 사용자 데이터 품질 관리자 권한을 할당하여 모든 데이터 품질 기능을 사용합니다.
- 데이터 품질 평가를 위해 원본을 준비하도록 데이터 원본 연결을 설정합니다.
- 데이터 원본의 자산에 대한 데이터 프로파일링을 구성하고 실행합니다.