다음을 통해 공유


Microsoft Purview 데이터 품질 개요

참고

Microsoft Purview 데이터 카탈로그 이름을 Microsoft Purview 통합 카탈로그로 변경합니다. 모든 기능은 동일하게 유지됩니다. 새 Microsoft Purview 데이터 거버넌스 환경을 해당 지역에서 일반적으로 사용할 수 있는 경우 이름이 변경됩니다. 해당 지역의 이름을 확인합니다.

Microsoft Purview 데이터 품질 거버넌스 도메인 및 데이터 소유자가 데이터 에코시스템의 품질을 평가하고 감독할 수 있도록 하여 개선을 위한 대상 작업을 용이하게 하는 포괄적인 솔루션입니다. 오늘날의 AI 기반 환경에서 데이터의 안정성은 AI 기반 인사이트 및 권장 사항의 정확도에 직접적인 영향을 줍니다. 신뢰할 수 있는 데이터가 없으면 AI 시스템에 대한 신뢰가 침식되고 채택이 방해될 위험이 있습니다.

데이터 품질이 좋지 않거나 호환되지 않는 데이터 구조는 비즈니스 프로세스 및 의사 결정 기능을 방해할 수 있습니다. Microsoft Purview 데이터 품질 사용자에게 OOB(기본 제공) 규칙 및 AI 생성 규칙을 포함하여 코드 없음/낮은 코드 규칙을 사용하여 데이터 품질을 평가할 수 있는 기능을 제공하여 이러한 문제를 해결합니다. 이러한 규칙은 열 수준에서 적용되고 집계되어 데이터 자산, 데이터 제품 및 거버넌스 도메인 수준에서 점수를 제공하여 각 도메인 내에서 데이터 품질에 대한 엔드 투 엔드 가시성을 보장합니다.

또한 Microsoft Purview 데이터 품질 AI 기반 데이터 프로파일링 기능을 통합하여 프로파일링을 위한 열을 권장하는 동시에 사용자가 개입하여 이러한 권장 사항을 구체화할 수 있도록 합니다. 이 반복 프로세스는 데이터 프로파일링의 정확도를 향상시킬 뿐만 아니라 기본 AI 모델의 지속적인 개선에도 기여합니다.

조직은 Microsoft Purview 데이터 품질 적용하여 데이터 자산의 품질을 효과적으로 측정, 모니터링 및 향상시키고 AI 기반 인사이트의 안정성을 강화하고 AI 기반 의사 결정 프로세스에 대한 신뢰를 높일 수 있습니다.

데이터 품질 수명 주기

  1. 데이터 카탈로그에 사용자 데이터 품질 관리자 권한을 할당 하여 모든 데이터 품질 기능을 사용합니다.
  2. Microsoft Purview 데이터 맵 데이터 원본을 등록하고 검사합니다.
  3. 데이터 제품에 데이터 자산 추가
  4. 데이터 품질 평가를 위해 원본을 준비하도록 데이터 원본 연결을 설정합니다.
  5. 데이터 원본의 자산에 대한 데이터 프로파일링을 구성하고 실행합니다.
    1. 프로파일링이 완료되면 데이터 자산의 각 열에 대한 결과를 찾아 데이터의 현재 구조와 상태를 이해합니다.
  6. 프로파일링 결과에 따라 데이터 품질 규칙을 설정하고 데이터 자산에 적용합니다.
  7. 데이터 제품에서 데이터 품질 검사를 구성하고 실행 하여 데이터 제품의 지원되는 모든 자산의 품질을 평가합니다.
  8. 검사 결과를 검토 하여 데이터 제품의 현재 데이터 품질을 평가합니다.
  9. 데이터 자산의 수명 주기 동안 주기적으로 5~8단계를 반복하여 품질을 유지합니다.
  10. 데이터 품질을 지속적으로 모니터링
    1. 데이터 품질 작업을 검토하여 문제를 식별하고 resolve.
    2. 품질 문제를 경고하도록 데이터 품질 알림을 설정합니다.

지원되는 데이터 품질 지역

Microsoft Purview 데이터 품질 현재 다음 지역에서 지원됩니다.

지원되는 다중 클라우드 데이터 원본

  • Azure Data Lake Storage(ADLS Gen2)
    • 파일 형식: Delta Parquet 및 Parquet
  • Azure SQL 데이터베이스
  • 바로 가기 및 미러링 데이터 자산을 포함하여 OneLake의 패브릭 데이터 자산입니다. 데이터 품질 검사는 Lakehouse 델타 테이블 및 parquet 파일에 대해서만 지원됩니다.
    • 미러링 데이터 자산: CosmosDB, Snowflake, Azure SQL
    • 바로 가기 데이터 자산: AWS S3, GCS, AdlsG2 및 dataverse
  • 서버리스 및 데이터 웨어하우스 Azure Synapse
  • Azure Databricks Unity 카탈로그
  • Snowflake
  • Google 빅 쿼리(프라이빗 미리 보기)

중요

Parquet 파일의 데이터 품질은 다음을 지원하도록 설계되었습니다.

  1. Parquet 파트 파일이 있는 디렉터리입니다. 예: ./Sales/{Parquet Part Files}. 정규화된 이름은 을 따라 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}야 합니다. 디렉터리/하위 디렉터리 구조에 {n} 패턴이 없는지 확인합니다. 대신 {SparkPartitions}로 이어지는 직접 FQN이어야 합니다.
  2. 분할된 Parquet 파일이 있는 디렉터리로, 연도 및 월별로 분할된 판매 데이터와 같이 데이터 세트 내의 열로 분할됩니다. 예: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}.

일관된 parquet 데이터 세트 스키마를 제공하는 이러한 필수 시나리오가 모두 지원됩니다.
제한: Parquet Files를 사용하여 디렉터리의 N 임의 계층 구조를 지원하거나 지원하지 않습니다. (1) 또는 (2) 생성된 구조에 데이터를 제시하는 것이 좋습니다.

현재 Microsoft Purview는 관리 ID 를 인증 옵션으로 사용하여 데이터 품질 검사만 실행할 수 있습니다. 데이터 품질 서비스는 Apache Spark 3.4Delta Lake 2.4에서 실행됩니다.

데이터 품질 기능

  • 데이터 원본 연결 구성
    • Purview DQ SaaS 애플리케이션이 품질 검사 및 프로파일링을 위해 데이터에 대한 읽기 액세스 권한을 갖도록 연결을 구성합니다.
    • MS Purview는 관리 ID를 인증 옵션으로 사용합니다.
  • 데이터 프로파일링
    • AI 지원 데이터 프로파일링 환경
    • 산업 표준 통계 스냅샷(분포, 최소, 최대, 표준 편차, 고유성, 완전성, 중복, ...)
    • 열 수준 프로파일링 측정값을 드릴다운합니다.
  • 데이터 품질 규칙
    • 6가지 업계 표준 데이터 품질 차원(완전성, 일관성, 적합성, 정확도, 새로 고침 및 고유성)을 측정하는 기본 규칙
    • 사용자 지정 규칙 생성 기능에는 기본 제공 함수 수와 식 값이 포함됩니다.
    • AI 통합 환경을 사용하여 자동 생성된 규칙
  • 데이터 품질 검사
    • 데이터 품질 검사를 위해 열을 선택하고 규칙을 할당합니다.
    • 엔터티/테이블 수준에서 데이터 새로 고침 규칙을 적용하여 데이터 새로 고침 SLA를 측정합니다.
    • 시간(매시간, 매일, 매주, 매월 등)에 대한 데이터 품질 검사 작업 예약
  • 데이터 품질 작업 모니터링
    • 모니터링 데이터 품질 작업 상태 사용(활성, 완료, 실패 등)
    • DQ 검사 기록을 검색할 수 있습니다.
  • 데이터 품질 점수 매기기
    • 규칙 수준의 데이터 품질 점수(열에 적용된 규칙의 품질 점수는 무엇인가요?
    • 데이터 자산, 데이터 제품 및 거버넌스 도메인에 대한 데이터 품질 점수(하나의 거버넌스 도메인에는 많은 데이터 제품이 있을 수 있고, 하나의 데이터 제품에는 많은 데이터 자산이 있을 수 있으며, 하나의 데이터 자산에는 많은 데이터 열이 있을 수 있습니다).
  • 중요한 데이터 요소(CDE)에 대한 데이터 품질
    • 이는 Purview 데이터 품질의 주요 기능 중 하나이며, CDE의 논리적 구문에 데이터 품질 규칙을 적용한 다음 이를 구성하는 물리적 데이터 요소로 전파하는 기능입니다. 조직은 CDE 수준에서 데이터 품질 규칙을 정의하여 품질을 유지하기 위해 CDE가 충족해야 하는 특정 기준 및 임계값을 설정할 수 있습니다.
  • 데이터 품질 경고
    • 데이터 품질 임계값이 예상을 놓친 경우 데이터 소유자, 데이터 관리자에게 알리도록 경고를 구성합니다.
    • 데이터 품질 문제에 대한 알림을 보내도록 메일 별칭 또는 메일 그룹을 구성합니다.
  • 데이터 품질 작업
    • DQ 관리자에 대한 진단 쿼리를 포함하여 DQ 변칙 상태를 해결하기 위한 작업이 있는 DQ용 작업 센터는 각 변칙 상태에 대해 수정할 특정 데이터에 대해 0으로 설정합니다.
  • 데이터 품질 관리형 가상 네트워크
    • 프라이빗 엔드포인트와 Azure 데이터 원본에 연결하는 데이터 품질로 관리되는 가상 네트워크입니다.

제한 사항

  • vNet은 Google 빅 쿼리, Snowflake 및 Azure Data bricks Unity 카탈로그에 대해 지원되지 않습니다.

다음 단계

  1. 데이터 카탈로그에 사용자 데이터 품질 관리자 권한을 할당 하여 모든 데이터 품질 기능을 사용합니다.
  2. 데이터 품질 평가를 위해 원본을 준비하도록 데이터 원본 연결을 설정합니다.
  3. 데이터 원본의 자산에 대한 데이터 프로파일링을 구성하고 실행합니다.