配置并运行数据资产的数据分析

数据分析是检查不同数据源中可用的数据并收集有关此数据的统计信息和信息的过程。 数据分析有助于根据定义的目标集评估数据的质量级别。 如果数据质量不佳,或者在无法集成以满足企业需求的结构中管理数据,则业务流程和决策会受到影响。 通过数据分析,你可以了解数据的可信度和质量,这是做出数据驱动型决策以增加收入和促进增长的先决条件。

先决条件

  • 若要运行和计划数据质量评估扫描,用户必须具有 数据质量专员角色
  • 目前,可以将 Microsoft Purview 帐户设置为允许公共访问或托管 vNet 访问,以便可以运行数据质量扫描。

数据质量生命周期

数据分析是数据资产的数据质量生命周期的第五步。 前面的步骤包括:

  1. 在 统一目录 中分配用户 () 数据质量专员权限,以使用所有数据质量功能。
  2. 在Microsoft Purview 数据映射中注册扫描数据源。
  3. 将数据资产添加到数据产品
  4. 设置数据源连接,以便为数据质量评估准备源

支持的多云数据源

  • Azure Data Lake Storage (ADLS Gen2)
    • 文件类型:Delta Parquet 和 Parquet
  • Azure SQL 数据库
  • OneLake 中的 Fabric 数据资产包括快捷方式和镜像数据资产。 仅 Lakehouse 增量表和 parquet 文件支持数据分析。
    • 镜像数据资产:Cosmos DB、Snowflake Azure SQL
    • 快捷方式数据资产:AWS S3、GCS、AdlsG2 和 Dataverse
  • Azure Synapse无服务器和数据仓库
  • Azure Databricks Unity 目录
  • Snowflake
  • Google Big Query (预览版)
  • ADLS Gen2、Microsoft Fabric Lakehouse、AWS S3 和 GCP GCS 中的 Iceberg 数据

重要

Parquet 文件的数据质量旨在支持:

  1. 包含 Parquet 部件文件的目录。 例如: ./Sales/{Parquet Part Files}。 完全限定的名称必须跟在 后面 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 请确保目录/子目录结构中没有 {n} 模式;它必须是指向 {SparkPartitions} 的直接 FQN。
  2. 包含已分区 Parquet 文件的目录,按数据集中的列分区,例如按年份和月份分区的销售数据。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。

支持这两种基本方案(提供一致的 Parquet 数据集架构)。 限度: 它不设计为或不支持包含 Parquet 文件的目录的 N 个任意层次结构。 建议在 (1) 或 (2) 构造结构中呈现数据。

支持的身份验证方法

目前,Microsoft Purview 只能使用 托管标识 作为身份验证选项运行数据质量扫描。 数据质量服务在 Apache Spark 3.4Delta Lake 2.4 上运行。 有关受支持区域的详细信息,请参阅 数据质量概述

重要

  • 如果在数据源上更新了架构,则必须在运行数据分析之前重新运行数据映射扫描。 可以使用架构导入功能从数据质量概述页导入架构。 如果数据源在托管 vNet 或专用终结点上运行,则不支持架构导入功能。
  • Azure Databricks、Google BigQuery 和 Snowflake 不支持 vNet。
  • 在当前版本中,可以分析每批 50 列。 如果数据资产的列数超过 50 个,则可以分批分析其他列。
  • 如果列包含非重复值,建议不要分析该列。 具有不同值的列无法创建正态分布。

配置数据分析作业的步骤

  1. 配置与资产的数据源连接(如果尚未创建)。

  2. 从Microsoft Purview 统一目录,选择“运行状况管理”菜单和数据质量子菜单。

  3. 在数据质量子菜单中选择用于数据分析的 “治理域 ”。

  4. 选择 数据产品 以分析链接到该产品 的数据资产

    数据质量菜单的屏幕截图,其中显示了如何选择数据产品。

  5. 选择数据资产以导航到用于分析的数据质量 “概述 ”页。

  6. 选择“ 配置文件” 按钮,为所选数据资产运行分析作业。

    “数据资产概述”选项卡的屏幕截图,其中突出显示了“配置文件”选项卡。

  7. AI 建议引擎建议运行数据探查的潜在重要列。 可以取消选择建议的列和/或选择要分析的更多列。

    分析列建议的屏幕截图。

  8. 选择相关列后,选择“ 运行配置文件”。

  9. 作业正在运行时, 可以从治理域中的数据质量监视页跟踪其进度

  10. 作业完成后,从资产数据质量页的左侧菜单中选择“配置文件”选项卡,列出浏览分析结果和统计快照。 可能会有多个配置文件结果页,具体取决于数据资产包含的列数。

    分析页的屏幕截图,其中突出显示了一列。

  11. 浏览每列的分析结果和统计度量值。

    单个列的统计快照的屏幕截图。

重要

如果格式在源系统中是标准且正确,则增量格式主要是自动检测的。 若要分析 Parquet 或 iceberg 文件格式,需要将数据资产类型更改为 Parquet 或 iceberg。 如以下屏幕截图所示,如果数据资产文件格式不是增量,请更改默认数据资产类型 Parquet 或其他支持的格式。 在配置分析作业之前,必须完成此更改。

资产类型选择的屏幕截图。

后续步骤

  1. 根据分析结果设置数据质量规则,并将其应用于数据资产。
  2. 在数据产品上配置并运行数据质量扫描 ,以评估数据产品中所有受支持资产的质量。
  3. 查看扫描结果 以评估数据产品的当前数据质量。