支持的数据源和文件类型

本文讨论Microsoft Purview 数据映射中当前支持的数据源、文件类型和扫描概念。

Microsoft Purview 数据映射可用数据源

下表显示了在 Microsoft Purview 中提供技术元数据的所有源。 选择数据源以了解详细信息。 这些表还列出了每个数据源支持的其他功能,你可以选择该功能以获取详细信息。

Azure

Azure 资源仅在与 Microsoft Purview 帐户相同的租户中可用,除非在支持的数据存储页上专门列出。

支持的数据存储 扫描 分类 标记 策略 世系沿袭 实时视图
多个源 源依赖 有限
Azure Blob 存储 (预览版) 有限*
Azure Cosmos DB (API for NoSQL) 不*
Azure 数据资源管理器 不*
Azure 数据工厂
Azure Data Lake Storage Gen2 (预览版) 有限*
Azure Data Share
Azure Database for MySQL 不*
Azure Database for PostgreSQL 不*
Azure Databricks Hive 元存储
Azure Databricks Unity 目录
Azure 专用 SQL 池(以前称为 SQL DW) 不*
Azure 文件 有限*
Azure 机器学习
Azure SQL 数据库 是 (预览版)
Azure SQL 托管实例 不*
Azure Synapse Analytics (工作区) 是 - Synapse 管道

* 除了数据源中资产的世系外,如果数据集在 数据工厂Synapse 管道中用作源/接收器,则还支持世系。

Database

支持的数据存储 支持的数据存储 分类 标记 访问策略 世系沿袭 实时视图
Amazon RDS
Amazon Redshift
Cassandra
Db2
Google BigQuery
Hive 元存储数据库 是的*
Mongodb
MySQL
Oracle 是的*
PostgreSQL
SAP Business Warehouse
SAP HANA
Snowflake
SQL Server 不*
Azure-Arc 上的SQL Server 不*
Teradata 是的*

* 除了数据源中资产的世系外,如果数据集在 数据工厂Synapse 管道中用作源/接收器,则还支持世系。

文件

支持的数据存储 支持的数据存储 分类 标记 访问策略 世系沿袭 实时视图
Amazon S3 有限*
HDFS

* 除了数据源中资产的世系外,如果数据集在 数据工厂Synapse 管道中用作源/接收器,则还支持世系。

服务和应用

支持的数据存储 支持的数据存储 分类 标记 访问策略 世系沿袭 实时视图
气流
Dataverse
Erwin
织物
Looker
Power BI 是的**
Qlik Sense
Salesforce
SAP ECC 是的*
SAP S/4HANA 是的*
画面

* 除了数据源中资产的世系外,如果数据集在 数据工厂Synapse 管道中用作源/接收器,则还支持世系。

** Fabric 租户中的 Power BI 项可以使用实时视图。

注意

目前,Microsoft Purview 数据映射无法扫描名称中包含 、 \# 的资产/。 若要限定扫描范围并避免扫描资产名称中包含这些字符的资产,请使用注册并扫描 Azure SQL 数据库中的示例。

重要

如果计划使用自承载集成运行时,扫描某些数据源需要在自承载集成运行时计算机上进行其他设置。 例如,JDK、Visual C++ 可再发行程序包或特定驱动程序。 对于源, 请参阅每个源文章,了解先决条件详细信息。 先决条件 部分将 列出任何要求。

扫描区域

下面是运行 Microsoft Purview 数据映射 扫描程序的所有 Azure 数据源 (数据中心) 区域的列表。 如果 Azure 数据源位于此列表之外的某个区域,扫描程序将在 Microsoft Purview 实例的区域中运行。

Microsoft Purview 数据映射扫描程序区域

  • 澳大利亚东部
  • 澳大利亚东南部
  • 巴西南部
  • 加拿大中部
  • 加拿大东部
  • 印度中部
  • 中国北部 3
  • 东亚
  • 美国东部
  • 美国东部 2
  • 法国中部
  • 德国中西部
  • 日本东部
  • 韩国中部
  • 美国中北部
  • 北欧
  • 卡塔尔中部
  • 南非北部
  • 美国中南部
  • 东南亚
  • 瑞士北部
  • 阿联酋北部
  • 英国南部
  • USGov 弗吉尼亚州
  • 美国中西部
  • 西欧
  • 美国西部
  • 美国西部 2
  • 美国西部 3

支持扫描的文件类型

支持以下文件类型进行扫描、架构提取和分类(如果适用):

  • 扩展支持的结构化文件格式包括扫描、架构提取以及资产和列级别分类:AVRO、ORC、PARQUET、CSV、JSON、PSV、SSV、TSV、TXT、XML、GZIP
  • 扩展支持的文档文件格式包括扫描和资产级别分类:DOC、DOCM、DOCX、DOT、ODP、ODS、ODT、PDF、POT、PPS、PPSX、PPT、PPTM、PPTX、XLC、XLS、XLSB、XLSM、XLSX、XLT
  • Microsoft Purview 数据映射还支持自定义文件扩展名和自定义分析程序

注意

已知限制:

  • Microsoft Purview 数据映射扫描程序仅支持对上面列出的结构化文件类型进行架构提取。
  • 对于 AVRO、ORC 和 PARQUET 文件类型,扫描程序不支持包含复杂数据类型的文件的架构提取 (例如 MAP、LIST、STRUCT) 。
  • 扫描程序支持扫描对齐压缩的 PARQUET 类型,以便进行架构提取和分类。
  • 对于 GZIP 文件类型,GZIP 必须映射到内部的单个 csv 文件。 Gzip 文件受系统和自定义分类规则的约束。 我们目前不支持扫描映射到多个文件中的 gzip 文件,也不支持扫描除 csv 以外的任何文件类型。
  • 对于带分隔符的文件类型 (CSV、PSV、SSV、TSV、TXT)
    • 仅包含 1 列的分隔文件不能确定为 CSV 文件,并且没有架构。
    • 我们不支持数据类型检测。 数据类型将列为所有列的“字符串”。
    • 我们仅支持逗号 (',') ,分号 (';') ,垂直条 ('|') 和制表符 (\\) 为分隔符。
    • 如果使用自定义分隔符,则不能将行少于三行的分隔文件确定为 CSV 文件。 例如:具有 ~ 分隔符且行数少于三行的文件将无法确定为 CSV 文件。
    • 如果字段包含双引号,则双引号只能出现在字段的开头和末尾,并且必须匹配。 出现在字段中间或出现在开头和结尾但不匹配的双引号将被识别为错误数据,并且不会从文件中分析架构。 列数与标题行不同的行将判断为错误行。 (错误行数/) 采样的行数必须小于 0.1。
  • 对于 Parquet 文件,如果使用自承载集成运行时,则需要在 IR 计算机上安装 64 位 JRE 11 (Java 运行时环境) 或 OpenJDK 。 有关安装指南,请查看 页面底部的 Java 运行时环境部分
  • 目前不支持增量格式。 如果要直接从存储数据源(如 Azure Data Lake Storage (ADLS Gen2) )扫描增量格式,则会分析增量格式中的 parquet 文件集,并按了解资源集中所述作为资源集进行处理。 此外,不会将用于分区的列识别为资源集架构的一部分。

架构提取

对于在扫描期间支持架构提取的数据源,资产架构不会直接被列数截断。

嵌套数据

目前,仅 JSON 内容支持嵌套数据。

对于所有 系统支持的文件类型,如果列中存在嵌套的 JSON 内容,扫描程序将分析嵌套的 JSON 数据,并将其显示在资产的架构选项卡中。

SQL 不支持嵌套数据或嵌套架构分析。 具有嵌套数据的列将被报告并按原样分类,并且不会分析子数据。

用于分类的采样数据

在Microsoft Purview 数据映射术语中,

  • L1 扫描:提取基本信息和元数据,如文件名、大小和完全限定名称
  • L2 扫描:提取结构化文件类型和数据库表的架构
  • L3 扫描:提取架构(如果适用),并将采样文件设置为系统和自定义分类规则

详细了解如何 自定义扫描级别

对于所有结构化文件格式,Microsoft Purview 数据映射扫描程序按以下方式对文件进行采样:

  • 对于结构化文件类型,它会对每列中的前 128 行或前 1 MB 行进行采样,以较低者为准。
  • 对于文档文件格式,它会对每个文件的前 20 MB 采样。
    • 如果文档文件大于 20 MB,则它不受深度扫描 (受分类) 的约束。 在这种情况下,Microsoft Purview 仅捕获基本元数据,例如文件名和完全限定的名称。
  • 对于 表格数据源 (SQL) ,它将对前 128 行进行采样。
  • 对于 Azure Cosmos DB for NoSQL,将为架构收集容器中前 10 个文档中最多 300 个不同的属性,对于每个属性,将采样来自最多 128 个文档或前 1 MB 的值。

资源集文件采样

如果文件夹或分区文件组与系统资源集策略或客户定义的资源集策略匹配,则会在Microsoft Purview 数据映射中检测为资源集。 如果检测到资源集,扫描程序将采样它包含的每个文件夹。 在此处详细了解资源集。

按文件类型对资源集进行文件采样:

  • 分隔文件 (CSV、PSV、SSV、TSV) - (L3 扫描) 被视为“资源集”的文件夹或分区文件组内的 1 个文件采样 100 个文件中的 1 个
  • Data Lake 文件类型 (Parquet、Avro、Orc) - 1 in 18446744073709551615 (long max) 文件 (L3 扫描) 在被视为“资源集”的文件夹或分区文件组内采样
  • JSON、XML、TXT) (其他结构化文件类型 - 在被视为“资源集”的文件夹或分区文件组 (L3 扫描) 对 100 个文件中的 1 个文件采样
  • SQL 对象和 Azure Cosmos DB 实体 - 每个文件都经过 L3 扫描。
  • 文档文件类型 - 对每个文件进行 L3 扫描。 资源集模式不适用于这些文件类型。

后续步骤