你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

CSV 解析器引入概念

CSV(逗号分隔值)文件是逗号分隔的文本文件,用于以表格结构化格式保存数据。

通过 CSV 分析程序 DAG,客户可以根据自定义架构(即与 OSDU® 已知架构 (WKS) 不匹配的架构)将数据加载到 Microsoft Azure Data Manager for Energy 实例中。 在加载数据之前,客户必须使用架构服务来创建和注册自定义架构。

CSV 分析程序 DAG 实现数据加载 ELT(提取、加载和转换)方法,即首先以 CSV 格式从源系统中提取数据,并将数据加载到 Azure Data Manager for Energy 实例中。 之后,可以使用映射服务将数据转换为 OSDU® 已知架构。

CSV 引入有什么作用?

CSV 分析程序 DAG 允许客户将 CSV 数据加载到 Microsoft Azure Data Manager for Energy 实例中。 其具体操作如下:先分析 CSV 文件的每一行,创建存储元数据记录, 并执行 schema validation 以确保 CSV 数据符合已注册的自定义架构。 再根据架构数据类型定义自动对列执行 type coercion, 并通过组合源、实体类型和通过连接数据中的自然键形成的 Base64 编码字符串来为每一行 CSV 记录生成 unique id。 然后使用单元服务将声明的参考框架信息转换为适当的可持久参考,从而执行 unit conversion。 之后再根据架构中存在的参考框架 (FoR) 信息为空间感知列执行 CRS conversion, 并创建源架构中声明的 relationships 元数据。 最后,使用存储服务对元数据记录执行 persists 操作。

CSV 解析器引入组件

CSV 分析程序 DAG 工作流包括下列服务:

  • 文件服务有助于管理 Azure Data Manager for Energy 实例中的文件。 通过该服务,用户可以从数据平台安全地上传、发现和下载文件。
  • 架构服务有助于管理 Azure Data Manager for Energy 实例中的文件。 通过该服务,用户可以在数据平台中创建、提取和搜索架构。
  • 存储服务有助于存储引入到数据平台中的域实体的元数据信息。 它还会引发存储记录更改事件,这些事件允许下游服务对引入的元数据记录执行操作。
  • 单元服务有助于管理和转换单元
  • 工作流服务有助于管理 Azure Data Manager for Energy 实例中的工作流。 它是 Airflow 业务流程引擎之上的包装器服务。

CSV 引入组件图

CSV 引入组件图的屏幕截图。

CSV 解析器引入工作流程

若要执行 CSV 分析程序 DAG 工作流,用户必须具有有效的授权令牌和对以下服务的适当访问权限:搜索、存储、架构、文件服务、权利、法律和工作流。

以下工作流示意图演示了 CSV 分析程序 DAG 工作流:CSV 引入序列图的屏幕截图。

若要执行 CSV 分析程序 DAG 工作流,用户必须先使用工作流服务创建和注册架构。 创建架构后,用户需要使用文件服务将 CSV 文件上传到 Microsoft Azure Data Manager for Energy 实例,还要创建文件泛型类型的存储记录。 之后,文件服务会向用户提供文件 ID,使用工作流服务触发 CSV 分析程序工作流时会用到该 ID。 工作流服务提供一个运行 ID,用户可以使用该 ID 跟踪 CSV 分析程序工作流运行的状态。

OSDU® 是 Open Group 的商标。

后续步骤

跳转到 CSV 解析器教程并学习如何执行 CSV 解析器引入