你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
CSV 解析器引入概念
CSV(逗号分隔值)文件是逗号分隔的文本文件,用于以表格结构化格式保存数据。
通过 CSV 分析程序 DAG,客户可以根据自定义架构(即与 OSDU® 已知架构 (WKS) 不匹配的架构)将数据加载到 Microsoft Azure Data Manager for Energy 实例中。 在加载数据之前,客户必须使用架构服务来创建和注册自定义架构。
CSV 分析程序 DAG 实现数据加载 ELT(提取、加载和转换)方法,即首先以 CSV 格式从源系统中提取数据,并将数据加载到 Azure Data Manager for Energy 实例中。 之后,可以使用映射服务将数据转换为 OSDU® 已知架构。
CSV 引入有什么作用?
CSV 分析程序 DAG 允许客户将 CSV 数据加载到 Microsoft Azure Data Manager for Energy 实例中。 其具体操作如下:先分析 CSV 文件的每一行,创建存储元数据记录, 并执行 schema validation
以确保 CSV 数据符合已注册的自定义架构。 再根据架构数据类型定义自动对列执行 type coercion
, 并通过组合源、实体类型和通过连接数据中的自然键形成的 Base64 编码字符串来为每一行 CSV 记录生成 unique id
。 然后使用单元服务将声明的参考框架信息转换为适当的可持久参考,从而执行 unit conversion
。 之后再根据架构中存在的参考框架 (FoR) 信息为空间感知列执行 CRS conversion
, 并创建源架构中声明的 relationships
元数据。 最后,使用存储服务对元数据记录执行 persists
操作。
CSV 解析器引入组件
CSV 分析程序 DAG 工作流包括下列服务:
- 文件服务有助于管理 Azure Data Manager for Energy 实例中的文件。 通过该服务,用户可以从数据平台安全地上传、发现和下载文件。
- 架构服务有助于管理 Azure Data Manager for Energy 实例中的文件。 通过该服务,用户可以在数据平台中创建、提取和搜索架构。
- 存储服务有助于存储引入到数据平台中的域实体的元数据信息。 它还会引发存储记录更改事件,这些事件允许下游服务对引入的元数据记录执行操作。
- 单元服务有助于管理和转换单元
- 工作流服务有助于管理 Azure Data Manager for Energy 实例中的工作流。 它是 Airflow 业务流程引擎之上的包装器服务。
CSV 引入组件图
CSV 解析器引入工作流程
若要执行 CSV 分析程序 DAG 工作流,用户必须具有有效的授权令牌和对以下服务的适当访问权限:搜索、存储、架构、文件服务、权利、法律和工作流。
若要执行 CSV 分析程序 DAG 工作流,用户必须先使用工作流服务创建和注册架构。 创建架构后,用户需要使用文件服务将 CSV 文件上传到 Microsoft Azure Data Manager for Energy 实例,还要创建文件泛型类型的存储记录。 之后,文件服务会向用户提供文件 ID,使用工作流服务触发 CSV 分析程序工作流时会用到该 ID。 工作流服务提供一个运行 ID,用户可以使用该 ID 跟踪 CSV 分析程序工作流运行的状态。
OSDU® 是 Open Group 的商标。
后续步骤
跳转到 CSV 解析器教程并学习如何执行 CSV 解析器引入