你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 上的大型机文件复制和同步

Azure 数据工厂
Azure Data Lake
Azure SQL 数据库
Azure 存储
Azure 虚拟机

解决方案构想

本文介绍了一种解决方案构想。 云架构师可以通过本指南来帮助可视化此体系结构的典型实现的主要组件。 以本文为起点,设计一个符合工作负荷特定要求的架构合理的解决方案。

将本地大型机或中型机应用程序迁移到 Azure 时,传输数据是主要考虑因素。 一些现代化场景需要快速将文件复制到 Azure,或在本地文件和 Azure 文件之间保持同步。

本文描述将文件传输到 Azure、转换文件数据以及在本地和 Azure 中存储数据的几种过程。

体系结构

下图显示用于将本地文件复制和同步到 Azure 的一些选项:

显示将本地文件迁移到 Azure 的三个步骤(传输、转换和变换),以及存储在持久存储中的示意图。

下载此体系结构的 Visio 文件

数据流

  1. 将文件传输到 Azure:

    • 将文件传输到本地或 Azure 的最简单方法是使用文件传输协议 (FTP)。 可以在 Azure 虚拟机 (VM) 上托管 FTP 服务器。 简单的 FTP 作业控制语言 (JCL) 以二进制格式将文件发送到 Azure,这对于保留大型机计算、中型计算和二进制数据类型至关重要。 可以将传输的文件存储在本地磁盘、Azure VM 文件存储或 Azure Blob 存储中。

    • 还可使用 AzCopy 等工具将本地文件上传到 Blob 存储。

    • Azure 数据工厂 FTP/SFTP 连接器还可用于将数据从大型机系统传输到 Blob 存储。 此方法还需要使用安装自承载集成运行时 (SHIR) 的中间 VM。

    • 还可以在 Azure 市场中找到第三方工具,以便将文件从大型机传输到 Azure。

  2. 协调和转换数据:

    • Azure 无法读取 Azure VM 磁盘或 Blob 存储中的 IBM 广义二进制编码的十进制交换码 (EBCDIC) 代码页文件。 为了使这些文件与 Azure 字符集兼容,Host Integration Server (HIS) 将文件从 EBCDIC 转换为 American Standard Code for Information Interchange (ASCII) 格式。

      Copybook 定义 COBOL、PL/I 和汇编语言文件的数据结构。 HIS 根据 copybook 布局将这些文件转换为 ASCII。

    • 在将数据传输到 Azure 数据存储之前,可能需要转换数据或将其用于分析。 数据工厂可以管理这些提取、转换和加载 (ETL) 和提取、加载和转换 (ELT) 活动,并将数据直接存储在 Azure Data Lake Storage 中。

    • 对于大数据集成,Azure Databricks 和 Azure Synapse Analytics 可以使用 Apache Spark 引擎进行内存中计算,从而快速有效地执行所有转换活动。

  3. 存储数据:

    你可根据要求将传输的数据存储在几种可用的持久 Azure 存储模式之一中。

    • 如果不需要分析,Azure 数据工厂可以将数据直接存储在各种存储选项中,例如 Data Lake Storage 和 Blob 存储。

    • Azure 托管各种数据库,这可满足不同的需求:

      • 关系数据库包括 SQL Server 系列,以及 PostgreSQL 和 MySQL 等开源数据库。
      • 非关系型数据库包括 Azure Cosmos DB,后者是一种快速的多模型全局分布式 NoSQL 数据库。
  4. 查看分析和商业智能:

    Microsoft Fabric 是一种一体化分析解决方案,组织可用于研究数据移动、试验数据科学以及查看实时分析和商业智能。 它提供一套全面的功能,包括数据湖、数据工程和数据集成。

组件

不同的文件传输、集成和存储场景使用不同的组件。 若要估算 Azure 资源的成本,请参阅 Azure 定价计算器

网络

本地数据网关是将本地数据连接到云服务的桥接软件。 可以将网关安装在专用的本地 VM 上

数据集成和转换

  • 主机文件的数据提供程序HIS 的一个组件,可将 EBCDIC 代码页文件转换为 ASCII。 该提供程序可在本地二进制文件中脱机读写记录,也可使用系统网络体系结构 (SNA) 或传输控制协议/Internet 协议 (TCP/IP) 在远程 IBM z/OS 大型机数据集或 i5/OS 物理文件中读写记录。 HIS 连接器可用于 BizTalkAzure 逻辑应用

  • Azure 数据工厂是一种混合数据集成服务,通过它可创建、计划和协调 ETL 和 ELT 工作流。

  • Azure Databricks 是针对 Azure 优化的基于 Apache Spark 的分析平台。 你可使用 Databricks 来关联传入的数据,并使用存储在 Databricks 中的其他数据进行扩充。

  • Azure Synapse Analytics 是快速且灵活的云数据仓库,采用大规模并行处理 (MPP) 架构,可用于以弹性且独立的方式拓展、计算和存储。

数据库

  • Azure SQL 数据库是一项可缩放的关系云数据库服务。 Azure SQL 数据库经久不衰,始终保持最新状态,并提供 AI 支持的自动化功能来优化性能和持续性。 无服务器计算和超大规模存储选项可按需自动缩放资源。 借助 Azure 混合权益,可在云上免费使用现有的本地 SQL Server 许可证。

  • Azure SQL 托管实例将最广泛的 SQL Server 数据库引擎兼容性与完全托管且经久不衰的平台即服务 (PaaS) 的所有优势相结合。 借助 SQL 托管实例,你可以使用熟悉的工具、技能和资源对现有应用进行大规模现代化。

  • Azure 虚拟机上的 SQL Server 将 SQL Server 工作负载直接迁移到云,以将 Azure 的灵活性和混合连接与 SQL Server 性能、安全性和分析相结合。 可以访问与代码完全兼容的最新 SQL Server 更新和版本。

  • Azure Database for PostgreSQL 是基于社区版开源 PostgreSQL 数据库引擎的完全托管的关系数据库服务。

  • Azure Database for MySQL 是基于社区版开源 MySQL 数据库引擎的完全托管的关系数据库服务。

  • Azure Cosmos DB 是一项完全托管的多模型 NoSQL 数据库服务,用于生成和现代化可缩放的高性能应用程序。 Azure Cosmos DB 可跨地理区域弹性且独立地缩放吞吐量和存储,并保证在世界上任何地方在第 99 百分位可用性的延迟仅为几毫秒。

其他数据存储

  • Blob 存储存储大量非结构化数据(例如文本或二进制数据),可通过 HTTP 或 HTTPS 从任意位置访问这些数据。 可以使用 Blob 存储公开数据,或者私下存储应用程序数据。

  • Data Lake Storage 是一个存储库,可以按原生的原始格式存储大量的数据。 Data Lake Storage 可为具有 TB 和 PB 级数据的大数据分析工作负载提供扩展功能。 这些数据通常来自多个异类源,可以是结构化的、半结构化的或非结构化的。

可能的用例

本地文件复制和同步用例包括:

  • 下游或上游依赖项,例如,在大型机和 Azure 上运行的应用程序均需通过文件交换数据。

  • 使用本地应用程序在 Azure 上对重新托管或重新设计的应用程序进行并行测试。

  • 在无法立即修复或实现现代化的系统上紧密耦合的本地应用程序。

作者

本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。

主要作者:

要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。

后续步骤