你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure HPC 的网络拓扑和连接

本文中的指南可帮助你了解与Microsoft Azure 和高性能计算(HPC)部署的网络和连接相关的设计注意事项和最佳做法。

IP 寻址计划

在 Azure 中规划 IP 寻址有助于确保:

  • IP 地址空间不会跨本地位置和 Azure 区域重叠。
  • 未来与现有的或计划的虚拟网络的虚拟网络对等互连是可能实现的。
  • 虚拟网络包含正确的地址空间。
  • 提前对子网配置进行适当的规划。
  • 为将来的扩展或其他服务考虑足够的额外寻址。

设计注意事项和建议

  • 请考虑创建单独的子网,以跨环境的功能组件分配 IP 地址。 例如,专用 HPC 虚拟网络可能包括以下子网:

    • 计算
    • 存储
    • 基础设施
    • 可视化
    • 登录
    • Azure NetApp 文件
    • Azure HPC 缓存
  • Azure NetApp 文件、HPC 缓存和将来的存储产品/服务等多个服务需要专用委派子网才能正常运行。 如果考虑使用这些服务中的任何一项,请确保规划适当的寻址空间。 如果要实现 Azure NetApp 文件(在使用共享文件系统的 HPC 部署中经常使用),需要委托子网。 可以将子网指定和委派给特定服务,然后在子网内创建这些服务的实例。

  • Azure 可帮助在虚拟网络中创建多个委派子网,但 Azure NetApp 文件的虚拟网络中只能存在一个委派子网。 对于 Azure NetApp 文件,如果使用多个委托子网,则创建新卷的尝试会失败。 如果使用 HPC 缓存进行存储,请创建专用子网。 有关此子网先决条件的详细信息,请参阅 缓存子网。 若要详细了解如何创建子网,请参阅 添加虚拟网络子网

本地和 Azure 资源的 DNS 和名称解析

域名系统(DNS)是整个 Azure 登陆区域体系结构中的关键设计元素。 某些组织可能想要使用其在 DNS 中的现有投资。 其他组织可能会认为云采用是实现内部 DNS 基础结构现代化和使用本机 Azure 功能的机会。 当虚拟机的 DNS 或虚拟名称在迁移期间不更改时,以下建议适用。

设计注意事项和建议

  • 后台 DNS 和虚拟名称连接 HPC 环境中的多个系统接口。 客户有时只知道开发人员随时间推移定义的接口。 在迁移后虚拟或 DNS 名称发生更改时,可能会发生各种系统之间的连接挑战,因此应保留 DNS 别名以防止此类问题。

  • 使用不同的 DNS 区域来区分环境。 这些环境包括沙盒、开发、预生产以及生产。 例外情况是,具有自己的虚拟网络的 HPC 部署可能不需要专用 DNS 区域。

  • 使用 HPC 缓存时,必须使用 DNS 支持,以便他们可以访问存储和其他资源。

  • 使用资源位置和服务记录时,DNS 和名称解析对于财务部门至关重要。 建议使用Microsoft Entra Domain Services 域控制器提供的 DNS 解析。 有关详细信息,请参阅 在 Azure 虚拟网络中部署 Microsoft Entra 域服务。

高性能网络服务

  • 加速网络: 许多 HPC 工作负荷(包括地震处理)处理存储在共享文件系统(如 Azure Blob、Azure NetApp 文件和 Lustre ClusterStor)中的大量数据。 通过网络访问这些存储解决方案和自定义解决方案。 高性能网络对于减少数据传输时间至关重要。 加速网络 在虚拟机(VM)与 Azure 服务之间提供高吞吐量、低延迟的连接。 其他优势包括减少抖动和最小 CPU 利用率。

  • InfiniBand: 依赖于消息传递接口(MPI)库的并行 HPC 应用程序可能需要在多个 VM 之间传输大量数据。 InfiniBand 互连在支持远程直接内存访问(RDMA)的 H 系列N 系列 VM 上可用,提供低延迟、高带宽连接,以最大限度地提高 HPC 和深度学习应用程序的性能和可伸缩性。

    • 如果运行在计算机之间需要低延迟的财务应用程序,并且必须在节点之间传输信息以获取结果,请使用低延迟和高吞吐量互连。 支持 RDMA 的 H 系列N 系列 VM 通过低延迟和高带宽 InfiniBand 网络进行通信。 通过此类连接的 RDMA 网络功能对于提高分布式节点 HPC 和 AI 工作负载的可伸缩性和性能至关重要。 此网络可以提高在 Microsoft MPI 或 Intel MPI 下运行的应用程序的性能。 MPI 作业的一些示例包括分子动力学、计算流体动力学、石油和天然气储层模拟以及新兴的分布式机器学习工作负载。

    • InfiniBand 连接只能在同一个 放置组内分配的 VM 之间实现。 有关详细信息,请参阅启用 InfiniBand。 若要了解如何设置 MPI,请参阅 为 HPC设置消息传递接口。

    显示多个 VM 之间 InfiniBand 连接的 图表。

  • Azure ExpressRoute: ExpressRoute 连接不使用公共 Internet,它们提供比典型 Internet 连接更高的可靠性、更快的速度和更低的延迟。 对于点到站点 VPN 和站点到站点 VPN,可以使用这些 VPN 选项和 ExpressRoute 的任意组合将本地设备或网络连接到虚拟网络。

    • 对于突发应用(如油藏模拟和建模的混合设置,其中本地数据集是共享的,Azure 计算成为一个扩展),ExpressRoute 通过专用连接将本地环境连接到 Microsoft Cloud。 ExpressRoute 提供企业级复原能力和可用性,以及全球 ExpressRoute 合作伙伴生态系统的优势。 有关如何使用 ExpressRoute 将网络连接到Microsoft的详细信息,请参阅 ExpressRoute 连接模型

    • 对于像风险网格计算解决方案这样的混合应用程序,当本地交易系统和分析功能正常运作时,Azure 将作为一个扩展。您可以使用 ExpressRoute 借助连接提供商,通过专用连接将本地环境与 Azure 连接。 ExpressRoute 提供企业级复原能力和可用性,以及全球 ExpressRoute 合作伙伴生态系统的优势。 有关如何使用 ExpressRoute 将网络连接到 Azure 的信息,请参阅 ExpressRoute 连接模型

定义 Azure 网络拓扑

企业级登陆区域支持两个网络拓扑。 一个拓扑基于 Azure 虚拟 WAN,另一个拓扑基于基于中心辐射体系结构的传统网络拓扑。 本部分针对这两种部署模型建议 HPC 配置和做法。

如果组织计划执行以下操作,请使用基于虚拟 WAN 的网络拓扑:

  • 跨多个 Azure 区域部署资源,并将全局位置连接到 Azure 和本地环境。

  • 将软件定义的 WAN 部署与 Azure 完全集成。

  • 将多达 2,000 个 VM 工作负载部署到连接到同一个虚拟 WAN 枢纽的所有虚拟网络上。

组织使用 Azure 虚拟 WAN 来满足大规模互连要求。 Microsoft管理此服务,这有助于降低整体网络复杂性并实现组织网络现代化。 如果组织满足以下条件,请使用基于中心分支体系结构的传统 Azure 网络拓扑:

  • 计划仅在选择 Azure 区域中部署资源。

  • 无需全局互连的网络。

  • 每个区域的远程或分支位置很少,需要少于 30 个 IP 安全性(IPsec)隧道。

  • 手动配置 Azure 网络需要完全的控制和粒度。

  • 使用本地和全局虚拟网络对等互连提供连接。

本地和全局虚拟网络对等互连提供连接,并且是帮助确保跨多个 Azure 区域的 HPC 部署的登陆区域之间连接的首选方法。 记录网络拓扑和防火墙规则。 网络安全组 (NSG) 的实现通常相当复杂。 当需要将流量进行比虚拟网络所能提供的更精细的粒度标记时,请使用应用程序安全组。 了解 NSG 优先顺序规则以及哪些规则优先于其他规则。

入站和出站互联网连通性

以下部分介绍公共互联网的入站与出站连接的推荐连接模型。 由于 Azure 原生网络安全服务(如 Azure 防火墙、Azure 应用程序网关上的 Azure Web 应用程序防火墙和 Azure Front Door)是完全托管服务,因此不会产生与基础设施部署相关的运营和管理成本,而在大规模使用时,这些部署可能会变得复杂。

设计注意事项和建议

  • 如果组织具有全球业务,请考虑为 HPC 部署使用 Azure Front Door。 Azure Front Door 使用 Azure Web 应用程序防火墙策略 跨 Azure 区域提供和保护全球 HTTP 和 HTTPS 应用程序。

  • 使用 Azure Front Door 和应用程序网关时,可以利用 Web 应用程序防火墙策略 来帮助保护 HTTP 和 HTTPS 应用程序。 锁定应用程序网关以仅接收来自 Azure Front Door 的流量。 有关详细信息,请参阅 如何锁定访问权限?

  • 使用本地和全局虚拟网络对等互连连接。 这些方法是首选方法,有助于确保跨多个 Azure 区域的 HPC 部署的登陆区之间的连接。

定义网络加密要求

以下部分提供有关在本地环境和 Azure 之间以及跨 Azure 区域加密网络的关键建议。

设计注意事项和建议

  • 启用加密时,请考虑流量性能。 默认情况下,IPsec 隧道会加密 Internet 流量。 任何额外的加密或解密都会对性能产生负面影响。 使用 ExpressRoute 时,默认情况下不会加密流量。 确定是否应加密 HPC 流量。 有关企业规模登陆区域中的网络加密选项的详细信息,请参阅 网络拓扑连接

以下建议用于在本地和 Azure 之间以及跨 Azure 区域加密网络:

  • 确定是否应加密 HPC 流量。 有关详细信息,请参阅 网络拓扑和连接

  • 在 Azure 中规划 IP 寻址,以帮助确保:

    • IP 地址空间不会跨本地位置和 Azure 区域重叠。
    • 虚拟网络包含正确的地址空间。
    • 提前对子网配置进行适当的规划。

定义吞吐量、延迟和带宽网络要求

仅限云中的 HPC 和 HPC 云混合部署模型各自具有自己的网络和连接延迟和吞吐量需求。 这些需求取决于在本地与云中提交和运行制造工作流和工作负荷作业的方式。 用户可以在本地或云中的许多部署模式下提交 HPC 作业。

  • 单个作业

    • 本地到 Azure 的连接注意事项(若使用远程可视化桌面)
  • 突发作业

    • 计划程序设置网络注意事项,在云中提交作业
    • Azure Batch 网络注意事项
  • 本地和云环境的并行工作流

  • 混合

    • HPC 缓存
  • 云原生

    • KS 容器
    • 功能

MPI 环境专用,因为它们具有在节点之间需要低延迟通信的独特要求。 节点通过高速互连进行连接,无法与其他工作负载共享。 MPI 应用程序在虚拟化环境中通过直通模式使用整个高性能互连。 MPI 节点的存储通常是类似 Lustre 的并行文件系统(也通过高速互连进行访问)。

后续步骤

以下文章提供有关 HPC 环境的云采用旅程中每个步骤的指导。