你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 高性能计算(HPC)登陆区域加速器
高性能计算(HPC)登陆区域加速器可自动部署环境。 此环境提供了一个基本框架,可以自定义该框架,以便为 Azure 中完整的 HPC 群集解决方案创建端到端部署机制。 加速器是一系列开源脚本和模板,可用于准备企业级登陆区域。 它可以提供特定的体系结构方法和遵循云采用框架体系结构和最佳做法的参考实现。
客户采用各种方式采用 HPC 以满足其业务需求,你可以调整 HPC 登陆区域加速器,以生成适合 你的 方式的体系结构。 使用加速器有助于使组织走上可持续规模的道路。
实现企业规模登陆区域
HPC 登陆区域加速器假设你从已成功实现的企业规模登陆区域开始。 有关此先决条件的详细信息,请参阅以下文章:
HPC 登陆区域加速器提供的内容
HPC 登陆区域加速器登陆区域的方法为项目提供以下资产:
- 模块化方法,以便自定义环境变量
- 设计指南,以帮助评估关键决策
- 登陆区域体系结构
- 包括:
- 能够为 HPC 部署创建环境的可部署引用
- Microsoft 批准的 HPC 参考实现,用于测试已部署的环境
能源、制造和金融设计指南
除组织不同外,登陆区域的体系结构因业务部门而异。 本部分按部门列出了为创建登陆区域提供指南的文章:
能源(石油和天然气)
制造
Finance
为 AI 工作负载选择 HPC 计算的设计准则
为 AI 工作负载选择正确的 GPU 优化计算 SKU 对于优化性能和控制成本非常重要。 Microsoft 提供了许多不同的 SKU,这些 SKU 针对受益于更多 GPU 电源的工作负载进行优化。 为 AI 工作负载选择合适的 SKU 时,有几个注意事项。 较小的工作负荷只能利用 CPU、GPU 和更强大的 SKU(如 NDv4)的带宽的一小部分。 对于较小的作业,可能需要考虑其他计算 SKU,例如 NCv4 和 NDv2。 下面是为 AI 工作负载选择正确的 GPU 优化计算 SKU 时的一些注意事项:
- 检查点。 考虑运行机器学习模型时检查点间隔等因素。 这可能会影响训练阶段的 GPU 性能。 在存储效率与保持流畅的 GPU 操作之间取得平衡。 监视 GPU 使用情况。
- 推理。 推断要求与训练要求不同,CPU 负载可能更高,可能会使 CPU 性能达到最大。 选择计算 SKU 时,请考虑模型的推理要求。 监视 CPU 使用情况。
- 训练。 考虑训练期间模型的要求,监视 CPU 和 GPU 使用情况。
- 作业大小调整。 考虑 AI 工作负荷的计算 SKU 时,请考虑作业的大小。 较小的作业(如大约 OPT 1.3B 的作业)可能无法利用更大的 SKU 大小,并且可能会根据作业的阶段(推理、训练)使 CPU 和 GPU 电源处于空闲状态。
- 带宽。 如果没有使用,更大的、较低的延迟带宽可能是一种费用。 对于需要额外带宽的最大模型,请考虑 InfiniBand。
查看 Azure 的 GPU 优化虚拟机大小。
示例:能源的概念参考体系结构
以下概念参考体系结构是一个演示能源环境设计领域和最佳做法的示例。
示例:财务概念参考体系结构
以下概念参考体系结构是一个演示财务环境设计领域和最佳做法的示例。
示例:用于制造的概念参考体系结构
以下概念参考体系结构是一个演示制造环境设计领域和最佳做法的示例。
获取 HPC 登陆区域加速器
GITHub 上提供了 HPC 登陆区域加速器: Azure HPC OnDemand 平台加速器
后续步骤
有关 HPC 登陆区域加速器体系结构的注意事项和建议,请查看 Azure 标识和访问管理中 HPC 登陆区域加速器的关键设计区域。