你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 基础结构 (IaaS) 上的 AI 工作负荷管理建议

本文为在 Azure 基础结构 (IaaS) 上运行 AI 工作负荷的组织提供管理建议。 有效管理 Azure 上的 AI 工作负荷需要持续监控、优化做法以及强大的备份和恢复策略。 这些工作可以最大程度地减少停机时间,并确保 AI 操作的可靠性。

监控 AI 基础结构

监控 AI 基础结构涉及跟踪和评估 Azure IaaS 上的 AI 部署中所有组件的性能、运行状况和可用性。 主动监控使组织能够在潜在问题影响运营之前发现并解决这些问题。

  • 默认情况下确保监控。 为虚拟机 和 Azure 虚拟机规模集(包括 Azure Arc 已连接的服务器)部署 Azure Monitor 代理。 连接管理订阅中的中央 Log Analytics 工作区。 请考虑使用 Azure Monitor 基线警报 (AMBA)。

  • 使用 Azure 更新管理器。 可以通过单一管理平台跨 Azure 和本地/其他云平台(通过 Azure Arc 连接)上的计算机监视 Windows 和 Linux 更新合规性。 还可使用更新管理器进行实时更新或将更新计划在定义的维护时段内完成。

  • 监控虚拟机。监控虚拟机 (VM) 主机数据(物理主机)和 VM 来宾数据(操作系统和应用程序)。 请考虑使用 VM Insights 来简化加入、访问预定义的性能图表,以及利用依赖项映射。 跟踪现成 VM 逐出和维护事件,以有效管理中断。 详细了解计划事件

  • 监控网络。无需登录 VM 即可监控和诊断网络问题。 获取数据包级别的实时性能信息。 使用性能诊断工具排查性能问题。 跟踪所有已部署网络资源的拓扑、运行状况和指标。

  • 监控存储。 监控存储的性能,例如本地 SSD、附加磁盘、文件共享和 Azure 存储帐户

  • 使用业务流程协调程序监控功能(如果适用)。 请考虑使用业务流程协调程序的内置监控功能,例如 Azure CycleCloud、Azure Batch 和 Azure Kubernetes 服务 (AKS)。 按照所选业务流程协调程序的指南操作:

    • 适用于 Slurm 的 Azure CycleCloud 或 Azure CycleCloud 工作区:跟踪 CPU、磁盘和网络指标。 将数据从 Azure CycleCloud 群集存储到 Log Analytics 并创建自定义指标仪表板。 有关详细信息,请参阅监控 Azure CycleCloud节点运行状况检查是一组自动测试,可确保 HPC/AI 硬件正常运行。 可以在 Azure CycleCloud 中作为群集部署的一部分运行此检查,也可以使用 GitHub 存储库指令单独运行此检查。 请务必注意文档中的兼容性矩阵。 在适当情况下运行,以确保在运行 AI 工作负荷之前识别任何运行不正常的节点。

    • Azure Batch: 收集作业和任务指标,例如活动任务、任务持续时间、作业开始时间、持续时间、任务开始时间。 此外,收集池指标,例如空闲节点、正在运行的节点、CPU 使用率、磁盘 I/O。 有关详细信息,请参阅 Azure Batch 监控

    • Azure Kubernetes 服务。 对容器使用 Azure Monitor。 监控 Pod 性能、节点运行状况和资源利用率。 设置警报和自定义仪表板。

管理业务连续性和灾难恢复

在 Azure 上管理 AI 应用程序的业务连续性和灾难恢复,可确保组织能够从中断中快速恢复。 通过实施实时复制、自动恢复和定期备份等策略,组织可保护其 AI 基础结构免受数据丢失和运营停机的影响。

  • 使用 Azure Site Recovery。 Site Recovery 使用实时复制和恢复自动化跨区域复制工作负荷。 VM 工作负荷的内置平台功能满足较低的 RPO 和 RTO 要求。 可以使用 Site Recovery 运行恢复演练,而不会影响生产工作负荷。 此外,可以使用 Azure Policy 来启用复制和审核 VM 保护。

  • 使用业务流程协调程序功能(如果适用)。 使用业务流程协调程序恢复失败的计算节点。 例如,将 Azure Batch 配置为在发生故障时自动重试任务

  • 计划备份。 确定是否需要每天或每周备份对数据集和模型的增量更改。 备份还可以包括数据库或整个数据集。

  • 确保数据合规性。 确保备份策略符合数据保护法规。 遵守数据驻留要求,并将备份存储在适当的地理位置。

  • 创建快照。 可以使用计划程序的功能拍摄快照。 例如,CycleCloud 可以基础应用程序数据存储进行时间点快照,作为恢复点。

下一步