你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 基础结构 (IaaS) 上的 AI 工作负荷治理建议

本文为在 Azure 基础结构 (IaaS) 上运行 AI 工作负荷的组织提供治理建议。 这些建议有助于组织建立一个用于资源管理、成本控制、安全和运行效率的结构化框架。 通过遵循这些做法,可以负责任地缩放 AI 工作负荷,并确保它们符合合规性、安全性和财务目标。

资源治理

资源治理制定了管理 Azure 资源的规则和标准。 通过执行治理策略,组织可以确保合规性、规范资源使用并控制成本,从而支持负责任地缩放 AI 运营。

  • 强制使用标记。 使用 Azure Policy 来执行资源位置、允许的 SKU 和强制标记等规则。 例如,创建限制部署某些高成本虚拟机的策略,以便帮助有效管理预算。

  • 应用管理政策,以便确保合规性和标准化。 使用 Azure Policy 来执行诸如资源位置、允许的 SKU 和强制标记等规则。 例如,创建限制部署某些高成本 VM 的策略,以达到控制预算的目的。

  • 使用资源组进行生命周期管理。 在共享公共生命周期的资源组中部署 AI 资源。 资源组让你能够统一部署、配置和删除资源。 它们还提供额外的治理(策略)、安全性 (RBAC) 和成本(预算)边界。

  • 让命名约定标准化。 为 AI 资源实现标准化命名约定。 这种做法可以改进跟踪与管理。 使用每个 Azure 资源的命名规则和限制,同时遵循建议的缩写方式,因为许多资源通常存在名称长度限制。

  • 治理基础结构即代码。 使用 Microsoft Defender for Cloud 来监控和执行 IaC 安全性。 此工具有助于检测 IaC 配置错误,同时确保安全部署。

成本管理

成本管理可监控与 Azure 上 AI 工作负荷相关的支出。 有效的成本管理使组织能够为 AI 项目制定预算、跟踪支出并保持财务可持续性。

  • 使用标记来分配成本。 配置 Azure Policy 定义以强制对资源进行标记。 使用标记按项目、成本中心、环境和所有者对资源进行分类,以便更好地管理和计费。

  • 使用标记继承。 在成本管理中使用标记继承,将计费、资源组和订阅标记应用到子资源使用情况记录中。

  • 管理计费帐户。 使用 Microsoft 账单来监督计费帐户并处理发票。 为每个 AI 项目或团队分配一个计费帐户,以便准确跟踪支出。

  • 监控成本。 使用 Microsoft 成本管理来设置预算警报、成本异常警报和计划警报。 通过这种方式监控成本有助于组织保持财务纪律。

  • 查看支出模式。 使用 Azure 成本分析工具定期评审支出模式。 此过程可确定趋势并揭示潜在的节约领域,特别是在 VM 使用方面。

  • 允许特定的虚拟机 SKU。 使用 Azure 策略,只允许使用符合 AI 预算的虚拟机 SKU。 内置策略定义允许的虚拟机 SKU 可以执行此控制。

  • 考虑自动缩放。 使用虚拟机规模集根据需求动态调整 VM 计数,从而优化成本。

  • 配置 VM 自动关闭。 使用自动关闭功能来计划 VM 在非工作时间关闭,从而减少不必要的成本。

安全治理

安全治理可满足对 AI 工作负荷的强大保护措施的需求。 通过实现安全策略和访问控制,组织可以对敏感数据和资源加以保护。 它可降低风险,并支持在 Azure 上建立安全的 AI 环境。

  • 与 Microsoft Entra ID 集成。 使用 Microsoft Entra ID 实现跨 AI 工作符合的集中标识管理和单点登录 (SSO) 功能。

  • 对每个环境实现不同的访问控制。 将每个部署管道的标识限制在指定的环境中,从而降低意外部署的风险。

  • 启用 Azure Defender。 激活 Azure Defender,以实现高级威胁防护。 Azure Defender 可增强工作负荷(包括虚拟机、存储帐户和数据库)的安全性,从而为 AI 工作负荷提供稳健的安全态势。

运营治理

运营治理可确保对 AI 工作负荷进行持续监控和管理。 通过使用监控、警报和自动化部署工具,组织可以维护系统运行状况、及早发现问题并提高运营效率,从而促进可靠、稳定的 AI 运营。

  • 部署监控代理。 确保默认情况下为虚拟机、Azure 虚拟机规模集和 Azure Arc 连接的服务器部署了 Azure Monitor 代理。 将它们连接到管理订阅中的中央 Log Analytics 工作区。

  • 配置警报。 启用建议的警报规则,以便接收指标偏差通知。

  • 使用 CI/CD 管道。 实现持续集成和持续交付 (CI/CD),在不同环境中自动进行代码测试和部署。

下一步