你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 基础结构 (IaaS) 上的 AI 工作负荷治理建议
本文为在 Azure 基础结构 (IaaS) 上运行 AI 工作负荷的组织提供治理建议。 这些建议有助于组织建立一个用于资源管理、成本控制、安全和运行效率的结构化框架。 通过遵循这些做法,可以负责任地缩放 AI 工作负荷,并确保它们符合合规性、安全性和财务目标。
资源治理
资源治理制定了管理 Azure 资源的规则和标准。 通过执行治理策略,组织可以确保合规性、规范资源使用并控制成本,从而支持负责任地缩放 AI 运营。
强制使用标记。 使用 Azure Policy 来执行资源位置、允许的 SKU 和强制标记等规则。 例如,创建限制部署某些高成本虚拟机的策略,以便帮助有效管理预算。
应用管理政策,以便确保合规性和标准化。 使用 Azure Policy 来执行诸如资源位置、允许的 SKU 和强制标记等规则。 例如,创建限制部署某些高成本 VM 的策略,以达到控制预算的目的。
使用资源组进行生命周期管理。 在共享公共生命周期的资源组中部署 AI 资源。 资源组让你能够统一部署、配置和删除资源。 它们还提供额外的治理(策略)、安全性 (RBAC) 和成本(预算)边界。
让命名约定标准化。 为 AI 资源实现标准化命名约定。 这种做法可以改进跟踪与管理。 使用每个 Azure 资源的命名规则和限制,同时遵循建议的缩写方式,因为许多资源通常存在名称长度限制。
治理基础结构即代码。 使用 Microsoft Defender for Cloud 来监控和执行 IaC 安全性。 此工具有助于检测 IaC 配置错误,同时确保安全部署。
成本管理
成本管理可监控与 Azure 上 AI 工作负荷相关的支出。 有效的成本管理使组织能够为 AI 项目制定预算、跟踪支出并保持财务可持续性。
使用标记来分配成本。 配置 Azure Policy 定义以强制对资源进行标记。 使用标记按项目、成本中心、环境和所有者对资源进行分类,以便更好地管理和计费。
使用标记继承。 在成本管理中使用标记继承,将计费、资源组和订阅标记应用到子资源使用情况记录中。
管理计费帐户。 使用 Microsoft 账单来监督计费帐户并处理发票。 为每个 AI 项目或团队分配一个计费帐户,以便准确跟踪支出。
监控成本。 使用 Microsoft 成本管理来设置预算警报、成本异常警报和计划警报。 通过这种方式监控成本有助于组织保持财务纪律。
查看支出模式。 使用 Azure 成本分析工具定期评审支出模式。 此过程可确定趋势并揭示潜在的节约领域,特别是在 VM 使用方面。
允许特定的虚拟机 SKU。 使用 Azure 策略,只允许使用符合 AI 预算的虚拟机 SKU。 内置策略定义允许的虚拟机 SKU 可以执行此控制。
考虑自动缩放。 使用虚拟机规模集根据需求动态调整 VM 计数,从而优化成本。
配置 VM 自动关闭。 使用自动关闭功能来计划 VM 在非工作时间关闭,从而减少不必要的成本。
安全治理
安全治理可满足对 AI 工作负荷的强大保护措施的需求。 通过实现安全策略和访问控制,组织可以对敏感数据和资源加以保护。 它可降低风险,并支持在 Azure 上建立安全的 AI 环境。
与 Microsoft Entra ID 集成。 使用 Microsoft Entra ID 实现跨 AI 工作符合的集中标识管理和单点登录 (SSO) 功能。
对每个环境实现不同的访问控制。 将每个部署管道的标识限制在指定的环境中,从而降低意外部署的风险。
启用 Azure Defender。 激活 Azure Defender,以实现高级威胁防护。 Azure Defender 可增强工作负荷(包括虚拟机、存储帐户和数据库)的安全性,从而为 AI 工作负荷提供稳健的安全态势。
运营治理
运营治理可确保对 AI 工作负荷进行持续监控和管理。 通过使用监控、警报和自动化部署工具,组织可以维护系统运行状况、及早发现问题并提高运营效率,从而促进可靠、稳定的 AI 运营。
部署监控代理。 确保默认情况下为虚拟机、Azure 虚拟机规模集和 Azure Arc 连接的服务器部署了 Azure Monitor 代理。 将它们连接到管理订阅中的中央 Log Analytics 工作区。
配置警报。 启用建议的警报规则,以便接收指标偏差通知。
使用 CI/CD 管道。 实现持续集成和持续交付 (CI/CD),在不同环境中自动进行代码测试和部署。