你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 上 AI 工作负荷的治理建议

本文为在 Azure 上运行 AI 工作负荷的组织提供了治理建议。 它专注于 Azure AI 平台即服务 (PaaS) 解决方案,包括 Azure AI Studio、Azure OpenAI、Azure 机器学习和 Azure AI 服务。 它涵盖了生成式和非生成式 AI 工作负荷。

有效的治理有助于负责任地使用 AI。 它让企业能够优化其 AI 投资,同时降低与安全、成本以及合规性相关的风险。

治理 AI 模型

AI 模型治理是指管理 AI 模型的流程,以确保其产生可靠、安全且合乎道德的输出。 对模型输入和输出加以控制有助于降低风险。 这些风险包括有害内容和意外使用 AI。 两者都会对用户和组织产生影响。 这些流程支持负责任的 AI 部署,并能防范潜在的法律和道德挑战。

  • 建立检测 AI 风险的流程。 使用 Defender for Cloud 等工具发现生成式 AI 工作负荷探索生成式 AI 工件的部署前风险。 制定政策,定期对生成式 AI 模型执行红队演练。 记录已识别的风险,并不断更新 AI 治理策略,以减少新出现的问题。

  • 为生成式 AI 模型定义基线内容筛选器。 使用 Azure AI 内容安全为已批准的 AI 模型定义基线内容筛选器。 此安全系统通过一组分类模型来运行模型的提示语和完成。 这些分类模型可检测并帮助防止有害内容跨类别输出。 内容安全可提供提示语屏蔽、事实依据检测和受保护材料文本检测等功能。 它可以扫描图像和文本。 为应用程序团队创建一个沟通不同治理需求的流程。

  • 为生成式 AI 模型提供事实依据。 使用系统消息检索增强生成 (RAG) 模式来管理生成式 AI 模型的输出。 使用提示流或开源红队框架 PyRIT 等工具来测试事实依据的有效性。

治理 AI 成本

AI 成本管理涉及管理与 AI 工作负荷相关的支出,以最大限度地提高效率,同时减少不必要的开支。 有效的成本控制可确保 AI 投资与业务目标保持一致,从而避免因过度预配或利用不足而产生不可预见的成本。 这些做法使得组织能够在财务上优化其 AI 运营。

  • 使用正确的计费模型。 如果有可预测的工作负荷,请使用 Azure AI 服务中的 AI 承诺层。 对于 Azure OpenAI 模型,请使用预配的吞吐量单位 (PTU),其价格可能低于即用即付(基于消耗)定价。 将 PTU 终结点和基于消耗的终结点结合起来以优化成本的做法较为常见。 在 AI 模型主终结点和基于消耗的 AI 辅助终结点上使用 PTU,以实现溢出。 有关详细信息,请参阅为多个 Azure OpenAI 实例引入网关

  • 根据使用情况选择合适的模型。 选择既能满足需求,又不会产生过高成本的 AI 模型。 除非用例要求使用价格较高的模型,否则使用价格较低的模型。 要进行微调,请在每个计费期内最大限度地利用使用时长,以避免额外费用。 有关详细信息,请参阅 Azure OpenAI 模型定价。 另请参阅 Azure AI Studio 模型目录和模型部署的计费信息

  • 设置预配限制。 根据预期工作负荷为每个模型分配预配配额,以避免产生不必要的成本。 持续监控动态配额,以确保其与实际需求相一致,并进行相应的调整,以保持最佳吞吐量而不会发生超支。

  • 使用正确的部署类型。 Azure OpenAI 模型允许使用不同的部署类型。 全局部署为某些 OpenAI 模型提供了更低的每个令牌成本定价。

  • 评估托管选项。 根据解决方案的需求,选择合适的托管基础结构。 例如,对于生成式 AI 工作负荷,选项包括托管在线终结点、Azure Kubernetes 服务 (AKS) 和 Azure 应用程序服务,而每一种都有自己的计费模型。 根据具体要求,选择在性能和成本之间取得最佳平衡的选项。

  • 在基于消耗的服务中控制客户端行为。 通过执行网络控制、密钥和基于角色的访问控制 (RBAC) 等安全协议,限制客户端对 AI 服务的访问。 确保客户端使用最大令牌和最大完成度等 API 约束。 在可能的情况下,批量处理请求以优化效率。 提示语要简明扼要,但要提供必要的背景信息,以减少令牌消耗。

  • 考虑使用生成式 AI 网关。 生成式 AI 网关允许你跟踪令牌使用情况、限制令牌使用、应用断路器以及路由到不同的 AI 终结点以控制成本。

  • 创建用于关闭计算实例的策略。 定义并执行一项策略,规定 AI 资源必须在 Azure AI Studio 和 Azure 机器学习中的虚拟机和计算实例上使用自动关闭功能。 自动关闭适用于非生产环境和可以脱机一段时间的生产工作负荷。

有关更多成本管理指导,请参阅 Azure OpenAI 基准体系结构中的管理 AI 成本成本优化

治理 AI 平台

AI 平台治理包括将策略控制应用于 Azure 上的各种 AI 服务,如 Azure AI Studio 和 Azure 机器学习。 使用平台级治理可在整个 AI 生态系统中执行一致的安全性、合规性和运营策略。 这种协调有助于进行有效监督,从而加强 AI 的整体管理和可靠性。

治理 AI 安全

AI 安全治理可满足保护 AI 工作负荷免受可能危及数据、模型或基础结构的威胁的需求。 强大的安全做法可以保护这些系统,防止未经授权的访问和数据泄露。 这种保护可确保 AI 解决方案的完整性和可靠性,而这对于维护用户信任和法规遵从性至关重要。

  • 在每个订阅上启用 Defender for Cloud。 Defender for Cloud 提供了一种经济高效的方法,可用于检测部署资源中不安全的配置。 还应启用 AI 威胁防护

  • 配置访问控制。 授予权限最小的用户访问集中式 AI 资源的权限。 例如,从“Azure 读取者”角色开始,如果有限的权限会降低应用程序开发速度,则升级到“Azure 参与者”角色。

  • 使用托管标识。 在所有支持的 Azure 服务上使用托管标识。 为需要访问 AI 模型终结点的应用资源授予最低访问权限。

  • 使用实时访问。 使用 Privileged Identity Management (PIM) 授予实时访问权限。

治理 AI 运营

AI 运营治理侧重于管理和维护稳定的 AI 服务。 这些运营支持长期的可靠性和性能。 集中监督和连续性计划可帮助组织避免发生停机,从而确保 AI 的业务价值始终如一。 这些工作有助于高效的 AI 部署和持续的业务成效。

  • 评审和管理 AI 模型。 制定模型版本管理策略,特别是在模型升级或停用时。 你需要保持与现有系统的兼容性,同时确保模型版本之间的平稳过渡。

  • 确定业务连续性和灾难恢复计划。 为 AI 终结点和 AI 数据制定业务连续性和灾难恢复策略。 为托管 AI 模型终结点的资源配置基线灾难恢复。 这些资源包括 Azure AI StudioAzure 机器学习Azure OpenAI 或 Azure AI 服务。 所有 Azure 数据存储,如 Azure Blob 存储Azure Cosmos DBAzure SQL 数据库都提供了可靠性和灾难恢复指导,你应遵循这些指导。

  • 定义 AI 资源的基线指标。 启用建议的警报规则,以接收表明工作负荷运行状况下降的偏差通知。 有关示例,请参阅 Azure AI 搜索Azure 机器学习Azure AI Studio 提示流部署以及有关各个 Azure AI 服务的指导。

治理 AI 法规遵从性

AI 的合规性要求组织遵循行业标准和法律义务,从而降低与责任相关的风险并建立信任。 合规措施有助于组织避免遭到处罚,提高在客户和监管机构中的可信度。 遵守这些标准将为负责任和合规地使用 AI 奠定坚实的基础。

  • 自动实现合规。 使用 Microsoft Purview 合规性管理器来评估和管理跨云环境的合规性。 使用 Azure Policy 中适用于你所在行业的法规符合性计划。 根据所使用的 AI 服务来应用其他策略,例如 Azure AI StudioAzure 机器学习

  • 制定针对特定行业的合规检查清单。 不同行业和地区的法规和标准各不相同。 你需要了解法规要求,并编制能反映与所在行业相关的法规要求的检查清单。 使用 ISO/IEC 23053:2022(使用机器学习的人工智能系统框架)等标准来审核对 AI 工作负荷应用的策略。

治理 AI 数据

AI 数据治理涉及到旨在确保输入 AI 模型的数据适当、合规和安全的策略。 数据治理可保护隐私和知识产权,从而提高 AI 输出的可靠性与质量。 这些措施有助于降低与数据滥用有关的风险,同时符合法规和道德标准。

  • 建立数据编录流程。 使用 Microsoft Purview 等工具在整个组织内实施统一的数据目录和分类系统。 将这些策略集成到 AI 开发的 CI/CD 管道中。

  • 维护数据安全边界。 对数据进行编录有助于确保不会将敏感数据输入面向公众的 AI 终结点。 从某些数据源创建索引时,索引过程可能会删除数据周围的安全边界。 确保根据集中化标准对引入 AI 模型的任何数据进行分类和审核。

  • 防止侵犯版权。 使用 Azure AI 内容安全中的受保护材料检测等内容筛选系统来筛选受版权保护的材料。 如果要对 AI 模型进行验证、训练或微调,请确保使用合法获取并经过适当许可的数据,同时实施保障措施,以防止模型侵犯版权。 定期审查输出是否符合知识产权要求。

  • 对基础数据实现版本控制。 建立基础数据的版本控制流程,例如在 RAG 中。 版本控制可确保对基础数据或其结构的任何更改进行跟踪。 如有必要,还可以还原更改,这有助于保持不同部署之间的一致性。

下一步