你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

治理 AI - 对在 Azure 中治理 AI 工作负荷的组织的建议

本文概述了治理 AI 工作负荷的组织流程。 它遵循 NIST 人工智能风险管理框架 (AI RMF)NIST AI RMF Playbook。 它还与 CAF 治理中的框架相一致。

本指南旨在帮助你将 AI 风险管理纳入更为广泛的风险管理策略之中。 这种集成能更有凝聚力地处理 AI、网络安全和隐私风险,从而实现统一的治理方法。

显示 AI 采用过程的关系图:AI 策略、AI 计划、AI 就绪、治理 AI、管理 AI 和安全 AI。

评估 AI 组织风险

AI 风险评估可识别和应对 AI 技术所带来的潜在风险。 这一过程可建立对 AI 系统的信任,同时减少意外后果。 应对组织风险可确保 AI 部署符合组织的价值观、风险承受能力以及运营目标。

  • 了解 AI 工作负荷。 要缓解 AI 风险,必须了解 AI 工作负荷。 通过明确每个 AI 工作负荷的范围和目的,可以绘制相关风险图。 此说明应包括与 AI 工作负荷有关的任何假设与限制。

  • 遵循负责任 AI 原则来识别风险。 这些原则为评估 AI 风险提供了一个框架。 通过对 AI 原则进行结构化评估,使用下表来识别并降低风险。

    负责任的 AI 原则 定义 风险评估问题
    AI 隐私和安全 AI 工作负荷应尊重隐私并确保安全。 AI 工作负荷会如何处理敏感数据或容易受到安全漏洞的影响?
    可靠和安全 AI 工作负荷应安全可靠地运行。 在哪些情况下,AI 工作负荷可能无法安全运行或产生不可靠的结果?
    公平 AI 工作负荷应公平对待每个人。 AI 工作负荷会如何导致决策中的不平等待遇或意外偏见?
    包容 AI 工作负荷应具有包容性并可赋能。 在设计或部署 AI 工作负荷时,某些群体会被排除在外或处于不利地位吗?
    Transparency AI 工作负荷应该是可以理解的。 用户可能难以理解或解释 AI 决策的哪些方面?
    问责 应有相关人员对 AI 工作负荷负责。 在开发或使用 AI 的过程中,哪些方面的责任不明或难以确定?
  • 识别 AI 风险。 首先要评估 AI 工作负荷的安全风险,包括潜在的数据泄露、未经授权的访问或滥用。 咨询利益相关者,以揭示不太明显的风险,并评估定性和定量影响,包括声誉风险,以确定组织的风险承受能力。

  • 识别外部依赖项带来的风险。 评估与第三方数据源、软件和集成相关的风险。 制定确保符合组织隐私和合规标准的策略,以便解决安全漏洞、偏见和知识产权风险等问题。

  • 评估集成风险。 评估 AI 工作负荷与现有工作负荷和流程的集成情况。 记录潜在风险,如对其他工作负荷的依赖性、复杂性的增大或可能影响功能的不兼容性。

记录 AI 治理策略

AI 治理策略为负责任地使用 AI 提供了一个结构化框架。 这些政策使 AI 活动符合道德标准、监管要求和业务目标。 记录策略可确保为管理 AI 模型、数据和运营提供明确的指导。

AI 治理策略领域 AI 治理策略建议
确定选择和载入模型的策略 制定选择 AI 模型的策略。策略应概述选择符合组织价值观、能力和成本限制的模型的标准。 评审潜在模型是否符合风险承受能力和预期任务要求。

利用结构化策略载入新模型。正式的模型载入流程可保持模型论证、验证和审批的一致性。 使用沙盒环境进行初始实验,然后在生产目录中验证和评审模型,以避免重复。
制定使用第三方工具和数据的策略 设置第三方工具的控制。第三方工具的审核流程可防范安全性、合规性和一致性风险。 策略应包括使用与外部数据集时的数据隐私、安全和道德标准相关的准则。

定义数据敏感性标准。将敏感数据和公共数据分开对于缓解 AI 风险至关重要。 围绕数据处理和分离制定策略。

定义数据质量标准。“黄金数据集”为 AI 模型测试和评估提供了可靠的基准。 为数据的一致性和质量制定明确的策略,以确保高绩效和值得信赖的输出。
制定用于维护和监控模型的策略 按用例指定重新训练频率。频繁的重新训练可提高高风险 AI 工作负荷的准确性。 制定相关准则,考虑每种模式的使用情况和风险水平,特别是医疗保健和金融等行业。

监控性能下降。随着时间的推移,监控模型性能有助于在影响结果之前发现问题。 记录基准,如果模型性能下降,则启动重新训练或评审流程。
制定监管合规策略 遵守区域法律要求。了解区域法律可确保 AI 运营在各地都保持合规。 研究每个部署区域的适用法规,如数据隐私法、道德标准和行业法规。

制定面向特定区域的策略。根据区域因素调整 AI 策略有助于遵守当地标准。 策略可能包括语言支持、数据存储协议和文化适应。

使 AI 适应区域变化。AI 工作负荷的灵活性允许针对具体地点进行功能调整。 对于全局业务,应记录特定区域的适应性,如本地化训练数据和功能限制。
制定用户行为策略 制定滥用风险缓解策略。预防滥用策略有助于防止有意或无意的伤害。 概述可能出现的滥用情况,并纳入控制措施,如限制功能或滥用检测功能。

设定用户行为准则。用户协议明确了与 AI 工作负荷交互时可接受的行为,从而降低了滥用风险。 起草明确的使用条款,以传达标准并支持负责任的 AI 交互。
制定 AI 集成和替换策略 概述集成策略。集成准则可确保 AI 工作负荷在工作负荷交互期间保持数据的完整性和安全性。 明确技术要求、数据共享协议和安全措施。

规划转换和更换。在用 AI 工作负荷替换旧流程时,转换策略提供了结构。 概述逐步淘汰旧式流程、培训员工以及在整个更改过程中监控性能的步骤。

强制实施 AI 治理策略

执行 AI 治理策略可确保组织内 AI 做法的一致性和道德性。 自动化工具和手动干预支持跨部署的策略遵循。 适当的执行有助于保持合规性,并最大限度地减少人为错误。

  • 尽可能实现策略执行自动化 使用 Azure Policy 和 Microsoft Purview 等平台自动执行策略,从而自动跨 AI 部署强制实施策略,从而减少人为错误。 定期评估自动化可改善策略遵守情况的领域。

  • 手动执行 AI 策略 为员工提供 AI 风险与合规性培训,确保他们了解自己在 AI 治理中的作用。 定期研讨会,让工作人员了解 AI 策略的最新情况,并定期进行审核,帮助监督遵守情况并确定需要改进的方面。

  • 使用特定于工作负荷的治理指导。 针对 Azure 平台服务 (PaaS) 和 Azure 基础结构 (IaaS) 上的 AI 工作负荷提供了详细的安全指导。 使用本指南可治理这些工作负荷类型中的 AI 模型、资源和数据。

监控 AI 组织风险

通过监控 AI 风险,组织能够识别新出现的风险并及时加以解决。 定期评估可确保 AI 工作负荷按预期运行。 持续监控有助于组织适应不断变化的条件,并防止 AI 系统产生负面影响。

  • 制定持续风险评估程序。 设立定期评审以确定新的风险,让利益相关者参与进来,以评估 AI 的更广泛影响。 针对出现的问题制定响应计划,以便进行风险重新评估和必要的调整。

  • 制定度量计划。 明确的度量计划可确保数据收集和分析的一致性。 确定数据收集方法,如运营指标自动记录和定性反馈调查。 确定度量的频率和范围,重点关注高风险领域,并建立反馈循环,以便根据利益相关者的意见完善风险评估。

  • 量化和限定 AI 风险。 选择符合工作负荷目的的定量指标(错误率、准确性)以及定性指标(用户反馈、道德问题)。 根据行业标准制定性能基准,以跟踪 AI 的影响、可信度和性能。

  • 记录和报告度量结果。 定期文件和报告可提高透明度和问责制。 创建标准化报告,用于总结指标、发现结果和任何异常情况,以便为决策提供指导。 与利益相关者分享这些见解,利用它们来完善风险缓解战略和改进未来的部署。

  • 建立独立的评审程序。 定期的独立评审利用外部或无关内部评审者对 AI 风险和合规性进行客观评估。 利用调查结果加强风险评估,并完善治理策略。

下一步

AI 风险缓解示例

下表列出了一些常见的 AI 风险,并针对每种风险提供了缓解策略和策略示例。 该表并未列出所有风险。

风险 ID AI 风险 缓解措施 策略
R001 不符合数据保护法 使用 Microsoft Purview 合规性管理器来评估数据合规性。 必须实现安全开发生命周期,以确保所有 AI 开发和部署都符合数据保护法。
R005 AI 决策缺乏透明度 采用标准化框架和语言,提高 AI 流程和决策的透明度。 必须采用 NIST AI 风险管理框架,并彻底记录所有 AI 模型,以保持所有 AI 模型的透明度。
R006 不准确的预测 使用 Azure API 管理来跟踪 AI 模型指标,以确保准确性和可靠性。 必须利用持续的性能监控和人工反馈来确保 AI 模型预测的准确性。
R007 对抗性攻击 使用 PyRIT 测试 AI 工作负荷的漏洞并加强防御。 必须利用安全开发生命周期和 AI 红队测试来确保 AI 工作负荷免遭对抗性攻击。
R008 内部威胁 使用 Microsoft Entra ID 根据角色和组成员身份来实施严格的访问控制,以便限制内部人员对敏感数据的访问。 必须采用严格的标识和访问管理以及持续监控来缓解内部威胁。
R009 意外成本 使用 Microsoft 成本管理来跟踪 CPU、GPU、内存和存储的使用情况,以确保有效利用资源,并防止成本激增。 必须对资源使用情况进行监控和优化,并自动检测成本超支情况,以管理意外成本。
R010 AI 资源利用不足 监控 AI 服务指标,如请求率和响应时间,以优化使用。 必须利用性能指标和自动可伸缩性来优化 AI 资源的利用率。