你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
机密 AI
早在生成式 AI 取得进展之前,AI 就已经在塑造金融、广告、制造和医疗保健等多个行业。 生成式 AI 模型有可能对社会产生更大的影响。 Microsoft 一直走在定义负责任 AI 原则的前沿,在负责任地使用 AI 技术的道路中充当护栏的作用。 机密计算和机密 AI 是一个可用于在负责任 AI 工具箱中启用安全和隐私的重要工具。
什么是机密 AI?
机密 AI 是一组基于硬件的技术,可在整个 AI 生命周期(包括数据和模型在使用中时)以加密方式为数据和模型提供可验证的保护。 机密 AI 技术包括支持创建受信任执行环境 (TEE) 的通用 CPU 和 GPU 等加速器,以及支持 AI 模型的数据收集、预处理、训练和部署的服务。 机密 AI 还提供可增强 AI 部署中的信任、透明度和问责制的工具。
机密 AI 适用于哪些场景?
机密 AI 适用于跨越整个 AI 生命周期的多种场景。
机密训练。 机密 AI 可在训练期间保护训练数据、模型架构和模型权重,防范恶意管理员和内部人员等狡猾的攻击者。 在需要耗费大量资源和/或涉及敏感模型 IP 的模型训练场景中,即使训练数据是公开的,仅仅保护好权重也是非常重要的。 通过机密训练,模型构建者可以确保在 TEE 之外无法看到模型权重和中间数据(例如训练期间节点之间交换的检查点和梯度更新)。
机密微调。 使用特定领域的专用数据通过微调通用 AI 模型来提高特定任务的精确度这种做法十分常见。 例如,金融组织可以使用专有的财务数据来微调现有语言模型。 在微调期间,可以使用机密 AI 保护专有数据和训练的模型。
机密多方训练。 机密 AI 支持一类新的多方训练场景。 组织可以协作进行模型训练,而无需相互暴露各自的模型或数据,也无需强制实施关于如何在参与者之间共享结果的策略。
机密联合学习。 对于无法聚合训练数据的场景(例如,由于数据驻留要求或安全问题),建议使用联合学习作为集中式/分布式训练的替代方法。 与联合学习相结合时,机密计算可以提供更强的安全性和隐私性。 例如,可以在 TEE 中托管中央聚合器,从模型构建者那里保护每个客户生成的梯度更新。 同样,模型开发人员可以要求客户在 TEE 中运行其训练管道,从而在训练的模型中建立信任。 这样可确保每个客户对模型的贡献都是使用预先认证的有效过程生成的,而无需请求访问客户数据。
机密推理。 典型的模型部署涉及多个参与者。 模型开发人员担心的问题是如何保护其模型 IP 免受服务运营商和潜在的云服务提供商的侵害。 与模型交互(例如通过向生成式 AI 模型发送可能包含敏感数据的提示)的客户担心的是隐私和潜在的滥用问题。 机密推理可实现模型 IP 的可验证保护,同时保护模型开发人员、服务运营和云提供商的推理请求和响应。 例如,可以使用机密 AI 提供可验证的证据,证明请求仅用于特定推理任务并通过在 TEE 内终止的安全连接将响应返回给请求的发起方。
机密 AI 的行业用例有哪些?
客户和合作伙伴正在利用 Azure 机密计算构建适用于许多用例的机密 AI 解决方案。
语音和人脸识别。 语音和人脸识别模型在包含敏感数据的音频和视频流上运行。 在某些场景中(例如公共场所的监控),将同意作为满足隐私要求的手段可能不切实际。 机密 AI 使数据处理者可以实时训练模型并运行推理,同时最大程度地降低数据泄露的风险。
反洗钱/欺诈检测。 机密 AI 使多家银行可以合并云中的数据集,以训练更准确的 AML 模型,而无需公开其客户的个人数据。 使用合并的数据集训练的模型可以检测一个用户在多家银行之间的资金流动,而各银行之间不会互相访问数据。 通过机密 AI,这些金融机构可以提高欺诈检测率,并减少误报。
辅助诊断和预测医疗保健。 开发诊断和预测医疗保健模型时,需要访问高度敏感的医疗保健数据。 获取此类数据集的访问权限既昂贵又耗时。 机密 AI 可以释放此类数据集中的价值,从而使用敏感数据训练 AI 模型,同时在整个生命周期中保护数据集和模型。
为何使用机密计算?
AI 模型的有效性取决于数据的质量和数量。 虽然使用公开可用的数据集来训练模型已经让人们取得了很大进展,但要使模型能够准确执行复杂的咨询任务(例如医疗诊断、财务风险评估或业务分析),就需要在训练和推理过程中访问私密数据。
有许多隐私保护技术可以保护私密数据,它们能够保护正在使用的数据。 例如,可以在共享数据之前对其进行清理和去识别化。 然而,经证明,仅仅去识别化相当脆弱,而且在某些情况下会降低效用。 全同态加密 (FHE) 和安全多方计算 (MPC) 等其他方法可能会限制表现力或产生显著的性能开销。
利用机密计算,可以访问敏感数据集,同时以较低的开销解决安全性和合规性问题。 借助机密计算,数据提供者可以授权将其数据集用于特定任务(通过证明验证),例如训练或微调商定的模型,同时确保数据受到保护。 机密训练可以与差别隐私相结合,通过推理进一步减少训练数据的泄露。 模型构建者可以使用机密计算来生成不可否的数据和模型构建来源记录,使其模型更加透明。 客户可以使用远程证明来验证推理服务是否根据声明的数据使用策略仅使用推理请求。
若要开始使用,有哪些选择?
帮助启用机密 AI 的 ACC 平台产品/服务
Azure 已提供先进的产品/服务来保护数据和 AI 工作负载。 你可以使用以下 Azure 机密计算平台产品/服务进一步提升工作负载的安全状况。
SNP 和 TDX 上的机密 VM(受限预览版)。 基于 CPU 的 AI 工作负载(例如小模型的数据预处理、训练和推理)可以使用基于 SNP 和 TDX 的机密 VM 来保护正在使用的敏感代码和数据。
ACI 上的机密容器。 ACI 上的机密容器是在 Azure 上部署容器化工作负载的另一种方法。 除了云管理员的保护之外,机密容器还提供租户管理员的保护以及采用容器策略实现的强大完整性特性。 这使得它们非常适合低信任度的多方协作场景。 请参阅此处,其中的示例演示了基于未修改的 NVIDIA Triton 推理服务器的机密推理。
对于依赖 GPU 的 AI 工作负载,Microsoft 与 NVIDIA 正在开展协作,以将机密计算引入 NVIDIA GPU。 基于 AMD SEV-SNP 和 A100 GPU 的 Azure 机密 GPU VM 目前提供受限预览版。
启用机密 AI 的 ACC 合作伙伴解决方案
选择已在 Azure 机密计算平台的基础上构建机密 AI 解决方案的合作伙伴。
Anjuna 提供了一个使组织能够在不公开敏感信息的情况下在各种使用场景中开发机器学习模型的机密计算平台。
Beekeeper AI 通过安全协作平台为算法所有者和数据专员启用医疗保健 AI。 BeeKeeperAI 在机密计算环境中对受保护数据的多机构来源进行隐私保护分析。 该解决方案支持端到端加密、安全计算 Enclave 和启用了 SGX 的最新 Intel 处理器来保护数据和算法 IP。
Fortanix 提供了一个可以启用机密 AI(包括多个组织共同协作进行多方分析)的机密计算平台。
Mithril Security 提供了一些工具来帮助 SaaS 供应商在安全的 Enclave 内提供 AI 模型,并为数据所有者提供本地级别的安全性和控制措施。 数据所有者可以使用其 SaaS AI 解决方案,同时保持合规并控制其数据。
Opaque 提供了一个协作分析和 AI 机密计算平台,能够在执行分析的同时保护端到端数据,使组织能够遵守法律和监管要求。