你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure 上 AI 工作负荷的管理建议
本文为在 Azure 上运行 AI 工作负荷的组织提供了管理建议。 它重点介绍 Azure AI 平台即服务(PaaS)解决方案,包括 Azure AI Foundry、Azure OpenAI、Azure 机器学习和 Azure AI 服务。 它涵盖了生成式和非生成式 AI 工作负荷。
Azure 上 AI 工作负荷的有效管理包括监督部署、模型性能、运营、数据和灾难恢复,以支持 AI 工作负荷。 适当的管理有助于确保 AI 工作负荷在其整个生命周期内始终保持可靠、可信和安全。
管理 AI 部署
管理 AI 部署可帮助工作负荷团队从概念验证阶段转向生产环境,并通过一致的配置来提高各团队的安全性和合规性。 Azure 提供诸如 Azure AI Foundry 中心和项目 这样的工具,以支持治理和安全性。 Azure 机器学习的中心工作区也具有类似功能。 有关详细信息,请参阅管理 AI 部署。
管理 AI 模型
管理 AI 模型包括监控其输出、性能以及是否符合负责任的 AI 原则。 由于数据、用户行为或其他外部因素不断变化,AI 模型可能会随时间而发生偏移。 如果不加以解决,这些变化可能会导致不准确的结果或道德问题。
监控模型输出。 实现监控和测试流程,确保这些工作负荷与你负责的 AI 目标保持一致。
监控生成式 AI。 对于生成式 AI 工作负载,请使用 Azure AI Foundry 内置的评估和手动监控功能。 如果使用提示流,请监控提示流部署。 还可考虑使用负责任的 AI 工具来对模型监控加以补充。
监控非生成式 AI。 对于非生成式 AI 工作负荷,请监控数据处理阶段和模型性能指标,以便确保预测准确可靠。 在 Azure 机器学习中启用模型监控。 对于 Azure AI 服务,请为所使用的每个 AI 服务启用监控。
监控模型性能。 当检测到性能或准确性下降时,监控功能有助于找出问题的根源。 与所有工作负荷一样,使用 Azure Monitor 和 Application Insights 来监控 AI 工作负荷的性能。
考虑采用生成式 AI 网关进行监控。 Azure API 管理之类的反向代理让你能够实现非平台原生的日志记录和监控。 API 管理允许收集源 IP、输入文本和输出文本。 有关详细信息,请参阅为 Azure OpenAI 服务语言模型实现日志记录和监控。
管理 AI 运营
AI 运营管理包括为 Azure AI 工作负荷实现计算资源标准化并监控平台资源。 它可确保团队高效地使用正确的计算资源,并从平台资源中捕获指标和日志。
监控平台资源。 使用诊断设置捕获所有关键服务的日志和指标,例如 Azure AI Foundry、Azure 机器学习,以及 Azure AI 服务。 特定服务应捕获审核日志和相关的特定服务日志。 根据体系结构的特定需求来实现自定义监控警报。 示例包括容器注册表、Azure 机器学习和 Azure OpenAI 的警报。 为 AI 体系结构中的每个服务配置建议的监视警报。 有关详细信息,请参阅 Azure Monitor 基线警报。
实现计算管理标准化。 需要计算资源来执行某些操作,如提示流和训练模型。 像机器学习这样的服务有不同的计算选项,如计算实例、群集和无服务器选项。 将计算类型、运行时和关闭周期标准化。 有关特定于服务的计算选项,请参阅 Azure AI Foundry 和 机器学习。
管理 AI 数据
高质量的数据是准确的 AI 模型的基础。 跟踪模型偏移有助于随着时间的推移保持 AI 预测的相关性,并使组织能够根据需要对模型进行调整,以反映当前的情况。
监控数据偏移。 持续跟踪生成式和非生成式 AI 的准确性和数据偏移,以便确保模型保持相关性。 当模型预测或大型语言模型响应偏移预期行为时,监控功能可发出警报。 这种偏差表明需要进行重新训练或调整。 设置自定义警报,以检测性能阈值。 此方法可以在问题出现时及早进行干预。 使用 Azure AI Foundry 中的评估和机器学习中支持的指标。
确保数据处理质量。 对于机器学习,训练数据必须格式化、干净,并随时可供模型使用。 对于生成式 AI 而言,基础数据需要采用正确的格式,并有可能对 AI 模型消耗进行分块、扩充和嵌入。 有关详细信息,请参阅设计和开发 RAG 解决方案指南。
管理业务连续性
实施多区域部署,确保生成和非生成 AI 系统的高可用性和复原能力。有关详细信息,请参阅 azure AI Foundry