你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 上的 AI 工作负载

本文介绍设计 AI 工作负载的体系结构挑战。 它侧重于不确定的功能、数据和应用程序设计和操作。 这些建议基于 Azure Well-Architected 框架原则,并包括来自成功 Azure 实现的见解。

这些文章适用于 工作负荷所有者 和技术 利益干系人 ,如架构师、开发主管和 IT 主管。 专用 AI 和数据角色(如数据科学家)还应注意本指南,因为跨各种角色和团队的协作是一个关键方面。

注意

Azure 提供各种 AI 服务,可以集成到工作负载中,也可以围绕它进行构建。 根据业务需求,可以在完全托管的软件即服务(SaaS)解决方案、平台即服务(PaaS)解决方案或构建自己的 AI 解决方案之间进行选择。 此处未介绍特定的 Azure 服务及其功能。 建议参考相应的产品文档了解该信息。

此外,某些 AI 工作负载不在范围内,例如:

  • 通过低代码和无代码解决方案(如 Copilot Studio)实现的工作负载。
  • 需要高性能计算的工作负荷。
  • 不实现生成或歧视 AI 用例的工作负载。

什么是 AI 工作负载?

在 Well-Architected Framework 的上下文中,AI 工作负载满足预测、歧视性或生成任务的需求。 它侧重于道德功能,适应快速发展的 AI 技术,保持相关和可解释性。 在每个决策点应用 Well-Architected 框架支柱,以确保系统可靠、安全、高效且经济高效。

AI 工作负载不同于传统工作负载,因为它们将工作负载部分的确定性功能替换为不确定的行为,这些行为可解决固定结果不切实际的情况。 相反,它们将代码和数据合并到实体或 模型,以实现传统系统无法提供的独特体验。

在开始设计策略之前,请先考虑这些要点。

熟悉各种模型类别

  • 生成 AI:使用机器学习自主创建新内容。 它包括可以使用用户数据自定义或用作 Azure OpenAI 服务等服务的语言模型。 例如,GPT 是一种语言模型,专门模仿人类对话语言,非常适合聊天和自然语言体验。

    用例:生成式 AI 可以产生文章、故事和艺术作品。 它还可以生成合成数据来平衡数据集,并使聊天机器人更人性化。

  • 区分性 AI:使用明确编程根据规则和算法执行特定任务。 它分为:

    • 基于模型的:预测系统根据先前观察执行的训练来查找模式,以便进行预测,但无法创建新的内容或自行调整。
    • 非基于模型的:自治代理遵循预定义的规则与系统(如视频游戏角色)交互。

    用例:区分 AI 用于预测分析、建议系统和欺诈检测。

本系列文章介绍了不同的 AI 工作负载,并重点介绍特定类型,例如在需要时的语言模型。

重要

在生成模型和歧视模型之间进行选择时,请考虑需要完成的任务。 生成模型创建新数据。 区分模型根据特征对现有数据进行分类。 对于分类或回归任务,请选择适合作业的模型。 例如,可以分类的语言模型可能比仅分类的语言模型更通用。

评估生成与购买选项

如果可接受泛型响应,则使用不透明处理的预生成模型或基于 AI 服务的解决方案应该足以满足工作负荷的需求。 但是,如果需要特定于业务或符合性要求的数据,请创建自定义模型。

在自定义模型、预生成模型或服务之间进行选择时,请考虑以下因素:

  • 数据控制:自定义模型可让你更好地控制敏感数据。 预生成模型对于常规任务更容易。
  • 自定义:自定义模型更适合独特的需求。 预生成模型可能缺乏灵活性。
  • 成本和维护:自定义模型需要持续维护和资源。 预生成模型通常具有较低的初始成本和更少的基础结构负担。
  • 性能:预构建服务提供优化的基础设施和可扩展性。 它们非常适合低延迟或高可伸缩性需求。
  • 专业知识:自定义模型需要熟练的团队。 如果专业知识有限,预生成模型通常更快部署,更易于使用。

重要

创建和维护自己的模型需要大量的资源、时间和专业知识。 在决定之前,必须彻底研究。 通常,选择预生成模型或托管服务是更好的选择。

常见的挑战是什么?

  • 计算成本:由于计算需求较高,AI 函数可能很昂贵,并且计算需求可能因工作负荷设计而异。 了解你的要求,并选择适当的服务来管理成本。
  • 安全性和符合性要求:现成的解决方案可能无法满足安全性和合规性需求。 用于避免不必要的负担的研究选项。
  • 数据量:处理各种格式的大数据卷面临保护敏感信息和高效处理的挑战。 优化存储、处理和传输成本应该是正在进行的活动。
  • 模型衰减:模型可能会随时间推移而降级,从而导致结果不准确。 测试 AI 系统具有挑战性,因为它们的随机性。
  • 技能挑战:新的 AI 工作负载可能需要专用角色和需要广泛培训的新操作流程。
  • AI 创新步伐:采用最新技术可能会让人很想保持在前沿。 仔细评估新技术,确保他们改善用户体验,并不只是为了保持最新而增加复杂性。
  • 道德要求:明确确定用例是否是 AI 的道德目标。 在整个规划和实施阶段,维护道德标准是必要的,以确保你正在构建负责任的系统。

如何使用本指南

设计方法开始,其中概述了技术和运营领域的合理性和重复主题。 这种系统的方法有助于定义要求和设计策略。 当你面临不确定的选择时,为了与工作负荷的总体目标保持一致,请重新审视此方法。 它还提供了一个框架,用于与利益干系人协作,以证明技术决策的合理性,并纳入客户反馈以供持续改进。

继续 设计原则,了解设计方法如何与核心 Well-Architected 框架支柱保持一致。 考虑增长演变。 共同评估所有支柱的基本原则,包括权衡。

专注于 对解决方案影响最大的设计领域 。 每个区域都包含指导你完成设计决策的注意事项和建议。

使用 评估审核工具 来评估你在生产环境中优化的 AI 工作负载的就绪情况。

典型的体系结构模式和设计区域

下图演示了在系统中数据如何从初始收集流向最终用户交互的过程。

一个显示 AI 工作负载典型架构模式的图表。

该体系结构重点介绍了如何集成不同的组件,以便在 AI 驱动的解决方案中实现高效的数据处理、模型优化和实时应用程序部署。 它包括数据源、数据处理、模型训练、模型部署和用户界面等模块。

下表介绍了与该模式相关的一些关键设计领域。

设计领域
应用程序设计:了解 AI 工作负载特有的注意事项,这些注意事项可能对现有应用程序设计标准产生重大影响。
应用程序平台:确定用于支持 AI 工作负荷函数的最佳平台,例如模型托管、模型训练和推理。
训练数据设计:设计数据引入、预处理、保留和治理策略,以处理您的模型训练数据。
地面数据设计:设计策略以优化可搜索性和检索性,同时满足地面数据的安全性和合规性要求。
数据平台:确定处理工作负荷使用的大量数据和可能许多格式的最佳托管平台。
机器学习操作和生成式 AI 操作:建立现代 DevOps 做法以支持机器学习或生成 AI 函数和系统。
工作负荷操作:使用新方法实现操作实践的现代化,并添加专用角色和培训。
测试和评估:开发测试和评估策略,通过面向 AI 工作负载的指标来衡量准确性、精度、敏感度和具体性等特征。
工作负荷角色:了解角色如何参与 AI 工作负载的完整生命周期,以帮助确保团队能够完全构建和支持它。
负责任的 AI:特别注意向公众发布 AI 解决方案的用户体验和道德影响。 AI 为新产品和服务带来了令人难以置信的机会,但它也带来了相当大的风险。

提示

每个体系结构决策都涉及一系列注意事项和一组已确认的妥协,这些妥协平衡了框架的不同方面。 这些权衡由此图标 指示。

下一步