你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Azure 上的 AI 工作负载

项目
01/11/2025

本文介绍设计 AI 工作负载的体系结构挑战。它侧重于不确定的功能、数据和应用程序设计和操作。这些建议基于 Azure Well-Architected 框架原则，并包括来自成功 Azure 实现的见解。

这些文章适用于 工作负荷所有者 和技术 利益干系人 ，如架构师、开发主管和 IT 主管。专用 AI 和数据角色（如数据科学家）还应注意本指南，因为跨各种角色和团队的协作是一个关键方面。

注意

Azure 提供各种 AI 服务，可以集成到工作负载中，也可以围绕它进行构建。根据业务需求，可以在完全托管的软件即服务（SaaS）解决方案、平台即服务（PaaS）解决方案或构建自己的 AI 解决方案之间进行选择。此处未介绍特定的 Azure 服务及其功能。建议参考相应的产品文档了解该信息。

此外，某些 AI 工作负载不在范围内，例如：

通过低代码和无代码解决方案（如 Copilot Studio）实现的工作负载。
需要高性能计算的工作负荷。
不实现生成或歧视 AI 用例的工作负载。

什么是 AI 工作负载？

在 Well-Architected Framework 的上下文中，AI 工作负载满足预测、歧视性或生成任务的需求。它侧重于道德功能，适应快速发展的 AI 技术，保持相关和可解释性。在每个决策点应用 Well-Architected 框架支柱，以确保系统可靠、安全、高效且经济高效。

AI 工作负载不同于传统工作负载，因为它们将工作负载部分的确定性功能替换为不确定的行为，这些行为可解决固定结果不切实际的情况。相反，它们将代码和数据合并到实体或模型，以实现传统系统无法提供的独特体验。

在开始设计策略之前，请先考虑这些要点。

熟悉各种模型类别

生成 AI：使用机器学习自主创建新内容。它包括可以使用用户数据自定义或用作 Azure OpenAI 服务等服务的语言模型。例如，GPT 是一种语言模型，专门模仿人类对话语言，非常适合聊天和自然语言体验。

用例：生成式 AI 可以产生文章、故事和艺术作品。它还可以生成合成数据来平衡数据集，并使聊天机器人更人性化。
区分性 AI：使用明确编程根据规则和算法执行特定任务。它分为：
- 基于模型的：预测系统根据先前观察执行的训练来查找模式，以便进行预测，但无法创建新的内容或自行调整。
- 非基于模型的：自治代理遵循预定义的规则与系统（如视频游戏角色）交互。
用例：区分 AI 用于预测分析、建议系统和欺诈检测。

本系列文章介绍了不同的 AI 工作负载，并重点介绍特定类型，例如在需要时的语言模型。

重要

在生成模型和歧视模型之间进行选择时，请考虑需要完成的任务。生成模型创建新数据。区分模型根据特征对现有数据进行分类。对于分类或回归任务，请选择适合作业的模型。例如，可以分类的语言模型可能比仅分类的语言模型更通用。

评估生成与购买选项

如果可接受泛型响应，则使用不透明处理的预生成模型或基于 AI 服务的解决方案应该足以满足工作负荷的需求。但是，如果需要特定于业务或符合性要求的数据，请创建自定义模型。

在自定义模型、预生成模型或服务之间进行选择时，请考虑以下因素：

数据控制：自定义模型可让你更好地控制敏感数据。预生成模型对于常规任务更容易。
自定义：自定义模型更适合独特的需求。预生成模型可能缺乏灵活性。
成本和维护：自定义模型需要持续维护和资源。预生成模型通常具有较低的初始成本和更少的基础结构负担。
性能：预构建服务提供优化的基础设施和可扩展性。它们非常适合低延迟或高可伸缩性需求。
专业知识：自定义模型需要熟练的团队。如果专业知识有限，预生成模型通常更快部署，更易于使用。

重要

创建和维护自己的模型需要大量的资源、时间和专业知识。在决定之前，必须彻底研究。通常，选择预生成模型或托管服务是更好的选择。

常见的挑战是什么？

计算成本：由于计算需求较高，AI 函数可能很昂贵，并且计算需求可能因工作负荷设计而异。了解你的要求，并选择适当的服务来管理成本。
安全性和符合性要求：现成的解决方案可能无法满足安全性和合规性需求。用于避免不必要的负担的研究选项。
数据量：处理各种格式的大数据卷面临保护敏感信息和高效处理的挑战。优化存储、处理和传输成本应该是正在进行的活动。
模型衰减：模型可能会随时间推移而降级，从而导致结果不准确。测试 AI 系统具有挑战性，因为它们的随机性。
技能挑战：新的 AI 工作负载可能需要专用角色和需要广泛培训的新操作流程。
AI 创新步伐：采用最新技术可能会让人很想保持在前沿。仔细评估新技术，确保他们改善用户体验，并不只是为了保持最新而增加复杂性。
道德要求：明确确定用例是否是 AI 的道德目标。在整个规划和实施阶段，维护道德标准是必要的，以确保你正在构建负责任的系统。

如何使用本指南

✔ 从设计方法开始，其中概述了技术和运营领域的合理性和重复主题。这种系统的方法有助于定义要求和设计策略。当你面临不确定的选择时，为了与工作负荷的总体目标保持一致，请重新审视此方法。它还提供了一个框架，用于与利益干系人协作，以证明技术决策的合理性，并纳入客户反馈以供持续改进。

✔ 继续设计原则，了解设计方法如何与核心 Well-Architected 框架支柱保持一致。考虑增长演变。共同评估所有支柱的基本原则，包括权衡。

✔ 专注于 对解决方案影响最大的设计领域 。每个区域都包含指导你完成设计决策的注意事项和建议。

✔ 使用评估审核工具来评估你在生产环境中优化的 AI 工作负载的就绪情况。

典型的体系结构模式和设计区域

下图演示了在系统中数据如何从初始收集流向最终用户交互的过程。

该体系结构重点介绍了如何集成不同的组件，以便在 AI 驱动的解决方案中实现高效的数据处理、模型优化和实时应用程序部署。它包括数据源、数据处理、模型训练、模型部署和用户界面等模块。

下表介绍了与该模式相关的一些关键设计领域。

设计领域
应用程序设计：了解 AI 工作负载特有的注意事项，这些注意事项可能对现有应用程序设计标准产生重大影响。
应用程序平台：确定用于支持 AI 工作负荷函数的最佳平台，例如模型托管、模型训练和推理。
训练数据设计：设计数据引入、预处理、保留和治理策略，以处理您的模型训练数据。
地面数据设计：设计策略以优化可搜索性和检索性，同时满足地面数据的安全性和合规性要求。
数据平台：确定处理工作负荷使用的大量数据和可能许多格式的最佳托管平台。
机器学习操作和生成式 AI 操作：建立现代 DevOps 做法以支持机器学习或生成 AI 函数和系统。
工作负荷操作：使用新方法实现操作实践的现代化，并添加专用角色和培训。
测试和评估：开发测试和评估策略，通过面向 AI 工作负载的指标来衡量准确性、精度、敏感度和具体性等特征。
工作负荷角色：了解角色如何参与 AI 工作负载的完整生命周期，以帮助确保团队能够完全构建和支持它。
负责任的 AI：特别注意向公众发布 AI 解决方案的用户体验和道德影响。 AI 为新产品和服务带来了令人难以置信的机会，但它也带来了相当大的风险。

提示

每个体系结构决策都涉及一系列注意事项和一组已确认的妥协，这些妥协平衡了框架的不同方面。这些权衡由此图标指示。

下一步

设计方法

通过