你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

AI 工作负荷的工作负荷团队角色

项目
01/13/2025

在构建 AI 工作负载的上下文中，与传统的代码部署相比，非确定性模型需要跨多个角色和团队进行迭代试验和协作。提前集成运营、应用程序开发和数据团队对于促进相互理解至关重要。这种协作需要多样化的技能和持续学习，以跟上技术进步的步伐。

有效的协作取决于 集成工具、流程和人员，并由工作负载需求和特定目标驱动。建议的策略包括：

建立明确的角色和责任。
利用团队的技能集执行适当的任务。
标准化进程和子进程，例如跟踪工作作为共享积压工作的一部分。
依靠自动化来实现一致性和可重现性。

角色可以是实现这些策略和规范职责的有效工具。本文介绍 AI 工作负载的角色及其在工作负载设计方面的优势。它还提供了用于有效定义和使用这些团队级角色的示例和工具。

什么是角色？

角色表示参与工作负荷创建和操作的人类和进程的子集。角色代表这些个人和流程的角色、真实行为和责任。根据上下文，个人可以体现一个或多个角色。角色不必是一个人。它也可以是无人参与的进程，例如体系结构中的代理进程。

您的工作任务可能受用户角色的驱动，从而影响功能开发。这些角色不属于本文的范围。

与在组织中相对静态的功能或职位的角色不同，角色是动态的，面向目标。它们可用于将技能要求映射到流程和工具，例如体系结构组件。角色主要帮助定义责任范围并在项目中设置上下文。它们提供其他几个好处，例如：

标识资源差距。 确定差距有助于决定是招聘还是训练资源，还是重新设计解决方案。如果工作负荷团队缺少适合必要角色的个人，则可能需要调整体系结构、修改流程或载入新人员。例如，如果缺少高级数据科学角色，则可以重新设计体系结构，以更依赖常规用途软件即服务（SaaS）AI 解决方案或合并非Microsoft AI 解决方案。
增强技能。 将角色映射到特定的体系结构组件还有助于获得教育机会，如课程和在线课程，以增强技能。
确保适当的访问级别。 应通过将角色映射到进程、体系结构和服务来使用角色来定义安全性和访问需求。此映射有助于确保适当的访问级别。
促进项目规划和沟通。 在项目规划中，角色有助于确定关键交互，以帮助设置同步会议和总体规划。通常，角色集成到跟踪用户情景、功能和要求层次结构中，以简化项目管理。

如何定义角色

确定团队成员的专用化，并将其与 AI 操作或设计中的相应角色保持一致。创建一个模板来记录角色的技能期望、团队信息和他们将参与的过程。

下面是一个示例基线模板：

角色模板
🔹角色名称：[名称] 🔹团队：[负责该角色的团队] 🔹主要交互：[角色与之交互的其他团队] 🔹组件访问：[进程和系统组件的安全性和访问要求] 🔹进程：[角色负责或参与的进程] 🔹技能：[完成任务所需的技能，包括领域和技术专业知识，例如模型训练或搜索索引优化]

工具

可以使用表来组织和可视化每个角色的信息。此方法的一个优点是，可以创建并链接到提供更具体信息的其他表。例如，可以将体系结构组件链接到另一个表，其中为每个服务和环境（开发、阶段、生产）指定了基于标识的访问控制。

权衡。 角色太少，因此很难使用最低特权访问权限实现基于角色的访问控制，并有效地分配工作职责。相反，拥有过多角色会增加管理开销。从 5 到 10 个角色开始是很好的平衡，你只应添加运营所需的角色。

还可以使用卡片来定义角色。这些卡片包含与表相同的信息，或快速摘要。可以使用 PowerPoint 或创建一组 Markdown 文件来创建这些卡片。

在某些情况下，可以使用工具的组合。例如，角色卡中的每个体系结构组件都可以打开一个 Markdown 文件，其中包含一个表，用于映射每个服务和环境的安全和基于角色的访问控制。有关示例，请参阅 MLOps 加速器：标识 RBAC。

示例角色

可以使用卡片来定义角色需要在流程中访问的服务，并概述每个角色所需的技能（无论是人员还是代理）。

重要

尽管此处定义的角色用作基线示例，但我们建议使用表、角色模板卡和图形等工具创建自己的角色。

这些角色与你的流程、组织和用户保持一致非常重要。

AI 数据工程师（P001）
团队：数据引入团队 🔹 主要交互：AI 开发团队 🔹 组件访问：Azure 数据工厂、Azure Databricks、Azure SQL 数据库、Azure 存储 🔹 进程：DataOps、ETL、ELT 🔹 技能：SQL、Python、PySpark

BI 分析师（P003）
团队：分析团队 🔹 主要交互：数据引入团队 🔹 组件访问：Power BI、Azure 数据资源管理器、Azure 存储 🔹 进程：数据分析、数据仓库 🔹 技能：SQL、Python、PySpark

歧视 AI 数据科学家（P004）
团队：AI 团队 🔹 主要交互：数据引入团队、DevOps 团队 🔹 组件访问：Azure 机器学习、Azure Databricks、Azure 存储、Azure 密钥保管库 🔹 进程：MLOps、MLflow 🔹技能：Azure 机器学习、Python、模型训练

GenAI 数据科学家（P006）
团队：AI 团队 🔹 主要交互：数据引入团队、DevOps 团队 🔹 组件访问：Azure AI Foundry 门户、Azure OpenAI 服务、Azure AI 搜索、Azure 存储、Azure Key Vault 🔹 进程：GenAIOps 🔹 技能：Azure 机器学习、Python、模型知识（LLM、SLM）、微调、RAG、代理概念

GenAI 聊天开发人员（P007）
团队：工程团队 🔹 主要交互：AI 团队 🔹 组件访问：Azure Web 应用、Azure API 管理、Azure Cosmos DB、Azure 容器应用、Azure Functions 🔹 进程：DevOps、事件驱动处理、微服务 🔹 技能：Web 应用程序体系结构（前端/后端）、React、Node.js、HTML、CSS

生成代理 MLOps (P009)
团队：工程团队 🔹 主要交互：AI 团队 🔹 组件访问：Azure 机器学习、Azure DevOps、GitHub 🔹 进程：处理和提供 Lambda、外部循环 MLOps 🔹 技能：Python、Pyspark

用例：AI 流程角色

这些主要进程用于 AI 工作负载：

DataOps 是数据的引入和准备。
MLOps 是机器学习模型的操作化。
GenAIOps 是对现有模型的发现和评估，以及对这些模型进行细化以适应工作负荷上下文。
内循环是在开发环境中优化解决方案的过程，无论是在研究期间进行，还是由外循环监控所触发。
外部循环是将解决方案从开发阶段移至生产阶段的过程。此循环使用持续监视和评估来确定必要的改进。

将角色映射到这些进程可为每个角色提供上下文。此步骤可帮助确定角色可能需要提升技能的过程。

该图显示了生产环境中 DataOps、MLOps 和 GenAIOps 的工作流。数据流从引入到模型部署和评估工作流使用持续集成和持续交付（CI/CD）做法。关键任务包括优化数据模型、评估批、部署终结点、实时评估模型和微调模型。示例角色参与整个工作流。

用例：体系结构设计角色

将流程连接到支持体系结构有助于识别角色需要与之交互的服务，并突出潜在技能领域。

若要可视化此连接，请创建一个图形图像，其中显示了体系结构组件的连接方式。此视觉辅助工具可以说明服务之间的数据流和交互，以及流在部署中的自动化执行方式。它帮助利益相关者了解体系结构及其中不同角色的职责。

下图显示了用于在 Azure 上进行新式分析的 Lambda 体系结构。

下一步

接下来，使用评估工具评估你的设计。

AI 工作负荷评估

通过