你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

AI 工作负荷的工作负荷团队角色

在构建 AI 工作负载的上下文中,与传统的代码部署相比,非确定性模型需要跨多个角色和团队进行迭代试验和协作。 提前集成运营、应用程序开发和数据团队对于促进相互理解至关重要。 这种协作需要多样化的技能和持续学习,以跟上技术进步的步伐。

有效的协作取决于 集成工具、流程和人员,并由工作负载需求和特定目标驱动。 建议的策略包括:

  • 建立明确的角色和责任。
  • 利用团队的技能集执行适当的任务。
  • 标准化进程和子进程,例如跟踪工作作为共享积压工作的一部分。
  • 依靠自动化来实现一致性和可重现性。

角色可以是实现这些策略和规范职责的有效工具。 本文介绍 AI 工作负载的角色及其在工作负载设计方面的优势。 它还提供了用于有效定义和使用这些团队级角色的示例和工具。

什么是角色?

角色表示参与工作负荷创建和操作的人类和进程的子集。 角色代表这些个人和流程的角色、真实行为和责任。 根据上下文,个人可以体现一个或多个角色。 角色不必是一个人。 它也可以是无人参与的进程,例如体系结构中的代理进程。

您的工作任务可能受用户角色的驱动,从而影响功能开发。 这些角色不属于本文的范围。

与在组织中相对静态的功能或职位的角色不同,角色是动态的,面向目标。 它们可用于将技能要求映射到流程和工具,例如体系结构组件。 角色主要帮助定义责任范围并在项目中设置上下文。 它们提供其他几个好处,例如:

  • 标识资源差距。 确定差距有助于决定是招聘还是训练资源,还是重新设计解决方案。 如果工作负荷团队缺少适合必要角色的个人,则可能需要调整体系结构、修改流程或载入新人员。 例如,如果缺少高级数据科学角色,则可以重新设计体系结构,以更依赖常规用途软件即服务(SaaS)AI 解决方案或合并非Microsoft AI 解决方案。
  • 增强技能。 将角色映射到特定的体系结构组件还有助于获得教育机会,如课程和在线课程,以增强技能。
  • 确保适当的访问级别。 应通过将角色映射到进程、体系结构和服务来使用角色来定义安全性和访问需求。 此映射有助于确保适当的访问级别。
  • 促进项目规划和沟通。 在项目规划中,角色有助于确定关键交互,以帮助设置同步会议和总体规划。 通常,角色集成到跟踪用户情景、功能和要求层次结构中,以简化项目管理。

如何定义角色

确定团队成员的专用化,并将其与 AI 操作或设计中的相应角色保持一致。 创建一个模板来记录角色的技能期望、团队信息和他们将参与的过程。

下面是一个示例基线模板:

角色模板
🔹角色名称:[名称]
🔹团队:[负责该角色的团队]
🔹主要交互:[角色与之交互的其他团队]
🔹组件访问:[进程和系统组件的安全性和访问要求]
🔹进程:[角色负责或参与的进程]
🔹技能:[完成任务所需的技能,包括领域和技术专业知识,例如模型训练或搜索索引优化]

工具

可以使用表来组织和可视化每个角色的信息。 此方法的一个优点是,可以创建并链接到提供更具体信息的其他表。 例如,可以将体系结构组件链接到另一个表,其中为每个服务和环境(开发、阶段、生产)指定了基于标识的访问控制。

权衡。 角色太少,因此很难使用最低特权访问权限实现基于角色的访问控制,并有效地分配工作职责。 相反,拥有过多角色会增加管理开销。 从 5 到 10 个角色开始是很好的平衡,你只应添加运营所需的角色。

还可以使用卡片来定义角色。 这些卡片包含与表相同的信息,或快速摘要。 可以使用 PowerPoint 或创建一组 Markdown 文件来创建这些卡片。

在某些情况下,可以使用工具的组合。 例如,角色卡中的每个体系结构组件都可以打开一个 Markdown 文件,其中包含一个表,用于映射每个服务和环境的安全和基于角色的访问控制。 有关示例,请参阅 MLOps 加速器:标识 RBAC

示例角色

可以使用卡片来定义角色需要在流程中访问的服务,并概述每个角色所需的技能(无论是人员还是代理)。

重要

尽管此处定义的角色用作基线示例,但我们建议使用表、角色模板卡和图形等工具创建自己的角色。

这些角色与你的流程、组织和用户保持一致非常重要。

AI 数据工程师 (P001)
团队:数据引入团队
🔹 主要交互:AI 开发团队
🔹 组件访问:Azure 数据工厂、Azure Databricks、Azure SQL 数据库、Azure 存储
🔹 进程:DataOps、ETL、ELT
🔹 技能:SQL、Python、PySpark
BI 分析师(P003)
团队:分析团队
🔹 主要交互:数据引入团队
🔹 组件访问:Power BI、Azure 数据资源管理器、Azure 存储
🔹 进程:数据分析、数据仓库
🔹 技能:SQL、Python、PySpark
歧视 AI 数据科学家 (P004)
团队:AI 团队
🔹 主要交互:数据引入团队、DevOps 团队
🔹 组件访问:Azure 机器学习、Azure Databricks、Azure 存储、Azure 密钥保管库
🔹 进程:MLOps、MLflow
🔹技能:Azure 机器学习、Python、模型训练
GenAI 数据科学家 (P006)
团队:AI 团队
🔹 主要交互:数据引入团队、DevOps 团队
🔹 组件访问:Azure AI Foundry 门户、Azure OpenAI 服务、Azure AI 搜索、Azure 存储、Azure Key Vault
🔹 进程:GenAIOps
🔹 技能:Azure 机器学习、Python、模型知识(LLM、SLM)、微调、RAG、代理概念
GenAI 聊天开发人员 (P007)
团队:工程团队
🔹 主要交互:AI 团队
🔹 组件访问:Azure Web 应用、Azure API 管理、Azure Cosmos DB、Azure 容器应用、Azure Functions
🔹 进程:DevOps、事件驱动处理、微服务
🔹 技能:Web 应用程序体系结构(前端/后端)、React、Node.js、HTML、CSS
生成代理 MLOps (P009)
团队:工程团队
🔹 主要交互:AI 团队
🔹 组件访问:Azure 机器学习、Azure DevOps、GitHub
🔹 进程:处理和提供 Lambda、外部循环 MLOps
🔹 技能:Python、Pyspark

用例:AI 流程角色

这些主要进程用于 AI 工作负载:

  • DataOps 是数据的引入和准备。
  • MLOps 是机器学习模型的操作化。
  • GenAIOps 是对现有模型的发现和评估,以及对这些模型进行细化以适应工作负荷上下文。
  • 内循环是在开发环境中优化解决方案的过程,无论是在研究期间进行,还是由外循环监控所触发。
  • 外部循环是将解决方案从开发阶段移至生产阶段的过程。 此循环使用持续监视和评估来确定必要的改进。

将角色映射到这些进程可为每个角色提供上下文。 此步骤可帮助确定角色可能需要提升技能的过程。

显示生产环境中的 DataOps、MLOps 和 GenAIOps 的图表。

该图显示了生产环境中 DataOps、MLOps 和 GenAIOps 的工作流。 数据流从引入到模型部署和评估 工作流使用持续集成和持续交付(CI/CD)做法。 关键任务包括优化数据模型、评估批、部署终结点、实时评估模型和微调模型。 示例角色参与整个工作流。

用例:体系结构设计角色

将流程连接到支持体系结构有助于识别角色需要与之交互的服务,并突出潜在技能领域。

若要可视化此连接,请创建一个图形图像,其中显示了体系结构组件的连接方式。 此视觉辅助工具可以说明服务之间的数据流和交互,以及流在部署中的自动化执行方式。 它帮助利益相关者了解体系结构及其中不同角色的职责。

下图显示了用于在 Azure 上进行新式分析的 Lambda 体系结构。

关系图,其中显示了 Azure 中新式分析的 Lambda 体系结构。

下一步

接下来,使用评估工具评估你的设计。