你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
参与 AI 工作负载的工作负荷团队角色
在构建 AI 工作负载的上下文中,与传统代码部署不同,非确定性模型需要跨多个角色和团队进行迭代试验和协作。 提前集成运营、应用程序开发和数据团队对于促进相互理解至关重要。 这种协作需要多样化的技能和持续学习,以跟上技术进步的步伐。
有效的协作取决于 集成工具、流程和人员,所有这些都由工作负载需求和特定目标驱动。 建议的策略包括:
- 建立明确的角色和责任。
- 利用团队的技能集执行适当的任务。
- 标准化进程和子进程,例如跟踪工作作为共享积压工作的一部分。
- 依靠自动化来实现一致性和可重现性。
角色可以是实现这些策略和规范职责的有效工具。 本文探讨 AI 工作负载中发现的角色的概念、它们在工作负载设计方面的优势,并提供用于有效定义和利用这些团队级角色的示例和工具。
什么是角色?
角色表示参与创建和运行工作负荷的人类和流程的子集,不仅捕获其角色,而且还捕获其实际行为和责任。 个人可以根据上下文来体现一个或多个角色。 有趣的是,角色不必是一个人:它也可以是无人参与的进程,例如体系结构中的代理进程。
工作负荷可能有驱动功能开发的最终用户角色,这些角色不属于本文的范围。
与通常更静态的角色或组织中的职位不同,角色是动态且面向目标的。 它们可用于将技能要求映射到流程和工具,例如体系结构组件。 角色主要帮助定义责任范围并在项目中设置上下文。 它们提供其他几个好处,例如:
确定资源差距,有助于决定是招聘、训练还是重新设计解决方案。 如果工作负荷团队缺少适合必要角色的个人,则可能需要调整体系结构、修改流程或载入新人员。 例如,如果缺少高级数据科学角色,可以通过考虑对常规用途 SaaS AI 解决方案或合并第三方 AI 解决方案的更高可靠性来重新设计体系结构。
增强技能。 将角色映射到特定的体系结构组件还有助于提供教育机会,提供课程和在线课程来增强技能。
确保适当的访问级别。 角色应用于定义安全性和访问需求,方法是将它们映射到进程、体系结构和服务,确保适当的访问级别。
项目规划和沟通 在项目规划中,角色有助于识别关键交互,促进同步会议和总体规划的设置。 通常,角色集成到跟踪用户情景、功能和要求层次结构中,简化项目管理。
如何定义角色
确定团队成员的专用化,并将其与 AI 操作或设计中的相应角色保持一致。 创建一个模板来记录角色的技能期望、团队信息和他们将参与的过程。
下面是一个示例基线模板:
角色模板 |
---|
🔹 角色名称:[插入角色名称] 🔹团队:[负责此角色的团队] 🔹主要交互:[此角色与之交互的其他团队] 🔹组件访问:[进程和系统组件的安全性和访问要求] 🔹进程:[角色负责或参与的进程] 🔹技能:[完成任务所需的技能,包括模型训练或搜索索引优化等领域和技术细节。] |
工具
使用表有助于组织和可视化每个角色的信息。 优点是可以创建其他表并链接其他表以获取更深入的信息。 例如,可以将体系结构组件链接到另一个表,其中为每个服务和环境(开发、阶段、生产)指定了基于标识的访问控制。
权衡。 角色太少,因此很难使用最低特权访问权限实现基于角色的访问控制,并有效地分配工作职责。 相反,拥有过多角色会增加管理开销。 从 5-10 个角色开始是一个很好的平衡,你应只添加操作所需的角色。
卡片还可用于定义角色。 这些卡片包含与表或快速摘要相同的信息。 可以使用 Microsoft PowerPoint 或一组 markdown 文件来创建这些卡片。
在某些情况下,可以使用组合的工具集。 例如,角色卡中的每个体系结构组件都可以为每个服务和环境打开具有表映射安全性和基于角色的访问控制的 markdown 文件。 有关参考示例,请参阅 MLOps 加速器:标识 RBAC。
示例角色
使用卡片,可以定义角色在流程中需要访问的服务,并概述每个角色(无论是人员还是代理)所需的先决条件技能。
重要
虽然此处定义的角色用作基线示例,但建议使用表格、角色模板卡和图形等工具创建自己的角色。
这些角色必须与特定流程、组织和用户保持一致。
AI 数据工程师 (P001) |
---|
团队:数据引入团队 🔹 主要交互:AI 开发团队 🔹组件访问:Azure 数据工厂、Azure Databricks、Azure SQL 数据库、Azure 存储 🔹 进程:DataOps、ETL、ELT 🔹 技能:SQL、Python、PySpark |
BI 分析师(P003) |
---|
团队:分析团队 🔹 主要交互:数据引入团队 🔹组件访问:Power BI、Azure 数据资源管理器、Azure 存储 🔹 进程:数据分析、数据仓库过程 🔹 技能:SQL、Python、PySpark |
歧视 AI 数据科学家 (P004) |
---|
团队:AI 团队 🔹 主要交互:数据引入团队、DevOps 团队 🔹组件访问:Azure 机器学习、Azure Databricks、Azure 存储、Azure 密钥库 🔹 进程:MLOps、MLflow 🔹技能:Azure 机器学习、Python、模型训练 |
GenAI 数据科学家 (P006) |
---|
团队:AI 团队 🔹 主要交互:数据引入团队、DevOps 团队 🔹组件访问:Azure AI Studio、Azure OpenAI、Azure AI 搜索、Azure 存储、Azure 密钥库 🔹 进程:GenAIOps 🔹技能:Azure 机器学习、Python、模型(LLM、SLM)知识、微调、RAG、代理概念 |
GenAI 聊天开发人员 (P007) |
---|
团队:工程团队 🔹 主要交互:AI 团队 🔹 组件访问:Azure WebApps、Azure API 管理、Cosmos DB、Azure 容器应用、Azure Functions 🔹 进程:DevOps、事件驱动处理、微服务 🔹 技能:Web 应用程序体系结构(前端/后端)、React、Node.js、HTML、CSS |
BuildAgent MLOps (P009) |
---|
团队:工程团队 🔹 主要交互:AI 团队 🔹组件访问:Azure 机器学习、Azure Devops、GitHub 🔹 进程:LAMBDA 进程/服务,OUTER 循环 MLOps 🔹 技能:Python、Pyspark |
用例:AI 流程角色
与 AI 工作负载相关的主要流程包括:
- DataOps 侧重于数据引入和准备。
- MLOps 涉及操作机器学习模型。
- GenAIOps 涉及发现和评估现有模型,然后将其优化到工作负荷上下文。
- 内部循环优化开发环境中的解决方案,无论是在研究期间还是由外部循环监视触发。
- 外部循环使用持续监视和评估将解决方案从开发转移到生产环境,以确定必要的改进。
将角色映射到这些进程可为每个角色提供上下文。 这有助于确定角色可能需要提升技能的过程。
该图显示了生产环境中 DataOps、MLOps 和 GenAIOps 的工作流。 使用持续集成/持续部署(CI/CD)做法,从引入到模型部署和评估的数据流。 关键任务包括优化数据模型、批处理评估、部署终结点、实时模型评估和微调模型。 示例角色参与整个工作流。
用例:体系结构设计角色
将流程连接到支持体系结构有助于识别角色需要与之交互的服务,并突出显示潜在技能领域。
若要可视化此连接,请创建一个图形图像,其中显示了体系结构组件的连接方式。 这可以说明服务之间的数据流和交互,以及如何在部署中自动执行流。 此视觉辅助可帮助利益干系人了解其中不同角色的体系结构和角色。
下图显示了 Azure 上新式分析的 LAMBDA 体系结构:
下一步
现在,请转到评估工具来评估设计。