你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Team Data Science Process 生命周期的业务理解阶段
本文概述了与 Team Data Science Process (TDSP) 的业务理解阶段相关联的目标、任务和可交付结果。 此过程提供团队可用于构建数据科学项目的建议生命周期。 生命周期概述了团队执行的主要阶段(通常以迭代方式进行):
- 了解业务
- 数据采集和理解
- 建模
- 部署
- 客户验收
此处直观地展示了 TDSP 生命周期:
目标
业务理解阶段的目标是:
指定用作模型目标的关键变量。 并指定目标指标来确定项目是否成功。
确定业务有权访问或需要获取的相关数据源。
如何完成任务
业务理解阶段有两个主要任务:
定义目标:与客户和其他利益干系人协同合作,以了解和确定业务问题。 制定定义业务目标且能够通过数据科学技术得到解决的问题。
标识数据源:查找相关数据,这些数据有助于解决定义项目目标的问题。
定义目标
此阶段的主要目标是确定分析需要预测的关键业务变量。 这些变量被称为模型目标,而与之关联的指标则用于确定项目是否成功。 例如,目标可以是销售预测,也可以是订单欺诈的概率。
若要定义项目目标,请提出和完善相关、特定和明确的尖锐问题。 数据科学是使用名称和数字来回答此类问题的过程。 数据科学或机器学习通常用于回答以下五类问题:
- 多少? (回归)
- 哪一类别? (分类)
- 哪一组? (群集)
- 这是否异常? (异常情况检测)
- 应采用哪些选项? (建议)
确定要提出上述哪些问题,以及如何回答才有助于实现业务目标。
若要定义项目团队,请指定角色及其成员的责任。 随着发现的信息不断增多,制定可以循环访问的高级里程碑计划。
你必须定义成功指标。 例如,你可能想要在三个月的项目结束时使客户流失预测准确度达到 x%。 有了这些数据,你就可以进行客户促销,以减少客户流失。 指标必须为 SMART:
- S - 明确 (Specific)
- M - 可测量 (Measurable)
- A - 可实现 (Achievable)
- R - 相关 (Relevant)
- T - 有时限 (Time-bound)
确定数据源
标识包含问题答案的已知示例的数据源。 查找以下数据:
- 与问题相关的数据。 是否具有针对目标以及与该目标相关的功能的度量值?
- 作为模型目标和感兴趣功能的准确度量值的数据。
例如,现有系统可能没有解决问题并实现项目目标所需的数据。 在这种情况下,你可能需要查找外部数据源或更新系统以收集新数据。
与 MLflow 集成
对于业务理解阶段,你的团队不使用 MLflow 工具,但它可以间接受益于 MLflow 的文档和试验跟踪功能。 这些功能可以提供见解和历史上下文,以帮助使项目与业务目标保持一致。
Artifacts
在此阶段,你的团队提供:
章程文档。 章程文档是一个动态文档。 在发现新内容时,业务需求发生变化时,请更新整个项目中的文档。 关键是循环访问本文档。 在发现过程中添加更多详细信息。 告知客户和其他利益干系人更改及其原因。
数据源。 可以使用 Azure 机器学习来处理数据源管理。 建议将此 Azure 服务用于活动项目,尤其是大型项目,因为它与 MLflow 集成。
数据字典。 本文档提供客户端提供的数据的说明。 这些说明介绍了架构(数据类型、验证规则的相关信息(若有))和实体关系图(若有)。 团队应记录部分或全部此信息。
同行评审的文献
研究人员在经过同行评审的文献中发表了有关 TDSP 的研究。 引文提供了调查 TDSP 的其他应用程序或类似想法的机会,包括业务理解生命周期阶段。
作者
本文由 Microsoft 维护, 它最初是由以下贡献者撰写的。
首席作者:
- Mark Tabladillo | 高级云解决方案架构师
要查看非公开的 LinkedIn 个人资料,请登录到 LinkedIn。
相关资源
这些文章介绍了 TDSP 生命周期的其他阶段: