数据科学端到端方案:简介和体系结构

这组教程演示了 Fabric 数据科学体验中的端到端示例方案。 实现从数据引入、清理和准备到训练机器学习模型和生成见解的每个步骤,然后使用 Power BI 等可视化工具使用这些见解。

如果你不熟悉 Microsoft Fabric,请参阅 什么是 Microsoft Fabric?

介绍

数据科学项目的生命周期通常包括(通常,迭代)以下步骤:

  • 业务理解
  • 数据采集
  • 数据浏览、清理、准备和可视化
  • 模型训练和试验跟踪
  • 模型评分和生成见解。

每个阶段的目标和成功条件取决于协作、数据共享和文档。 Fabric 数据科学体验由多个原生构建的功能组成,这些功能以无缝的方式实现协作、数据获取、共享和使用。

在这些教程中,你将扮演一位数据科学家的角色,任务是探索、清理和转换一个包含银行 10,000 名客户流失情况的数据集。 然后,你构建一个机器学习模型来预测哪些银行客户可能离开。

你将了解如何执行以下操作:

  1. 将 Fabric 笔记本用于数据科学方案。
  2. 使用 Apache Spark 将数据引入 Fabric Lakehouse。
  3. 从湖屋 Delta 表加载现有数据。
  4. 使用基于 Apache Spark 和 Python 的工具清理和转换数据。
  5. 创建试验并运行以训练不同的机器学习模型。
  6. 使用 MLflow 和 Fabric UI 注册和跟踪训练的模型。
  7. 大规模运行评分,并将预测和推理结果保存到湖屋。
  8. 使用 DirectLake 可视化 Power BI 中的预测。

建筑

在本教程系列中,我们将展示一个简化的端到端数据科学方案,该方案涉及:

  1. 从外部数据源引入数据
  2. 浏览和清理数据
  3. 训练和注册机器学习模型。
  4. 进行批量评分并保存预测结果
  5. 可视化 Power BI中的预测结果。

数据科学端到端方案组件的示意图。

数据科学方案的不同组件

数据源 - Fabric 可以轻松地快速连接到 Azure Data Services、其他云平台和本地数据源以从中引入数据。 使用 Fabric Notebook,可以从内置的 Lakehouse、数据仓库、语义模型以及各种 Apache Spark 和 Python 支持的自定义数据源引入数据。 本教程系列重点介绍如何从湖屋引入和加载数据。

浏览、清理和准备 - Fabric 上的数据科学体验通过使用 Spark 上的内置体验以及基于 Python 的工具(如 Data Wrangler 和 SemPy 库)支持数据清理、转换、探索和特征化。 本教程将展示使用 Python 库 seaborn 进行数据探索,并使用 Apache Spark 进行数据清理和准备。

模型和试验 - Fabric 使你能够使用内置试验和模型项与 MLflow 无缝集成来训练、评估和评分机器学习模型,以便进行试验跟踪和模型注册/部署。 Fabric 还具有大规模模型预测(PREDICT)的功能,可获取和共享业务见解。

存储 - Fabric 在 Delta Lake上进行标准化,这意味着 Fabric 的所有引擎都可以与存储在数据湖屋中的相同数据集进行交互。 使用此存储层可以存储支持基于文件的存储和表格格式的结构化和非结构化数据。 可以通过所有 Fabric 体验项(如笔记本和管道)轻松访问存储的数据集和文件。

公开分析和见解 - 来自 Lakehouse 的数据可由行业领先的商业智能工具 Power BI 使用,以便进行报告和可视化。 还可以使用 Spark 或 Python 本机可视化库(如 matplotlibseabornplotly等)在笔记本中可视化保存在 lakehouse 中的数据。 此外,还可以使用 SemPy 库将数据可视化,该库支持针对语义数据模型、依赖项及其冲突项以及分类和回归用例的内置丰富任务特定可视化效果。

下一步