数据科学端到端方案:简介和体系结构

这组教程演示了 Fabric 数据科学体验中的端到端示例方案。 你将实现从数据引入、清理和准备到训练机器学习模型和生成见解的每个步骤,然后通过 Power BI 等可视化工具使用这些见解。

如果你不熟悉 Microsoft Fabric,请参阅什么是 Microsoft Fabric?

简介

数据科学项目的生命周期通常包括(通常以迭代方式)以下步骤:

  • 了解业务
  • 数据获取
  • 数据浏览、清理、准备和可视化
  • 模型训练和试验跟踪
  • 模型评分和生成见解。

每个阶段的目标和成功标准取决于协作、数据共享和文档。 Fabric 数据科学体验由多个本机构建的功能组成,这些功能可实现无缝协作、数据获取、共享和使用。

在这些教程中,你将扮演数据科学家的角色,该科学家的任务是浏览、清理和转换包含某银行 10000 个客户变动情况的数据集。 于是你构建了一个机器学习模型来预测哪些银行客户可能流失。

你将了解如何执行以下活动:

  1. 将 Fabric 笔记本用于数据科学方案。
  2. 使用 Apache Spark 将数据引入 Fabric 湖屋。
  3. 从湖屋 Delta 表加载现有数据。
  4. 使用基于 Apache Spark 和 Python 的工具清理和转换数据。
  5. 创建试验并运行以训练不同的机器学习模型。
  6. 使用 MLflow 和 Fabric UI 注册和跟踪训练的模型。
  7. 大规模运行评分,并将预测和推理结果保存到湖屋。
  8. 使用 DirectLake 在 Power BI 中可视化预测结果。

体系结构

在本教程系列中,我们将展示一个简化的端到端数据科学方案,包括:

  1. 从外部数据源引入数据
  2. 浏览和清理数据
  3. 训练和注册机器学习模型
  4. 执行批量评分并保存预测
  5. 使用 Power BI 可视化预测结果

Diagram of the Data science end-to-end scenario components.

数据科学方案的不同组件

数据源 - Fabric 可以轻松快速地连接到 Azure 数据服务、其他云平台和本地数据源,以便从中引入数据。 使用 Fabric Notebooks,可以从内置的湖屋、数据仓库、语义模型以及各种 Apache Spark 和 Python 支持的自定义数据源引入数据。 本教程系列重点介绍如何从湖屋引入和加载数据。

浏览、清理和准备 - Fabric 上的数据科学体验通过使用 Spark 上的内置体验以及基于 Python 的工具(如数据整理器和 SemPy 库)支持数据清理、转换、探索和特征化。 本教程将展示如何使用 Python 库 seaborn 进行数据探索,以及使用 Apache Spark 进行数据清理和准备。

模型和试验 - Fabric 使你能够使用内置的试验和模型项目来训练、评估和评分机器学习模型,并与 MLflow 无缝集成,以便进行试验跟踪和模型注册/部署。 Fabric 还具有用于获取和共享业务见解的大规模模型预测功能 (PREDICT)。

存储 - Fabric 在 Delta Lake 上标准化,这意味着 Fabric 的所有引擎都可以与存储在湖屋中的相同数据集进行交互。 此存储层允许存储支持基于文件的存储和表格格式的结构化和非结构化数据。 可以通过所有 Fabric 体验项(如笔记本和管道)轻松访问存储的数据集和文件。

分析和见解 - 行业领先的商业智能工具 Power BI 可以使用来自湖屋的数据进行报告和可视化。 还可以使用 Spark 或 Python 本机可视化库(如 matplotlibseabornplotly等)在笔记本中可视化保留在湖屋中的数据。 此外,还可以使用 SemPy 库将数据可视化,该库支持针对语义数据模型、依赖项及其冲突项以及分类和回归用例的内置丰富任务特定可视化效果。

下一步