什么是 Microsoft Fabric 中的数据科学?

Microsoft Fabric 提供数据科学体验,使用户能够完成端到端数据科学工作流,以实现数据扩充和业务见解。 您可以在整个数据科学过程中完成广泛的活动,包括从数据探索、准备和清洗,到实验、建模、模型评估,以及将预测见解提供给 BI 报告。

Microsoft Fabric 用户可以访问数据科学主页。 从那里,他们可以发现和访问各种相关资源。 例如,他们可以创建机器学习试验、模型和笔记本。 它们还可以在数据科学主页上导入现有笔记本。

数据科学主页的屏幕截图。

你可能知道典型的数据科学过程的工作原理。 作为一个众所周知的过程,大多数机器学习项目都遵循它。

概括而言,该过程涉及以下步骤:

  • 问题表述和构思
  • 数据发现和预处理
  • 试验和建模
  • 扩充和操作化
  • 获取见解

数据科学过程示意图。

本文从数据科学过程的角度介绍了 Microsoft Fabric 数据科学功能。 对于数据科学过程中的每一步,本文总结了可帮助Microsoft Fabric 功能。

问题表述和构思

Microsoft Fabric 中的数据科学用户与业务用户和分析人员在同一平台上工作。 因此,不同角色之间的数据共享和协作变得更加无缝。 分析师可以轻松地与数据科学从业者共享 Power BI 报表和数据集。 在 Microsoft Fabric 中,跨角色的协作使得在问题制定阶段的交接变得更加容易。

数据发现和预处理

Microsoft Fabric 用户可以使用 Lakehouse 项与 OneLake 中的数据进行交互。 Lakehouse 可以轻松附加到笔记本,以浏览数据并与之交互。

用户可以轻松地将数据从 Lakehouse 直接读取到 Pandas 数据帧中。 为了进行探索,这使得从 OneLake 进行无缝数据读取成为可能。

通过数据集成管道(Microsoft Fabric 的本机集成组件),可将一组功能强大的工具用于数据引入和数据业务流程管道。 易于构建的数据管道可以访问数据并将其转换为机器学习可以使用的格式。

数据探索

机器学习过程的一个重要部分是通过浏览和可视化来了解数据。

根据数据存储位置,Microsoft Fabric 提供了一组不同的工具来浏览和准备用于分析和机器学习的数据。 笔记本成为数据浏览入门的最快速方法之一。

用于数据准备的 Apache Spark 和 Python

Microsoft Fabric 提供大规模转换、准备和浏览数据的功能。 借助 Spark,用户可以利用 PySpark/Python、Scala 和 SparkR/SparklyR 工具大规模进行数据预处理。 功能强大的开源可视化库可以增强数据浏览体验,以帮助更好地了解数据。

用于无缝数据清理的数据整理器

Microsoft Fabric Notebook 体验添加了一项功能,用于使用 Data Wrangler,这是一种准备数据和生成 Python 代码的代码工具。 通过这种体验,可以轻松地加速繁琐和平凡的任务-例如,数据清理,并通过生成的代码生成可重复性和自动化。 要详细了解数据整理器,请参阅本文档的数据整理器部分。

试验和 ML 建模

借助 PySpark/Python、SparklyR/R 等工具,笔记本可以处理机器学习模型训练。

ML 算法和库可以帮助训练机器学习模型。 库管理工具可以安装这些库和算法。 用户因此可以选择利用多个流行的机器学习库来在 Microsoft Fabric 中完成其机器学习模型训练。

此外,Scikit Learn 等常用库还可以开发模型。

MLflow 试验和运行可以跟踪 ML 模型训练。 Microsoft Fabric 提供内置的 MLflow 体验,用户可以与之交互,以记录试验和模型。 详细了解如何使用 MLflow 跟踪Microsoft Fabric 中的试验和管理模型。

SynapseML

SynapseML(以前称为 MMLSpark)是由 Microsoft 拥有和维护的开源库,简化了大规模可缩放机器学习管道的创建过程。 作为工具生态系统,它将 Apache Spark 框架扩展到多个新方向。 SynapseML 将多个现有的机器学习框架和新Microsoft算法统一到一个可缩放的 API 中。 开源 SynapseML 库包含丰富的 ML 工具生态系统,用于开发预测模型,以及利用 Azure AI 服务的预先训练的 AI 模型。 详细了解 SynapseML

扩充和操作化

笔记本可以通过开源库来进行机器学习模型的批量评分预测,也可以使用 Microsoft Fabric 中支持 Microsoft Fabric 模型注册表里的 MLflow 打包模型的具有可扩展性的通用 Spark Predict 函数。

获取见解

在 Microsoft Fabric 中,可以使用 Power BI Direct Lake 模式轻松地将预测值写入 OneLake,并从 Power BI 报表无缝使用。 这使得数据科学从业者可以轻松地与利益干系人共享其工作的结果,并简化了操作化。

可以使用笔记本计划功能来计划运行包含批量评分的笔记本。 批量评分也可以作为数据管道活动或 Spark 作业的一部分进行计划。 Power BI 会自动获取最新的预测,而无需加载或刷新数据,这要归功于 Microsoft Fabric 中的 Direct Lake 模式。

数据科学家和企业分析师花费大量时间尝试了解、清理和转换数据,然后才能开始任何有意义的分析。 业务分析师通常使用语义模型,并将其域知识和业务逻辑编码为 Power BI 度量值。 另一方面,数据科学家可以使用相同的数据,但通常在不同的代码环境或语言中。

借助语义链接,数据科学家通过 SemPy Python 库在 Power BI 语义模型和 Microsoft Fabric 中的 Synapse 数据科学体验之间建立连接。 SemPy 通过在用户对语义模型执行各种转换时捕获和利用数据语义来简化数据分析。 通过利用语义链接,数据科学家可以:

  • 避免需要在代码中重新实现业务逻辑和域知识
  • 在代码中轻松访问和使用 Power BI 度量值
  • 使用语义为新体验提供支持,例如语义函数
  • 探讨和验证数据之间的函数依赖和关系

通过使用 SemPy,组织可能会看到:

  • 提高在使用相同数据集的团队中的工作效率和协作速度
  • 增加了商业智能和 AI 团队之间的跨部门合作
  • 在载入新模型或数据集时,减少了歧义和更简单的学习曲线

有关语义链接的详细信息,请参阅 什么是语义链接?