什么是 Microsoft Fabric 中的数据科学？

项目
02/07/2025

Microsoft Fabric 提供数据科学体验，使用户能够完成端到端数据科学工作流，以实现数据扩充和业务见解。可以在整个数据科学过程中完成广泛的活动，从数据探索、准备和清理到试验、建模、模型评分以及预测见解的服务到 BI 报表。

Microsoft Fabric 用户可以访问数据科学主页。从那里，他们可以发现和访问各种相关资源。例如，他们可以创建机器学习试验、模型和笔记本。它们还可以在数据科学主页上导入现有笔记本。

你可能知道典型的数据科学过程的工作原理。作为一个众所周知的过程，大多数机器学习项目都遵循它。

概括而言，该过程涉及以下步骤：

问题表述和理念
数据发现和预处理
试验和建模
扩充和实施
获取见解

本文从数据科学过程的角度介绍了 Microsoft Fabric 数据科学功能。对于数据科学过程中的每一步，本文总结了可帮助Microsoft Fabric 功能。

问题表述和理念

Microsoft Fabric 中的数据科学用户与业务用户和分析人员在同一平台上工作。因此，不同角色之间的数据共享和协作变得更加无缝。分析师可以轻松地与数据科学从业者共享 Power BI 报表和数据集。在 Microsoft Fabric 中，跨角色进行协作使问题制定阶段的交接变得更加容易。

数据发现和预处理

Microsoft Fabric 用户可以使用 Lakehouse 项与 OneLake 中的数据进行交互。 Lakehouse 可以轻松附加到笔记本，以浏览数据并与之交互。

用户可以轻松地将数据从 Lakehouse 直接读取到 Pandas 数据帧中。为了进行探索，这使得从 OneLake 进行无缝数据读取成为可能。

通过数据集成管道（Microsoft Fabric 的本机集成组件），可将一组功能强大的工具用于数据引入和数据业务流程管道。易于构建的数据管道可以访问数据并将其转换为机器学习可以使用的格式。

数据探索

机器学习过程的一个重要部分是通过浏览和可视化来了解数据。

根据数据存储位置，Microsoft Fabric 提供了一组不同的工具来浏览和准备用于分析和机器学习的数据。笔记本成为数据浏览入门的最快速方法之一。

用于数据准备的 Apache Spark 和 Python

Microsoft Fabric 提供大规模转换、准备和浏览数据的功能。借助 Spark，用户可以利用 PySpark/Python、Scala 和 SparkR/SparklyR 工具大规模进行数据预处理。功能强大的开源可视化库可以增强数据浏览体验，以帮助更好地了解数据。

用于无缝数据清理的数据整理器

Microsoft Fabric Notebook 体验添加了一项功能，用于使用 Data Wrangler，这是一种准备数据和生成 Python 代码的代码工具。通过这种体验，可以轻松地加速繁琐和平凡的任务-例如，数据清理，并通过生成的代码生成可重复性和自动化。在本文档的 Data Wrangler 部分中了解有关 Data Wrangler 的详细信息。

试验和 ML 建模

借助 PySpark/Python、SparklyR/R 等工具，笔记本可以处理机器学习模型训练。

ML 算法和库可以帮助训练机器学习模型。库管理工具可以安装这些库和算法。因此，用户可以选择利用各种常用的机器学习库，在 Microsoft Fabric 中完成其 ML 模型训练。

此外，Scikit Learn 等常用库还可以开发模型。

MLflow 试验和运行可以跟踪 ML 模型训练。 Microsoft Fabric 提供内置的 MLflow 体验，用户可以与之交互，以记录试验和模型。详细了解如何使用 MLflow 跟踪Microsoft Fabric 中的试验和管理模型。

SynapseML

SynapseML（以前称为 MMLSpark）开源库，Microsoft拥有和维护，简化了大规模可缩放的机器学习管道创建。作为工具生态系统，它将 Apache Spark 框架扩展到多个新方向。 SynapseML 将多个现有的机器学习框架和新Microsoft算法统一到一个可缩放的 API 中。开源 SynapseML 库包含丰富的 ML 工具生态系统，用于开发预测模型，以及利用 Azure AI 服务的预先训练的 AI 模型。详细了解 SynapseML。

扩充和实施

笔记本可以使用用于预测的开源库处理机器学习模型批处理评分，或者Microsoft Fabric 可缩放的通用 Spark Predict 函数，该函数支持 Microsoft Fabric 模型注册表中的 MLflow 打包模型。

获取见解

在 Microsoft Fabric 中，可以使用 Power BI Direct Lake 模式，将预测结果轻松写入 OneLake，并无缝地从 Power BI 报表中提取使用。这使得数据科学从业者可以轻松地与利益干系人共享其工作的结果，并简化了操作化。

可以使用笔记本计划功能来计划运行包含批量评分的笔记本。批量评分也可以作为数据管道活动或 Spark 作业的一部分进行计划。 Power BI 会自动获取最新的预测，而无需加载或刷新数据，这要归功于 Microsoft Fabric 中的 Direct Lake 模式。

使用语义链接进行数据浏览

数据科学家和企业分析师花费大量时间尝试了解、清理和转换数据，然后才能开始任何有意义的分析。业务分析师通常使用语义模型，并将其域知识和业务逻辑编码为 Power BI 度量值。另一方面，数据科学家可以使用相同的数据，但通常在不同的代码环境或语言中。

语义链接允许数据科学家通过 SemPy Python 库在 Power BI 语义模型与 Synapse Data Science 和 Microsoft Fabric 体验之间建立连接。 SemPy 通过在用户对语义模型执行各种转换时捕获和利用数据语义来简化数据分析。通过利用语义链接，数据科学家可以：

避免需要在代码中重新实现业务逻辑和域知识
在代码中轻松访问和使用 Power BI 度量值
使用语义为新体验提供支持，例如语义函数
浏览和验证数据之间的功能依赖关系和关系

通过使用 SemPy，组织可能会看到：

提高工作效率，并加快基于相同数据集运作的团队之间的协作速度。
增强了商业智能和 AI 团队之间的协作
在载入新模型或数据集时，减少了歧义和更简单的学习曲线

有关语义链接的详细信息，请参阅什么是语义链接？。

开始学习端到端数据科学示例，请参阅数据科学教程
要详细了解如何使用数据整理器进行数据准备和清理，请参阅数据整理器
详细了解跟踪试验，请参阅机器学习试验
详细了解如何管理模型，请参阅机器学习模型
了解有关使用 Predict 进行批量评分的详细信息，请参阅使用 PREDICT 评分模型
使用 Direct Lake 模式从湖屋向 Power BI 提供预测

通过

什么是 Microsoft Fabric 中的数据科学？

问题表述和理念

数据发现和预处理

数据探索

用于数据准备的 Apache Spark 和 Python

用于无缝数据清理的数据整理器

试验和 ML 建模

SynapseML

扩充和实施

获取见解

使用语义链接进行数据浏览

反馈

其他资源

通过

什么是 Microsoft Fabric 中的数据科学？

问题表述和理念

数据发现和预处理

数据探索

用于数据准备的 Apache Spark 和 Python

用于无缝数据清理的数据整理器

试验和 ML 建模

SynapseML

扩充和实施

获取见解

使用语义链接进行数据浏览

相关内容

反馈

其他资源