如何在 Microsoft Fabric 中使用数据整理器加速数据准备
数据整理器工具是一种基于笔记本的资源,提供沉浸式界面,用于进行探索性数据分析。 该功能将网格式数据显示与动态摘要统计信息、内置可视化效果和常见数据清理操作库相结合。 可以通过几个步骤应用每个操作。 您可以实时更新数据显示,并在 pandas 或 PySpark 中生成可作为可重用函数保存回笔记本的代码。 本文重点介绍如何探索和转换 pandas 数据帧。 有关在 Spark DataFrame 上使用据整理器的详细信息,请访问此资源。
先决条件
获取 Microsoft Fabric 订阅。 或者注册免费的 Microsoft Fabric 试用版。
登录 Microsoft Fabric。
使用主页左侧的体验切换器切换到 Synapse 数据科学体验。
限制
- 目前仅 pandas 数据帧支持自定义代码操作。
- 尽管界面的不同部分可以最小化或隐藏,以适应较小的屏幕,但数据整理器在大型显示器上的显示效果最好。
启动数据整理器
可以直接从 Microsoft Fabric 笔记本启动数据整理器,以探索和转换任何 pandas 或 Spark 数据帧。 有关在 Spark DataFrame 上使用据整理器的详细信息,请访问此配套文章。 此代码片段演示如何将示例数据读取到 pandas DataFrame:
import pandas as pd
# Read a CSV into a Pandas DataFrame
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv")
display(df)
在笔记本功能区的“主页”选项卡下,使用数据整理器下拉提示,浏览要编辑的 DataFrame。 选择要在数据整理器中打开的 pandas DataFrame。
提示
当笔记本内核繁忙时,无法打开数据整理器。 执行单元格必须先完成其执行,然后才可启动数据整理器,如以下屏幕截图所示:
选择自定义示例
要使用数据整理器打开任何活动数据帧的自定义示例,从下拉列表中选择“选择自定义示例”,如以下屏幕截图所示:
执行此操作会启动一个弹出项,其中包含用于指定所需示例大小(行数)和采样方法(第一条记录、最后一条记录或随机集)的选项。 DataFrame 的前 5,000 行充当默认示例大小,如以下屏幕截图所示:
查看摘要统计信息
当数据整理器加载时,它会在“摘要”面板中显示所选 DataFrame 的描述性概述。 此概述包括有关 DataFrame 的维度、缺失值等信息。 选择“数据整理器”网格中的任何列将提示“摘要”面板更新并显示有关该特定列的描述性统计信息。 其标头中还会提供有关每列的快速见解。
提示
列特定的统计信息和视觉效果(在“摘要”面板和列标题中)取决于列数据类型。 例如,仅当列强制转换为数值类型时,数值列的装箱直方图才会显示在列标头中,如屏幕截图所示:
浏览数据清理操作
可以在“操作”面板中找到数据清理步骤的可搜索列表。 在“操作”面板中,选择数据清理步骤会提示你提供一个或多个目标列,以及完成该步骤所需的任何参数。 例如,提示以数字方式缩放列需要新的值范围,如以下屏幕截图所示:
提示
可从每个列标题的菜单中应用较小的操作选择,如以下屏幕截图所示:
预览和应用操作
所选操作的结果会自动在数据整理器显示网格中预览,并且相应的代码会自动出现在网格下方的面板中。 若要提交预览的代码,请选择任一位置的“应用”。 要删除预览的代码并尝试新的操作,请选择“放弃”,如以下屏幕截图所示:
应用操作后,数据整理器显示网格和摘要统计信息将更新以反映结果。 代码显示在已提交操作的运行列表中,位于“清理步骤”面板中,如以下屏幕截图所示:
提示
始终可以撤消最近应用的步骤。 在“清理步骤”面板中,如果将光标悬停在该最近应用的步骤上,将显示垃圾桶图标,如以下屏幕截图所示:
下表汇总了数据整理器当前支持的操作:
操作 | 描述 |
---|---|
Sort | 按升序或降序排序 |
Filter | 根据一个或多个条件筛选行 |
独热编码 | 为现有列中每个唯一值创建新列,指示每行是否存在这些值 |
使用分隔符的独热编码 | 使用分隔符的拆分和独热编码分类数据 |
更改列类型 | 更改列的数据类型 |
删除列 | 删除一个或多个列 |
选择列 | 选择要保留的一个或多个列,然后删除其余列 |
重命名列 | 重命名列 |
删除缺少的值 | 删除包含缺失值的行 |
删除重复行 | 删除一列或多列中具有重复值的所有行 |
填充缺失值 | 将缺少值的单元格替换为新值 |
查找和替换 | 将单元格替换为完全匹配的模式 |
按列分组和聚合 | 按列值分组并聚合结果 |
剥离空格 | 删除文本开头和结尾的空格 |
拆分文本 | 根据用户定义的分隔符将一列拆分为多个列 |
将文本转换为小写 | 将文本转换为小写 |
将文本转换为大写 | 将文本转换为大写 |
缩放最小/最大值 | 在最小值和最大值之间缩放数字列 |
快速填充 | 基于从现有列派生的示例自动创建新列 |
修改显示
可以随时使用位于数据整理器显示网格上方工具栏中的“视图”选项卡自定义界面。 这可以根据你的偏好设置和屏幕大小隐藏或显示不同的窗格,如以下屏幕截图所示:
保存和导出代码
数据整理器显示网格上方的工具栏提供了保存生成的代码的选项。 可以将代码复制到剪贴板或将其作为函数导出到笔记本。 导出代码会关闭数据整理器并将新函数添加到笔记本中的代码单元格。 还可以将清理的数据帧下载为 csv 文件。
相关内容
- 若要在 Spark 数据帧上试用数据整理器,请参阅此配套文章
- 若要查看 Fabric 中的数据整理器的实时演示,请从 Guy in a Cube 的好友签出此视频
- 若要在 Visual Studio Code 中试用数据整理器,请参阅 VS Code 中的数据整理器
- 我们漏掉了你需要的功能吗? 请告诉我们! 在 Fabric Ideas 论坛上提出建议