数据转换 - 操作
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
本文介绍 机器学习 Studio (经典) 中可用于基本数据操作的模块。
机器学习 Studio (经典) 支持特定于机器学习的任务,例如规范化或功能选择。 此类别中的模块适用于更常规的任务。
数据操作任务
此类别中的模块旨在支持可能需要在 机器学习 Studio (经典) 中执行的核心数据管理) 。 以下任务是核心数据管理任务的示例:
- 使用联接或合并列或行来合并两个数据集。
- 创建用于对数据进行分组的新类别。
- 修改列标题、更改列数据类型或将列标记为特征或标签。
- 检查缺失值,并将其替换为适当的值。
相关任务
- 执行采样或将数据集划分为训练集和测试集:使用 数据转换 - 采样和拆分 模块。
- 缩放数字、规范化数据或将数值放入箱中:使用 数据转换 - 缩放和缩减 模块。
- 对数值数据字段执行计算或生成常用统计信息:使用统计函数 中的工具。
示例
有关如何在机器学习试验中处理复杂数据的示例,请参阅以下Azure AI 库:
此类别中的模块
" 数据转换 - 操作 "类别包括以下模块:
- 添加列:将一组列从一个数据集添加到另一个数据集。
- 添加行:将一组行从输入数据集追加到另一个数据集的末尾。
- 应用SQL转换:对输入数据集运行 SQLite 查询以转换数据。
- 清理缺失数据:指定如何处理数据集中缺少的值。 此模块替换已弃用缺失值清理器。
- 转换为指示器值:将列中的分类值转换为指示器值。
- 编辑元数据:编辑与数据集中的列关联的元数据。
- 分组分类值:将多个类别中的数据分组到一个新类别中。
- 联接数据:联接两个数据集。
- 删除重复行:从数据集中删除重复行。
- 选择数据集中的列:选择要包括在数据集中的列或从操作中的数据集中排除的列。
- 选择"列转换":创建一个转换,该转换选择与指定数据集中相同的列子集。
- SMOTE:通过使用合成少数过度采样来增加数据集中低采样示例的数量。