拆分数据

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

将数据集的行分区为两个不同的集

类别: 数据转换/采样和拆分

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本主题介绍如何使用 机器学习 Studio (经典) 中的拆分数据模块将数据集划分为两个不同的集。

如果需要将数据拆分为训练和测试集,本模板会很有帮助。 你也可以自定义数据的拆分方式。 某些选项支持数据随机化;其他则为特定的数据类型或模型类型而定制。

如何配置拆分数据

提示

在选择拆分模式之前,请阅读所有选项以确定所需的拆分类型。 如果更改拆分模式,则可重置所有其他选项。

  1. 在工作室 中将" 拆分数据"模块添加到试验。 你可在“示例和拆分”类别中的“数据转换”下找到此模块 。

  2. 拆分模式:选择以下模式之一,具体取决于你拥有的数据的类型以及要划分它的方式。 每个拆分模式都有不同的选项。 单击以下主题,获取详细说明和示例。

    • 拆分行:如果只需将数据拆分为两个部分,请使用该选项。 你可指定要置于每个拆分中的数据的百分比,但在默认情况下,数据被划分为 50-50。

      还可随机化每组中的行选定内容,并使用分层采样。 在分层采样中,必须选择希望在两个结果数据集中平等分配值的单个数据列。

    • 推荐器拆分:如果要准备数据以在推荐器系统中使用,请始终选择此选项。 它有助于将数据集划分为训练和测试组,同时确保重要值(如用户-项对或评级)在组之间平均划分。

    • 正则表达式拆分:如果你希望通过测试单个值列来分割数据集,请选择此选项。

      例如,如果你正在分析情绪,可以在文本字段中查看是否存在特定的产品名称,然后将数据集拆分为具有目标产品名称的行,以及不具有目标产品名称的行。

    • 相对表达式拆分:如果希望对数字列应用条件,请使用该选项。 该数字可以是日期/时间字段、包含年龄或金额的列,甚至可以是百分比。 例如,你可能希望根据项目的成本、按年龄范围分组人员,或按日历日期的不同数据来拆分数据集。

要求

  • 拆分数据 一次最多可以创建两个数据集集,并且这些集必须排他。

    因此,如果具有包含多个条件和输出的复杂拆分,可能需要将多个拆分数据模块链接 在一 起。

    或者,可以使用 CASE 语句和"应用SQL转换"模块。

  • 此模块不会删除数据,也不从数据集中删除数据;它只按模块的第一个和第二个输出中指定的数据进行划分。

  • 拆分推荐器系统的数据需要一些额外的要求。 通常,数据集只能包含用户-项对或用户-项评级三元组。 因此, 拆分数据 模块不能用于具有三列以上列的数据集,以避免与特征类型数据混淆。 如果数据集包含的列过多,则可能会收到以下错误:

    错误 0022:输入数据集中的选定列数不等于 x

    解决方法是使用"选择数据集 中的列" 删除某些列,然后使用"添加列"添加 。 或者,如果数据集具有许多想要在模型中使用的特征,请使用其他选项划分数据集,并使用"训练模型"而不是"训练 Matchbox 推荐器"来训练模型。

示例

有关如何使用拆分 数据 模块的示例,请参阅以下 Azure AI 库

  • 二元分类的交叉验证:成人数据集:应用 20% 的采样率来创建较小的随机采样数据集。 (原始人口普查数据集必须有 30,000 多个行; 练习数据集具有大约 6500)。 数据集是清除缺失值,然后传递给五个不同的模型进行训练和交叉验证。

技术说明

以下要求适用于拆分数据 的所有用法

  • 输入数据集必须至少包含两行,否则将引发错误。
  • 如果你使用该选项指定所需的行数,则指定的数目必须是正整数,而且该数必须小于数据集中的总行数。
  • 如果你指定一个数字作为百分比,或者使用包含“%”字符的字符串,则该值将被解释为百分比。 所有百分比值必须在范围 (0, 100) 内,不包括值 0 和 100。
  • 如果指定的数字或百分比是小于 1 的浮点数,并且未使用百分号 (%),则该数字将被解释为比例值。
  • 如果将 选项用于分层拆分,则可以通过选择层次列,进一步按子组划分输出数据集。

预期输入

名称 类型 说明
数据集 数据表 要拆分的数据集

模块参数

名称 类型 范围 可选 说明 默认
拆分模式 拆分模式 拆分行、推荐器拆分、正则表达式或相对表达式 必选 拆分行 选择拆评分据集的方法

Outputs

名称 类型 说明
结果数据集 1 数据表 包含选定行的数据集
结果数据集 2 数据表 包含所有其他行的数据集

另请参阅

样本和拆分
分区和采样
A-Z 模块列表