手动输入数据
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
启用通过键入值来输入和编辑小型数据集的功能
类别: 数据转换/操作
模块概述
本文介绍如何使用 机器学习 Studio (经典) 中的"手动输入数据"模块,通过键入值来创建小型数据集。 该数据集可以有多个列。
此模块可用于以下方案:
如何使用手动输入数据
将" 手动输入数据" 模块添加到试验。 可以在 机器学习 Studio (经典) 中的"数据输入和输出"类别中找到此) 。
对于“DataFormat” ,选择以下选项之一。 这些选项决定了应该如何分析你提供的数据。 每种格式的要求差别很大,因此请务必阅读相关主题。
ARFF。 Weka 使用的属性-关系文件格式。 有关详细信息,请参阅 转换为 ARFF。
CSV。 逗号分隔值格式。 有关详细信息,请参阅转换为 CSV。
SVMLight。 Vowpal Wabbit 和其他机器学习框架使用的一种格式。 有关详细信息,请参阅 转换为 SVMLight。
TSV。 制表符分隔值格式。 有关详细信息,请参阅 转换为 TSV。
如果你选择了某种格式,但是未提供满足格式规范的数据,则会发生运行时错误。
在“数据” 文本框内单击以开始输入数据。 以下格式需要特别注意:
CSV:若要创建多个列,请粘贴逗号分隔的文本,或在字段之间使用逗号键入多个列。
如果选择“HasHeader” 选项,则可以使用第一行值作为列标题。
如果取消选择此选项,则使用列名称 Col1、Col2 等。 稍后可以使用编辑元数据来添加或更改列名。
TSV:若要创建多个列,请粘贴制表符分隔的文本,或者使用字段之间的选项卡键入多个列。
如果选择“HasHeader” 选项,则可以使用第一行值作为列标题。
如果取消选择此选项,则使用列名称 Col1、Col2 等。 稍后可以使用编辑元数据来添加或更改列名。
ARFF:粘贴现有的 ARFF 格式文件。 如果直接键入值,请确保在数据开头添加可选的标头和必需的属性字段。
例如,可以将以下标题和属性行添加到一个简单列表中。 列标题将是
SampleText
。% Title: SampleText.ARFF % Source: Enter Data module @ATTRIBUTE SampleText STRING @DATA \<type first data row here>
SVMLight:使用 SVMLight 格式键入或粘贴值。
例如,下面的示例以 SVMight 格式表示 Blood Donation 数据集的前两行:
# features are [Recency], [Frequency], [Monetary], [Time] 1 1:2 2:50 3:12500 4:98 1 1:0 2:13 3:3250 4:28
运行手动输入数据模块时,这些行将转换为列和索引值的数据集,如下所示:
Col1 Col2 Col3 Col4 标签 0.00016 0.004 0.999961 0.00784 1 0 0.004 0.999955 0.008615 1
在每行后面按 Enter 键,以便另起一行。
请确保在最后一行后按 ENTER 键。
如果多次按 ENTER 键来添加多个空的尾随行,则会删除最后一个空行,但会将其他空行视为缺失值。
如果创建包含缺失值的行,则稍后随时可以将其筛选出来。
右键单击该模块,然后选择“运行所选”以分析数据,并将其作为数据集加载到你的工作区中。
若要查看数据集,请单击输出端口并选择“可视化”。
示例
有关如何在机器学习中使用此模块的示例,请参阅以下 Azure AI 库:
技术说明
本部分包含实现详情、使用技巧和常见问题解答。
无论保存的格式如何,输入的数据都将隐式转换为数据集 (数据表) 用于 试验。 但是,除非显式选择"另存为数据集"选项,否则数据不会保留为保存 的 数据集。
如果未在"手动 输入数据" 中将数据保存为数据集,则结束会话时,将从工作区缓存中删除该数据。 但是,可以再次运行试验,使数据可用。
如果将"手动输入数据"中的数据与 另 一个数据集合并,则组合数据集不能有两个同名的列。 如果存在重复的列名,则向右侧数据集中的列追加一个数值后缀,使列名是唯一的。
例如,假设你有两个包含 TestData 列的"手动输入数据"实例,并使用"添加列"模块来合并它们。 "手动输入数据"的左侧实例中的列将保留为 TestData,"手动输入数据"右侧实例中的列将重命名为 TestData (2) 。