转换为 ARFF
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
将数据输入转换成 Weka 工具集使用的属性关系文件格式
类别: 数据格式转换
模块概述
本文介绍如何使用 机器学习 Studio (经典) 中的"转换为 ARFF"模块来转换数据集,并返回 Weka 工具集使用的属性关系文件格式。 此格式称为 ARFF。
Weka 的 ARFF 数据规范支持多个机器学习任务,包括数据预处理、分类和特征选择。 在此格式中,数据按特征及其属性进行组织,并包含在单个文本文件中。 可以在"技术说明"部分找到 Weka 文件格式 的详细信息。
一般情况下,只有在同时使用 机器学习 和 Weka,并且想要在两者之间来回移动训练数据时,才需要转换为 Weka 文件格式。
有关 Weka 工具集的信息,请参阅维基百科文章: Weka (机器学习)
警告
你无法覆盖 Azure 存储中的现有 ARFF 文件。
如何使用转换为 ARFF
将 "转换为 ARFF" 模块添加到试验。 可以在 机器学习 Studio (经典) 的数据格式转换类别中找到此模块。
将它连接到可以输出数据集的任何模块。
运行试验,或单击" 转换为 ARFF"模块 ,然后单击"运行 所选项"。
结果
若要在本地文件夹中创建数据副本,请双击"转换为 ARFF"的输出,然后选择"下载 " 选项。
如果未指定文件夹,则应用默认文件名,文件保存在本地 下载库中 。
注意
此模块不支持导出到 Python 或 R 代码。
示例
在示例中没有特定于此格式 Azure AI 库。 但是,这些试验演示了其他类型的格式转换:
基于颜色的图像压缩:将分析的每个部分使用的数据集导出到文件中,以在其他分析平台上重现和使用。
二元分类的交叉验证示例:将交叉验证的结果导出到文件,以便可以使用工具(如 Excel)比较多个模型的结果。
技术说明
本部分包含实现详情、使用技巧和常见问题解答。
ARFF 格式示例
本部分提供一个示例,说明在转换为 ARFF 时,典型数据集的外观。
通常,ARFF 数据文件由两个部分组成:定义数据源和架构的标头,以及包含实际实体及其属性的数据部分。
ARFF 标头
ARFF 文件的 标头定义属性列表 (列及其) 列中。 描述数据源的多个注释行或任何其他说明,还可以包含标头。
% Source: Iris dataset, UCI % 0 = Iris-setosa, 1= Iris-virginica @RELATION iris @ATTRIBUTE sepal_length NUMERIC @ATTRIBUTE sepal_width NUMERIC @ATTRIBUTE petal_length NUMERIC @ATTRIBUTE petal_width NUMERIC @ATTRIBUTE class {0, 1}
ARFF 数据
数据部分由逗号分隔值组成,非常类似于不带列标题的 CSV 文件。
@DATA 5.1,3.5,1.4,0.2,0
有关此文件格式的其他信息,请参阅 Weka Wiki 页: ARFF (开发人员版本) 。
当前 ARFF 版本
机器学习 Studio (经典) ARFF 3.0 格式保存 ARFF 文件。
预期输入
名称 | 类型 | 说明 |
---|---|---|
数据集 | 数据表 | 输入数据集 |
Outputs
名称 | 类型 | 说明 |
---|---|---|
结果数据集 | Arff | 输出数据集 |