转换为 TSV
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
将数据输入转换为制表符分隔格式
类别: 数据格式转换
模块概述
本文介绍如何使用机器学习 Studio 中的 "转换为 TSV " 模块 (经典) ,将任何数据集从所有机器学习 Studio (经典) 模块使用的内部格式转换为制表符分隔格式的平面文件。
制表符分隔值 (TSV) 文件与许多外部工具兼容,包括:
R 和 Python
Excel 和 PowerPivot
所有关系数据库
例如,如果试验的中间数据集要保存起来以便在其他工具中重复使用,或者想要从代码中调用,请将其转换为 TSV 格式,然后右键单击转换后的数据集,以获取访问数据集所需的 Python 代码。
如何使用 Convert to TSV
只要需要下载以制表符分隔的格式的数据集,请使用 " 转换为 TSV " 模块。
将 " 转换为 TSV " 添加到试验中。 可以在机器学习 Studio (经典) 的 "数据格式转换" 类别中找到此模块。
将模块连接到另一个数据集或输出表格数据集的模块。
运行试验,或只右键单击 " 转换为 TSV " 模块,并选择 " 运行所选项"。
结果
转换完成后,可以打开数据集,从 R 或 Python 代码调用它,在 Jupyter 笔记本中使用它,或将其保存到本地文件。
如果要下载数据集,请双击模块输出,并指示是否要打开或保存数据集。
如果选择 " 打开",则将使用计算机默认打开所使用的任何工具来加载数据集。TSV 文件。 这通常是 Microsoft Excel。
如果选择 " 下载数据集",则默认情况下会将该文件与模块的名称以及表示工作区 ID 的 GUID 一起保存。 但是,你可以在下载过程中选择 " 另存为 " 选项,然后更改文件名或位置。
示例
尽管没有特定于此格式的示例,但你可以通过浏览 Azure AI 库中的以下示例试验来了解格式转换的用法:
二元分类的交叉验证示例:将交叉验证的结果导出为逗号分隔值 (CSV) 格式,以便可以使用 Excel 等工具比较多个模型的结果。
基于颜色的图像压缩量化:将用于分析的每个部分的数据集导出到 CSV 文件,以便您可以在任何支持 csv 格式的工具中轻松运行类似的模型。
技术说明
本部分包含实现详情、使用技巧和常见问题解答。
TSV 格式要求
制表符分隔值 (TSV) 是一种文本格式,用于将数据存储在表格结构中。 它与 CSV 格式十分相似,但分隔符是制表符而不是逗号。
如果你的数据包含逗号,那么 TSV 格式将是 CSV 格式的有用替代方法。 逗号在文本数据中很常见,经常在欧洲的数字格式中使用。
在使用制表符分隔格式时存在一个问题,即在非结构化文本中通常将制表位视为空格。 此外,通过不允许在字段中使用制表符,TSV 的 IANA 标准有助于清晰而准确地分析 TSV 文件。
请注意机器学习 Studio (经典) 的 TSV 文件的以下要求:
预期输入
名称 | 类型 | 说明 |
---|---|---|
数据集 | 数据表 | 输入数据集 |
输出
名称 | 类型 | 说明 |
---|---|---|
结果数据集 | GenericTsv | 输出数据集 |