转换为 TSV

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

将数据输入转换为制表符分隔格式

类别: 数据格式转换

注意

适用于:仅限机器学习 Studio (经典)

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用机器学习 Studio 中的 "转换为 TSV " 模块 (经典) ,将任何数据集从所有机器学习 Studio (经典) 模块使用的内部格式转换为制表符分隔格式的平面文件。

制表符分隔值 (TSV) 文件与许多外部工具兼容,包括:

  • R 和 Python

  • Excel 和 PowerPivot

  • 所有关系数据库

例如,如果试验的中间数据集要保存起来以便在其他工具中重复使用,或者想要从代码中调用,请将其转换为 TSV 格式,然后右键单击转换后的数据集,以获取访问数据集所需的 Python 代码。

如何使用 Convert to TSV

只要需要下载以制表符分隔的格式的数据集,请使用 " 转换为 TSV " 模块。

  1. 将 " 转换为 TSV " 添加到试验中。 可以在机器学习 Studio (经典) 的 "数据格式转换" 类别中找到此模块。

  2. 将模块连接到另一个数据集或输出表格数据集的模块。

  3. 运行试验,或只右键单击 " 转换为 TSV " 模块,并选择 " 运行所选项"。

结果

转换完成后,可以打开数据集,从 R 或 Python 代码调用它,在 Jupyter 笔记本中使用它,或将其保存到本地文件。

如果要下载数据集,请双击模块输出,并指示是否要打开或保存数据集。

  • 如果选择 " 打开",则将使用计算机默认打开所使用的任何工具来加载数据集。TSV 文件。 这通常是 Microsoft Excel。

  • 如果选择 " 下载数据集",则默认情况下会将该文件与模块的名称以及表示工作区 ID 的 GUID 一起保存。 但是,你可以在下载过程中选择 " 另存为 " 选项,然后更改文件名或位置。

示例

尽管没有特定于此格式的示例,但你可以通过浏览 Azure AI 库中的以下示例试验来了解格式转换的用法:

  • 二元分类的交叉验证示例:将交叉验证的结果导出为逗号分隔值 (CSV) 格式,以便可以使用 Excel 等工具比较多个模型的结果。

  • 基于颜色的图像压缩量化:将用于分析的每个部分的数据集导出到 CSV 文件,以便您可以在任何支持 csv 格式的工具中轻松运行类似的模型。

技术说明

本部分包含实现详情、使用技巧和常见问题解答。

TSV 格式要求

制表符分隔值 (TSV) 是一种文本格式,用于将数据存储在表格结构中。 它与 CSV 格式十分相似,但分隔符是制表符而不是逗号。

如果你的数据包含逗号,那么 TSV 格式将是 CSV 格式的有用替代方法。 逗号在文本数据中很常见,经常在欧洲的数字格式中使用。

在使用制表符分隔格式时存在一个问题,即在非结构化文本中通常将制表位视为空格。 此外,通过不允许在字段中使用制表符,TSV 的 IANA 标准有助于清晰而准确地分析 TSV 文件。

请注意机器学习 Studio (经典) 的 TSV 文件的以下要求:

  • 如果数据集包含列名称,那么“转换为 TSV”模块将支持一个标题行的输出,。

  • TSV 提供程序仅支持 UTF-8 字符编码。

  • 读取或写入 TSV 文件时,性能可能比其他格式(例如 CSV)要慢。

预期输入

名称 类型 说明
数据集 数据表 输入数据集

输出

名称 类型 说明
结果数据集 GenericTsv 输出数据集

另请参阅

数据格式转换
A-Z 模块列表