导入计数表

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

导入以前创建的计数表

Category:包含计数的 Learning

注意

适用于:仅限机器学习 Studio (经典)

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用机器学习 Studio (经典) 中的 "导入计数表" 模块。

"导入计数表" 模块的用途是允许使用早期版本的机器学习创建基于计数的统计信息表的客户升级其试验。 此模块将现有计数表与新数据合并在一起。

有关计数表以及如何使用它们创建功能的常规信息,请参阅具有计数的 Learning

重要

提供此模块只是为了实现向后兼容性,以及使用不推荐使用的生成计数表和不推荐使用的特征化器模块的实验。 建议升级实验以使用较新的模块,以利用新功能。

对于所有新试验,我们建议使用以下模块:

如何配置导入计数表

  1. 在机器学习 Studio (经典) 中,打开一个试验,其中包含使用 "不推荐使用的生成计数表" 模块创建的计数表。

  2. 将 " 导入计数表 " 模块添加到试验中。

  3. 连接生成计数表的两个输出 (弃用的) 模块到导入计数表的匹配输入端口。

    如果你有另一个要与导入的计数表合并的计数数据集,请将其连接到 " 导入计数表 " 模块的最右侧输入。

  4. 使用 "计数 类型 " 选项可指定存储计数表的位置和方式:

    • 数据集:用于生成计数的数据另存为机器学习 Studio (经典) 中的数据集。

    • Blob:用于生成计数的数据存储为 Windows Azure 存储中的块 Blob。

    • MapReduce:用于生成计数的数据存储为 Windows Azure 存储中的 blob。

      对于非常大的数据集,此选项通常是首选选项。 若要访问计数,必须激活 HDInsight 群集。 将启动 MapReduce 作业来执行计数。 这两个活动都可能产生存储和计算成本。

      有关详细信息,请参阅 Azure 上的 HDInsight

    指定数据存储模式后,你可能需要为数据提供其他连接信息,即使你先前在试验中使用了 导入数据 模块来访问数据。 这是因为计数特征化器 (弃用) 模块将单独访问数据存储,以便读取数据和生成所需的表。

  5. 使用 " 计数表类型 " 选项来指定用于存储计数的表的格式和存储模式。

    • Dictionary:使用字典计数表。

      所选列中的所有列值都被视为字符串,并使用最多 31 位大小的比特数组进行哈希运算。 因此,由非负 32 位整数表示所有列的值。

    • CMSketch:使用保存在 count 最小值草绘表中的表。

      使用此格式时,将使用多个具有较小范围的独立哈希函数来提高内存效率并降低哈希冲突的可能性。

    一般情况下,对于较小的数据集,应使用 字典 选项 (< 1gb) ,并对较大的数据集使用 CMSketch 选项。

  6. 运行试验。

  7. 完成后,右键单击 " 导入计数表 " 模块的输出,选择 " 另存为转换",然后键入转换的名称。 当你执行此操作时,合并的计数表以及你可能已应用的任何特征化参数以可应用于新数据集的格式保存。

示例

使用 Azure AI 库中的这些示例试验来浏览基于计数的特征化的示例:

注意

这些库试验都是使用早期版本创建的,现已弃用,使用计数模块 Learning 。 在 Studio 中打开试验 (经典) 时,试验会自动升级,以使用较新的模块。

预期输入

名称 类型 说明
计数元数据 数据表 计数的元数据
计数表 数据表 计数表
计数数据集 数据表 用于计数的数据集

模块参数

名称 类型 范围 可选 默认 说明
计数类型 CountingType 必选 计数类型

Outputs

名称 类型 说明
计数转换 ITransform 接口 计数转换

例外

异常 描述
错误 0003 如果一个或多个输入为 NULL 或为空,将出现异常。
错误 0018 如果输入数据集无效,将出现异常。

有关特定于工作室和经典 (模块) 的列表,请参阅机器学习代码

有关 API 异常的列表,请参阅机器学习 REST API代码

另请参阅

通过计数进行学习