合并计数转换

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

创建一组基于计数表的特征

Category:包含计数的 Learning

注意

适用于:仅限机器学习 Studio (经典)

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用机器学习 Studio (经典) 中的 "合并计数转换" 模块来合并两组基于计数的特征。 通过合并两个相关计数和功能集,可以潜在地提高功能的覆盖范围和分布。

对于具有高基数特征的大型数据集而言,从计数 Learning 特别有用。 将多个数据集组合为基于计数的特征集而无需重新处理数据集的功能,可以更方便地收集非常大的数据集的统计信息,并将其应用于新数据集。 例如,可以使用计数表收集超过 tb 数据的信息。 您可以重复使用这些统计信息来提高小型数据集的预测模型的准确性。

若要合并两组基于计数的特征,必须使用具有相同架构的表创建功能:也就是说,这两个集必须使用相同的列,并且具有相同的名称和数据类型。

如何配置合并计数转换

  1. 若要使用 合并计数转换,必须至少创建一个基于计数的转换,并且该转换必须存在于工作区中。 如果保存了不同试验中基于计数的转换,请查看 转换 组。 如果在当前试验中创建了转换,请连接以下模块的输出:

    • 生成计数转换。 基于源数据创建新的基于计数的转换。

    • 修改计数表参数。 采用现有计数转换作为输入,并输出更新的转换。

    • 导入计数表。 此模块支持向后兼容使用基于计数的学习的旧试验。 如果使用了 " 导入计数表 " 来分析数据集中的值的分布,然后使用已弃用的计数特征化器模块将值转换为特征,请使用 " 导入计数表 " 将结果转换为转换。

  2. 合并计数转换 模块添加到试验中,并将转换连接到每个输入。

    提示

    第二个转换是可选输入–可以连接同一转换两次,或在第二个输入端口上无连接。

  3. 如果您不想让第二个数据集与第一个数据集相等,请为 衰减系数指定一个值。 你键入的值指示第二个转换中的功能集应如何加权。

    例如,默认值为1时,这两种功能都是相同的。 如果值为0.5,则表示第二个集中的功能在第一组中的权重为一半。

  4. (可选)添加 " 应用转换 " 模块的实例,并将转换应用于数据集。

示例

有关如何使用此模块的示例,请参阅 Azure AI 库

预期输入

名称 类型 说明
以前的计数转换 ITransform 接口 要编辑的计数转换
新的计数转换 ITransform 接口 要添加 (可选) 的计数转换

模块参数

名称 类型 范围 可选 说明 默认
衰减系数 Float 必选 1.0f 要与右侧输入端口上的计数转换相乘的衰减系数

Outputs

名称 类型 说明
合并的计数转换 ITransform 接口 合并的转换

例外

异常 描述
错误 0003 如果一个或多个输入为 NULL 或为空,将出现异常。
错误 0086 计数转换无效时,将发生异常。

另请参阅

通过计数进行学习