合并计数转换
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
创建一组基于计数表的特征
Category:包含计数的 Learning
模块概述
本文介绍如何使用机器学习 Studio (经典) 中的 "合并计数转换" 模块来合并两组基于计数的特征。 通过合并两个相关计数和功能集,可以潜在地提高功能的覆盖范围和分布。
对于具有高基数特征的大型数据集而言,从计数 Learning 特别有用。 将多个数据集组合为基于计数的特征集而无需重新处理数据集的功能,可以更方便地收集非常大的数据集的统计信息,并将其应用于新数据集。 例如,可以使用计数表收集超过 tb 数据的信息。 您可以重复使用这些统计信息来提高小型数据集的预测模型的准确性。
若要合并两组基于计数的特征,必须使用具有相同架构的表创建功能:也就是说,这两个集必须使用相同的列,并且具有相同的名称和数据类型。
如何配置合并计数转换
若要使用 合并计数转换,必须至少创建一个基于计数的转换,并且该转换必须存在于工作区中。 如果保存了不同试验中基于计数的转换,请查看 转换 组。 如果在当前试验中创建了转换,请连接以下模块的输出:
将 合并计数转换 模块添加到试验中,并将转换连接到每个输入。
提示
第二个转换是可选输入–可以连接同一转换两次,或在第二个输入端口上无连接。
如果您不想让第二个数据集与第一个数据集相等,请为 衰减系数指定一个值。 你键入的值指示第二个转换中的功能集应如何加权。
例如,默认值为1时,这两种功能都是相同的。 如果值为0.5,则表示第二个集中的功能在第一组中的权重为一半。
(可选)添加 " 应用转换 " 模块的实例,并将转换应用于数据集。
示例
有关如何使用此模块的示例,请参阅 Azure AI 库:
带计数的 Learning:二元分类:演示如何使用带有计数模块的学习,通过二元分类模型的分类值列生成功能。
带计数的 Learning:具有 NYC 出租车数据的多类分类:演示如何使用带有计数的学习模块在公开可用 NYC 出租车数据集上执行多类分类。 该示例使用多类逻辑回归学习器来模拟此问题。
带计数的 Learning:包含 NYC 出租车数据的二进制分类:演示如何使用带有计数的学习模块在公开提供的 NYC 出租车数据集上执行二元分类。 该示例使用双类逻辑回归学习器来模拟问题。
预期输入
名称 | 类型 | 说明 |
---|---|---|
以前的计数转换 | ITransform 接口 | 要编辑的计数转换 |
新的计数转换 | ITransform 接口 | 要添加 (可选) 的计数转换 |
模块参数
名称 | 类型 | 范围 | 可选 | 说明 | 默认 |
---|---|---|---|---|---|
衰减系数 | Float | 必选 | 1.0f | 要与右侧输入端口上的计数转换相乘的衰减系数 |
Outputs
名称 | 类型 | 说明 |
---|---|---|
合并的计数转换 | ITransform 接口 | 合并的转换 |
例外
异常 | 描述 |
---|---|
错误 0003 | 如果一个或多个输入为 NULL 或为空,将出现异常。 |
错误 0086 | 计数转换无效时,将发生异常。 |