修改计数表参数

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

修改用于从计数创建特征的参数

类别:Learning计数

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用 机器学习 Studio (经典 ) 中的"修改计数表参数"模块来更改从计数表生成功能的方式。

通常,若要创建基于计数的特征,请使用"生成计数转换"处理数据集并创建计数表,然后从该计数表中生成一组新的特征。

但是,如果已创建计数表,可以使用"修改计数 参数"模块来编辑如何处理计数数据的定义。 这样,即可基于现有数据创建一组不同的基于计数的统计信息,而无需重新分析数据集。

如何配置修改计数参数

  1. 在"转换"组中找到要修改的转换,并将其添加到试验中。

    你之前应该已经运行了创建计数转换的试验。

    • 修改保存的转换:在"转换"组中找到转换,并将其添加到试验。

    • 若要修改在同一试验中创建的计数转换:如果转换尚未保存,但在当前试验 (中作为输出提供,请检查生成计数转换模块) 的输出,则可以通过连接模块直接使用它。

  2. 添加 "修改计数表参数" 模块,并连接转换作为输入。

  3. 在"修改计数表参数"模块的"属性"窗格中,键入要用作Garbage bin 阈值的值

    此值指定必须找到每个特征值的最小出现次数,以便使用计数。 如果值的频率小于垃圾箱阈值,则值标签对不计为离散项;相反,计数低于阈值的所有项都放置在单个"垃圾箱"中。

    如果使用的是小型数据集,并且正在对相同数据进行计数和训练,则良好的起始值为 1。

  4. 对于 "其他以前的伪示例",请键入一个数字,指示要包括的其他伪示例的数量。 无需提供这些示例;伪示例基于以前的分布生成。

  5. 对于 Laplacian 噪声刻度,键入一个正浮点值,该值表示用于引入从 Laplacian 分布采样的干扰的刻度。 设置刻度值时,一些可接受的干扰级别会合并到模型中,因此模型不太可能受数据中未见的值的影响。

  6. "输出功能包括"中,选择要在创建基于计数的特征以包含在转换中时使用的方法。

    • CountsOnly:使用计数创建功能。

    • LogOddsOnly:使用概率比的日志创建特征。

    • BothCountsAndLogOdds:使用计数和日志概率创建功能。

  7. 如果要在创建功能时IsBackOff覆盖输出中的 标志,请选择"忽略退列"选项。 选择此选项时,即使列没有重要的计数值,也创建基于计数的特征。

  8. 运行试验。 然后,可以根据需要将 "修改计数表参数 "的输出另存为新的转换。

示例

有关此模块的示例,请参阅以下 Azure AI 库

  • Learning计数:二元分类:演示如何使用具有 counts 的学习模块从二元分类模型的分类值列生成特征。

  • Learning计数:多类分类与 NYC 出租车数据:示例 演示如何使用具有 counts 模块的学习,对公开可用的 NYC 出租车数据集执行多类分类。 该示例使用多类逻辑回归学习器来为此问题建模。

  • Learning计数:将二元分类与 NYC 出租车数据相集成:演示如何使用计数模块对公开可用的 NYC 出租车数据集执行二元分类。 该示例使用双类逻辑回归学习器来为此问题建模。

技术说明

本部分包含实现详情、使用技巧和常见问题解答。

如果设置了拉普拉斯噪音比例参数,则其会以统计方式安全地在同一数据集上进行计数和定型。

预期输入

名称 类型 说明
计数转换 ITransform 接口 要应用计数转换

模块参数

名称 类型 范围 可选 默认 说明
垃圾桶阈值 Float >=0.0f 必选 10.0f 根据垃圾回收箱对列值进行功能化的阈值
其他以前的伪示例 Float >=0.0f 必选 42.0f 要包括的先前分发后的其他伪示例
拉普拉斯噪音比例 Float >=0.0f 必选 0.0f 从中采样干扰的 Laplacian 分布的刻度
输出特征包括 OutputFeatureType 必选 BothCountsAndLogOdds 要输出的功能
忽略后退列 布尔值 必须 false 是否忽略输出中的 IsBackOff 列

Outputs

名称 类型 说明
修改后的转换 ITransform 接口 修改后的转换

例外

异常 描述
错误 0003 如果一个或多个输入为 NULL 或为空,将出现异常。
错误 0086 计数转换无效时,将发生异常。

有关特定于工作室和经典 (模块) 的列表,请参阅机器学习代码

有关 API 异常的列表,请参阅机器学习 REST API代码

另请参阅

通过计数进行学习