修改计数表参数
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
修改用于从计数创建特征的参数
类别:Learning计数
模块概述
本文介绍如何使用 机器学习 Studio (经典 ) 中的"修改计数表参数"模块来更改从计数表生成功能的方式。
通常,若要创建基于计数的特征,请使用"生成计数转换"处理数据集并创建计数表,然后从该计数表中生成一组新的特征。
但是,如果已创建计数表,可以使用"修改计数 表 参数"模块来编辑如何处理计数数据的定义。 这样,即可基于现有数据创建一组不同的基于计数的统计信息,而无需重新分析数据集。
如何配置修改计数参数
在"转换"组中找到要修改的转换,并将其添加到试验中。
你之前应该已经运行了创建计数转换的试验。
添加 "修改计数表参数" 模块,并连接转换作为输入。
在"修改计数表参数"模块的"属性"窗格中,键入要用作Garbage bin 阈值的值。
此值指定必须找到每个特征值的最小出现次数,以便使用计数。 如果值的频率小于垃圾箱阈值,则值标签对不计为离散项;相反,计数低于阈值的所有项都放置在单个"垃圾箱"中。
如果使用的是小型数据集,并且正在对相同数据进行计数和训练,则良好的起始值为 1。
对于 "其他以前的伪示例",请键入一个数字,指示要包括的其他伪示例的数量。 无需提供这些示例;伪示例基于以前的分布生成。
对于 Laplacian 噪声刻度,键入一个正浮点值,该值表示用于引入从 Laplacian 分布采样的干扰的刻度。 设置刻度值时,一些可接受的干扰级别会合并到模型中,因此模型不太可能受数据中未见的值的影响。
在 "输出功能包括"中,选择要在创建基于计数的特征以包含在转换中时使用的方法。
CountsOnly:使用计数创建功能。
LogOddsOnly:使用概率比的日志创建特征。
BothCountsAndLogOdds:使用计数和日志概率创建功能。
如果要在创建功能时
IsBackOff
覆盖输出中的 标志,请选择"忽略退列"选项。 选择此选项时,即使列没有重要的计数值,也创建基于计数的特征。运行试验。 然后,可以根据需要将 "修改计数表参数 "的输出另存为新的转换。
示例
有关此模块的示例,请参阅以下 Azure AI 库:
Learning计数:二元分类:演示如何使用具有 counts 的学习模块从二元分类模型的分类值列生成特征。
Learning计数:多类分类与 NYC 出租车数据:示例 演示如何使用具有 counts 模块的学习,对公开可用的 NYC 出租车数据集执行多类分类。 该示例使用多类逻辑回归学习器来为此问题建模。
Learning计数:将二元分类与 NYC 出租车数据相集成:演示如何使用计数模块对公开可用的 NYC 出租车数据集执行二元分类。 该示例使用双类逻辑回归学习器来为此问题建模。
技术说明
本部分包含实现详情、使用技巧和常见问题解答。
如果设置了拉普拉斯噪音比例参数,则其会以统计方式安全地在同一数据集上进行计数和定型。
预期输入
名称 | 类型 | 说明 |
---|---|---|
计数转换 | ITransform 接口 | 要应用计数转换 |
模块参数
名称 | 类型 | 范围 | 可选 | 默认 | 说明 |
---|---|---|---|---|---|
垃圾桶阈值 | Float | >=0.0f | 必选 | 10.0f | 根据垃圾回收箱对列值进行功能化的阈值 |
其他以前的伪示例 | Float | >=0.0f | 必选 | 42.0f | 要包括的先前分发后的其他伪示例 |
拉普拉斯噪音比例 | Float | >=0.0f | 必选 | 0.0f | 从中采样干扰的 Laplacian 分布的刻度 |
输出特征包括 | OutputFeatureType | 必选 | BothCountsAndLogOdds | 要输出的功能 | |
忽略后退列 | 布尔值 | 必须 | false | 是否忽略输出中的 IsBackOff 列 |
Outputs
名称 | 类型 | 说明 |
---|---|---|
修改后的转换 | ITransform 接口 | 修改后的转换 |
例外
异常 | 描述 |
---|---|
错误 0003 | 如果一个或多个输入为 NULL 或为空,将出现异常。 |
错误 0086 | 计数转换无效时,将发生异常。 |
有关特定于工作室和经典 (模块) 的列表,请参阅机器学习代码。
有关 API 异常的列表,请参阅机器学习 REST API代码。