双类平均感知器
重要
对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习。
从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。
ML 工作室(经典)文档即将停用,将来可能不会更新。
创建平均感知器二元分类模型
模块概述
本文介绍如何使用 机器学习 Studio (经典) 中的双类平均感知器模块基于平均感知器算法创建机器学习模型。
此分类算法是一种监督式学习方法,需要一个标记的数据集(其中包含标签列)。 可以通过提供模型和带标记的数据集作为训练模型或优化模型超参数的输入来训练模型。 然后即可使用训练的模型来预测新输入示例的值。
有关平均感知器模型
平均 感知器方法是 神经网络的早期且非常简单的版本。 在此方法中,我们根据一个线性函数将输入分类为多个可能的输出,然后将其与一组派生自特征矢量的权重相结合,这也是“感知器”这一名称的由来。
较简单的感知器模型适用于学习线性可分模式,而神经网络(尤其是深度神经网络)则可对较复杂的类边界建模。 但是,感知器速度更快,并且由于它们是按顺序处理案例的,因此可以将它们用于连续训练。
如何配置双类平均感知器
将" 双类平均感知 器"模块添加到工作室中的试验 (经典) 。
通过设置“创建训练程序模式”选项,指定所希望的模型训练方式。
单个参数:如果知道自己想要如何配置模型,请提供一组特定的值作为参数。
参数范围:如果不确定最佳参数,请指定多个值,然后使用优化模型 超 参数模块来查找最佳配置。 训练程序会多次复用所提供的设置,并确定生成最佳模型的值的组合。
对于“学习速率”,请指定一个值作为“学习速率”。 学习速率值控制每当测试和更正模型时在随机梯度下降中使用的步长的大小。
降低该速率可以加快模型测试频率,但风险是可能会在局部出现拟合效果改进缓慢的情况。 加大梯度可以加快聚合速度,但风险是可能会错过真正的最小值。
对于“最大迭代次数”,请键入你希望算法检查训练数据的次数。
早停止通常提供更好的通用化。 提高迭代次数可以改进拟合情况,风险是过度拟合。
对于“随机数种子”,可以选择键入一个整数值,将其用作种子。 如果需要跨运行确保试验的可再现性,建议使用种子。
选择" 允许未知分类级别 "选项,为训练和验证集的未知值创建组。 对于已知值,此模型可能不太精确,但是对于新的(未知)值,它可以提供更好的预测。
如果取消选择此选项,则模型只能接受训练数据中包含的值。
连接训练数据集和训练模块之一:
结果
在训练完成后:
- 若要查看模型参数的摘要以及从训练中学习的特征权重,请右键单击"训练模型"或"优化模型超参数"的输出。
示例
有关如何使用此学习算法的示例,请参阅以下 Azure AI 库:
- 二元分类器交叉验证示例:比较多个分类模型。
技术说明
本部分包含实现详情、使用技巧和常见问题解答。
使用提示
对于此模型类型,最好是在使用数据集训练分类器之前将其规范化。 有关规范化选项,请参阅 规范化数据。
平均感知器模型是神经网络的早期版本,其用法非常简单。 因此,如果你的目标是速度优于准确性,它将非常适合简单数据集。 但是,如果没有获得所需的结果,请尝试以下模型之一:
模块参数
名称 | 范围 | 类型 | 默认 | 说明 |
---|---|---|---|---|
学习速率 | >=double.Epsilon | Float | 1.0 | “随机梯度下降”优化器的初始学习速率。 |
最大迭代数 | >=1 | Integer | 10 | 若对训练数据集执行的随机梯度下降迭代次数。 |
随机数种子 | 任意 | Integer | 模型使用的随机数生成器的种子。 默认留空。 | |
允许未知的分类级别 | 任意 | 布尔 | True | 若为 True,则为每个分类列都创建一个附加级别。 测试数据集中不可用于定型数据集的任何级别都会映射到此附加级别。 |
输出
名称 | 类型 | 说明 |
---|---|---|
未训练的模型 | ILearner 接口 | 一种未训练的二元分类模型,可连接到“一对多”多类分类模型、训练模型或交叉验证模型模块。 |