双类决策森林

重要

对机器学习工作室(经典)的支持将于 2024 年 8 月 31 日结束。 建议在该日期之前转换到 Azure 机器学习

从 2021 年 12 月 1 日开始,你将无法创建新的机器学习工作室(经典)资源。 在 2024 年 8 月 31 日之前,可继续使用现有的机器学习工作室(经典)资源。

ML 工作室(经典)文档即将停用,将来可能不会更新。

使用决策丛林算法创建双类分类模型

类别:机器学习/初始化模型/分类

注意

适用于:机器学习 Studio (经典) 应用

可在 Azure 机器学习设计器中获取类似的拖放模块。

模块概述

本文介绍如何使用 机器学习 Studio (经典 ) 中的双类决策类模块创建基于称为决策群的监督式组合学习算法的机器学习模型。

类决策舱 模块返回未训练的分类器。 然后,使用"训练模型"或"优化模型超参数",在标记的训练数据集上训练此模型。 然后,可以使用训练后的模型进行预测。

有关决策林的更多信息

决策林 是决策林的最新 扩展。 决策森林包括决策定向无圈图 (DAG) 的系综。

决策森林具有以下优势:

  • 通过允许合并树分支,决策 DAG 通常比决策树具有更低的内存占用和更好的通用化性能,但代价是训练时间稍长。

  • 决策森林是可以表示非线性决策边界的非参数模型。

  • 它们执行集成的特征选择和分类,并且在存在干扰性特征时具有弹性。

提示

有关此机器学习算法背后的研究详细信息,请参阅决策类:适用于分类的精简和丰富模型 (可下载的 PDF) 。

如何配置 Two-Class Decision

  1. 在工作室 和经典工作室中,将 双类决策 (模块) 。

  2. 对于“重新采样方法”,请选择用于创建各个树的方法。 你可以选择“装袋”或“复制”。

    • B一:选择此选项以使用 b进行聚合,也称为启动聚合。

      决策中的每个树输出高斯分布作为预测。 聚合是查找一个高斯,其前两个时刻与通过组合单个树返回的所有高斯人给出的高斯混合时刻匹配。

    • 复制:在复制中,每个树都用完全相同的输入数据进行训练。 确定每个树节点使用哪个拆分谓词仍然是随机的,并且树将多种多样。

      有关详细信息,请参阅决策林计算机视觉和医疗图像分析。Criminisi 和 J. Shotton。Springer 2013。

  3. 通过设置“创建训练程序模式”选项,指定要如何对模型进行训练。

    • “单个参数”:如果你知道自己想要如何配置模型,可以提供一组特定的值作为参数。

    • 参数范围:如果不确定最佳参数,可以通过指定多个值和使用优化模型 参数模块查找最佳配置来查找最佳参数。 训练程序将多次进行你提供的设置组合,并确定生成最佳模型的值的组合。

  4. 对于 "决策 DAG 数",指示可在组合中创建的最大图形数。

  5. 对于 决策 DAG 的最大深度,指示每个图形的最大深度。

  6. 对于 决策 DAG 的最大宽度,指示每个图形的最大宽度。

  7. "每个决策 DAG 层的优化步骤数"中,指示生成每个 DAG 时要针对数据执行多少次迭代。

  8. 选择" 允许分类特征的未知值 "选项,为测试或验证数据中的未知值创建组。

    如果取消选中此选项,该模型只会接受训练数据中包含的值。 在前一种情况下,该模型在已知值方面的精确度可能较差,但可以较好地预测新(未知)值。

  9. 将带标记的数据集添加到试验,并连接其中一个 训练模块

    • 如果将“创建训练程序模式”设置为“单个参数”,请使用训练模型模块。

    • 如果将“创建训练程序模式”设置为“参数范围”,请使用优化模型超参数模块 。

    注意

    如果将参数范围传递给训练模型模块,则它只使用参数范围列表中的第一个值。

    如果将一组参数值传递给优化模型超参数模块,则当它期望每个参数有一系列设置时,它会忽略这些值,并为学习器使用默认值。

    如果选择“参数范围”选项并为任何参数输入单个值,则整个整理过程中都会使用你指定的单个值,即使其他参数的值发生一系列更改。

结果

在训练完成后:

  • 若要使用模型进行评分,请将其连接到评分模型,以预测新输入示例的值。

示例

有关如何在机器学习中使用决策中心的示例,请参阅Azure AI 库:

  • 比较二元分类器:使用多种算法并讨论它们的优缺点。

技术说明

本部分包含实现详情、使用技巧和常见问题解答。

使用提示

如果数据有限,或者希望最大程度地减少训练模型所花费的时间,请尝试这些设置。

有限的训练集

如果训练集较小:

  • 使用大量的决策 DAG(例如 20 个以上)创建决策森林。
  • 使用“装袋”选项来重新采样。
  • 为每个 DAG 层指定大量的优化步骤(例如 10,000 个以上)。

有限的训练时间

如果训练集很大,但训练时间有限:

  • 使用较少的决策 DAG 数(例如,5-10)创建决策森林。
  • 使用“复制”选项来重新采样。
  • 为每个 DAG 层指定少量的优化步骤(例如 2000 个以下)。

模块参数

名称 范围 类型 默认 说明
重新采样方法 任意 ResamplingMethod 装袋 选择重新采样方法
决策 DAG 数目 >=1 Integer 8 指定要在系综中构建的决策图数目
决策 DAG 的最大深度 >=1 Integer 32 指定系综中决策图的最大深度
决策 DAG 的最大宽度 >= 8 Integer 128 指定系综中决策图的最大宽度
每个决策 DAG 层的优化步骤数 >= 1000 Integer 2048 指定用于优化决策图每个级别的步骤数
允许分类特征的未知值 任意 布尔 True 指示是否可将现有分类特征的未知值映射到其他新特征

输出

名称 类型 说明
未训练的模型 ILearner 接口 未训练的二元分类模型

另请参阅

分类
多类决策林
A-Z 模块列表