SynapseML 中的 LightGBM 概述

LightGBM是一种开源的分布式高性能梯度提升(GBDT、GBRT、GBM 或 MART)框架。 此框架专用于创建高质量且支持 GPU 的决策树算法,可用于排名、分类和许多其他机器学习任务。 LightGBM 是 Microsoft DMTK项目的一部分。

LightGBM 的优点

  • 可组合性:LightGBM 模型可以合并到现有的 SparkML 管道中,并用于批处理、流式处理和服务工作负载。
  • 性能:Spark 上的 LightGBM 比Higgs 数据集上的 SparkML 快 10-30%,AUC 提高了 15%。 并行试验已验证 LightGBM 可以使用多台计算机在特定设置中进行训练以实现线性加速。
  • 功能:LightGBM 提供各种可调整参数,可用于自定义其决策树系统。 Spark 上的 LightGBM 还支持新类型的问题,例如分位数回归。
  • 跨平台:Spark、PySpark 和 SparklyR 上提供 Spark 上的 LightGBM。

LightGBM 用法

  • LightGBMClassifier:用于生成分类模型。 例如,为了预测公司是否破产,可以使用LightGBMClassifier生成二元分类模型。
  • LightGBMRegressor:用于生成回归模型。 例如,为了预测房价,可以使用LightGBMRegressor生成回归模型。
  • LightGBMRanker:用于生成排名模型。 例如,要预测网站搜索结果的相关性,可以使用LightGBMRanker生成排名模型。