Поделиться через


Обзор LightGBM в SynapseML

LightGBM — это платформа с открытым кодом, распределенная, высокопроизводительная градиентная градиентная платформа (GBDT, GBRT, GBM или MART). Эта платформа специализируется на создании высококлассных алгоритмов дерева принятия решений с поддержкой GPU для ранжирования, классификации и многих других задач машинного обучения. LightGBM является частью проекта DMTK корпорации Майкрософт.

Преимущества LightGBM

  • Компонность. Модели LightGBM можно включить в существующие конвейеры SparkML и использовать для пакетной, потоковой передачи и обслуживания рабочих нагрузок.
  • Производительность: LightGBM в Spark составляет 10–30 % быстрее, чем SparkML в наборе данных Higgs и достигает 15% увеличения AUC. Параллельные эксперименты проверили, что LightGBM может достичь линейного ускорения с помощью нескольких компьютеров для обучения в определенных параметрах.
  • Функциональные возможности: LightGBM предлагает широкий набор параметров, которые можно использовать для настройки системы дерева принятия решений. LightGBM в Spark также поддерживает новые типы проблем, таких как регрессия квантиля.
  • Кроссплатформенная платформа: LightGBM в Spark, PySpark и SparklyR.

Использование LightGBM

  • LightGBMClassifier: используется для создания моделей классификации. Например, чтобы предсказать, является ли компания банкротами или нет, можно создать модель двоичной классификации с LightGBMClassifierпомощью .
  • LightGBMRegressor: используется для создания моделей регрессии. Например, для прогнозирования цены на жилье мы могли бы построить модель регрессии с LightGBMRegressorпомощью .
  • LightGBMRanker: используется для создания моделей ранжирования. Например, чтобы предсказать релевантность результатов поиска веб-сайта, можно создать модель ранжирования с LightGBMRankerпомощью .