Обзор LightGBM в SynapseML
LightGBM — это платформа с открытым кодом, распределенная, высокопроизводительная градиентная градиентная платформа (GBDT, GBRT, GBM или MART). Эта платформа специализируется на создании высококлассных алгоритмов дерева принятия решений с поддержкой GPU для ранжирования, классификации и многих других задач машинного обучения. LightGBM является частью проекта DMTK корпорации Майкрософт.
Преимущества LightGBM
- Компонность. Модели LightGBM можно включить в существующие конвейеры SparkML и использовать для пакетной, потоковой передачи и обслуживания рабочих нагрузок.
- Производительность: LightGBM в Spark составляет 10–30 % быстрее, чем SparkML в наборе данных Higgs и достигает 15% увеличения AUC. Параллельные эксперименты проверили, что LightGBM может достичь линейного ускорения с помощью нескольких компьютеров для обучения в определенных параметрах.
- Функциональные возможности: LightGBM предлагает широкий набор параметров, которые можно использовать для настройки системы дерева принятия решений. LightGBM в Spark также поддерживает новые типы проблем, таких как регрессия квантиля.
- Кроссплатформенная платформа: LightGBM в Spark, PySpark и SparklyR.
Использование LightGBM
- LightGBMClassifier: используется для создания моделей классификации. Например, чтобы предсказать, является ли компания банкротами или нет, можно создать модель двоичной классификации с
LightGBMClassifier
помощью . - LightGBMRegressor: используется для создания моделей регрессии. Например, для прогнозирования цены на жилье мы могли бы построить модель регрессии с
LightGBMRegressor
помощью . - LightGBMRanker: используется для создания моделей ранжирования. Например, чтобы предсказать релевантность результатов поиска веб-сайта, можно создать модель ранжирования с
LightGBMRanker
помощью .