Panoramica di LightGBM in SynapseML
LightGBM è un framework open source, distribuito e a prestazioni elevate di gradient boosting (GBDT, GBRT, GBM, o MART). Questo framework è specializzato nella creazione di algoritmi di albero delle decisioni abilitati per GPU e di alta qualità per la priorità, la classificazione e molte altre attività di apprendimento automatico. LightGBM fa parte del progetto DMTK di Microsoft.
Vantaggi di LightGBM
- Componibilità: i modelli LightGBM possono essere incorporati nelle pipeline SparkML esistenti e usati per batch, streaming e gestione dei carichi di lavoro.
- Prestazioni: LightGBM in Spark è più veloce del 10-30% rispetto a SparkML nel set di dati Higgs e ottiene un aumento del 15% in AUC. Gli esperimenti paralleli hanno verificato che LightGBM può ottenere una velocità di accelerazione lineare usando più computer per il training in impostazioni specifiche.
- Funzionalità: LightGBM offre un'ampia gamma di parametri ottimizzabili, che è possibile usare per personalizzare il proprio sistema di albero delle decisioni. LightGBM in Spark supporta anche nuovi tipi di problemi, ad esempio la regressione quantile.
- Multipiattaforma: LightGBM in Spark è disponibile in Spark, PySpark e SparklyR.
Utilizzo di LightGBM
- LightGBMClassifier: usato per la compilazione di modelli di classificazione. Ad esempio, per prevedere se una società è in bancarotta o meno, è possibile creare un modello di classificazione binaria con
LightGBMClassifier
. - LightGBMRegressor: usato per la compilazione di modelli di regressione. Ad esempio, per fare una previsione del prezzo delle abitazioni, è possibile creare un modello di regressione con
LightGBMRegressor
. - LightGBMRanker: usato per la creazione di modelli di classificazione. Ad esempio, per fare una previsione della pertinenza dei risultati di ricerca di siti Web, è possibile creare un modello di classificazione con
LightGBMRanker
.