Oversigt over LightGBM i SynapseML
LightGBM er en struktur med åben kildekode, distribueret graduering med høj ydeevne (GBDT, GBRT, GBM eller MART). Denne struktur har specialiseret sig i at oprette algoritmer af høj kvalitet og GPU-aktiverede beslutningstræalgoritmer til rangering, klassificering og mange andre opgaver i forbindelse med maskinel indlæring. LightGBM er en del af Microsofts DMTK-projekt .
Fordele ved LightGBM
- Komposabilitet: LightGBM-modeller kan integreres i eksisterende SparkML-pipelines og bruges til batch-, streaming- og serveringsarbejdsbelastninger.
- Ydeevne: LightGBM på Spark er 10-30 % hurtigere end SparkML på Higgs-datasættet og opnår en stigning på 15 % i AUC. Parallelle eksperimenter har bekræftet, at LightGBM kan opnå en lineær hastighed ved hjælp af flere maskiner til oplæring i bestemte indstillinger.
- Funktionalitet: LightGBM tilbyder en lang række justerbare parametre, som man kan bruge til at tilpasse deres beslutningstræsystem. LightGBM on Spark understøtter også nye typer problemer, f.eks. kvantilregression.
- Cross platform: LightGBM on Spark er tilgængelig på Spark, PySpark og SparklyR.
LightGBM-forbrug
- LightGBMClassifier: Bruges til oprettelse af klassificeringsmodeller. Hvis vi f.eks. vil forudsige, om en virksomhed går konkurs eller ej, kan vi oprette en binær klassificeringsmodel med
LightGBMClassifier
. - LightGBMRegressor: Bruges til oprettelse af regressionsmodeller. Hvis vi f.eks. vil forudsige boligprisen, kan vi oprette en regressionsmodel med
LightGBMRegressor
. - LightGBMRanker: Bruges til at oprette rangeringsmodeller. Hvis vi f.eks. vil forudsige relevansen af søgeresultaterne på webstedet, kan vi oprette en rangeringsmodel med
LightGBMRanker
.