Używanie biblioteki MLlib platformy Apache Spark w usłudze Azure Databricks
Ta strona zawiera przykładowe notesy przedstawiające sposób używania biblioteki MLlib w usłudze Azure Databricks.
Biblioteka MLlib platformy Apache Spark to biblioteka uczenia maszynowego platformy Spark, składająca się ze wspólnych narzędzi i algorytmów uczenia się, w tym klasyfikacji, regresji, klastrowania, filtrowania z wykorzystaniem współpracy, zmniejszania wymiarowości, a także źródłowych typów pierwotnych optymalizacji. Aby uzyskać informacje referencyjne dotyczące funkcji MLlib, usługa Azure Databricks zaleca następujące dokumentacja interfejsu API platformy Apache Spark:
- Przewodnik programowania z wykorzystaniem biblioteki MLlib
- Dokumentacja interfejsu API dla języka Python
- Dokumentacja interfejsu API dla języka Scala
- Interfejs API języka Java
Aby uzyskać informacje na temat korzystania z biblioteki MLlib platformy Apache Spark z języka R, zobacz dokumentację uczenia maszynowego języka R.
Przykładowy notes klasyfikacji binarnej
Ten notes pokazuje, jak utworzyć aplikację klasyfikacji binarnej przy użyciu interfejsu API Apache Spark MLlib Pipelines.
Notes klasyfikacji binarnej
Przykładowe notesy drzew decyzyjnych
Te przykłady przedstawiają różne zastosowania drzew decyzyjnych przy użyciu interfejsu API Apache Spark MLlib Pipelines.
drzewa decyzyjne
Te notesy pokazują, jak przeprowadzać klasyfikacje za pomocą drzew decyzyjnych.
Notes drzew decyzyjnych na potrzeby rozpoznawania cyfr
Notes drzew decyzyjnych na potrzeby ankiety lotniska SFO
Regresja GBT przy użyciu potoków MLlib
Ten notes pokazuje, jak używać potoków MLlib do wykonywania regresji przy użyciu drzew wzmacnianych gradientowo (GBT, gradient boosted tree) w celu przewidywania, ile razy rower zostanie wynajęty (na godzinę) na podstawie informacji takich jak dzień tygodnia, pogoda, pora roku itd.
Notes regresji współdzielenia rowerów
Przykład zaawansowanego notesu MLlib platformy Apache Spark
Ten notes ilustruje sposób tworzenia transformatora niestandardowego.