Udostępnij za pośrednictwem


Trenowanie modeli uczenia maszynowego

Apache Spark — część usługi Microsoft Fabric — umożliwia uczenie maszynowe przy użyciu danych big data. Platforma Apache Spark umożliwia tworzenie cennych szczegółowych informacji na temat dużych mas danych ze strukturą, bez struktury i szybkiego przenoszenia danych. Dostępnych jest kilka opcji bibliotek typu open source podczas trenowania modeli uczenia maszynowego za pomocą platformy Apache Spark w usłudze Microsoft Fabric: Apache Spark MLlib, SynapseML i innych.

Apache SparkML i MLlib

Apache Spark — część usługi Microsoft Fabric — udostępnia ujednoliconą, równoległą strukturę przetwarzania danych typu open source. Ta struktura obsługuje przetwarzanie w pamięci, które zwiększa analizę danych big data. Aparat przetwarzania platformy Spark jest tworzony pod kątem szybkości, łatwości użycia i zaawansowanych analiz. Możliwości obliczeń rozproszonych w pamięci platformy Spark sprawiają, że jest to dobry wybór dla algorytmów iteracyjnych używanych przez uczenie maszynowe i obliczenia grafu.

Skalowalne biblioteki uczenia maszynowego MLlib i SparkML umożliwiają modelowanie algorytmiczne w tym środowisku rozproszonym. MLlib zawiera oryginalny interfejs API oparty na RDD. SparkML to nowszy pakiet. Udostępnia on interfejs API wyższego poziomu oparty na ramkach danych na potrzeby budowy potoków uczenia maszynowego. Język SparkML nie obsługuje jeszcze wszystkich funkcji biblioteki MLlib, ale zastępuje bibliotekę MLlib jako standardową bibliotekę uczenia maszynowego platformy Spark.

Uwaga

Aby uzyskać więcej informacji na temat tworzenia modelu SparkML, odwiedź zasób Train models with Apache Spark MLlib (Trenowanie modeli za pomocą biblioteki MLlib platformy Apache Spark).

Środowisko uruchomieniowe usługi Microsoft Fabric dla platformy Apache Spark zawiera kilka popularnych pakietów typu open source do trenowania modeli uczenia maszynowego. Te biblioteki udostępniają kod wielokrotnego użytku, który można uwzględnić w programach lub projektach. Środowisko uruchomieniowe obejmuje te odpowiednie biblioteki uczenia maszynowego i inne:

  • Scikit-learn — jedna z najpopularniejszych bibliotek uczenia maszynowego z jednym węzłem dla klasycznych algorytmów uczenia maszynowego. Biblioteka Scikit-learn obsługuje większość nadzorowanych i nienadzorowanych algorytmów uczenia i może obsługiwać eksplorację danych i analizę danych.

  • XGBoost — popularna biblioteka uczenia maszynowego zawierająca zoptymalizowane algorytmy do trenowania drzew decyzyjnych i lasów losowych.

  • Biblioteki PyTorch i Tensorflow to zaawansowane biblioteki uczenia głębokiego języka Python. Dzięki tym bibliotekom można ustawić liczbę funkcji wykonawczych w puli na zero, aby utworzyć modele z jedną maszyną. Mimo że ta konfiguracja nie obsługuje platformy Apache Spark, jest to prosty, ekonomiczny sposób tworzenia modeli z jedną maszyną.

SynapseML

Biblioteka open source usługi SynapseML (wcześniej znana jako MMLSpark) upraszcza tworzenie wysoce skalowalnych potoków uczenia maszynowego (ML). Dzięki niemu korzystanie z platformy Spark przez analityków danych staje się bardziej wydajne, ponieważ biblioteka zwiększa szybkość eksperymentowania i stosuje najnowocześniejsze techniki uczenia maszynowego — w tym uczenie głębokie — w dużych zestawach danych.

Usługa SynapseML udostępnia warstwę powyżej interfejsów API niskiego poziomu sparkML podczas tworzenia skalowalnych modeli uczenia maszynowego. Te interfejsy API obejmują indeksowanie ciągów, zestaw wektorów funkcji, przymus danych do układów odpowiednich dla algorytmów uczenia maszynowego i nie tylko. Biblioteka SynapseML upraszcza te i inne typowe zadania tworzenia modeli w PySpark.

Ten artykuł zawiera omówienie różnych opcji dostępnych do trenowania modeli uczenia maszynowego na platformie Apache Spark w usłudze Microsoft Fabric. Aby uzyskać więcej informacji na temat trenowania modelu, odwiedź następujące zasoby: