Uczenie maszynowe w usłudze Azure Databricks
Usługa Azure Databricks udostępnia kompleksowe, oparte na chmurze środowisko do tworzenia modeli uczenia maszynowego. Machine Edukacja to dyscyplina, która obejmuje współpracę między analitykami danych, którzy analizują i modelowali dane, oraz inżynierami uczenia maszynowego, którzy wdrażają modele i zarządzają nimi. Usługa Azure Databricks umożliwia analitykom danych wykonywanie zadań pozyskiwania, eksploracji i przygotowywania danych, a także zadań trenowania, oceny i zarządzania modelami.
Środowiska uruchomieniowe usługi Databricks uczenia maszynowego
Podczas tworzenia klastra w obszarze roboczym usługi Azure Databricks możesz określić środowisko uruchomieniowe usługi Databricks do zainstalowania w klastrze. Usługa Azure Databricks obejmuje niektóre środowiska uruchomieniowe usługi Databricks zoptymalizowane pod kątem uczenia maszynowego. Obejmują one obsługę bibliotek, które są często używane w obciążeniach uczenia maszynowego, w tym struktur uczenia maszynowego i narzędzi do zarządzania operacjami uczenia maszynowego.
Jeśli zamierzasz implementować rozwiązania uczenia maszynowego, utwórz klaster z jednym ze środowisk uruchomieniowych uczenia maszynowego . Możesz wybrać środowisko uruchomieniowe oparte na procesorze CPU dla klasycznych scenariuszy uczenia maszynowego lub środowisko uruchomieniowe oparte na procesorze GPU, jeśli chcesz tworzyć złożone sieci neuronowe z platformami uczenia głębokiego, co może wykorzystać możliwość wydajnego przetwarzania macierzy i danych wektorowych.
Struktury uczenia maszynowego w usłudze Azure Databricks
Usługa Azure Databricks jest oparta na platformie Apache Spark, wysoce skalowalnej platformie do rozproszonego przetwarzania danych. Na platformie Spark analitycy danych i inżynierowie uczenia maszynowego zwykle pracują w interaktywnych notesach, w których kod przygotowuje dane i używa go do trenowania modeli uczenia maszynowego jest napisany w PySpark (wariant języka Python zoptymalizowany pod kątem platformy Spark). W ekosystemie języka Python istnieje wiele powszechnie używanych struktur uczenia maszynowego, w tym:
- Scikit-Learn: popularna struktura uczenia maszynowego, która udostępnia szeroką gamę algorytmów i innych bibliotek, które ułatwiają trenowanie i ocenianie modeli predykcyjnych.
- Spark MLlib: biblioteka uczenia maszynowego utworzona specjalnie dla platformy Spark. Biblioteka MLlib udostępnia dwa sposoby trenowania i oceniania modeli uczenia maszynowego:
- Klasy oparte na strukturze rozproszonego zestawu danych (RDD) odpornego na błędy platformy Spark.
- Klasy oparte na strukturze ramek danych platformy Spark. Ta struktura (często nazywana spark ML) jest preferowaną platformą do korzystania z biblioteki MLlib.
- PyTorch: struktura uczenia głębokiego używana do tworzenia modeli sieci neuronowych na potrzeby złożonych obciążeń prognozowania, przetwarzania obrazów i przetwarzania języka naturalnego.
- TensorFlow: inna powszechnie używana struktura uczenia głębokiego.
Do trenowania i oceniania modeli uczenia maszynowego można użyć dowolnej z tych platform (i nie tylko) w usłudze Azure Databricks.