Uczenie maszynowe w usłudze Azure Databricks

Ukończone

Usługa Azure Databricks udostępnia kompleksowe, oparte na chmurze środowisko do tworzenia modeli uczenia maszynowego. Machine Edukacja to dyscyplina, która obejmuje współpracę między analitykami danych, którzy analizują i modelowali dane, oraz inżynierami uczenia maszynowego, którzy wdrażają modele i zarządzają nimi. Usługa Azure Databricks umożliwia analitykom danych wykonywanie zadań pozyskiwania, eksploracji i przygotowywania danych, a także zadań trenowania, oceny i zarządzania modelami.

Screenshot of the Azure Databricks portal for the Machine Learning persona.

Środowiska uruchomieniowe usługi Databricks uczenia maszynowego

Podczas tworzenia klastra w obszarze roboczym usługi Azure Databricks możesz określić środowisko uruchomieniowe usługi Databricks do zainstalowania w klastrze. Usługa Azure Databricks obejmuje niektóre środowiska uruchomieniowe usługi Databricks zoptymalizowane pod kątem uczenia maszynowego. Obejmują one obsługę bibliotek, które są często używane w obciążeniach uczenia maszynowego, w tym struktur uczenia maszynowego i narzędzi do zarządzania operacjami uczenia maszynowego.

Jeśli zamierzasz implementować rozwiązania uczenia maszynowego, utwórz klaster z jednym ze środowisk uruchomieniowych uczenia maszynowego . Możesz wybrać środowisko uruchomieniowe oparte na procesorze CPU dla klasycznych scenariuszy uczenia maszynowego lub środowisko uruchomieniowe oparte na procesorze GPU, jeśli chcesz tworzyć złożone sieci neuronowe z platformami uczenia głębokiego, co może wykorzystać możliwość wydajnego przetwarzania macierzy i danych wektorowych.

Struktury uczenia maszynowego w usłudze Azure Databricks

Usługa Azure Databricks jest oparta na platformie Apache Spark, wysoce skalowalnej platformie do rozproszonego przetwarzania danych. Na platformie Spark analitycy danych i inżynierowie uczenia maszynowego zwykle pracują w interaktywnych notesach, w których kod przygotowuje dane i używa go do trenowania modeli uczenia maszynowego jest napisany w PySpark (wariant języka Python zoptymalizowany pod kątem platformy Spark). W ekosystemie języka Python istnieje wiele powszechnie używanych struktur uczenia maszynowego, w tym:

  • Scikit-Learn: popularna struktura uczenia maszynowego, która udostępnia szeroką gamę algorytmów i innych bibliotek, które ułatwiają trenowanie i ocenianie modeli predykcyjnych.
  • Spark MLlib: biblioteka uczenia maszynowego utworzona specjalnie dla platformy Spark. Biblioteka MLlib udostępnia dwa sposoby trenowania i oceniania modeli uczenia maszynowego:
    • Klasy oparte na strukturze rozproszonego zestawu danych (RDD) odpornego na błędy platformy Spark.
    • Klasy oparte na strukturze ramek danych platformy Spark. Ta struktura (często nazywana spark ML) jest preferowaną platformą do korzystania z biblioteki MLlib.
  • PyTorch: struktura uczenia głębokiego używana do tworzenia modeli sieci neuronowych na potrzeby złożonych obciążeń prognozowania, przetwarzania obrazów i przetwarzania języka naturalnego.
  • TensorFlow: inna powszechnie używana struktura uczenia głębokiego.

Do trenowania i oceniania modeli uczenia maszynowego można użyć dowolnej z tych platform (i nie tylko) w usłudze Azure Databricks.