Strojové učení v Azure Databricks

Dokončeno

Azure Databricks poskytuje komplexní cloudové prostředí pro vývoj modelů strojového učení. Strojové Učení je disciplína, která zahrnuje spolupráci mezi datovými vědci, kteří data analyzují a modelují, a inženýry strojového učení, kteří nasazují a spravují modely. Azure Databricks umožňuje datovým vědcům provádět úlohy příjmu, zkoumání a přípravy dat a také úlohy trénování, vyhodnocování a správy modelů.

Screenshot of the Azure Databricks portal for the Machine Learning persona.

Moduly runtime Databricks služby Machine Learning

Při vytváření clusteru v pracovním prostoru Azure Databricks můžete zadat modul runtime Databricks, který se má do clusteru nainstalovat. Azure Databricks zahrnuje některé moduly runtime Databricks, které jsou optimalizované pro strojové učení. Zahrnují podporu knihoven, které se běžně používají v úlohách strojového učení, včetně architektur strojového učení a nástrojů pro správu operací strojového učení.

Pokud budete implementovat řešení strojového učení, vytvořte cluster s jedním z modulů runtime ML . Modul runtime založený na procesoru můžete zvolit pro klasické scénáře strojového učení nebo modul runtime založený na GPU, pokud potřebujete sestavovat složité neurální sítě s architekturami hlubokého učení, které můžou využívat možnost gpu efektivně zpracovávat maticová a vektorová data.

Architektury strojového učení v Azure Databricks

Azure Databricks je založená na Apache Sparku, což je vysoce škálovatelná platforma pro distribuované zpracování dat. Datoví vědci a technici strojového učení ve Sparku obvykle pracují v interaktivních poznámkových blocích, ve kterých kód připraví data a použije ho k trénování modelů strojového učení v PySparku (varianta Pythonu optimalizovaná pro Spark). V ekosystému Pythonu existuje mnoho běžně používaných architektur strojového učení, mezi které patří:

  • Scikit-Learn: Oblíbená architektura pro strojové učení, která poskytuje širokou škálu algoritmů a dalších knihoven, které vám pomůžou trénovat a vyhodnocovat prediktivní modely.
  • Spark MLlib: Knihovna strojového učení vytvořená speciálně pro Spark. MLlib nabízí dva způsoby, jak trénovat a vyhodnocovat modely strojového učení:
    • Třídy založené na struktuře distribuované datové sady (RDD) odolné vůči Sparku.
    • Třídy založené na struktuře datového rámce Sparku Tato architektura (běžně označovaná jako Spark ML) je upřednostňovaná pro použití knihovny MLlib.
  • PyTorch: Architektura hlubokého učení používaná k vytváření modelů neurálních sítí pro komplexní prognózování, počítačové zpracování obrazu a zpracování přirozeného jazyka.
  • TensorFlow: Další běžně používaná architektura hlubokého učení.

K trénování a vyhodnocování modelů strojového učení můžete v Azure Databricks použít libovolnou z těchto architektur (a další).