Sdílet prostřednictvím


Možnosti strojového učení ve službě Azure Synapse Analytics

Azure Synapse Analytics nabízí různé možnosti strojového učení. Tento článek obsahuje přehled o tom, jak můžete službu Machine Learning použít v kontextu Služby Azure Synapse.

Tento přehled popisuje různé možnosti v Synapse související se strojovým učením z pohledu procesu datových věd.

Možná znáte, jak vypadá typický proces datových věd. Jedná se o dobře známý proces, který sleduje většina projektů strojového učení.

Na vysoké úrovni proces obsahuje následující kroky:

  • Obchodní porozumění (není popsáno v tomto článku)
  • Získávání a pochopení dat
  • Modelování
  • Nasazení modelu a bodování

Tento článek popisuje možnosti strojového učení Azure Synapse v různých analytických modulech z pohledu procesu datových věd. Pro každý krok v procesu datových věd jsou shrnuté funkce Azure Synapse, které vám můžou pomoct.

Získávání a pochopení dat

Většina projektů strojového učení zahrnuje dobře zavedené kroky a jedním z těchto kroků je přístup k datům a jejich pochopení.

Zdroj dat a kanály

Díky službě Azure Data Factory, která je nativně integrovaná součást Azure Synapse, je k dispozici výkonná sada nástrojů pro příjem dat a kanály orchestrace dat. Díky tomu můžete snadno vytvářet datové kanály pro přístup k datům a transformovat je do formátu, který je možné využívat pro strojové učení. Přečtěte si další informace o datových kanálech ve službě Synapse.

Příprava a zkoumání a vizualizace dat

Důležitou součástí procesu strojového učení je pochopení dat zkoumáním a vizualizacemi.

V závislosti na tom, kde se data ukládají, nabízí Synapse sadu různých nástrojů pro zkoumání a přípravu na analýzu a strojové učení. Jedním z nejrychlejších způsobů, jak začít zkoumat data, je použití Apache Sparku nebo bezserverových fondů SQL přímo nad daty v datovém jezeře.

Modelování

V Azure Synapse je možné trénování modelů strojového učení provádět ve fondech Apache Spark pomocí nástrojů, jako je PySpark/Python, Scala nebo .NET.

Trénování modelů ve fondech Sparku pomocí knihovny MLlib

Modely strojového učení je možné trénovat pomocí různých algoritmů a knihoven. Spark MLlib nabízí škálovatelné algoritmy strojového učení, které pomáhají řešit většinu klasických problémů strojového učení. Kurz o trénování modelu pomocí knihovny MLlib ve službě Synapse najdete v tématu Vytvoření aplikace strojového učení pomocí knihovny Apache Spark MLlib a Azure Synapse Analytics.

Kromě knihovny MLlib se k vývoji modelů dají použít také oblíbené knihovny, jako je Scikit Learn . Podrobnosti o instalaci knihoven do fondů Synapse Spark ve službě Synapse Analytics najdete v tématu Správa knihoven pro Apache Spark v Azure Synapse Analytics .

Nasazení modelu a bodování

Modely, které byly natrénovány v Azure Synapse nebo mimo Azure Synapse, se dají snadno použít k dávkovému vyhodnocování. V současné době ve službě Synapse existují dva způsoby, kterými můžete spustit dávkové vyhodnocování.

  • Pomocí funkce TSQL PREDICT ve fondech Synapse SQL můžete spouštět předpovědi přímo tam, kde se nacházejí vaše data. Tato výkonná a škálovatelná funkce umožňuje rozšířit data bez přesunu dat z datového skladu. Zavedli jsme nové prostředí modelu strojového učení s asistencí ve službě Synapse Studio , ve kterém můžete nasadit model ONNX z registru modelů Azure Machine Learning ve fondech Synapse SQL pro dávkové vyhodnocování pomocí funkce PREDICT.

  • Další možností pro dávkové vyhodnocování modelů strojového učení v Azure Synapse je použití fondů Apache Spark pro Azure Synapse. V závislosti na knihovnách používaných k trénování modelů můžete ke spuštění dávkového vyhodnocování použít prostředí kódu.

SynapseML

SynapseML (dříve označovaná jako MMLSpark) je opensourcová knihovna, která zjednodušuje vytváření široce škálovatelných kanálů strojového učení (ML). Jedná se o ekosystém nástrojů, které se používají k rozšíření architektury Apache Spark v několika nových směrech. SynapseML sjednocuje několik existujících architektur strojového učení a nových algoritmů Microsoftu do jednoho škálovatelného rozhraní API, které je použitelné napříč Pythonem, R, Scalou, .NET a Javou. Další informace najdete v klíčových funkcích SynapseML.