Možnosti strojového učení ve službě Azure Synapse Analytics

Článek
01/02/2025

Azure Synapse Analytics nabízí různé možnosti strojového učení. Tento článek obsahuje přehled o tom, jak můžete službu Machine Learning použít v kontextu Služby Azure Synapse.

Tento přehled popisuje různé možnosti v Synapse související se strojovým učením z pohledu procesu datových věd.

Možná znáte, jak vypadá typický proces datových věd. Jedná se o dobře známý proces, který sleduje většina projektů strojového učení.

Na vysoké úrovni proces obsahuje následující kroky:

Obchodní porozumění (není popsáno v tomto článku)
Získávání a pochopení dat
Modelování
Nasazení modelu a bodování

Tento článek popisuje možnosti strojového učení Azure Synapse v různých analytických modulech z pohledu procesu datových věd. Pro každý krok v procesu datových věd jsou shrnuté funkce Azure Synapse, které vám můžou pomoct.

Získávání a pochopení dat

Většina projektů strojového učení zahrnuje dobře zavedené kroky a jedním z těchto kroků je přístup k datům a jejich pochopení.

Zdroj dat a kanály

Díky službě Azure Data Factory, která je nativně integrovaná součást Azure Synapse, je k dispozici výkonná sada nástrojů pro příjem dat a kanály orchestrace dat. Díky tomu můžete snadno vytvářet datové kanály pro přístup k datům a transformovat je do formátu, který je možné využívat pro strojové učení. Přečtěte si další informace o datových kanálech ve službě Synapse.

Příprava a zkoumání a vizualizace dat

Důležitou součástí procesu strojového učení je pochopení dat zkoumáním a vizualizacemi.

V závislosti na tom, kde se data ukládají, nabízí Synapse sadu různých nástrojů pro zkoumání a přípravu na analýzu a strojové učení. Jedním z nejrychlejších způsobů, jak začít zkoumat data, je použití Apache Sparku nebo bezserverových fondů SQL přímo nad daty v datovém jezeře.

Apache Spark pro Azure Synapse nabízí možnosti transformace, přípravy a zkoumání dat ve velkém měřítku. Tyto fondy Spark nabízejí nástroje, jako je PySpark/Python, Scala a .NET pro zpracování dat ve velkém měřítku. Pomocí výkonných knihoven vizualizací je možné vylepšit prostředí pro zkoumání dat, které vám pomůže lépe porozumět datům. Přečtěte si další informace o tom, jak zkoumat a vizualizovat data ve službě Synapse pomocí Sparku.
Bezserverové fondy SQL nabízejí způsob, jak zkoumat data pomocí TSQL přímo přes datové jezero. Bezserverové fondy SQL také nabízejí některé integrované vizualizace v synapse Studiu. Přečtěte si další informace o tom, jak zkoumat data pomocí bezserverových fondů SQL.

Modelování

V Azure Synapse je možné trénování modelů strojového učení provádět ve fondech Apache Spark pomocí nástrojů, jako je PySpark/Python, Scala nebo .NET.

Trénování modelů ve fondech Sparku pomocí knihovny MLlib

Modely strojového učení je možné trénovat pomocí různých algoritmů a knihoven. Spark MLlib nabízí škálovatelné algoritmy strojového učení, které pomáhají řešit většinu klasických problémů strojového učení. Kurz o trénování modelu pomocí knihovny MLlib ve službě Synapse najdete v tématu Vytvoření aplikace strojového učení pomocí knihovny Apache Spark MLlib a Azure Synapse Analytics.

Kromě knihovny MLlib se k vývoji modelů dají použít také oblíbené knihovny, jako je Scikit Learn . Podrobnosti o instalaci knihoven do fondů Synapse Spark ve službě Synapse Analytics najdete v tématu Správa knihoven pro Apache Spark v Azure Synapse Analytics .

Nasazení modelu a bodování

Modely, které byly natrénovány v Azure Synapse nebo mimo Azure Synapse, se dají snadno použít k dávkovému vyhodnocování. V současné době ve službě Synapse existují dva způsoby, kterými můžete spustit dávkové vyhodnocování.

Pomocí funkce TSQL PREDICT ve fondech Synapse SQL můžete spouštět předpovědi přímo tam, kde se nacházejí vaše data. Tato výkonná a škálovatelná funkce umožňuje rozšířit data bez přesunu dat z datového skladu. Zavedli jsme nové prostředí modelu strojového učení s asistencí ve službě Synapse Studio , ve kterém můžete nasadit model ONNX z registru modelů Azure Machine Learning ve fondech Synapse SQL pro dávkové vyhodnocování pomocí funkce PREDICT.
Další možností pro dávkové vyhodnocování modelů strojového učení v Azure Synapse je použití fondů Apache Spark pro Azure Synapse. V závislosti na knihovnách používaných k trénování modelů můžete ke spuštění dávkového vyhodnocování použít prostředí kódu.

SynapseML

SynapseML (dříve označovaná jako MMLSpark) je opensourcová knihovna, která zjednodušuje vytváření široce škálovatelných kanálů strojového učení (ML). Jedná se o ekosystém nástrojů, které se používají k rozšíření architektury Apache Spark v několika nových směrech. SynapseML sjednocuje několik existujících architektur strojového učení a nových algoritmů Microsoftu do jednoho škálovatelného rozhraní API, které je použitelné napříč Pythonem, R, Scalou, .NET a Javou. Další informace najdete v klíčových funkcích SynapseML.

Sdílet prostřednictvím

Možnosti strojového učení ve službě Azure Synapse Analytics

Získávání a pochopení dat

Zdroj dat a kanály

Příprava a zkoumání a vizualizace dat

Modelování

Trénování modelů ve fondech Sparku pomocí knihovny MLlib

Nasazení modelu a bodování

SynapseML

Váš názor

Další materiály

Sdílet prostřednictvím

Možnosti strojového učení ve službě Azure Synapse Analytics

Získávání a pochopení dat

Zdroj dat a kanály

Příprava a zkoumání a vizualizace dat

Modelování

Trénování modelů ve fondech Sparku pomocí knihovny MLlib

Nasazení modelu a bodování

SynapseML

Související obsah

Váš názor

Další materiály