Träna maskininlärningsmodeller
Apache Spark i Azure Synapse Analytics möjliggör maskininlärning med stordata, vilket ger möjlighet att få värdefull insikt från stora mängder strukturerade, ostrukturerade och snabba data. Det finns flera alternativ när du tränar maskininlärningsmodeller med Hjälp av Azure Spark i Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning och olika andra bibliotek med öppen källkod.
Apache SparkML och MLlib
Apache Spark i Azure Synapse Analytics är en av Microsofts implementeringar av Apache Spark i molnet. Det ger ett enhetligt ramverk för parallell databearbetning med öppen källkod som stöder minnesintern bearbetning för att öka stordataanalysen. Spark-bearbetningsmotorn är byggd för hastighet, användarvänlighet och avancerad analys. Sparks minnesinterna distribuerade beräkningsfunktioner gör det till ett bra val för de iterativa algoritmer som används i maskininlärnings- och grafberäkningar.
Det finns två skalbara maskininlärningsbibliotek som ger algoritmiska modelleringsfunktioner till den här distribuerade miljön: MLlib och SparkML. MLlib innehåller det ursprungliga API:et som bygger på RDD:er. SparkML är ett nyare paket som tillhandahåller ett API på högre nivå som bygger på DataFrames för att konstruera ML-pipelines. SparkML stöder ännu inte alla funktioner i MLlib, men ersätter MLlib som Sparks standardbibliotek för maskininlärning.
Kommentar
Du kan lära dig mer om att skapa en SparkML-modell genom att följa den här självstudien.
Populära bibliotek
Varje Apache Spark-pool i Azure Synapse Analytics levereras med en uppsättning förinstallerade och populära maskininlärningsbibliotek. De här biblioteken innehåller återanvändbar kod som du kanske vill inkludera i dina program eller projekt. Några av de relevanta maskininlärningsbiblioteken som ingår som standard är:
Scikit-learn är ett av de mest populära maskininlärningsbiblioteken med en nod för klassiska ML-algoritmer. Scikit-learn stöder de flesta övervakade och oövervakade inlärningsalgoritmer och kan även användas för datautvinning och dataanalys.
XGBoost är ett populärt maskininlärningsbibliotek som innehåller optimerade algoritmer för träning av beslutsträd och slumpmässiga skogar.
PyTorch och Tensorflow är kraftfulla Python-djupinlärningsbibliotek. I en Apache Spark-pool i Azure Synapse Analytics kan du använda dessa bibliotek för att skapa modeller med en enda dator genom att ange antalet körbara filer i poolen till noll. Även om Apache Spark inte fungerar i den här konfigurationen är det ett enkelt och kostnadseffektivt sätt att skapa modeller med en enda dator.
Du kan lära dig mer om tillgängliga bibliotek och relaterade versioner genom att visa den publicerade Azure Synapse Analytics-körningen.
MMLSpark
Microsoft Machine Learning-biblioteket för Apache Spark är MMLSpark. Det här biblioteket är utformat för att göra dataforskare mer produktiva på Spark, öka experimentfrekvensen och utnyttja banbrytande maskininlärningstekniker, inklusive djupinlärning, på stora datamängder.
MMLSpark innehåller ett lager ovanpå SparkML:s lågnivå-API:er när du skapar skalbara ML-modeller, till exempel indexeringssträngar, tvingar data till en layout som förväntas av maskininlärningsalgoritmer och montering av funktionsvektorer. MMLSpark-biblioteket förenklar dessa och andra vanliga uppgifter för att skapa modeller i PySpark.
Azure AI-tjänster
Azure AI-tjänster tillhandahåller maskininlärningsfunktioner för att lösa allmänna problem som att analysera text för känslosentiment eller analysera bilder för att identifiera objekt eller ansikten. Du behöver inte ha några speciella kunskaper om maskininlärning eller datavetenskap för att använda de här tjänsterna. En Cognitive Service tillhandahåller en del av eller alla komponenter i en maskininlärningslösning: data, algoritm och tränad modell. Dessa tjänster är avsedda att kräva allmän kunskap om dina data utan att behöva erfarenhet av maskininlärning eller datavetenskap. Du kan använda dessa förtränade Azure AI-tjänster automatiskt i Azure Synapse Analytics.
Nästa steg
Den här artikeln innehåller en översikt över de olika alternativen för att träna maskininlärningsmodeller i Apache Spark-pooler i Azure Synapse Analytics. Du kan lära dig mer om modellträning genom att följa självstudien nedan:
- Köra automatiserade ML-experiment med Hjälp av Azure Machine Learning och Azure Synapse Analytics: Automatiserad ML-självstudie
- Köra SparkML-experiment: Självstudie om Apache SparkML
- Visa standardbiblioteken: Azure Synapse Analytics-körning