Del via


Oplær modeller til maskinel indlæring

Apache Spark – en del af Microsoft Fabric – muliggør maskinel indlæring med big data. Med Apache Spark kan du opbygge værdifuld indsigt i store masser af strukturerede, ustrukturerede og hurtigt bevægende data. Du har flere tilgængelige indstillinger for open source-biblioteker, når du oplærer modeller til maskinel indlæring med Apache Spark i Microsoft Fabric: Apache Spark MLlib, SynapseML og andre.

Apache SparkML og MLlib

Apache Spark – en del af Microsoft Fabric – leverer en samlet struktur for parallel databehandling med åben kildekode. Denne struktur understøtter behandling i hukommelsen, der øger big data-analyser. Spark-behandlingsprogrammet er bygget til hastighed, brugervenlighed og avancerede analyser. Sparks distribuerede beregningsfunktioner i hukommelsen gør det til et godt valg for de iterative algoritmer, som computerlæring og grafberegninger bruger.

MLlib- og SparkML-skalerbare biblioteker til maskinel indlæring giver mulighed for at udforme algoritmer i dette distribuerede miljø. MLlib indeholder den oprindelige API, der er bygget oven på RDD'er. SparkML er en nyere pakke. Den indeholder en API på et højere niveau, der er bygget oven på DataFrames til oprettelse af ML-pipelines. SparkML understøtter endnu ikke alle funktionerne i MLlib, men erstatter MLlib som standardbiblioteket til maskinel indlæring i Spark.

Bemærk

Du kan finde flere oplysninger om oprettelse af SparkML-modeller i ressourcen Oplær modeller med Apache Spark MLlib .

Microsoft Fabric-runtime for Apache Spark indeholder flere populære pakker med åben kildekode til oplæring af modeller til maskinel indlæring. Disse biblioteker indeholder kode, der kan genbruges, og som du kan inkludere i dine programmer eller projekter. Kørslen omfatter disse relevante biblioteker til maskinel indlæring og andre:

  • Scikit-learn – et af de mest populære biblioteker til maskinel indlæring med en enkelt node til klassiske ML-algoritmer. Scikit-learn understøtter de fleste overvågede og ikke-overvågede læringsalgoritmer og kan håndtere datamining og dataanalyse.

  • XGBoost – et populært bibliotek til maskinel indlæring, der indeholder optimerede algoritmer til oplæring af beslutningstræer og tilfældige skove.

  • PyTorch og Tensorflow er effektive Python-biblioteker til dyb læring. Med disse biblioteker kan du angive antallet af eksekveringsfiler på din gruppe til nul for at bygge modeller med en enkelt maskine. Selvom denne konfiguration ikke understøtter Apache Spark, er det en enkel og omkostningseffektiv måde at oprette modeller med en enkelt maskine på.

SynapseML

SynapseML open source-biblioteket (tidligere kendt som MMLSpark) forenkler oprettelsen af omfattende skalerbare machine learning-pipelines (ML). Med det bliver brugen af Spark til dataforskere mere produktiv, fordi biblioteket øger eksperimenteringshastigheden og anvender avancerede teknikker til maskinel indlæring – herunder dyb læring – på store datasæt.

SynapseML leverer et lag over SparkML-API'er på lavt niveau, når du bygger skalerbare ML-modeller. Disse API'er dækker strengindeksering, funktionsvektorassembly, tvang af data til layout, der er relevante for algoritmer til maskinel indlæring og meget mere. SynapseML-biblioteket forenkler disse og andre almindelige opgaver for bygning af modeller i PySpark.

Denne artikel indeholder en oversigt over de forskellige muligheder for at oplære modeller til maskinel indlæring i Apache Spark i Microsoft Fabric. Du kan finde flere oplysninger om modeltræning i disse ressourcer: