Lære opp maskinlæringsmodeller

Artikkel
06/14/2024

Apache Spark – en del av Microsoft Fabric – muliggjør maskinlæring med store data. Med Apache Spark kan du bygge verdifull innsikt i store masser av strukturerte, ustrukturerte og raske data. Du har flere tilgjengelige bibliotekalternativer med åpen kildekode når du lærer opp maskinlæringsmodeller med Apache Spark i Microsoft Fabric: Apache Spark MLlib, SynapseML og andre.

Apache SparkML og MLlib

Apache Spark – en del av Microsoft Fabric – gir et enhetlig, åpen kildekode, parallelt rammeverk for databehandling. Dette rammeverket støtter minnebehandling som øker analyse av store data. Spark-behandlingsmotoren er bygget for hastighet, brukervennlighet og avansert analyse. Sparks distribuerte beregningsfunksjoner i minnet gjør det til et godt valg for de iterative algoritmene som maskinlæring og grafberegninger bruker.

MLlib- og SparkML-skalerbare maskinlæringsbiblioteker gir de algoritmiske modelleringsfunksjonene til dette distribuerte miljøet. MLlib inneholder den opprinnelige API-en, bygget på toppen av RDD-er. SparkML er en nyere pakke. Det gir en høyere nivå API bygget på toppen av DataFrames for bygging av ML-rørledninger. SparkML støtter ennå ikke alle funksjonene i MLlib, men erstatter MLlib som standard spark maskinlæringsbibliotek.

Merk

Hvis du vil ha mer informasjon om oppretting av SparkML-modell, kan du gå til Train-modellene med Apache Spark MLlib-ressursen .

Populære biblioteker

Microsoft Fabric Runtime for Apache Spark inneholder flere populære pakker med åpen kildekode for opplæring av maskinlæringsmodeller. Disse bibliotekene gir gjenbrukbar kode som du kan inkludere i programmene eller prosjektene. Kjøretiden omfatter disse relevante maskinlæringsbibliotekene og andre:

Scikit-learn – et av de mest populære maskinlæringsbibliotekene for enkeltnode for klassiske ML-algoritmer. Scikit-learn støtter de fleste overvåkede og uovervåkede læringsalgoritmer, og kan håndtere datautvinning og dataanalyse.
XGBoost – et populært maskinlæringsbibliotek som inneholder optimaliserte algoritmer for opplæring av beslutningstrær og tilfeldige skoger.
PyTorch og Tensorflow er kraftige Python-biblioteker for dyp læring. Med disse bibliotekene kan du angi antallet eksekutorer i utvalget til null, for å bygge enkeltmaskinmodeller. Selv om denne konfigurasjonen ikke støtter Apache Spark, er det en enkel, kostnadseffektiv måte å opprette enkeltmaskinmodeller på.

SynapseML

SynapseML-biblioteket med åpen kildekode (tidligere kjent som MMLSpark) forenkler opprettelsen av ML-rørledninger (massively scalable machine learning). Med det blir dataforskerbruk av Spark mer produktiv fordi biblioteket øker eksperimenteringshastigheten og bruker banebrytende maskinlæringsteknikker - inkludert dyp læring - på store datasett.

SynapseML gir et lag over SparkML-API-ene på lavt nivå når du bygger skalerbare ML-modeller. Disse API-ene dekker strengindeksering, funksjonsvektorsamling, tvang av data til oppsett som passer for maskinlæringsalgoritmer og mer. SynapseML-biblioteket forenkler disse og andre vanlige oppgaver for å bygge modeller i PySpark.

Denne artikkelen gir en oversikt over de ulike alternativene som er tilgjengelige for å lære opp maskinlæringsmodeller i Apache Spark i Microsoft Fabric. Hvis du vil ha mer informasjon om modellopplæring, kan du gå til disse ressursene:

Bruk AI-eksempler til å bygge maskinlæringsmodeller: Bruk AI-eksempler
Spor maskinlæringskjøringer ved hjelp av eksperimenter: Maskinlæringseksperimenter

Del via

Lære opp maskinlæringsmodeller

Apache SparkML og MLlib

Populære biblioteker

SynapseML

Tilbakemeldinger

Flere ressurser

Del via

Lære opp maskinlæringsmodeller

Apache SparkML og MLlib

Populære biblioteker

SynapseML

Relatert innhold

Tilbakemeldinger

Flere ressurser