Del via


Lære opp maskinlæringsmodeller

Apache Spark – en del av Microsoft Fabric – muliggjør maskinlæring med store data. Med Apache Spark kan du bygge verdifull innsikt i store masser av strukturerte, ustrukturerte og raske data. Du har flere tilgjengelige bibliotekalternativer med åpen kildekode når du lærer opp maskinlæringsmodeller med Apache Spark i Microsoft Fabric: Apache Spark MLlib, SynapseML og andre.

Apache SparkML og MLlib

Apache Spark – en del av Microsoft Fabric – gir et enhetlig, åpen kildekode, parallelt rammeverk for databehandling. Dette rammeverket støtter minnebehandling som øker analyse av store data. Spark-behandlingsmotoren er bygget for hastighet, brukervennlighet og avansert analyse. Sparks distribuerte beregningsfunksjoner i minnet gjør det til et godt valg for de iterative algoritmene som maskinlæring og grafberegninger bruker.

MLlib- og SparkML-skalerbare maskinlæringsbiblioteker gir de algoritmiske modelleringsfunksjonene til dette distribuerte miljøet. MLlib inneholder den opprinnelige API-en, bygget på toppen av RDD-er. SparkML er en nyere pakke. Det gir en høyere nivå API bygget på toppen av DataFrames for bygging av ML-rørledninger. SparkML støtter ennå ikke alle funksjonene i MLlib, men erstatter MLlib som standard spark maskinlæringsbibliotek.

Merk

Hvis du vil ha mer informasjon om oppretting av SparkML-modell, kan du gå til Train-modellene med Apache Spark MLlib-ressursen .

Microsoft Fabric Runtime for Apache Spark inneholder flere populære pakker med åpen kildekode for opplæring av maskinlæringsmodeller. Disse bibliotekene gir gjenbrukbar kode som du kan inkludere i programmene eller prosjektene. Kjøretiden omfatter disse relevante maskinlæringsbibliotekene og andre:

  • Scikit-learn – et av de mest populære maskinlæringsbibliotekene for enkeltnode for klassiske ML-algoritmer. Scikit-learn støtter de fleste overvåkede og uovervåkede læringsalgoritmer, og kan håndtere datautvinning og dataanalyse.

  • XGBoost – et populært maskinlæringsbibliotek som inneholder optimaliserte algoritmer for opplæring av beslutningstrær og tilfeldige skoger.

  • PyTorch og Tensorflow er kraftige Python-biblioteker for dyp læring. Med disse bibliotekene kan du angi antallet eksekutorer i utvalget til null, for å bygge enkeltmaskinmodeller. Selv om denne konfigurasjonen ikke støtter Apache Spark, er det en enkel, kostnadseffektiv måte å opprette enkeltmaskinmodeller på.

SynapseML

SynapseML-biblioteket med åpen kildekode (tidligere kjent som MMLSpark) forenkler opprettelsen av ML-rørledninger (massively scalable machine learning). Med det blir dataforskerbruk av Spark mer produktiv fordi biblioteket øker eksperimenteringshastigheten og bruker banebrytende maskinlæringsteknikker - inkludert dyp læring - på store datasett.

SynapseML gir et lag over SparkML-API-ene på lavt nivå når du bygger skalerbare ML-modeller. Disse API-ene dekker strengindeksering, funksjonsvektorsamling, tvang av data til oppsett som passer for maskinlæringsalgoritmer og mer. SynapseML-biblioteket forenkler disse og andre vanlige oppgaver for å bygge modeller i PySpark.

Denne artikkelen gir en oversikt over de ulike alternativene som er tilgjengelige for å lære opp maskinlæringsmodeller i Apache Spark i Microsoft Fabric. Hvis du vil ha mer informasjon om modellopplæring, kan du gå til disse ressursene: