Lære opp maskinlæringsmodeller
Apache Spark – en del av Microsoft Fabric – muliggjør maskinlæring med store data. Med Apache Spark kan du bygge verdifull innsikt i store masser av strukturerte, ustrukturerte og raske data. Du har flere tilgjengelige bibliotekalternativer med åpen kildekode når du lærer opp maskinlæringsmodeller med Apache Spark i Microsoft Fabric: Apache Spark MLlib, SynapseML og andre.
Apache SparkML og MLlib
Apache Spark – en del av Microsoft Fabric – gir et enhetlig, åpen kildekode, parallelt rammeverk for databehandling. Dette rammeverket støtter minnebehandling som øker analyse av store data. Spark-behandlingsmotoren er bygget for hastighet, brukervennlighet og avansert analyse. Sparks distribuerte beregningsfunksjoner i minnet gjør det til et godt valg for de iterative algoritmene som maskinlæring og grafberegninger bruker.
MLlib- og SparkML-skalerbare maskinlæringsbiblioteker gir de algoritmiske modelleringsfunksjonene til dette distribuerte miljøet. MLlib inneholder den opprinnelige API-en, bygget på toppen av RDD-er. SparkML er en nyere pakke. Det gir en høyere nivå API bygget på toppen av DataFrames for bygging av ML-rørledninger. SparkML støtter ennå ikke alle funksjonene i MLlib, men erstatter MLlib som standard spark maskinlæringsbibliotek.
Merk
Hvis du vil ha mer informasjon om oppretting av SparkML-modell, kan du gå til Train-modellene med Apache Spark MLlib-ressursen .
Populære biblioteker
Microsoft Fabric Runtime for Apache Spark inneholder flere populære pakker med åpen kildekode for opplæring av maskinlæringsmodeller. Disse bibliotekene gir gjenbrukbar kode som du kan inkludere i programmene eller prosjektene. Kjøretiden omfatter disse relevante maskinlæringsbibliotekene og andre:
Scikit-learn – et av de mest populære maskinlæringsbibliotekene for enkeltnode for klassiske ML-algoritmer. Scikit-learn støtter de fleste overvåkede og uovervåkede læringsalgoritmer, og kan håndtere datautvinning og dataanalyse.
XGBoost – et populært maskinlæringsbibliotek som inneholder optimaliserte algoritmer for opplæring av beslutningstrær og tilfeldige skoger.
PyTorch og Tensorflow er kraftige Python-biblioteker for dyp læring. Med disse bibliotekene kan du angi antallet eksekutorer i utvalget til null, for å bygge enkeltmaskinmodeller. Selv om denne konfigurasjonen ikke støtter Apache Spark, er det en enkel, kostnadseffektiv måte å opprette enkeltmaskinmodeller på.
SynapseML
SynapseML-biblioteket med åpen kildekode (tidligere kjent som MMLSpark) forenkler opprettelsen av ML-rørledninger (massively scalable machine learning). Med det blir dataforskerbruk av Spark mer produktiv fordi biblioteket øker eksperimenteringshastigheten og bruker banebrytende maskinlæringsteknikker - inkludert dyp læring - på store datasett.
SynapseML gir et lag over SparkML-API-ene på lavt nivå når du bygger skalerbare ML-modeller. Disse API-ene dekker strengindeksering, funksjonsvektorsamling, tvang av data til oppsett som passer for maskinlæringsalgoritmer og mer. SynapseML-biblioteket forenkler disse og andre vanlige oppgaver for å bygge modeller i PySpark.
Relatert innhold
Denne artikkelen gir en oversikt over de ulike alternativene som er tilgjengelige for å lære opp maskinlæringsmodeller i Apache Spark i Microsoft Fabric. Hvis du vil ha mer informasjon om modellopplæring, kan du gå til disse ressursene:
- Bruk AI-eksempler til å bygge maskinlæringsmodeller: Bruk AI-eksempler
- Spor maskinlæringskjøringer ved hjelp av eksperimenter: Maskinlæringseksperimenter