Machine learning-modellen trainen
Apache Spark, een onderdeel van Microsoft Fabric, maakt machine learning mogelijk met big data. Met Apache Spark kunt u waardevolle inzichten bouwen in grote hoeveelheden gestructureerde, ongestructureerde en snel veranderende gegevens. U hebt verschillende opensource-bibliotheekopties beschikbaar wanneer u machine learning-modellen traint met Apache Spark in Microsoft Fabric: Apache Spark MLlib, SynapseML en andere.
Apache SparkML en MLlib
Apache Spark, een onderdeel van Microsoft Fabric, biedt een geïntegreerd opensource, parallel gegevensverwerkingsframework. Dit framework biedt ondersteuning voor in-memory verwerking die de analyse van big data verbetert. De Spark-verwerkingsengine is gebouwd voor snelheid, gebruiksgemak en geavanceerde analyses. De gedistribueerde rekenmogelijkheden in het geheugen van Spark maken het een goede keuze voor de iteratieve algoritmen die gebruikmaken van machine learning- en grafiekberekeningen.
De schaalbare machine learning-bibliotheken van MLlib en SparkML brengen algoritmemodelleringsmogelijkheden naar deze gedistribueerde omgeving. MLlib bevat de oorspronkelijke API, gebouwd op RDD's. SparkML is een nieuwer pakket. Het biedt een API op een hoger niveau die is gebouwd op DataFrames voor het bouwen van ML-pijplijnen. SparkML biedt nog geen ondersteuning voor alle functies van MLlib, maar vervangt MLlib als de standaard Spark Machine Learning-bibliotheek.
Notitie
Ga naar de Apache Spark Spark MLlib-resource voor meer informatie over het maken van SparkML-modellen.
Populaire bibliotheken
De Microsoft Fabric-runtime voor Apache Spark bevat verschillende populaire opensource-pakketten voor het trainen van machine learning-modellen. Deze bibliotheken bieden herbruikbare code die u kunt opnemen in uw programma's of projecten. De runtime bevat deze relevante machine learning-bibliotheken en andere:
Scikit-learn : een van de populairste machine learning-bibliotheken met één knooppunt voor klassieke ML-algoritmen. Scikit-learn ondersteunt de meeste leeralgoritmen onder supervisie en zonder supervisie en kan gegevensanalyse en gegevensanalyse verwerken.
XGBoost : een populaire machine learning-bibliotheek die geoptimaliseerde algoritmen bevat voor het trainen van beslissingsstructuren en willekeurige forests.
PyTorch en Tensorflow zijn krachtige Python Deep Learning-bibliotheken. Met deze bibliotheken kunt u het aantal uitvoerders in uw pool instellen op nul om modellen met één machine te bouwen. Hoewel deze configuratie geen ondersteuning biedt voor Apache Spark, is het een eenvoudige, rendabele manier om modellen met één machine te maken.
SynapseML
De OpenSource-bibliotheek van SynapseML (voorheen MMLSpark) vereenvoudigt het maken van zeer schaalbare machine learning-pijplijnen (ML). Hiermee wordt het gebruik van Data Scientist van Spark productiever omdat die bibliotheek de snelheid van experimenten verhoogt en geavanceerde machine learning-technieken toepast, waaronder deep learning, op grote gegevenssets.
SynapseML biedt een laag boven de SparkML-API's op laag niveau bij het bouwen van schaalbare ML-modellen. Deze API's hebben betrekking op tekenreeksindexering, functievectorassembly, dwang van gegevens in indelingen die geschikt zijn voor machine learning-algoritmen en meer. De SynapseML-bibliotheek vereenvoudigt deze en andere algemene taken voor het bouwen van modellen in PySpark.
Gerelateerde inhoud
Dit artikel bevat een overzicht van de verschillende opties die beschikbaar zijn voor het trainen van machine learning-modellen in Apache Spark in Microsoft Fabric. Ga naar deze bronnen voor meer informatie over modeltraining:
- AI-voorbeelden gebruiken om machine learning-modellen te bouwen: AI-voorbeelden gebruiken
- Machine learning-uitvoeringen bijhouden met experimenten: Machine learning-experimenten