Εκπαίδευση μοντέλων εκμάθησης μηχανής
Το Apache Spark - μέρος του Microsoft Fabric - επιτρέπει την εκμάθηση μηχανής με μεγάλα δεδομένα. Με το Apache Spark, μπορείτε να δημιουργήσετε πολύτιμες πληροφορίες σε μεγάλες μάζες δομημένων, μη δομημένων και ταχέως κινούμενων δεδομένων. Έχετε διάφορες διαθέσιμες επιλογές βιβλιοθήκης ανοιχτού κώδικα όταν εκπαιδεύετε μοντέλα εκμάθησης μηχανής με το Apache Spark στο Microsoft Fabric: Apache Spark MLlib, SynapseML και άλλα.
Apache SparkML και MLlib
Το Apache Spark - μέρος του Microsoft Fabric - παρέχει ένα ενοποιημένο πλαίσιο παράλληλης επεξεργασίας δεδομένων ανοιχτού κώδικα. Αυτό το πλαίσιο υποστηρίζει την επεξεργασία εντός μνήμης που ενισχύει την ανάλυση μεγάλου όγκου δεδομένων. Η μηχανή επεξεργασίας Spark είναι κατασκευασμένη για ταχύτητα, ευκολία χρήσης και εξελιγμένες αναλύσεις. Οι κατανεμημένες δυνατότητες υπολογισμού στη μνήμη του Spark καθιστούν μια καλή επιλογή για τους επαναληπτικούς αλγόριθμους που χρησιμοποιούν η εκμάθηση μηχανής και οι υπολογισμοί γραφημάτων.
Οι βιβλιοθήκες εκμάθησης μηχανής με δυνατότητα κλιμάκωσης MLlib και SparkML μεταφέρουν δυνατότητες αλγοριθμικής μοντελοποίησης σε αυτό το κατανεμημένο περιβάλλον. Το MLlib περιέχει το αρχικό API, βασισμένο σε RDD. Το SparkML είναι ένα νεότερο πακέτο. Παρέχει ένα API υψηλότερου επιπέδου που βασίζεται σε DataFrames για την κατασκευή διοχετεύσεων εκμάθησης μηχανής. Το SparkML δεν υποστηρίζει ακόμα όλες τις δυνατότητες του MLlib, αλλά αντικαθιστά το MLlib ως την τυπική βιβλιοθήκη εκμάθησης μηχανής Spark.
Σημείωμα
Για περισσότερες πληροφορίες σχετικά με τη δημιουργία μοντέλου SparkML, επισκεφθείτε την ενότητα Εκπαίδευση μοντέλων με τον πόρο Apache Spark MLlib .
Δημοφιλείς βιβλιοθήκες
Ο χρόνος εκτέλεσης Microsoft Fabric για το Apache Spark περιλαμβάνει πολλά δημοφιλή πακέτα ανοιχτού κώδικα για εκπαιδευτικά μοντέλα εκμάθησης μηχανής. Αυτές οι βιβλιοθήκες παρέχουν επαναχρησιμοποιήσιμο κώδικα που μπορείτε να συμπεριλάβετε στα προγράμματα ή τα έργα σας. Ο χρόνος εκτέλεσης περιλαμβάνει αυτές τις σχετικές βιβλιοθήκες εκμάθησης μηχανής και άλλες:
Scikit-learn - μία από τις πιο δημοφιλείς βιβλιοθήκες εκμάθησης μηχανής ενός κόμβου για κλασικούς αλγόριθμους ML. Το Scikit-learn υποστηρίζει τους περισσότερους εποπτευόμενους και μη εξουσιοδοτημένους αλγόριθμους εκμάθησης και μπορεί να χειριστεί την εξόρυξη δεδομένων και την ανάλυση δεδομένων.
XGBoost - μια δημοφιλής βιβλιοθήκη εκμάθησης μηχανής που περιέχει βελτιστοποιημένους αλγόριθμους για δένδρα αποφάσεων εκπαίδευσης και τυχαία δάση.
Τα PyTorch και Tensorflow είναι ισχυρές βιβλιοθήκες βαθιάς εκμάθησης Python. Με αυτές τις βιβλιοθήκες, μπορείτε να ορίσετε τον αριθμό των εκτελέσεων στον χώρο συγκέντρωσης σε μηδέν, για να δημιουργήσετε μοντέλα μίας μηχανής. Παρόλο που αυτή η ρύθμιση παραμέτρων δεν υποστηρίζει το Apache Spark, είναι ένας απλός, οικονομικά αποδοτικός τρόπος για τη δημιουργία μοντέλων μίας μηχανής.
SynapseML
Η βιβλιοθήκη ανοιχτού κώδικα SynapseML (παλαιότερα γνωστή ως MMLSpark) απλοποιεί τη δημιουργία διοχετεύσεων εκμάθησης μηχανής (ML) με μαζική δυνατότητα κλιμάκωσης. Με αυτό, η χρήση του Spark από επιστήμονες δεδομένων γίνεται πιο παραγωγική, επειδή αυτή η βιβλιοθήκη αυξάνει τον ρυθμό πειραματισμού και εφαρμόζει τεχνικές εκμάθησης μηχανής αιχμής - συμπεριλαμβανομένης της βαθιάς εκμάθησης - σε μεγάλα σύνολα δεδομένων.
Το SynapseML παρέχει ένα επίπεδο πάνω από τα API χαμηλού επιπέδου SparkML κατά τη δημιουργία μοντέλων εκμάθησης μηχανής με δυνατότητα κλιμάκωσης. Αυτά τα API καλύπτουν τη δημιουργία ευρετηρίου συμβολοσειρών, τη διανυσματική συγκρότηση δυνατοτήτων, τον εξαναγκασμό δεδομένων σε διατάξεις κατάλληλες για αλγόριθμους εκμάθησης μηχανής και πολλά άλλα. Η βιβλιοθήκη SynapseML απλοποιεί αυτές και άλλες συνήθεις εργασίες για τη δημιουργία μοντέλων στο PySpark.
Σχετικό περιεχόμενο
Αυτό το άρθρο παρέχει μια επισκόπηση των διαφόρων διαθέσιμων επιλογών για την εκπαίδευση μοντέλων εκμάθησης μηχανής στο Apache Spark στο Microsoft Fabric. Για περισσότερες πληροφορίες σχετικά με την εκπαίδευση μοντέλου, επισκεφθείτε αυτούς τους πόρους:
- Χρήση δειγμάτων AI για τη δημιουργία μοντέλων εκμάθησης μηχανής: Χρήση δειγμάτων AI
- Παρακολούθηση εκτελέσεων εκμάθησης μηχανής με χρήση πειραμάτων: Πειράματα εκμάθησης μηχανής