Τι είναι η επιστήμη δεδομένων στο Microsoft Fabric;
Το Microsoft Fabric προσφέρει εμπειρίες επιστήμης δεδομένων για να δώσει τη δυνατότητα στους χρήστες να ολοκληρώνουν ολοκληρωμένες ροές εργασιών επιστήμης δεδομένων για τον εμπλουτισμό δεδομένων και τις επιχειρηματικές πληροφορίες. Μπορείτε να ολοκληρώσετε ένα ευρύ φάσμα δραστηριοτήτων σε ολόκληρη τη διαδικασία επιστήμης δεδομένων, από την εξερεύνηση δεδομένων, την προετοιμασία και τον καθαρισμό έως τον πειραματισμό, τη μοντελοποίηση, τη βαθμολόγηση μοντέλου και την παροχή προγνωστικών πληροφοριών σε αναφορές BI.
Οι χρήστες του Microsoft Fabric μπορούν να έχουν πρόσβαση σε μια αρχική σελίδα της επιστήμης δεδομένων. Από εκεί, μπορούν να ανακαλύψουν και να αποκτήσουν πρόσβαση σε διάφορους σχετικούς πόρους. Για παράδειγμα, μπορούν να δημιουργήσουν πειράματα εκμάθησης μηχανής, μοντέλα και σημειωματάρια. Μπορούν επίσης να εισαγάγουν υπάρχοντα σημειωματάρια στην αρχική σελίδα της επιστήμης δεδομένων.
Μπορεί να γνωρίζετε πώς λειτουργεί μια τυπική διεργασία επιστήμης δεδομένων. Ως μια γνωστή διαδικασία, τα περισσότερα έργα εκμάθησης μηχανής την ακολουθούν.
Σε υψηλό επίπεδο, η διαδικασία περιλαμβάνει τα εξής βήματα:
- Διαμόρφωση προβλήματος και ιδέα
- Εντοπισμός και προ-επεξεργασία δεδομένων
- Πειραματισμός και μοντελοποίηση
- Εμπλουτισμός και λειτουργία
- Απόκτηση πληροφοριών
Αυτό το άρθρο περιγράφει τις δυνατότητες της επιστήμης δεδομένων Microsoft Fabric από την άποψη της διαδικασίας επιστήμης δεδομένων. Για κάθε βήμα της διαδικασίας επιστήμης δεδομένων, αυτό το άρθρο συνοψίζει τις δυνατότητες του Microsoft Fabric που μπορούν να βοηθήσουν.
Διαμόρφωση προβλήματος και ιδέα
Οι χρήστες της επιστήμης δεδομένων στο Microsoft Fabric εργάζονται στην ίδια πλατφόρμα με τους επιχειρηματικούς χρήστες και αναλυτές. Ως αποτέλεσμα, η κοινή χρήση δεδομένων και η συνεργασία γίνονται πιο απρόσκοπτες σε διαφορετικούς ρόλους. Οι αναλυτές μπορούν εύκολα να μοιράζονται αναφορές και σύνολα δεδομένων του Power BI με επαγγελματίες της επιστήμης των δεδομένων. Η ευκολία συνεργασίας μεταξύ ρόλων στο Microsoft Fabric κάνει πολύ πιο εύκολη την παράδοση κατά τη διάρκεια της φάσης διατύπωσης προβλημάτων.
Εντοπισμός και προ-επεξεργασία δεδομένων
Οι χρήστες του Microsoft Fabric μπορούν να αλληλεπιδρούν με δεδομένα στο OneLake χρησιμοποιώντας το στοιχείο Lakehouse. Το Lakehouse συνδέεται εύκολα σε ένα Σημειωματάριο για να περιηγηθείτε και να αλληλεπιδράσετε με δεδομένα.
Οι χρήστες μπορούν να διαβάζουν εύκολα δεδομένα από ένα Lakehouse απευθείας σε ένα πλαίσιο δεδομένων Pandas. Για την εξερεύνηση, αυτό καθιστά δυνατή την απρόσκοπτη ανάγνωση δεδομένων από το OneLake.
Ένα ισχυρό σύνολο εργαλείων είναι διαθέσιμο για διοχετεύσεις πρόσληψης δεδομένων και ενορχήστρωσης δεδομένων με διοχετεύσεις ενοποίησης δεδομένων - ένα εγγενώς ενσωματωμένο τμήμα του Microsoft Fabric. Οι εύχρηστες διοχετεύσεις δεδομένων μπορούν να έχουν πρόσβαση και να μετασχηματίζουν τα δεδομένα σε μια μορφή που μπορεί να καταναλώσει η εκμάθηση μηχανής.
Εξερεύνηση δεδομένων
Ένα σημαντικό μέρος της διαδικασίας εκμάθησης μηχανής είναι η κατανόηση των δεδομένων μέσω εξερεύνησης και απεικόνισης.
Ανάλογα με τη θέση αποθήκευσης δεδομένων, το Microsoft Fabric προσφέρει ένα σύνολο διαφορετικών εργαλείων για την εξερεύνηση και προετοιμασία των δεδομένων για ανάλυση και εκμάθηση μηχανής. Τα σημειωματάρια γίνονται ένας από τους πιο γρήγορους τρόπους για να ξεκινήσετε με την εξερεύνηση δεδομένων.
Apache Spark και Python για την προετοιμασία δεδομένων
Το Microsoft Fabric προσφέρει δυνατότητες για τον μετασχηματισμό, την προετοιμασία και την εξερεύνηση των δεδομένων σας με δυνατότητα κλιμάκωσης. Με το Spark, οι χρήστες μπορούν να αξιοποιήσουν τα εργαλεία PySpark/Python, Scala και SparkR/SparklyR για προ-επεξεργασία δεδομένων σε κλίμακα. Οι ισχυρές βιβλιοθήκες απεικονίσεων ανοιχτού κώδικα μπορούν να βελτιώσουν την εμπειρία εξερεύνησης δεδομένων για την καλύτερη κατανόηση των δεδομένων.
Data Wrangler για απρόσκοπτο καθαρισμό δεδομένων
Η εμπειρία του Microsoft Fabric Notebook πρόσθεσε μια δυνατότητα για τη χρήση του Data Wrangler, ενός εργαλείου κώδικα που προετοιμάζει δεδομένα και δημιουργεί κώδικα Python. Αυτή η εμπειρία διευκολύνει την επιτάχυνση κουραστών και ανιαρών εργασιών - για παράδειγμα, τον καθαρισμό δεδομένων και τη δημιουργία επαναληψιμότητας και αυτοματισμού μέσω του κώδικα που δημιουργείται. Μάθετε περισσότερα σχετικά με το Data Wrangler στην ενότητα Data Wrangler αυτού του εγγράφου.
Πειραματισμός και μοντελοποίηση εκμάθησης μηχανής
Με εργαλεία όπως τα PySpark/Python, SparklyR/R, τα σημειωματάρια μπορούν να χειριστούν την εκπαίδευση μοντέλου εκμάθησης μηχανής.
Οι αλγόριθμοι και οι βιβλιοθήκες εκμάθησης μηχανής μπορούν να βοηθήσουν στην εκπαίδευση μοντέλων εκμάθησης μηχανής. Τα εργαλεία διαχείρισης βιβλιοθήκης μπορούν να εγκαταστήσουν αυτές τις βιβλιοθήκες και αλγόριθμους. Επομένως, οι χρήστες έχουν την επιλογή να αξιοποιήσουν μια μεγάλη ποικιλία δημοφιλών βιβλιοθηκών εκμάθησης μηχανής για να ολοκληρώσουν την εκπαίδευση του μοντέλου εκμάθησης μηχανής στο Microsoft Fabric.
Επιπλέον, δημοφιλείς βιβλιοθήκες όπως το Scikit Learn μπορούν επίσης να αναπτύξουν μοντέλα.
Τα πειράματα και οι εκτελέσεις MLflow μπορούν να παρακολουθούν την εκπαίδευση του μοντέλου εκμάθησης μηχανής. Το Microsoft Fabric προσφέρει μια ενσωματωμένη εμπειρία MLflow με την οποία οι χρήστες μπορούν να αλληλεπιδρούν, για την καταγραφή πειραμάτων και μοντέλων. Μάθετε περισσότερα σχετικά με τον τρόπο χρήσης της MLflow για την παρακολούθηση πειραμάτων και τη διαχείριση μοντέλων στο Microsoft Fabric.
SynapseML
Η βιβλιοθήκη ανοιχτού κώδικα SynapseML (παλαιότερα γνωστή ως MMLSpark), την οποία κατέχει και διατηρεί η Microsoft, απλοποιεί τη δημιουργία διοχέτευσης εκμάθησης μηχανής με μαζική δυνατότητα κλιμάκωσης. Ως οικοσύστημα εργαλείων, επεκτείνει το πλαίσιο Apache Spark σε διάφορες νέες κατευθύνσεις. Το SynapseML ενοποιεί διάφορα υπάρχοντα πλαίσια εκμάθησης μηχανής και νέους αλγόριθμους Microsoft σε ένα ενιαίο, επεκτάσιμο API. Η βιβλιοθήκη SynapseML ανοιχτού κώδικα περιλαμβάνει ένα πλούσιο οικοσύστημα εργαλείων εκμάθησης μηχανής για την ανάπτυξη μοντέλων πρόβλεψης, καθώς και την αξιοποίηση προ-εκπαιδευμένων μοντέλων AI από τις υπηρεσίες AI του Azure. Μάθετε περισσότερα σχετικά με το SynapseML.
Εμπλουτισμός και λειτουργία
Τα σημειωματάρια μπορούν να χειριστούν τη βαθμολόγηση δέσμης μοντέλων εκμάθησης μηχανής με βιβλιοθήκες ανοιχτού κώδικα για πρόβλεψη ή την καθολική συνάρτηση Spark Predict με δυνατότητα κλιμάκωσης Microsoft Fabric, η οποία υποστηρίζει μοντέλα σε πακέτα MLflow στο μητρώο μοντέλου Microsoft Fabric.
Απόκτηση πληροφοριών
Στο Microsoft Fabric, οι προβλεπόμενες τιμές μπορούν εύκολα να εγγραφούν στο OneLake και να καταναλωθούν απρόσκοπτα από αναφορές Power BI, με τη λειτουργία Power BI Direct Lake. Αυτό καθιστά πολύ εύκολο για τους επαγγελματίες της επιστήμης των δεδομένων να μοιραστούν τα αποτελέσματα από την εργασία τους με τους ενδιαφερομένους και απλοποιεί επίσης τη λειτουργία.
Τα σημειωματάρια που περιέχουν βαθμολόγηση δέσμης μπορούν να προγραμματιστούν για εκτέλεση χρησιμοποιώντας τις δυνατότητες προγραμματισμού σημειωματάριου. Η βαθμολόγηση δέσμης μπορεί επίσης να προγραμματιστεί ως μέρος των δραστηριοτήτων διοχέτευσης δεδομένων ή των εργασιών Spark. Το Power BI λαμβάνει αυτόματα τις τελευταίες προβλέψεις χωρίς να χρειάζεται φόρτωση ή ανανέωση των δεδομένων, χάρη στη λειτουργία Direct lake στο Microsoft Fabric.
Εξερεύνηση δεδομένων με σημασιολογική σύνδεση (προεπισκόπηση)
Σημαντικό
Αυτή η δυνατότητα είναι σε προεπισκόπηση.
Οι επιστήμονες δεδομένων και οι επιχειρηματικοί αναλυτές αφιερώνουν πολύ χρόνο στην προσπάθεια κατανόησης, εκκαθάρισης και μετασχηματισμού δεδομένων, προκειμένου να ξεκινήσουν οποιαδήποτε ουσιαστική ανάλυση. Οι επιχειρηματικοί αναλυτές συνήθως εργάζονται με σημασιολογικά μοντέλα και κωδικοποιούν τις γνώσεις τους στον τομέα και την επιχειρηματική λογική σε μετρήσεις Power BI. Από την άλλη, οι επιστήμονες δεδομένων μπορούν να εργαστούν με τα ίδια δεδομένα, αλλά συνήθως σε διαφορετικό περιβάλλον κώδικα ή γλώσσα.
Η Σημασιολογική σύνδεση (προεπισκόπηση) επιτρέπει στους επιστήμονες δεδομένων να δημιουργήσουν μια σύνδεση μεταξύ των σημασιολογικών μοντέλων Power BI και της εμπειρίας Synapse Data Science στο Microsoft Fabric μέσω της βιβλιοθήκης SemPy Python. Το SemPy απλοποιεί την ανάλυση δεδομένων καταγράφοντας και αξιοποιώντας τη σημασιολογία των δεδομένων, καθώς οι χρήστες εκτελούν διάφορους μετασχηματισμούς στα σημασιολογικά μοντέλα. Αξιοποιώντας τη σημασιολογική σύνδεση, οι επιστήμονες δεδομένων μπορούν να:
- αποφύγετε την ανάγκη εκ νέου υλοποίησης της επιχειρηματικής λογικής και της γνώσης τομέα στον κώδικά τους
- εύκολη πρόσβαση και χρήση μετρήσεων Power BI στον κείμενό τους
- Χρήση σημασιολογίας για την παροχή νέων εμπειριών, όπως σημασιολογικές συναρτήσεις
- εξερεύνηση και επικύρωση λειτουργικών εξαρτήσεων και σχέσεων μεταξύ δεδομένων
Με τη χρήση του SemPy, οι οργανισμοί αναμένεται να δουν τα εξής:
- αυξημένη παραγωγικότητα και ταχύτερη συνεργασία μεταξύ των ομάδων που λειτουργούν στα ίδια σύνολα δεδομένων
- αυξημένη συνεργασία μεταξύ ομάδων επιχειρηματικής ευφυΐας και τεχνητής νοημοσύνης
- μειωμένη ασάφεια και ευκολότερη καμπύλη εκμάθησης κατά την προσθήκη λογαριασμών σε ένα νέο μοντέλο ή σύνολο δεδομένων
Για περισσότερες πληροφορίες σχετικά με τη σημασιολογική σύνδεση, ανατρέξτε στο θέμα Τι είναι η σημασιολογική σύνδεση (προεπισκόπηση);.
Σχετικό περιεχόμενο
- Γρήγορα αποτελέσματα με ολοκληρωμένα δείγματα επιστήμης δεδομένων, ανατρέξτε στο θέμα Εκπαιδευτικά βοηθήματα επιστήμης δεδομένων
- Μάθετε περισσότερα σχετικά με την προετοιμασία και τον καθαρισμό δεδομένων με το Data Wrangler, ανατρέξτε στο θέμα Data Wrangler
- Μάθετε περισσότερα σχετικά με την παρακολούθηση πειραμάτων, ανατρέξτε στο θέμα Πείραμα εκμάθησης μηχανής
- Μάθετε περισσότερα σχετικά με τη διαχείριση μοντέλων, ανατρέξτε στο θέμα Μοντέλο εκμάθησης μηχανής
- Μάθετε περισσότερα σχετικά με τη βαθμολόγηση δέσμης με την Πρόβλεψη, ανατρέξτε στο θέμα Μοντέλα βαθμολογίας με την PREDICT
- Παροχή προβλέψεων από το Lakehouse στο Power BI με direct lake mode