Κοινή χρήση μέσω


Σενάριο επιστήμης δεδομένων από άκρο σε άκρο: εισαγωγή και αρχιτεκτονική

Αυτό το σύνολο προγραμμάτων εκμάθησης παρουσιάζει ένα δείγμα σεναρίου από άκρο σε άκρο στην εμπειρία επιστήμης δεδομένων Fabric. Υλοποιείτε κάθε βήμα από την πρόσληψη δεδομένων, τον καθαρισμό και την προετοιμασία, έως την εκπαίδευση μοντέλων εκμάθησης μηχανής και τη δημιουργία πληροφοριών και, στη συνέχεια, χρησιμοποιείτε αυτές τις πληροφορίες χρησιμοποιώντας εργαλεία απεικόνισης όπως το Power BI.

Εάν είστε νέος στο Microsoft Fabric, ανατρέξτε στο θέμα Τι είναι το Microsoft Fabric;.

Εισαγωγή

Ο κύκλος ζωής ενός έργου επιστήμης δεδομένων συνήθως περιλαμβάνει (συχνά, επαναληπτικά) τα ακόλουθα βήματα:

  • Επιχειρηματική κατανόηση
  • Απόκτηση δεδομένων
  • Εξερεύνηση δεδομένων, καθαρισμός, προετοιμασία και απεικόνιση
  • Εκπαίδευση μοντέλου και παρακολούθηση πειραμάτων
  • Βαθμολόγηση μοντέλου και δημιουργία πληροφοριών.

Οι στόχοι και τα κριτήρια επιτυχίας κάθε σταδίου εξαρτώνται από τη συνεργασία, την κοινή χρήση δεδομένων και την τεκμηρίωση. Η εμπειρία επιστήμης δεδομένων Fabric αποτελείται από πολλές εγγενείς δυνατότητες που επιτρέπουν τη συνεργασία, την απόκτηση δεδομένων, την κοινή χρήση και την κατανάλωση απρόσκοπτα.

Σε αυτά τα εκπαιδευτικά βοηθήματα, αναλάβετε τον ρόλο ενός επιστήμονα δεδομένων στον οποίο έχει ανατεθεί η εργασία εξερεύνησης, εκκαθάρισης και μετασχηματισμού ενός συνόλου δεδομένων που περιέχει την κατάσταση απώλειας 10.000 πελατών σε μια τράπεζα. Στη συνέχεια, δημιουργείτε ένα μοντέλο εκμάθησης μηχανής για να προβλέψετε ποιοι πελάτες τραπεζών είναι πιθανό να αποχωρήσουν.

Θα μάθετε να εκτελείτε τις ακόλουθες δραστηριότητες:

  1. Χρησιμοποιήστε τα σημειωματάρια Fabric για σενάρια επιστήμης δεδομένων.
  2. Πρόσληψη δεδομένων σε ένα lakehouse Fabric με χρήση του Apache Spark.
  3. Φόρτωση υπαρχόντων δεδομένων από τους πίνακες δέλτα της λίμνης.
  4. Εκκαθάριση και μετασχηματισμός δεδομένων με χρήση εργαλείων apache Spark και Python.
  5. Δημιουργήστε πειράματα και εκτελέσεις για την εκπαίδευση διαφορετικών μοντέλων εκμάθησης μηχανής.
  6. Καταχωρήστε και παρακολουθήστε εκπαιδευμένα μοντέλα χρησιμοποιώντας το MLflow και το περιβάλλον εργασίας χρήστη Fabric.
  7. Εκτελέστε βαθμολόγηση σε κλίμακα και αποθηκεύστε προβλέψεις και αποτελέσματα συμπερασματών στο lakehouse.
  8. Απεικονίστε προβλέψεις στο Power BI χρησιμοποιώντας directLake.

Αρχιτεκτονική

Σε αυτήν τη σειρά εκμάθησης, παρουσιάζουμε ένα απλοποιημένο σενάριο επιστήμης δεδομένων από άκρο σε άκρο, το οποίο περιλαμβάνει τα εξής:

  1. Πρόσληψη δεδομένων από μια εξωτερική προέλευση δεδομένων.
  2. Εξερευνήστε και καθαρίστε δεδομένα.
  3. Εκπαίδευση και καταχώρηση μοντέλων εκμάθησης μηχανής.
  4. Εκτελέστε βαθμολόγηση δέσμης και αποθηκεύστε προβλέψεις.
  5. Απεικονίστε αποτελέσματα πρόβλεψης στο Power BI.

Diagram of the Data science end-to-end scenario components.

Διαφορετικά στοιχεία του σεναρίου επιστήμης δεδομένων

Προελεύσεις δεδομένων - Το Fabric διευκολύνει και επιταχύνει τη σύνδεση με τις Υπηρεσίες δεδομένων Azure, άλλες πλατφόρμες cloud και προελεύσεις δεδομένων εσωτερικής εγκατάστασης για την πρόσληψη δεδομένων από το. Χρησιμοποιώντας τα Σημειωματάρια Fabric, μπορείτε να προσλάβετε δεδομένα από το ενσωματωμένο Lakehouse, την Αποθήκη δεδομένων, σημασιολογικά μοντέλα και διάφορες υποστηριζόμενες προσαρμοσμένες προελεύσεις δεδομένων Apache Spark και Python. Αυτή η σειρά εκμάθησης εστιάζει στην πρόσληψη και φόρτωση δεδομένων από ένα lakehouse.

Εξερεύνηση, εκκαθάριση και προετοιμασία - Η εμπειρία επιστήμης δεδομένων στο Fabric υποστηρίζει καθαρισμό δεδομένων, μετασχηματισμό, εξερεύνηση και δυνατότητες χρησιμοποιώντας ενσωματωμένες εμπειρίες στο Spark, καθώς και εργαλεία που βασίζονται σε Python, όπως τα Data Wrangler και SemPy Library. Αυτή η εκμάθηση θα παρουσιάσει την εξερεύνηση δεδομένων χρησιμοποιώντας τη βιβλιοθήκη seaborn Python και τον καθαρισμό και την προετοιμασία δεδομένων χρησιμοποιώντας το Apache Spark.

Μοντέλα και πειράματα - Το Fabric σάς επιτρέπει να εκπαιδεύετε, να αξιολογείτε και να βαθμολογείτε μοντέλα εκμάθησης μηχανής, χρησιμοποιώντας ενσωματωμένα στοιχεία πειραματισμού και μοντελοποίησης με απρόσκοπτη ενοποίηση με το MLflow για παρακολούθηση πειραμάτων και εγγραφή/ανάπτυξη μοντέλου. Το Fabric διαθέτει επίσης δυνατότητες για πρόβλεψη μοντέλου σε κλίμακα (PREDICT) για την απόκτηση και κοινοποίηση επιχειρηματικών πληροφοριών.

Υπηρεσία αποθήκευσης - Το Fabric τυποποιείται στο Delta Lake, πράγμα που σημαίνει ότι όλοι οι κινητήρες του Fabric μπορούν να αλληλεπιδράσουν με το ίδιο σύνολο δεδομένων που είναι αποθηκευμένο σε ένα lakehouse. Αυτό το επίπεδο χώρου αποθήκευσης σάς επιτρέπει να αποθηκεύετε δομημένα και μη δομημένα δεδομένα που υποστηρίζουν τόσο χώρο αποθήκευσης που βασίζεται σε αρχεία όσο και μορφή σε μορφή πίνακα. Τα σύνολα δεδομένων και τα αρχεία που αποθηκεύονται μπορούν να προσπελαστούν εύκολα μέσω όλων των στοιχείων της εμπειρίας Fabric, όπως σημειωματάρια και διοχετεύσεις.

Έκθεση ανάλυσης και πληροφοριών - Τα δεδομένα από ένα lakehouse μπορούν να χρησιμοποιηθούν από το Power BI, το κορυφαίο εργαλείο επιχειρηματικής ευφυΐας του κλάδου, για την αναφορά και την απεικόνιση. Τα δεδομένα που διατηρούνται στη λίμνη μπορούν επίσης να απεικονιστούν σε σημειωματάρια που χρησιμοποιούν βιβλιοθήκες εγγενούς απεικόνισης Spark ή Python, όπως matplotlib, seaborn, plotlyκαι πολλά άλλα. Τα δεδομένα μπορούν επίσης να απεικονιστούν χρησιμοποιώντας τη βιβλιοθήκη SemPy που υποστηρίζει ενσωματωμένες εμπλουτισμένες απεικονίσεις ειδικά για εργασίες για το μοντέλο σημασιολογικών δεδομένων, για εξαρτήσεις και τις παραβιάσεις τους, καθώς και για περιπτώσεις χρήσης ταξινόμησης και παλινδρόμησης.

Επόμενο βήμα