Δημιουργία ενός lakehouse για το Direct Lake
Αυτό το άρθρο περιγράφει τον τρόπο δημιουργίας ενός lakehouse, τη δημιουργία ενός πίνακα Delta στο lakehouse και, στη συνέχεια, τη δημιουργία ενός βασικού μοντέλου σημασιολογίας για τη λίμνη σε έναν χώρο εργασίας Microsoft Fabric.
Προτού ξεκινήσετε να δημιουργείτε ένα lakehouse για το Direct Lake, διαβάστε επισκόπηση του Direct Lake.
Δημιουργία lakehouse
Στον χώρο εργασίας σας Microsoft Fabric, επιλέξτε Δημιουργία>Περισσότερες επιλογέςκαι, στη συνέχεια, στο μηχανικής δεδομένων, επιλέξτε το πλακίδιο Lakehouse.
Στο παράθυρο διαλόγου Νέα λίμνη, πληκτρολογήστε ένα όνομα και, στη συνέχεια, επιλέξτε Δημιουργία. Το όνομα μπορεί να περιέχει μόνο αλφαριθμητικούς χαρακτήρες και χαρακτήρες υπογράμμισης.
Επαληθεύστε ότι δημιουργείται το νέο lakehouse και ανοίγει με επιτυχία.
Δημιουργία πίνακα Delta στο lakehouse
Μετά τη δημιουργία ενός νέου lakehouse, πρέπει τότε να δημιουργήσετε τουλάχιστον έναν πίνακα Delta, ώστε το Direct Lake να έχει πρόσβαση σε ορισμένα δεδομένα. Το Direct Lake μπορεί να διαβάσει αρχεία σε μορφή parquet, αλλά για καλύτερες επιδόσεις, είναι προτιμότερο να συμπιέσετε τα δεδομένα χρησιμοποιώντας τη μέθοδο συμπίεσης VORDER. Η VORDER συμπιέζει τα δεδομένα χρησιμοποιώντας τον εγγενή αλγόριθμο συμπίεσης του μηχανισμού Power BI. Με αυτόν τον τρόπο, ο μηχανισμός μπορεί να φορτώσει τα δεδομένα στη μνήμη το συντομότερο δυνατό.
Υπάρχουν πολλές επιλογές για τη φόρτωση δεδομένων σε μια λίμνη, συμπεριλαμβανομένων διοχετεύσεων δεδομένων και δεσμών ενεργειών. Τα παρακάτω βήματα χρησιμοποιούν το PySpark για να προσθέσετε έναν πίνακα Delta σε μια λίμνη που βασίζεται σε ένα Azure Open Dataset:
Στη λίμνη που μόλις δημιουργήθηκε, επιλέξτε Άνοιγμα σημειωματάριουκαι, στη συνέχεια, επιλέξτε Νέο σημειωματάριο.
Αντιγράψτε και επικολλήστε το παρακάτω τμήμα κώδικα στο πρώτο κελί κώδικα για να επιτρέψετε στο SPARK την πρόσβαση στο ανοικτό μοντέλο και, στη συνέχεια, πατήστε Shift + Enter για να εκτελέσετε τον κώδικα.
# Azure storage access info blob_account_name = "azureopendatastorage" blob_container_name = "holidaydatacontainer" blob_relative_path = "Processed" blob_sas_token = r"" # Allow SPARK to read from Blob remotely wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path) spark.conf.set( 'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token) print('Remote blob path: ' + wasbs_path)
Επαληθεύστε ότι ο κώδικας εξάγει με επιτυχία μια απομακρυσμένη διαδρομή αντικειμένου blob.
Αντιγράψτε και επικολλήστε τον ακόλουθο κώδικα στο επόμενο κελί και, στη συνέχεια, πατήστε Shift + Enter.
# Read Parquet file into a DataFrame. df = spark.read.parquet(wasbs_path) print(df.printSchema())
Επαληθεύστε ότι ο κώδικας εξάγει με επιτυχία το σχήμα DataFrame.
Αντιγράψτε και επικολλήστε τις ακόλουθες γραμμές στο επόμενο κελί και, στη συνέχεια, πατήστε Shift + Enter. Η πρώτη οδηγία ενεργοποιεί τη μέθοδο συμπίεσης VORDER και η επόμενη οδηγία αποθηκεύει το DataFrame ως πίνακα Delta στο lakehouse.
# Save as delta table spark.conf.set("spark.sql.parquet.vorder.enabled", "true") df.write.format("delta").saveAsTable("holidays")
Επαληθεύστε ότι όλες οι εργασίες SPARK ολοκληρώθηκαν με επιτυχία. Αναπτύξτε τη λίστα εργασιών SPARK για να δείτε περισσότερες λεπτομέρειες.
Για να επαληθεύσετε ότι ένας πίνακας δημιουργήθηκε με επιτυχία, στην επάνω αριστερή περιοχή, δίπλα στο στοιχείο Tables, επιλέξτε τα αποσιωπητικά (...) και, στη συνέχεια, επιλέξτε ανανέωσηκαι, στη συνέχεια, αναπτύξτε τον κόμβο Tables.
Χρησιμοποιώντας είτε την ίδια μέθοδο όπως παραπάνω είτε άλλες υποστηριζόμενες μεθόδους, προσθέστε περισσότερους πίνακες Delta για τα δεδομένα που θέλετε να αναλύσετε.
Δημιουργήστε ένα βασικό μοντέλο Direct Lake για το lakehouse σας
Στη λίμνη σας, επιλέξτε νέο μοντέλο σημασιολογίαςκαι, στη συνέχεια, στο παράθυρο διαλόγου, επιλέξτε πίνακες που θα συμπεριληφθούν.
Επιλέξτε Επιβεβαίωση για να δημιουργήσετε το μοντέλο Direct Lake. Το μοντέλο αποθηκεύεται αυτόματα στον χώρο εργασίας με βάση το όνομα του lakehouse και, στη συνέχεια, ανοίγει το μοντέλο.
Επιλέξτε Μοντέλου ανοιχτών δεδομένων για να ανοίξετε την εμπειρία μοντελοποίησης Web όπου μπορείτε να προσθέσετε σχέσεις πινάκων και μετρήσεις DAX.
Όταν ολοκληρώσετε την προσθήκη σχέσεων και μετρήσεων DAX, μπορείτε, στη συνέχεια, να δημιουργήσετε αναφορές, να δημιουργήσετε ένα σύνθετο μοντέλο και να υποβάλετε ερώτημα στο μοντέλο μέσω τελικών σημείων XMLA με τον ίδιο τρόπο όπως οποιοδήποτε άλλο μοντέλο.