Κοινή χρήση μέσω


Δημιουργία ενός lakehouse για το Direct Lake

Αυτό το άρθρο περιγράφει τον τρόπο δημιουργίας ενός lakehouse, τη δημιουργία ενός πίνακα Delta στο lakehouse και, στη συνέχεια, τη δημιουργία ενός βασικού μοντέλου σημασιολογίας για τη λίμνη σε έναν χώρο εργασίας Microsoft Fabric.

Προτού ξεκινήσετε να δημιουργείτε ένα lakehouse για το Direct Lake, διαβάστε επισκόπηση του Direct Lake.

Δημιουργία lakehouse

  1. Στον χώρο εργασίας σας Microsoft Fabric, επιλέξτε Δημιουργία>Περισσότερες επιλογέςκαι, στη συνέχεια, στο μηχανικής δεδομένων, επιλέξτε το πλακίδιο Lakehouse.

    Στιγμιότυπο οθόνης που εμφανίζει το πλακίδιο Lakehouse στη μηχανική δεδομένων.

  2. Στο παράθυρο διαλόγου Νέα λίμνη, πληκτρολογήστε ένα όνομα και, στη συνέχεια, επιλέξτε Δημιουργία. Το όνομα μπορεί να περιέχει μόνο αλφαριθμητικούς χαρακτήρες και χαρακτήρες υπογράμμισης.

    Στιγμιότυπο οθόνης που εμφανίζει το παράθυρο διαλόγου

  3. Επαληθεύστε ότι δημιουργείται το νέο lakehouse και ανοίγει με επιτυχία.

    Στιγμιότυπο οθόνης του lakehouse που δημιουργήθηκε στον χώρο εργασίας.

Δημιουργία πίνακα Delta στο lakehouse

Μετά τη δημιουργία ενός νέου lakehouse, πρέπει τότε να δημιουργήσετε τουλάχιστον έναν πίνακα Delta, ώστε το Direct Lake να έχει πρόσβαση σε ορισμένα δεδομένα. Το Direct Lake μπορεί να διαβάσει αρχεία σε μορφή parquet, αλλά για καλύτερες επιδόσεις, είναι προτιμότερο να συμπιέσετε τα δεδομένα χρησιμοποιώντας τη μέθοδο συμπίεσης VORDER. Η VORDER συμπιέζει τα δεδομένα χρησιμοποιώντας τον εγγενή αλγόριθμο συμπίεσης του μηχανισμού Power BI. Με αυτόν τον τρόπο, ο μηχανισμός μπορεί να φορτώσει τα δεδομένα στη μνήμη το συντομότερο δυνατό.

Υπάρχουν πολλές επιλογές για τη φόρτωση δεδομένων σε μια λίμνη, συμπεριλαμβανομένων διοχετεύσεων δεδομένων και δεσμών ενεργειών. Τα παρακάτω βήματα χρησιμοποιούν το PySpark για να προσθέσετε έναν πίνακα Delta σε μια λίμνη που βασίζεται σε ένα Azure Open Dataset:

  1. Στη λίμνη που μόλις δημιουργήθηκε, επιλέξτε Άνοιγμα σημειωματάριουκαι, στη συνέχεια, επιλέξτε Νέο σημειωματάριο.

    στιγμιότυπο οθόνης που εμφανίζει την εντολή νέου σημειωματάριου.

  2. Αντιγράψτε και επικολλήστε το παρακάτω τμήμα κώδικα στο πρώτο κελί κώδικα για να επιτρέψετε στο SPARK την πρόσβαση στο ανοικτό μοντέλο και, στη συνέχεια, πατήστε Shift + Enter για να εκτελέσετε τον κώδικα.

    # Azure storage access info
    blob_account_name = "azureopendatastorage"
    blob_container_name = "holidaydatacontainer"
    blob_relative_path = "Processed"
    blob_sas_token = r""
    
    # Allow SPARK to read from Blob remotely
    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set(
      'fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name),
      blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    
    
  3. Επαληθεύστε ότι ο κώδικας εξάγει με επιτυχία μια απομακρυσμένη διαδρομή αντικειμένου blob.

    Στιγμιότυπο οθόνης που εμφανίζει την έξοδο απομακρυσμένης διαδρομής αντικειμένου blob.

  4. Αντιγράψτε και επικολλήστε τον ακόλουθο κώδικα στο επόμενο κελί και, στη συνέχεια, πατήστε Shift + Enter.

    # Read Parquet file into a DataFrame.
    df = spark.read.parquet(wasbs_path)
    print(df.printSchema())
    
    
  5. Επαληθεύστε ότι ο κώδικας εξάγει με επιτυχία το σχήμα DataFrame.

    Στιγμιότυπο οθόνης που εμφανίζει την έξοδο σχήματος πλαισίου δεδομένων.

  6. Αντιγράψτε και επικολλήστε τις ακόλουθες γραμμές στο επόμενο κελί και, στη συνέχεια, πατήστε Shift + Enter. Η πρώτη οδηγία ενεργοποιεί τη μέθοδο συμπίεσης VORDER και η επόμενη οδηγία αποθηκεύει το DataFrame ως πίνακα Delta στο lakehouse.

    # Save as delta table 
    spark.conf.set("spark.sql.parquet.vorder.enabled", "true")
    df.write.format("delta").saveAsTable("holidays")
    
    
  7. Επαληθεύστε ότι όλες οι εργασίες SPARK ολοκληρώθηκαν με επιτυχία. Αναπτύξτε τη λίστα εργασιών SPARK για να δείτε περισσότερες λεπτομέρειες.

    Στιγμιότυπο οθόνης που εμφανίζει την αναπτυγμένη λίστα εργασιών SPARK.

  8. Για να επαληθεύσετε ότι ένας πίνακας δημιουργήθηκε με επιτυχία, στην επάνω αριστερή περιοχή, δίπλα στο στοιχείο Tables, επιλέξτε τα αποσιωπητικά (...) και, στη συνέχεια, επιλέξτε ανανέωσηκαι, στη συνέχεια, αναπτύξτε τον κόμβο Tables.

    Στιγμιότυπο οθόνης που εμφανίζει την εντολή Ανανέωση κοντά στον κόμβο Πίνακες.

  9. Χρησιμοποιώντας είτε την ίδια μέθοδο όπως παραπάνω είτε άλλες υποστηριζόμενες μεθόδους, προσθέστε περισσότερους πίνακες Delta για τα δεδομένα που θέλετε να αναλύσετε.

Δημιουργήστε ένα βασικό μοντέλο Direct Lake για το lakehouse σας

  1. Στη λίμνη σας, επιλέξτε νέο μοντέλο σημασιολογίαςκαι, στη συνέχεια, στο παράθυρο διαλόγου, επιλέξτε πίνακες που θα συμπεριληφθούν.

    Στιγμιότυπο οθόνης του παραθύρου διαλόγου για τη δημιουργία νέου μοντέλου.

  2. Επιλέξτε Επιβεβαίωση για να δημιουργήσετε το μοντέλο Direct Lake. Το μοντέλο αποθηκεύεται αυτόματα στον χώρο εργασίας με βάση το όνομα του lakehouse και, στη συνέχεια, ανοίγει το μοντέλο.

    Στιγμιότυπο οθόνης που εμφανίζει το ανοικτό μοντέλο στο Power BI.

  3. Επιλέξτε Μοντέλου ανοιχτών δεδομένων για να ανοίξετε την εμπειρία μοντελοποίησης Web όπου μπορείτε να προσθέσετε σχέσεις πινάκων και μετρήσεις DAX.

    στιγμιότυπο οθόνης που εμφανίζει τη μοντελοποίηση Web στο Power BI.

Όταν ολοκληρώσετε την προσθήκη σχέσεων και μετρήσεων DAX, μπορείτε, στη συνέχεια, να δημιουργήσετε αναφορές, να δημιουργήσετε ένα σύνθετο μοντέλο και να υποβάλετε ερώτημα στο μοντέλο μέσω τελικών σημείων XMLA με τον ίδιο τρόπο όπως οποιοδήποτε άλλο μοντέλο.