Κοινή χρήση μέσω


Εκμάθηση: Ρύθμιση βάσης δεδομένων για το Fabric Data Warehouse

Ισχύει για:✅ Warehouse στο Microsoft Fabric

Αυτή η εκμάθηση σάς καθοδηγεί στη ρύθμιση του dbt και την ανάπτυξη του πρώτου σας έργου σε μια Αποθήκη Fabric.

Εισαγωγή

Το πλαίσιο ανοιχτού κώδικα dbt (Εργαλείο δόμησης δεδομένων) απλοποιεί τον μετασχηματισμό δεδομένων και τη μηχανική ανάλυσης. Εστιάζει σε μετασχηματισμούς που βασίζονται σε SQL εντός του επιπέδου ανάλυσης, αντιμετωπίζοντας το SQL ως κώδικα. Το dbt υποστηρίζει τον έλεγχο εκδόσεων, τη διαμόρφωση, τις δοκιμές και την τεκμηρίωση.

Ο προσαρμογέας βάσης δεδομένων για το Microsoft Fabric μπορεί να χρησιμοποιηθεί για τη δημιουργία έργων dbt, τα οποία μπορούν έπειτα να αναπτυχθούν σε μια Αποθήκη δεδομένων Fabric.

Μπορείτε, για παράδειγμα, να αλλάξετε την πλατφόρμα προορισμού για το έργο dbt αλλάζοντας απλώς τον προσαρμογέα. Ένα έργο που έχει δημιουργηθεί για τον αποκλειστικό χώρο συγκέντρωσης SQL Azure Synapse μπορεί να αναβαθμιστεί σε λίγα δευτερόλεπτα σε Μια Αποθήκη δεδομένων Fabric.

Προαπαιτούμενα για τον προσαρμογέα βάσης δεδομένων για το Microsoft Fabric

Ακολουθήστε αυτήν τη λίστα για να εγκαταστήσετε και να ρυθμίσετε τις προϋποθέσεις dbt:

  1. Έκδοση Python 3.7 (ή νεότερη).

  2. Το πρόγραμμα οδήγησης ODBC της Microsoft για SQL Server.

  3. Τελευταία έκδοση του προσαρμογέα dbt-fabric από το αποθετήριο δεδομένων PyPI (Python Package Index) χρησιμοποιώντας το pip install dbt-fabric.

    pip install dbt-fabric
    

    Σημείωμα

    Αλλάζοντας pip install dbt-fabric το σε pip install dbt-synapse και χρησιμοποιώντας τις ακόλουθες οδηγίες, μπορείτε να εγκαταστήσετε τον προσαρμογέα βάσης δεδομένων για τον χώρο συγκέντρωσης ΑΠΟΚΛΕΙΣΤΙΚΏΝ SQL Synapse.

  4. Βεβαιωθείτε ότι έχετε επαληθεύσει ότι το dbt-fabric και οι εξαρτήσεις του εγκαθίστανται χρησιμοποιώντας την pip list εντολή:

    pip list
    

    Μια μεγάλη λίστα με τα πακέτα και τις τρέχουσες εκδόσεις πρέπει να επιστραφεί από αυτήν την εντολή.

  5. Εάν δεν έχετε ήδη μία, δημιουργήστε μια Αποθήκη. Μπορείτε να χρησιμοποιήσετε τους δοκιμαστικούς εκχωρημένους πόρους για αυτήν την άσκηση: εγγραφείτε για τη δωρεάν δοκιμαστική έκδοση του Microsoft Fabric, δημιουργήστε έναν χώρο εργασίας και, στη συνέχεια , δημιουργήστε μια αποθήκη.

Γρήγορα αποτελέσματα με τον προσαρμογέα dbt-fabric

Αυτή η εκμάθηση χρησιμοποιεί το Visual Studio Code, αλλά μπορείτε να χρησιμοποιήσετε το εργαλείο που προτιμάτε της επιλογής σας.

  1. Κλωνοποιήστε το έργο jaffle_shop επίδειξης στον υπολογιστή σας.

    git clone https://github.com/dbt-labs/jaffle_shop.git
    
  2. Ανοίξτε τον jaffle_shop φάκελο έργου στο Visual Studio Code.

    Στιγμιότυπο οθόνης από το Visual Studio Code, που εμφανίζει το ανοιχτό έργο.

  3. Μπορείτε να παραλείψετε την εγγραφή, εάν έχετε δημιουργήσει ήδη μια Αποθήκη.

  4. Δημιουργήστε ένα profiles.yml αρχείο. Προσθέστε την παρακάτω ρύθμιση παραμέτρων στο profiles.yml. Αυτό το αρχείο ρυθμίζει τις παραμέτρους της σύνδεσης στην αποθήκη σας στο Microsoft Fabric χρησιμοποιώντας τον προσαρμογέα dbt-fabric.

    config:
      partial_parse: true
    jaffle_shop:
      target: fabric-dev
      outputs:    
        fabric-dev:
          authentication: CLI
          database: <put the database name here>
          driver: ODBC Driver 18 for SQL Server
          host: <enter your SQL analytics endpoint here>
          schema: dbo
          threads: 4
          type: fabric
    

    Σημείωμα

    Αλλάξτε την type από fabric σε , για synapse να αλλάξετε τον προσαρμογέα βάσης δεδομένων σε Azure Synapse Analytics, εάν θέλετε. Η πλατφόρμα δεδομένων οποιουδήποτε υπάρχοντος έργου dbt μπορεί να ενημερωθεί αλλάζοντας τον προσαρμογέα βάσης δεδομένων. Για περισσότερες πληροφορίες, ανατρέξτε στη λίστα dbt των υποστηριζόμενων πλατφορμών δεδομένων.

  5. Πραγματοποιήστε έλεγχο ταυτότητας στο Azure στο τερματικό Visual Studio Code.

  6. Τώρα είστε έτοιμοι να ελέγξετε τη συνδεσιμότητα. Για να ελέγξετε τη συνδεσιμότητα στην αποθήκη σας, εκτελέστε dbt debug το στο τερματικό Visual Studio Code.

    dbt debug
    

    Στιγμιότυπο οθόνης από το Visual Studio Code, που εμφανίζει την εντολή εντοπισμού σφαλμάτων dbt.

    Όλοι οι έλεγχοι μεταβιβάζονται, το οποίο σημαίνει ότι μπορείτε να συνδέσετε την αποθήκη σας χρησιμοποιώντας προσαρμογέα dbt-fabric από το jaffle_shop έργο dbt.

  7. Τώρα είναι ώρα να ελέγξετε εάν ο προσαρμογέας λειτουργεί ή όχι. Πρώτα, εκτελέστε dbt seed την για να εισαγάγετε ένα δείγμα δεδομένων στην αποθήκη.

    Στιγμιότυπο οθόνης από το Visual Studio Code, που εμφανίζει μια εντολή dbt seed.

  8. Εκτελέστε dbt run το για να επικυρώσετε δεδομένα σε σχέση με ορισμένες δοκιμές.

    dbt run
    

    Στιγμιότυπο οθόνης από το Visual Studio Code, που εμφανίζει μια εντολή εκτέλεσης dbt.

  9. Εκτελέστε dbt test το για να εκτελέσετε τα μοντέλα που ορίζονται στο έργο επίδειξης dbt.

    dbt test
    

    Στιγμιότυπο οθόνης από το Visual Studio Code, που εμφανίζει μια εντολή δοκιμής dbt.

Έχετε αναπτύξει τώρα ένα έργο dbt στην Αποθήκη δεδομένων Fabric.

Μετακίνηση μεταξύ διαφορετικών αποθηκών

Είναι μια απλή μετακίνηση του έργου dbt μεταξύ διαφορετικών αποθηκών. Ένα έργο dbt σε οποιαδήποτε υποστηριζόμενη αποθήκη μπορεί να μετεγκατασταθεί γρήγορα με αυτή τη διαδικασία τριών βημάτων:

  1. Εγκαταστήστε τον νέο προσαρμογέα. Για περισσότερες πληροφορίες και πλήρεις οδηγίες εγκατάστασης, ανατρέξτε στο θέμα Προσαρμογείς dbt.

  2. Ενημερώστε την type ιδιότητα στο profiles.yml αρχείο.

  3. Δημιουργία του έργου.

dbt στο Fabric Data Factory

Όταν ενσωματώνεται με το Apache Airflow, ένα δημοφιλές σύστημα διαχείρισης ροής εργασιών, το dbt γίνεται ένα ισχυρό εργαλείο για την ενορχήστρωση μετασχηματισμών δεδομένων. Οι δυνατότητες προγραμματισμού και διαχείρισης εργασιών της Airflow επιτρέπουν στις ομάδες δεδομένων να αυτοματοποιούν τις εκτελέσεις βάσης δεδομένων. Εξασφαλίζει τακτικές ενημερώσεις δεδομένων και διατηρεί μια συνεπή ροή δεδομένων υψηλής ποιότητας για ανάλυση και αναφορά. Αυτή η συνδυασμένη προσέγγιση, χρησιμοποιώντας την εμπειρία μετασχηματισμού της dbt με τη διαχείριση ροών εργασιών της Airflow, παρέχει αποτελεσματικές και ισχυρές διοχετεύσεις δεδομένων, οδηγώντας τελικά σε ταχύτερες και πιο διορατικές αποφάσεις βάσει δεδομένων.

Το Apache Airflow είναι μια πλατφόρμα ανοιχτού κώδικα που χρησιμοποιείται για τη δημιουργία, τον προγραμματισμό και την παρακολούθηση σύνθετων ροών εργασιών δεδομένων. Σας επιτρέπει να ορίσετε ένα σύνολο εργασιών, που ονομάζονται τελεστές, που μπορούν να συνδυαστούν σε κατευθυνμένα κυκλικά γραφήματα (DAGs) για την αναπαράσταση διοχετεύσεων δεδομένων.

Για περισσότερες πληροφορίες σχετικά με τη λειτουργία της βάσης δεδομένων με την αποθήκη σας, ανατρέξτε στο θέμα Μετασχηματισμός δεδομένων με χρήση του Data Factory στο Microsoft Fabric.

Παράγοντες που πρέπει να ληφθούν υπόψη

Σημαντικά πράγματα που πρέπει να λάβετε υπόψη κατά τη χρήση του προσαρμογέα dbt-fabric:

  • Εξετάστε τους τρέχοντες περιορισμούς στην αποθήκη δεδομένων Microsoft Fabric.

  • Το Fabric υποστηρίζει έλεγχο ταυτότητας Microsoft Entra ID (πρώην Azure Active Directory) για οντότητες χρηστών, ταυτότητες χρήστη και οντότητες υπηρεσίας. Η προτεινόμενη λειτουργία ελέγχου ταυτότητας για αλληλεπιδραστική εργασία σε αποθήκη είναι CLI (διασυνδέσεις γραμμής εντολών) και χρήση αρχών υπηρεσίας για αυτοματοποίηση.

  • Εξετάστε τις εντολές T-SQL (Transact-SQL) που δεν υποστηρίζονται στην Αποθήκη δεδομένων Fabric.

  • Ορισμένες εντολές T-SQL υποστηρίζονται από τον προσαρμογέα dbt-fabric χρησιμοποιώντας Create Table as Select (CTAS), DROPκαι CREATE εντολές, όπως ALTER TABLE ADD/ALTER/DROP COLUMN, MERGE, TRUNCATEsp_rename.

  • Εξετάστε τους Μη υποστηριζόμενους τύπους δεδομένων για να μάθετε σχετικά με τους υποστηριζόμενους και μη υποστηριζόμενους τύπους δεδομένων.

  • Μπορείτε να συνδεθείτε ζητήματα στον προσαρμογέα dbt-fabric στο GitHub με την επίσκεψη Ζητήματα · microsoft/dbt-fabric · GitHub.

Επόμενο βήμα