Freigeben über


Tutorial: Einrichten von dbt für Fabric Data Warehouse

Gilt für:✅ Warehouse in Microsoft Fabric

In diesem Tutorial wird erläutert, wie Sie dbt einrichten und Ihr erstes Projekt in Fabric Warehouse bereitstellen.

Einführung

Das open-Source-Framework dbt (Data Build Tool) vereinfacht Datentransformations- und Analysetechnik. Es konzentriert sich auf SQL-basierte Transformationen innerhalb der Analyseebene, wobei SQL als Code behandelt wird. dbt unterstützt Versionskontrolle, Modularisierung, Tests und Dokumentation.

Der dbt-Adapter für Microsoft Fabric kann zum Erstellen von dbt-Projekten verwendet werden, die dann in einem Fabric Data Warehouse bereitgestellt werden können.

Sie können die Zielplattform für das dbt-Projekt auch ändern, indem Sie beispielsweise einfach den Adapter ändern. Ein Projekt, das für den Dedizierten SQL-Pool in Azure Synapse erstellt wurde, kann in wenigen Sekunden auf ein Fabric Data Warehouse aktualisiert werden.

Voraussetzungen für den dbt-Adapter für Microsoft Fabric

Folgen Sie dieser Liste zum Installieren und Einrichten der dbt-Voraussetzungen:

  1. Python, Version 3.7 (oder höher).

  2. Der Microsoft ODBC Driver for SQL Server.

  3. Neueste Version des dbt-fabric-Adapters aus dem PyPI (Python-Paketindex)-Repository mit pip install dbt-fabric.

    pip install dbt-fabric
    

    Hinweis

    Wenn Sie pip install dbt-fabric in pip install dbt-synapse ändern und die folgenden Anleitungen nutzen, können Sie den dbt-Adapter für den dedizierten Synapse-SQL-Pool installieren.

  4. Vergewissern Sie sich mithilfe des Befehls pip list, dass dbt-fabric und dessen Abhängigkeiten installiert sind:

    pip list
    

    Von diesem Befehl sollte eine lange Liste der Pakete und aktuellen Versionen zurückgegeben werden.

  5. Erstellen Sie ein Warehouse, sofern Sie noch keins haben. Sie können die Testkapazität für diese Übung nutzen: Registrieren Sie sich für die kostenlose Microsoft Fabric-Testversion, erstellen Sie einen Arbeitsbereich, und erstellen Sie dann ein Warehouse.

Erste Schritte mit dem dbt-fabric-Adapter

In diesem Tutorial wird Visual Studio Code verwendet, aber Sie können auch das von Ihnen bevorzugte Tool verwenden.

  1. Klonen Sie das dbt-Demoprojekt jaffle_shop auf Ihren Computer.

    git clone https://github.com/dbt-labs/jaffle_shop.git
    
  2. Öffnen Sie den Projektordner jaffle_shop in Visual Studio Code.

    Screenshot aus dem Visual Studio Code, der das geöffnete Projekt zeigt.

  3. Sie können die Registrierung überspringen, wenn Sie ein Warehouse bereits erstellt haben.

  4. Erstellen Sie die Datei profiles.yml. Fügen Sie die folgende Konfiguration zu profiles.yml hinzu. Diese Datei konfiguriert die Verbindung mit Ihrem Warehouse in Microsoft Fabric mithilfe des dbt-fabric-Adapters.

    config:
      partial_parse: true
    jaffle_shop:
      target: fabric-dev
      outputs:    
        fabric-dev:
          authentication: CLI
          database: <put the database name here>
          driver: ODBC Driver 18 for SQL Server
          host: <enter your SQL analytics endpoint here>
          schema: dbo
          threads: 4
          type: fabric
    

    Hinweis

    Ändern Sie bei Bedarf den Wert für type von fabric in synapse, um den Datenbankadapter auf Azure Synapse Analytics umzuschalten. Die Datenplattform eines beliebigen vorhandenen dbt-Projekts kann durch Ändern des Datenbankadapters aktualisiert werden. Weitere Informationen finden Sie in der dbt-Liste der unterstützten Datenplattformen.

  5. Authentifizieren Sie sich im Visual Studio Code-Terminal bei Azure.

  6. Jetzt können Sie die Konnektivität testen. Führen Sie zum Testen der Konnektivität mit Ihrem Warehouse im Visual Studio Code-Terminal dbt debug aus.

    dbt debug
    

    Screenshot aus Visual Studio Code, der den Befehl „dbt debug“ anzeigt.

    Wenn alle Überprüfungen bestanden wurden, bedeutet dies, dass Sie Ihr Warehouse mithilfe des dbt-fabric-Adapters über das dbt-Projekt jaffle_shop verbinden können.

  7. Jetzt ist es Zeit zu testen, ob der Adapter funktioniert oder nicht. Führen Sie zuerst dbt seed aus, um Beispieldaten in das Warehouse einzufügen.

    Screenshot aus dem Visual Studio Code, der einen dbt seed-Befehl zeigt.

  8. Führen Sie dbt run aus, um Daten anhand einiger Tests zu überprüfen.

    dbt run
    

    Screenshot aus dem Visual Studio Code, der einen dbt run-Befehl zeigt.

  9. Führen Sie dbt test aus, um die im dbt-Demoprojekt definierten Modelle auszuführen.

    dbt test
    

    Screenshot aus dem Visual Studio Code, der einen dbt test-Befehl zeigt.

Sie haben nun ein dbt-Projekt im Fabric Data Warehouse bereitgestellt.

Verschieben zwischen verschiedenen Warehouses

Das Verschieben des dbt-Projekts zwischen verschiedenen Warehouses ist einfach. Ein dbt-Projekt in einem beliebigen unterstützten Warehouse kann mit dem folgenden dreistufigen Prozess schnell migriert werden:

  1. Installieren Sie den neuen Adapter. Weitere Informationen und vollständige Installationsanleitungen finden Sie unter dbt-Adapter.

  2. Aktualisieren Sie die Eigenschaft type in der Datei profiles.yml.

  3. Erstellen Sie das Projekt.

dbt in Fabric Data Factory

Durch die Integration mit Apache Airflow, einem beliebten Workflowverwaltungs-System, wird dbt zu einem leistungsstarken Tool für die Orchestrierung von Datentransformationen. Die Planungs- und Aufgabenverwaltungsfunktionen von Airflow ermöglichen es Datenteams, dbt-Ausführungen zu automatisieren. Es gewährleistet regelmäßige Datenaktualisierungen und sorgt für einen konsistenten Fluss hochwertiger Daten für Analysen und Berichte. Dieser kombinierte Ansatz, der die Transformationskompetenz von dbt mit der Workflowverwaltung von Airflow nutzt, liefert effiziente und robuste Daten-Pipelines, was letztendlich zu schnelleren und aussagekräftigeren datengesteuerten Entscheidungen führt.

Apache Airflow ist eine Open-Source-Plattform, die zum programmgesteuerten Erstellen, Planen und Überwachen komplexer Datenworkflows verwendet wird. Es ermöglicht Ihnen, eine Reihe von Aufgaben zu definieren, die als Operatoren bezeichnet werden und zu gerichteten azyklischen Graphen (Directed Acyclic Graphs, DAGs) kombiniert werden können, um Datenpipelines darzustellen.

Weitere Informationen zum Operationalisieren von dbt mit Ihrem Warehouse finden Sie unter Transformieren von Daten mithilfe von dbt mit Data Factory in Microsoft Fabric.

Überlegungen

Wichtige Punkte, die bei der Verwendung des dbt-fabric-Adapters berücksichtigt werden müssen:

  • Sehen Sie sich die aktuellen Einschränkungen in Microsoft Fabric-Data Warehousing an.

  • Fabric unterstützt die Microsoft Entra ID-Authentifizierung (früher Azure Active Directory) für Benutzerprinzipale, Benutzeridentitäten und Dienstprinzipale. Der empfohlene Authentifizierungsmodus zum interaktiven Arbeiten im Warehouse ist CLI (Befehlszeilenschnittstellen) und die Verwendung von Dienstprinzipalen für die Automatisierung.

  • Prüfen Sie die T-SQL-Befehle (Transact-SQL), die im Fabric Data Warehouse nicht unterstützt werden.

  • Einige T-SQL-Befehle werden von dbt-fabric-Adapter über die Befehle Create Table as Select (CTAS), DROP und CREATE unterstützt, wie z. B. ALTER TABLE ADD/ALTER/DROP COLUMN, MERGE, TRUNCATE, sp_rename.

  • Informationen zu den unterstützten und nicht unterstützten Datentypen finden Sie unter Nicht unterstützte Datentypen.

  • Sie können Probleme auf dem dbt-fabric-Adapter auf GitHub protokollieren, indem Sie Issues · microsoft/dbt-fabric · GitHub besuchen.

Nächster Schritt