Partage via


Tutoriel : configurer dbt pour Fabric Data Warehouse

S'applique à :✅ Warehouse dans Microsoft Fabric

Ce tutoriel vous guide tout au long de la configuration de dbt et du déploiement de votre premier projet dans un entrepôt Fabric.

Présentation

DBT (Data Build Tool) est une infrastructure open source qui simplifie la transformation des données et l’ingénierie d’analyse. Cette infrastructure se concentre sur les transformations basées sur SQL au sein de la couche d’analyse, en traitant SQL comme du code. dbt prend en charge la gestion de version, la modularisation, les tests et la documentation.

L’adaptateur dbt pour Microsoft Fabric permet de créer des projets dbt, que vous pouvez ensuite déployer sur un Fabric Data Warehouse.

Vous pouvez également modifier la plateforme cible pour le projet dbt en modifiant simplement l’adaptateur. Par exemple, vous pouvez mettre à niveau un projet créé pour un pool SQL dédié Azure Synapse en quelques secondes vers un Fabric Data Warehouse.

Composants prérequis de l’adaptateur dbt pour Microsoft Fabric

Suivez cette liste pour installer, puis configurer les composants prérequis de dbt :

  1. Python version 3.7 ou ultérieure.

  2. Microsoft ODBC Driver for SQL Server.

  3. Dernière version de l’adaptateur dbt-fabric du référentiel PyPI (Python Package Index) utilisant pip install dbt-fabric.

    pip install dbt-fabric
    

    Remarque

    En modifiant pip install dbt-fabric en pip install dbt-synapse et en utilisant les instructions suivantes, vous pouvez installer l’adaptateur dbt pour le pool SQL dédié Synapse.

  4. Vérifiez bien que dbt-fabric et ses dépendances sont installés à l’aide de la commande pip list :

    pip list
    

    Cette commande doit renvoyer une longue liste des packages et des versions actuelles.

  5. Si vous n’en avez pas encore, créez un entrepôt. Vous pouvez utiliser la capacité d’essai pour cet exercice : inscrivez-vous à l’essai gratuit de Microsoft Fabric, créez un espace de travail, puis créez un entrepôt.

Prise en main de l’adaptateur dbt-fabric

Ce tutoriel utilise Visual Studio Code, mais vous pouvez utiliser l’outil de votre choix.

  1. Clonez le projet de démonstration jaffle_shop dbt sur votre ordinateur.

    git clone https://github.com/dbt-labs/jaffle_shop.git
    
  2. Ouvrez le dossier du projet jaffle_shop dans Visual Studio Code.

    Un capture d’écran de Visual Studio Code affichant le projet ouvert.

  3. Vous pouvez ignorer l’inscription si vous avez déjà créé un entrepôt.

  4. Créez un fichier profiles.yml . Ajoutez la configuration suivante à profiles.yml. Ce fichier configure la connexion à votre entrepôt dans Microsoft Fabric à l’aide de l’adaptateur dbt-fabric.

    config:
      partial_parse: true
    jaffle_shop:
      target: fabric-dev
      outputs:    
        fabric-dev:
          authentication: CLI
          database: <put the database name here>
          driver: ODBC Driver 18 for SQL Server
          host: <enter your SQL analytics endpoint here>
          schema: dbo
          threads: 4
          type: fabric
    

    Remarque

    Modifiez la valeur type de fabric à synapse pour basculer l’adaptateur de base de données vers Azure Synapse Analytics, si vous le souhaitez. Vous pouvez mettre à jour toute plateforme de données d’un projet dbt existant en modifiant l’adaptateur de base de données. Si vous souhaitez en savoir plus, veuillez consulter la liste dbt des plateformes de données prises en charge.

  5. Authentifiez-vous auprès d’Azure dans le terminal Visual Studio Code.

  6. Vous pouvez maintenant tester la connectivité. Pour tester la connectivité à votre entrepôt, exécutez dbt debug dans le terminal Visual Studio Code.

    dbt debug
    

    Un capture d’écran de Visual Studio Code affichant la commande dbt debug.

    Toutes les vérifications ont donné satisfaction. Vous pouvez donc connecter votre entrepôt à l’aide de l’adaptateur dbt-fabric depuis le projet jaffle_shop dbt.

  7. Maintenant, il est temps de tester le fonctionnement de l’adaptateur. Exécutez d’abord dbt seed pour insérer des exemples de données dans l’entrepôt.

    Un capture d’écran de Visual Studio Code affichant une commande dbt seed.

  8. Exécutez dbt run pour valider les données par rapport à certains tests.

    dbt run
    

    Un capture d’écran de Visual Studio Code affichant une commande dbt run.

  9. Exécutez dbt test pour exécuter les modèles définis dans le projet dbt de la version de démonstration.

    dbt test
    

    Un capture d’écran de Visual Studio Code affichant une commande dbt test.

Vous avez maintenant déployé un projet dbt dans Fabric Data Warehouse.

Passer d’un entrepôt à l’autre

Vous pouvez en toute simplicité déplacer le projet dbt entre différents entrepôts. Un projet dbt sur n’importe quel entrepôt pris en charge peut être rapidement migré avec ce processus en trois étapes :

  1. Installez le nouvel adaptateur. Si vous souhaitez en savoir plus, notamment sur l'installation, veuillez consulter la rubrique Adaptateurs dbt.

  2. Mettez à jour la propriété type dans le fichier profiles.yml.

  3. Créez le projet.

dbt dans Fabric Data Factory

Lorsqu’il est intégré à Apache Airflow, un système de gestion de flux de travail populaire, dbt devient un outil puissant pour orchestrer les transformations de données. Les fonctionnalités de planification et de gestion des tâches d’Airflow permettent aux équipes de données d’automatiser les exécutions dbt. Il garantit des mises à jour régulières des données et maintient un flux cohérent de données de haute qualité pour l’analyse et la création de rapports. Cette approche combinée, qui utilise l’expertise de transformation de dbt et la gestion des flux de travail d’Airflow, offre des pipelines de données efficaces et robustes, ce qui aboutit à des prises de décision basées sur les données plus rapides et plus éclairées.

Apache Airflow est une plateforme open source utilisée pour créer, planifier et superviser par programmation des workflows de données complexes. Elle vous permet de définir un ensemble de tâches, appelées opérateurs, qui peuvent être combinées en graphes orientés acyclique (DAG) pour représenter des pipelines de données.

Pour plus d’informations sur l’opérationnalisation de dbt avec votre entrepôt, consultez Transformer des données à l’aide de dbt avec Data Factory dans Microsoft Fabric.

À propos de l’installation

Points importants à prendre en compte lors de l’utilisation de l’adaptateur dbt-fabric :

  • Passez en revue les limitations actuelles dans l’entrepôt de données Microsoft Fabric.

  • Fabric prend en charge l’authentification Microsoft Entra ID (anciennement Azure Active Directory) pour les principaux d’utilisateur, les identités d’utilisateur et les principaux de service. Le mode d’authentification recommandé pour travailler de manière interactive sur l’entrepôt est l’interface CLI (interface de ligne de commande) et l’utilisation de principaux de service pour l’automatisation.

  • Étudiez les commandes T-SQL (Transact-SQL) non prises en charge dans Fabric Data Warehouse.

  • L’adaptateur dbt-fabric prend en charge certaines commandes T-SQL en utilisant Create Table as Select (CTAS), DROP et des commandes CREATE telles que ALTER TABLE ADD/ALTER/DROP COLUMN, MERGE, TRUNCATE, sp_rename.

  • Veuillez consulter la rubrique Types de données non pris en charge si vous souhaitez en savoir plus sur les types de données pris en charge et non pris en charge.

  • Vous pouvez consigner les problèmes sur l’adaptateur dbt-fabric en consultant Problèmes · microsoft/dbt-fabric · GitHub.

Étape suivante