Dela via


Ansluta till dbt Core

Den här artcle förklarar vad som är dbt, hur du installerar dbt Core och hur du ansluter. Den värdbaserade versionen av dbt, som kallas dbt Cloud, är också tillgänglig. Mer information finns i Ansluta till dbt Cloud.

Vad är dbt?

dbt (data build tool) är en utvecklingsmiljö för att transformera data genom att skriva select-instruktioner. dbt omvandlar dessa select-instruktioner till tabeller och vyer. dbt kompilerar koden till rå SQL och kör sedan koden på den angivna databasen i Azure Databricks. dbt stöder samarbetskodningsmönster och metodtips, inklusive versionskontroll, dokumentation och modularitet.

dbt extraherar eller läser inte in data. dbt fokuserar endast på transformeringssteget med hjälp av en arkitektur för "transformera efter inläsning". dbt förutsätter att du redan har en kopia av dina data i databasen.

med dbt Core kan du skriva dbt-kod i valfri IDE på din lokala utvecklingsdator och sedan köra dbt från kommandoraden. dbt Core innehåller dbt-kommandoradsgränssnittet (CLI). Dbt CLI är kostnadsfritt att använda och öppen källkod.

dbt Core (och dbt Cloud) kan använda värdbaserade git-lagringsplatser. Mer information finns i Skapa ett dbt-projekt och Använda ett befintligt projekt på dbt-webbplatsen.

Installationskrav

Innan du installerar dbt Core måste du installera följande på den lokala utvecklingsdatorn:

  • Python 3.7 eller senare
  • Ett verktyg för att skapa virtuella Python-miljöer (till exempel pipenv)

Du behöver också något av följande för att autentisera:

  • (Rekommenderas) dbt Core aktiverat som ett OAuth-program i ditt konto. Detta är aktiverat som standard.

  • En personlig åtkomsttoken

    Kommentar

    Som bästa säkerhet när du autentiserar med automatiserade verktyg, system, skript och appar rekommenderar Databricks att du använder OAuth-token.

    Om du använder autentisering med personlig åtkomsttoken rekommenderar Databricks att du använder personliga åtkomsttoken som tillhör tjänstens huvudnamn i stället för arbetsyteanvändare. Information om hur du skapar token för tjänstens huvudnamn finns i Hantera token för tjänstens huvudnamn.

Steg 1: Installera dbt Databricks-adaptern

Vi rekommenderar att du använder en virtuell Python-miljö eftersom den isolerar paketversioner och kodberoenden till den specifika miljön, oavsett paketversioner och kodberoenden i andra miljöer. Detta hjälper till att minska oväntade paketversionsfel och kodberoendekollisioner.

Databricks rekommenderar version 1.8.0 eller senare av dbt-databricks-paketet.

.. viktigt:: Om din lokala utvecklingsdator använder något av följande operativsystem måste du utföra ytterligare steg först: CentOS, MacOS, Ubuntu, Debian och Windows. Se avsnittet "Har mitt operativsystem förutsättningar" i Använd pip för att installera dbt på dbt Labs webbplats.

Steg 2: Skapa ett dbt-projekt och ange och testa anslutningsinställningar

Skapa ett dbt-projekt (en samling relaterade kataloger och filer som krävs för att använda dbt). Sedan konfigurerar du anslutningsprofilerna, som innehåller anslutningsinställningar för en Azure Databricks-beräkning, ett SQL-lager eller både och. För att öka säkerheten lagras dbt-projekt och profiler på separata platser som standard.

  1. När den virtuella miljön fortfarande är aktiverad kör du kommandot dbt init med projektnamnet. Den här exempelproceduren skapar ett projekt med namnet my_dbt_demo.

    dbt init my_dbt_demo
    
  2. När du uppmanas att välja en databricks databas anger spark du det tal som motsvarar databricks.

  3. När du uppmanas att ange ett host värde gör du följande:

  4. När du uppmanas att ange ett http_path värde gör du följande:

  5. Om du vill välja en autentiseringstyp use oauth anger du det tal som motsvarar (rekommenderas) eller use access token.

  6. Om du väljer use access token för din autentiseringstyp anger du värdet för din personliga åtkomsttoken för Azure Databricks.

    Kommentar

    När du autentiserar med automatiserade verktyg, system, skript och appar rekommenderar Databricks att du använder personliga åtkomsttoken som tillhör tjänstens huvudnamn i stället för arbetsyteanvändare. Information om hur du skapar token för tjänstens huvudnamn finns i Hantera token för tjänstens huvudnamn.

  7. När du uppmanas att desired Unity Catalog option ange värdet anger du det tal som motsvarar use Unity Catalog eller not use Unity Catalog.

  8. Om du väljer att använda Unity Catalog anger du önskat värde för catalog när du uppmanas att göra det.

  9. Ange önskade värden för schema och threads när du uppmanas att göra det.

  10. dbt skriver dina poster till en profiles.yml fil. Platsen för den här filen visas i kommandots dbt init utdata. Du kan också visa den här platsen senare genom att dbt debug --config-dir köra kommandot . Du kan öppna den här filen nu för att undersöka och verifiera dess innehåll.

    Om du väljer use oauth för din autentiseringstyp lägger du till autentiseringsprofilen machine-to-machine (M2M) eller user-to-machine (U2M) i profiles.yml.

    Exempel finns i Konfigurera Azure Databricks-inloggning från dbt Core med Microsoft Entra-ID.

    Databricks rekommenderar inte att du anger hemligheter profiles.yml direkt. Ange i stället klient-ID och klienthemlighet som miljövariabler.

  11. Bekräfta anslutningsinformationen genom att dbt debug köra kommandot i my_dbt_demo katalogen.

    Om du väljer use oauth din autentiseringstyp uppmanas du att logga in med din identitetsprovider.

    Viktigt!

    Innan du börjar kontrollerar du att ditt beräknings- eller SQL-lager körs.

    Du bör se utdata som liknar följande:

    cd my_dbt_demo
    dbt debug
    
    ...
    Configuration:
      profiles.yml file [OK found and valid]
      dbt_project.yml file [OK found and valid]
    
    Required dependencies:
      - git [OK found]
    
    Connection:
      ...
      Connection test: OK connection ok
    

Nästa steg

Ytterligare resurser