Dela via


Använda dbx för att synkronisera lokala filer med fjärrarbetsytor i realtid

Viktigt!

Den här dokumentationen har dragits tillbaka och kanske inte uppdateras.

Databricks rekommenderar att du i stället för dbx syncanvänder Databricks CLI-versionerna 0.205 eller senare, som innehåller funktioner som liknar dbx sync med databricks sync kommandot .

Databricks-tillägget för Visual Studio Code innehåller även funktioner som liknar dbx sync integrerade i Visual Studio Code IDE. Observera att dbx sync kan synkronisera filändringar från en lokal utvecklingsdator till DBFS-, arbetsyteplatser och Databricks Git-mappar på dina Azure Databricks-arbetsytor. Databricks-tillägget för Visual Studio Code stöder synkronisering av filändringar endast till arbetsyteanvändarfiler (/Users) och Databricks Git-mappar (/Repos).

Kommentar

Den här artikeln beskrivs dbx av Databricks Labs, som tillhandahålls som den är och inte stöds av Databricks via kundens tekniska supportkanaler. Frågor och funktionsförfrågningar kan kommuniceras via sidan Problemdatabrickslabs/dbx-lagringsplatsen på GitHub.

Du kan utföra realtidssynkronisering av ändringar i filer på den lokala utvecklingsdatorn med motsvarande filer på dina Azure Databricks-arbetsytor med hjälp av dbx by Databricks Labs. Dessa arbetsytefiler kan finnas i DBFS eller i Databricks Git-mappar.

Filsynkronisering i realtid med dbx (kallas dbx syncäven ) är användbart i snabba scenarier för kodutveckling. Du kan till exempel använda en lokal integrerad utvecklingsmiljö (IDE) för produktivitetsfunktioner som syntaxmarkering, smart kodkomplettering, kodlintning och testning och felsökning. Du kan sedan gå direkt till din arbetsyta och köra den uppdaterade koden.

Du kan använda dbx sync själv, med automatiserade jobb eller med en IDE.

dbx sync arbetsflöden för utveckling

Det finns två utvecklingsarbetsflöden för dbx sync, ett med DBFS och ett annat med Databricks Git-mappar.

Det typiska utvecklingsarbetsflödet med dbx sync och DBFS är:

  1. Identifiera en lokal katalog som innehåller de filer som du vill synkronisera med DBFS.
  2. Identifiera sökvägen i DBFS som du vill att din lokala katalog ska synkroniseras med (eller låt dbx sync skapa en standard-DBFS-sökväg åt dig).
  3. Kör dbx sync dbfs för att synkronisera din lokala katalog med DBFS-sökvägen. dbx sync börjar titta på din lokala katalog för eventuella filändringar.
  4. Gör ändringar i filer i din lokala katalog efter behov. dbx sync tillämpar dessa ändringar på motsvarande filer i DBFS-sökvägen i realtid.

Det typiska arbetsflödet för utveckling med dbx sync och Databricks Git-mappar är:

  1. Skapa en lagringsplats med en Git-provider som Databricks Git-mappar stöder, om du inte redan har en tillgänglig lagringsplats.
  2. Klona lagringsplatsen till din Azure Databricks-arbetsyta.
  3. Klona lagringsplatsen till din lokala utvecklingsdator.
  4. Kör dbx sync repo för att associera din lokala klonade lagringsplats med din klonade lagringsplats för arbetsytan. dbx sync börjar titta på din lokala katalog för eventuella filändringar.
  5. Gör ändringar i filer i din lokala klonade lagringsplats efter behov. dbx sync tillämpar dessa ändringar på motsvarande filer i Databricks Git-mappar i realtid.
  6. Skicka regelbundet uppdaterade filer från den klonade lagringsplatsen på din arbetsyta till Git-providern, så att lagringsplatsen håller sig uppdaterad med git-providern.

Viktigt!

dbx sync utför endast enkelriktad synkronisering i realtid av filändringar från din lokala utvecklingsdator till fjärrarbetsytan. Databricks rekommenderar därför inte att du initierar ändringar i Din Azure Databricks-arbetsyta till filer som övervakas av dbx sync. Om du måste göra sådana arbetsyteinitierade filändringar måste du också göra följande:

  • För filändringar i DBFS gör du motsvarande ändringar i de lokala filerna manuellt.
  • För filändringar i Databricks Git-mappar skickar du filändringarna från din arbetsyta till Git-providern. Hämta sedan filändringarna från Git-providern på den lokala utvecklingsdatorn.

Krav

Om du vill använda dbx sync med Databricks Git-mappar måste din Azure Databricks-arbetsyta uppfylla följande krav:

  • En klon av lagringsplatsen med Git-providern föreslås, även om den inte behövs.

På den lokala utvecklingsdatorn måste du ha följande installerat:

  • Python version 3.8 eller senare. Om du vill kontrollera om Python är installerat och kontrollera din installerade Python-version kör du python --version i terminalen eller PowerShell.

    python --version
    

    Kommentar

    Vissa installationer av python kan kräva att du använder python3 i stället pythonför . I så fall ersätter du python med python3 i den här artikeln.

  • pip. Om du vill kontrollera om pip är installerad och för att kontrollera den installerade pip versionen kör pip --version du eller python -m pip --version.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Kommentar

    Vissa installationer av pip kan kräva att du använder pip3 i stället pipför . I så fall ersätter du pip med pip3 i den här artikeln.

  • dbx version 0.8.0 eller senare. Om du vill kontrollera om dbx är installerat och kontrollera den installerade dbx versionen kör du dbx --version. Om du vill installera dbx från Python Package Index (PyPI) kör pip install dbx du eller python -m pip install dbx. (dbx inkluderar dbx-synkronisering.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Kommentar

    Mer information om finns i dbx by Databricks Labs och dbx-dokumentationen.dbx

  • Databricks CLI version 0.18 eller senare, konfigurerad med autentisering. Det äldre Databricks CLI (Databricks CLI version 0.17) installeras automatiskt när du installerar dbx. Den här autentiseringen kan konfigureras på din lokala utvecklingsdator på en eller båda av följande platser:

    • DATABRICKS_HOST I miljövariablerna och DATABRICKS_TOKEN (börjar med äldre Databricks CLI-version 0.8.0).
    • I en Azure Databricks-konfigurationsprofil i filen.databrickscfg.

    dbx söker efter autentiseringsuppgifter på dessa två platser. dbx använder endast den första uppsättningen matchande autentiseringsuppgifter som hittas.

    Kommentar

    Om du använder en .databrickscfg fil dbx sync letar du i den här filen efter en konfigurationsprofil med namnet DEFAULT som standard. Om du vill ange en annan profil använder --profile du alternativet när du kör dbx sync kommandot senare i den här artikeln.

    dbx stöder inte användning av en .netrc-fil för autentisering.

  • Om du vill använda dbx sync med Databricks Git-mappar föreslås en lokal klon av lagringsplatsen med Git-providern, även om den inte behövs. Om du vill utföra en lokal klon läser du git-providerns dokumentation.

Använda DBFS med dbx sync

  1. Från terminalen eller PowerShell på den lokala utvecklingsdatorn ändrar du till katalogen som innehåller de filer som du vill synkronisera till DBFS på din Azure Databricks-arbetsyta.

  2. Kör kommandot dbx sync för att synkronisera din lokala katalog med DBFS på din arbetsyta enligt följande. (Glöm inte punkten (.) i slutet, som representerar din aktuella katalog.)

    dbx sync dbfs --source .
    

    Dricks

    Om du vill ange en annan källkatalog ersätter du punkten (.) med en annan sökväg.

    Kommentar

    Om felet Error: No such command 'sync' visas är installationen troligen dbx inaktuell. Åtgärda detta genom att köra pip install --upgrade dbx==<version> eller python -m pip install --upgrade dbx==version, där <version> är den senaste versionen av dbx. Det här versionsnumret finns på PyPI-webbsidan för dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync börjar synkronisera filer i din aktuella lokala katalog med filer i följande DBFS-sökväg på din arbetsyta. dbx sync bekräftar detta genom att skriva ut Target base path följt av DBFS-sökvägen, till exempel:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Dricks

    Om du vill ange ett annat användarnamn eller en annan DBFS-sökväg anger --user du alternativen och --dest när du kör dbx sync.

  4. Gör ändringar i dina lokala filer efter behov.

    Viktigt!

    Du måste hålla terminalen eller PowerShell öppen för dbx sync att kunna fortsätta synkronisera. Om du stänger terminalen eller PowerShell dbx sync slutar du att titta efter filändringar och slutar synkronisera. Om du vill återuppta filändringssynkroniseringen upprepar du den här proceduren från början.

  5. Vid behov kontrollerar du filändringarna i föregående sökväg i DBFS på din arbetsyta.

Använda Databricks Git-mappar med dbx sync

  1. Från terminalen eller PowerShell på den lokala utvecklingsdatorn ändrar du till den rotkatalog som innehåller klonen av lagringsplatsen med git-providern.

  2. I din Azure Databricks-arbetsyta identifierar du namnet på den Databricks Git-mapp som du vill synkronisera din lokala klonade lagringsplats till. Du hittar det här lagringsplatsens namn genom att klicka på Git-mappar i arbetsytans sidofält.

  3. På den lokala utvecklingsdatorn kör du kommandot dbx sync för att synkronisera din lokala klonade lagringsplats till Databricks Git-mapparna på din arbetsyta på följande sätt och ersätt <your-repo-name> med namnet på lagringsplatsen i Databricks Git-mappar. (Glöm inte punkten (.) i slutet, som representerar din aktuella katalog.)

    dbx sync repo -d <your-repo-name> --source .
    

    Dricks

    Om du vill ange en annan källkatalog ersätter du punkten (.) med en annan sökväg.

    Kommentar

    Om felet Error: No such command 'sync' visas är installationen troligen dbx inaktuell. Åtgärda detta genom att köra pip install --upgrade dbx==<version> eller python -m pip install --upgrade dbx==version, där <version> är den senaste versionen av dbx. Det här versionsnumret finns på PyPI-webbsidan för dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync börjar synkronisera filer i din lokala klonade lagringsplats med filer i Databricks Git-mappar på din arbetsyta. dbx sync bekräftar detta genom att skriva ut Target base path följt av Sökvägen till Databricks Git-mappar, till exempel:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Dricks

    Om du vill ange ett annat användarnamn eller lagringsplatsnamn anger --user du alternativen och --dest-repo när du kör dbx sync.

  5. Gör ändringar i dina lokala filer efter behov.

    Viktigt!

    Du måste hålla terminalen eller PowerShell öppen för dbx sync att kunna fortsätta synkronisera. Om du stänger terminalen eller PowerShell dbx sync slutar du att titta efter filändringar och slutar synkronisera. Om du vill återuppta filändringssynkroniseringen upprepar du den här proceduren från början.

  6. Kontrollera vid behov dina filändringar i Databricks Git-mappar på din arbetsyta.

Ytterligare resurser