Använda dbx för att synkronisera lokala filer med fjärrarbetsytor i realtid
Viktigt!
Den här dokumentationen har dragits tillbaka och kanske inte uppdateras.
Databricks rekommenderar att du i stället för dbx sync
använder Databricks CLI-versionerna 0.205 eller senare, som innehåller funktioner som liknar dbx sync
med databricks sync
kommandot .
Databricks-tillägget för Visual Studio Code innehåller även funktioner som liknar dbx sync
integrerade i Visual Studio Code IDE. Observera att dbx sync
kan synkronisera filändringar från en lokal utvecklingsdator till DBFS-, arbetsyteplatser och Databricks Git-mappar på dina Azure Databricks-arbetsytor. Databricks-tillägget för Visual Studio Code stöder synkronisering av filändringar endast till arbetsyteanvändarfiler (/Users
) och Databricks Git-mappar (/Repos
).
Kommentar
Den här artikeln beskrivs dbx
av Databricks Labs, som tillhandahålls som den är och inte stöds av Databricks via kundens tekniska supportkanaler. Frågor och funktionsförfrågningar kan kommuniceras via sidan Problem på databrickslabs/dbx-lagringsplatsen på GitHub.
Du kan utföra realtidssynkronisering av ändringar i filer på den lokala utvecklingsdatorn med motsvarande filer på dina Azure Databricks-arbetsytor med hjälp av dbx by Databricks Labs. Dessa arbetsytefiler kan finnas i DBFS eller i Databricks Git-mappar.
Filsynkronisering i realtid med dbx
(kallas dbx sync
även ) är användbart i snabba scenarier för kodutveckling. Du kan till exempel använda en lokal integrerad utvecklingsmiljö (IDE) för produktivitetsfunktioner som syntaxmarkering, smart kodkomplettering, kodlintning och testning och felsökning. Du kan sedan gå direkt till din arbetsyta och köra den uppdaterade koden.
Du kan använda dbx sync
själv, med automatiserade jobb eller med en IDE.
dbx sync
arbetsflöden för utveckling
Det finns två utvecklingsarbetsflöden för dbx sync
, ett med DBFS och ett annat med Databricks Git-mappar.
Det typiska utvecklingsarbetsflödet med dbx sync
och DBFS är:
- Identifiera en lokal katalog som innehåller de filer som du vill synkronisera med DBFS.
- Identifiera sökvägen i DBFS som du vill att din lokala katalog ska synkroniseras med (eller låt
dbx sync
skapa en standard-DBFS-sökväg åt dig). - Kör
dbx sync dbfs
för att synkronisera din lokala katalog med DBFS-sökvägen.dbx sync
börjar titta på din lokala katalog för eventuella filändringar. - Gör ändringar i filer i din lokala katalog efter behov.
dbx sync
tillämpar dessa ändringar på motsvarande filer i DBFS-sökvägen i realtid.
Det typiska arbetsflödet för utveckling med dbx sync
och Databricks Git-mappar är:
- Skapa en lagringsplats med en Git-provider som Databricks Git-mappar stöder, om du inte redan har en tillgänglig lagringsplats.
- Klona lagringsplatsen till din Azure Databricks-arbetsyta.
- Klona lagringsplatsen till din lokala utvecklingsdator.
- Kör
dbx sync repo
för att associera din lokala klonade lagringsplats med din klonade lagringsplats för arbetsytan.dbx sync
börjar titta på din lokala katalog för eventuella filändringar. - Gör ändringar i filer i din lokala klonade lagringsplats efter behov.
dbx sync
tillämpar dessa ändringar på motsvarande filer i Databricks Git-mappar i realtid. - Skicka regelbundet uppdaterade filer från den klonade lagringsplatsen på din arbetsyta till Git-providern, så att lagringsplatsen håller sig uppdaterad med git-providern.
Viktigt!
dbx sync
utför endast enkelriktad synkronisering i realtid av filändringar från din lokala utvecklingsdator till fjärrarbetsytan. Databricks rekommenderar därför inte att du initierar ändringar i Din Azure Databricks-arbetsyta till filer som övervakas av dbx sync
. Om du måste göra sådana arbetsyteinitierade filändringar måste du också göra följande:
- För filändringar i DBFS gör du motsvarande ändringar i de lokala filerna manuellt.
- För filändringar i Databricks Git-mappar skickar du filändringarna från din arbetsyta till Git-providern. Hämta sedan filändringarna från Git-providern på den lokala utvecklingsdatorn.
Krav
Om du vill använda dbx sync
med Databricks Git-mappar måste din Azure Databricks-arbetsyta uppfylla följande krav:
- En klon av lagringsplatsen med Git-providern föreslås, även om den inte behövs.
På den lokala utvecklingsdatorn måste du ha följande installerat:
Python version 3.8 eller senare. Om du vill kontrollera om Python är installerat och kontrollera din installerade Python-version kör du
python --version
i terminalen eller PowerShell.python --version
Kommentar
Vissa installationer av
python
kan kräva att du använderpython3
i ställetpython
för . I så fall ersätter dupython
medpython3
i den här artikeln.pip. Om du vill kontrollera om
pip
är installerad och för att kontrollera den installeradepip
versionen körpip --version
du ellerpython -m pip --version
.pip --version # Or... python -m pip --version
Kommentar
Vissa installationer av
pip
kan kräva att du använderpip3
i ställetpip
för . I så fall ersätter dupip
medpip3
i den här artikeln.dbx version 0.8.0 eller senare. Om du vill kontrollera om
dbx
är installerat och kontrollera den installeradedbx
versionen kör dudbx --version
. Om du vill installeradbx
från Python Package Index (PyPI) körpip install dbx
du ellerpython -m pip install dbx
. (dbx
inkluderar dbx-synkronisering.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
Kommentar
Mer information om finns i dbx by Databricks Labs och dbx-dokumentationen.
dbx
Databricks CLI version 0.18 eller senare, konfigurerad med autentisering. Det äldre Databricks CLI (Databricks CLI version 0.17) installeras automatiskt när du installerar
dbx
. Den här autentiseringen kan konfigureras på din lokala utvecklingsdator på en eller båda av följande platser:DATABRICKS_HOST
I miljövariablerna ochDATABRICKS_TOKEN
(börjar med äldre Databricks CLI-version 0.8.0).- I en Azure Databricks-konfigurationsprofil i filen
.databrickscfg
.
dbx
söker efter autentiseringsuppgifter på dessa två platser.dbx
använder endast den första uppsättningen matchande autentiseringsuppgifter som hittas.Kommentar
Om du använder en
.databrickscfg
fildbx sync
letar du i den här filen efter en konfigurationsprofil med namnetDEFAULT
som standard. Om du vill ange en annan profil använder--profile
du alternativet när du kördbx sync
kommandot senare i den här artikeln.dbx
stöder inte användning av en .netrc-fil för autentisering.Om du vill använda
dbx sync
med Databricks Git-mappar föreslås en lokal klon av lagringsplatsen med Git-providern, även om den inte behövs. Om du vill utföra en lokal klon läser du git-providerns dokumentation.
Använda DBFS med dbx sync
Från terminalen eller PowerShell på den lokala utvecklingsdatorn ändrar du till katalogen som innehåller de filer som du vill synkronisera till DBFS på din Azure Databricks-arbetsyta.
Kör kommandot dbx sync för att synkronisera din lokala katalog med DBFS på din arbetsyta enligt följande. (Glöm inte punkten (
.
) i slutet, som representerar din aktuella katalog.)dbx sync dbfs --source .
Dricks
Om du vill ange en annan källkatalog ersätter du punkten (
.
) med en annan sökväg.Kommentar
Om felet
Error: No such command 'sync'
visas är installationen troligendbx
inaktuell. Åtgärda detta genom att körapip install --upgrade dbx==<version>
ellerpython -m pip install --upgrade dbx==version
, där<version>
är den senaste versionen avdbx
. Det här versionsnumret finns på PyPI-webbsidan för dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
börjar synkronisera filer i din aktuella lokala katalog med filer i följande DBFS-sökväg på din arbetsyta.dbx sync
bekräftar detta genom att skriva utTarget base path
följt av DBFS-sökvägen, till exempel:/tmp/users/<your-Databricks-username>/<local-directory-name>
Dricks
Om du vill ange ett annat användarnamn eller en annan DBFS-sökväg anger
--user
du alternativen och--dest
när du kördbx sync
.Gör ändringar i dina lokala filer efter behov.
Viktigt!
Du måste hålla terminalen eller PowerShell öppen för
dbx sync
att kunna fortsätta synkronisera. Om du stänger terminalen eller PowerShelldbx sync
slutar du att titta efter filändringar och slutar synkronisera. Om du vill återuppta filändringssynkroniseringen upprepar du den här proceduren från början.Vid behov kontrollerar du filändringarna i föregående sökväg i DBFS på din arbetsyta.
Använda Databricks Git-mappar med dbx sync
Från terminalen eller PowerShell på den lokala utvecklingsdatorn ändrar du till den rotkatalog som innehåller klonen av lagringsplatsen med git-providern.
I din Azure Databricks-arbetsyta identifierar du namnet på den Databricks Git-mapp som du vill synkronisera din lokala klonade lagringsplats till. Du hittar det här lagringsplatsens namn genom att klicka på Git-mappar i arbetsytans sidofält.
På den lokala utvecklingsdatorn kör du kommandot dbx sync för att synkronisera din lokala klonade lagringsplats till Databricks Git-mapparna på din arbetsyta på följande sätt och ersätt
<your-repo-name>
med namnet på lagringsplatsen i Databricks Git-mappar. (Glöm inte punkten (.
) i slutet, som representerar din aktuella katalog.)dbx sync repo -d <your-repo-name> --source .
Dricks
Om du vill ange en annan källkatalog ersätter du punkten (
.
) med en annan sökväg.Kommentar
Om felet
Error: No such command 'sync'
visas är installationen troligendbx
inaktuell. Åtgärda detta genom att körapip install --upgrade dbx==<version>
ellerpython -m pip install --upgrade dbx==version
, där<version>
är den senaste versionen avdbx
. Det här versionsnumret finns på PyPI-webbsidan för dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
börjar synkronisera filer i din lokala klonade lagringsplats med filer i Databricks Git-mappar på din arbetsyta.dbx sync
bekräftar detta genom att skriva utTarget base path
följt av Sökvägen till Databricks Git-mappar, till exempel:/Repos/<your-Databricks-username>/<your-repo-name>
Dricks
Om du vill ange ett annat användarnamn eller lagringsplatsnamn anger
--user
du alternativen och--dest-repo
när du kördbx sync
.Gör ändringar i dina lokala filer efter behov.
Viktigt!
Du måste hålla terminalen eller PowerShell öppen för
dbx sync
att kunna fortsätta synkronisera. Om du stänger terminalen eller PowerShelldbx sync
slutar du att titta efter filändringar och slutar synkronisera. Om du vill återuppta filändringssynkroniseringen upprepar du den här proceduren från början.Kontrollera vid behov dina filändringar i Databricks Git-mappar på din arbetsyta.