Dbx gebruiken om lokale bestanden te synchroniseren met externe werkruimten in realtime
Belangrijk
Deze documentatie is buiten gebruik gesteld en wordt mogelijk niet bijgewerkt.
Databricks raadt aan dat u in plaats van dbx sync
de Databricks CLI versie 0.205 of hoger gebruikt, die functionaliteit bevat die vergelijkbaar is met dbx sync
de databricks sync
opdracht.
De Databricks-extensie voor Visual Studio Code bevat ook functionaliteit die vergelijkbaar is met dbx sync
geïntegreerd in de Visual Studio Code IDE. Houd er rekening mee dat dbx sync
u bestandswijzigingen van een lokale ontwikkelcomputer kunt synchroniseren met DBFS, werkruimtelocaties en Databricks Git-mappen in uw Azure Databricks-werkruimten. De Databricks-extensie voor Visual Studio Code ondersteunt het synchroniseren van bestandswijzigingen alleen naar werkruimtegebruikersbestanden (/Users
) en Databricks Git-mappen (/Repos
).
Notitie
In dit artikel wordt beschreven dbx
door Databricks Labs, dat als zodanig wordt aangeboden en niet wordt ondersteund door Databricks via de technische ondersteuningskanalen van klanten. Vragen en functieaanvragen kunnen worden gecommuniceerd via de pagina Problemen van de databrickslabs/dbx-opslagplaats op GitHub.
U kunt realtime synchronisatie uitvoeren van wijzigingen in bestanden op uw lokale ontwikkelcomputer met de bijbehorende bestanden in uw Azure Databricks-werkruimten met behulp van dbx door Databricks Labs. Deze werkruimtebestanden kunnen zich in DBFS of in Git-mappen van Databricks bevinden.
Realtime bestandssynchronisatie met dbx
(ook wel bekend als dbx sync
) is handig in scenario's voor snelle codeontwikkeling. U kunt bijvoorbeeld een lokale IDE (Integrated Development Environment) gebruiken voor productiviteitsfuncties, zoals syntaxismarkering, voltooiing van slimme code, codelining en testen en foutopsporing. U kunt vervolgens direct naar uw werkruimte gaan en uw bijgewerkte code uitvoeren.
U kunt zelfstandig, met geautomatiseerde taken of met een IDE gebruikendbx sync
.
dbx sync
ontwikkelwerkstromen
Er zijn twee ontwikkelwerkstromen voor dbx sync
, één met DBFS en een met Databricks Git-mappen.
De typische ontwikkelwerkstroom met dbx sync
DBFS is:
- Identificeer een lokale map die de bestanden bevat die u wilt synchroniseren met DBFS.
- Identificeer het pad in DBFS waarmee u uw lokale directory wilt synchroniseren (of laat
dbx sync
een standaard DBFS-pad voor u maken). - Voer deze opdracht uit
dbx sync dbfs
om uw lokale map te synchroniseren met het DBFS-pad.dbx sync
begint met het bekijken van uw lokale map voor bestandswijzigingen. - Breng indien nodig wijzigingen aan in bestanden in uw lokale map.
dbx sync
past deze wijzigingen in realtime toe op de bijbehorende bestanden in het DBFS-pad.
De typische ontwikkelwerkstroom met dbx sync
en Databricks Git-mappen is:
- Maak een opslagplaats met een Git-provider die door Databricks Git-mappen wordt ondersteund als u nog geen opslagplaats hebt.
- Kloon uw opslagplaats naar uw Azure Databricks-werkruimte.
- Kloon uw opslagplaats naar uw lokale ontwikkelcomputer.
- Voer deze
dbx sync repo
opdracht uit om uw lokale gekloonde opslagplaats te koppelen aan de gekloonde opslagplaats van uw werkruimte.dbx sync
begint met het bekijken van uw lokale map voor bestandswijzigingen. - Breng indien nodig wijzigingen aan in bestanden in uw lokale gekloonde opslagplaats.
dbx sync
past deze wijzigingen toe op de bijbehorende bestanden in Databricks Git-mappen in realtime. - Push regelmatig bijgewerkte bestanden van de gekloonde opslagplaats in uw werkruimte naar uw Git-provider, zodat de opslagplaats up-to-date blijft met uw Git-provider.
Belangrijk
dbx sync
alleen eenrichtingssynchronisatie in realtime van bestandswijzigingen van uw lokale ontwikkelcomputer naar uw externe werkruimte uitvoert. Daarom raadt Databricks niet aan dat u wijzigingen in uw Azure Databricks-werkruimte initieert in bestanden die worden bewaakt door dbx sync
. Als u dergelijke door de werkruimte geïnitieerde bestandswijzigingen moet aanbrengen, moet u ook het volgende doen:
- Voor bestandswijzigingen in DBFS moet u de bijbehorende wijzigingen handmatig aanbrengen in de lokale bestanden.
- Voor bestandswijzigingen in Databricks Git-mappen pusht u de bestandswijzigingen van uw werkruimte naar uw Git-provider. Haal deze bestandswijzigingen vervolgens op uw lokale ontwikkelcomputer op bij uw Git-provider.
Vereisten
Als u wilt gebruiken dbx sync
met Databricks Git-mappen, moet uw Azure Databricks-werkruimte aan de volgende vereisten voldoen:
- Een kloon van uw opslagplaats met uw Git-provider, terwijl dit niet vereist is, wordt voorgesteld.
Op uw lokale ontwikkelcomputer moet het volgende zijn geïnstalleerd:
Python versie 3.8 of hoger. Als u wilt controleren of Python is geïnstalleerd en om de geïnstalleerde Python-versie te controleren, voert u deze uit
python --version
in uw terminal of PowerShell.python --version
Notitie
Voor sommige installaties is
python
het mogelijk dat u deze moet gebruikenpython3
in plaats vanpython
. Zo ja, vervangpython
python3
dit dan door dit artikel.pip. Als u wilt controleren of
pip
deze is geïnstalleerd en om de geïnstalleerdepip
versie te controleren, voert u deze uitpip --version
of .python -m pip --version
pip --version # Or... python -m pip --version
Notitie
Voor sommige installaties is
pip
het mogelijk dat u deze moet gebruikenpip3
in plaats vanpip
. Zo ja, vervangpip
pip3
dit dan door dit artikel.dbx versie 0.8.0 of hoger. Als u wilt controleren of
dbx
deze is geïnstalleerd en om de geïnstalleerdedbx
versie te controleren, voert u de opdracht uitdbx --version
. Als u wilt installerendbx
vanuit de Python Package Index (PyPI), voertpip install dbx
u uit ofpython -m pip install dbx
. (dbx
bevat dbx-synchronisatie.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
Notitie
Zie dbx van Databricks Labs en de dbx-documentatie voor meer informatie.
dbx
De Databricks CLI versie 0.18 of lager, ingesteld met verificatie. De verouderde Databricks CLI (Databricks CLI versie 0.17) wordt automatisch geïnstalleerd wanneer u deze installeert
dbx
. Deze verificatie kan worden ingesteld op uw lokale ontwikkelcomputer op een of beide van de volgende locaties:- Binnen de
DATABRICKS_HOST
enDATABRICKS_TOKEN
omgevingsvariabelen (te beginnen met verouderde Databricks CLI versie 0.8.0). - In een Azure Databricks-configuratieprofiel in uw
.databrickscfg
bestand.
dbx
zoekt respectievelijk naar verificatiereferenties op deze twee locaties.dbx
gebruikt alleen de eerste set overeenkomende referenties die worden gevonden.Notitie
Als u een
.databrickscfg
bestand gebruikt,dbx sync
zoekt u in dit bestand standaard naar een configuratieprofiel met de naamDEFAULT
. Als u een ander profiel wilt opgeven, gebruikt u de--profile
optie wanneer u dedbx sync
opdracht uitvoert, verderop in dit artikel.dbx
biedt geen ondersteuning voor het gebruik van een .netrc-bestand voor verificatie.- Binnen de
Als u wilt gebruiken
dbx sync
met Databricks Git-mappen, wordt een lokale kloon van uw opslagplaats bij uw Git-provider voorgesteld, terwijl dit niet vereist is. Raadpleeg de documentatie van uw Git-provider om een lokale kloon uit te voeren.
DBFS gebruiken met dbx sync
Ga vanuit de terminal of PowerShell op uw lokale ontwikkelcomputer naar de map met de bestanden die u wilt synchroniseren met DBFS in uw Azure Databricks-werkruimte.
Voer de dbx-synchronisatieopdracht uit om uw lokale map als volgt te synchroniseren met DBFS in uw werkruimte. (Vergeet de punt (
.
) aan het einde, die uw huidige map vertegenwoordigt.)dbx sync dbfs --source .
Tip
Als u een andere bronmap wilt opgeven, vervangt u de punt (
.
) door een ander pad.Notitie
Als de fout
Error: No such command 'sync'
wordt weergegeven, is de installatiedbx
waarschijnlijk verouderd. U kunt dit oplossen door uit te voerenpip install --upgrade dbx==<version>
of , waar<version>
is de nieuwste versie vandbx
python -m pip install --upgrade dbx==version
. Dit versienummer vindt u op de PyPI-webpagina voor dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
begint met het synchroniseren van bestanden in uw huidige lokale map met bestanden in het volgende DBFS-pad in uw werkruimte.dbx sync
bevestigt dit door af te drukkenTarget base path
gevolgd door het DBFS-pad, bijvoorbeeld:/tmp/users/<your-Databricks-username>/<local-directory-name>
Tip
Als u een andere gebruikersnaam of DBFS-pad wilt opgeven, geeft u respectievelijk de
--user
en--dest
opties op wanneer u deze uitvoertdbx sync
.Breng indien nodig wijzigingen aan in uw lokale bestanden.
Belangrijk
U moet uw terminal of PowerShell geopend houden om
dbx sync
door te gaan met synchroniseren. Als u de terminal of PowerShell sluit,dbx sync
wordt niet meer gecontroleerd op bestandswijzigingen en wordt de synchronisatie gestopt. Als u de synchronisatie van bestandswijziging wilt hervatten, herhaalt u deze procedure vanaf het begin.Controleer indien nodig of het bestand in het voorgaande pad in DBFS in uw werkruimte verandert.
Databricks Git-mappen gebruiken met dbx sync
Ga vanuit de terminal of PowerShell op uw lokale ontwikkelcomputer naar de hoofdmap die de kloon van de opslagplaats met uw Git-provider bevat.
Identificeer in uw Azure Databricks-werkruimte de naam van de Databricks Git-map waarnaar u de lokale gekloonde opslagplaats wilt synchroniseren. U vindt deze opslagplaatsnaam door te klikken op Git-mappen in de zijbalk van uw werkruimte.
Voer op uw lokale ontwikkelcomputer de dbx-synchronisatieopdracht uit om uw lokale gekloonde opslagplaats als volgt te synchroniseren met de Databricks Git-mappen in uw werkruimte, waarbij u
<your-repo-name>
de naam van uw opslagplaats in Databricks Git-mappen vervangt. (Vergeet de punt (.
) aan het einde, die uw huidige map vertegenwoordigt.)dbx sync repo -d <your-repo-name> --source .
Tip
Als u een andere bronmap wilt opgeven, vervangt u de punt (
.
) door een ander pad.Notitie
Als de fout
Error: No such command 'sync'
wordt weergegeven, is de installatiedbx
waarschijnlijk verouderd. U kunt dit oplossen door uit te voerenpip install --upgrade dbx==<version>
of , waar<version>
is de nieuwste versie vandbx
python -m pip install --upgrade dbx==version
. Dit versienummer vindt u op de PyPI-webpagina voor dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
begint met het synchroniseren van bestanden in uw lokale gekloonde opslagplaats met bestanden in Databricks Git-mappen in uw werkruimte.dbx sync
bevestigt dit door af te drukkenTarget base path
gevolgd door het Pad naar Databricks Git-mappen, bijvoorbeeld:/Repos/<your-Databricks-username>/<your-repo-name>
Tip
Als u een andere gebruikersnaam of opslagplaatsnaam wilt opgeven, geeft u respectievelijk de
--user
en--dest-repo
opties op wanneer u deze uitvoertdbx sync
.Breng indien nodig wijzigingen aan in uw lokale bestanden.
Belangrijk
U moet uw terminal of PowerShell geopend houden om
dbx sync
door te gaan met synchroniseren. Als u de terminal of PowerShell sluit,dbx sync
wordt niet meer gecontroleerd op bestandswijzigingen en wordt de synchronisatie gestopt. Als u de synchronisatie van bestandswijziging wilt hervatten, herhaalt u deze procedure vanaf het begin.Controleer waar nodig uw bestandswijzigingen in Databricks Git-mappen in uw werkruimte.