Delen via


Dbx gebruiken om lokale bestanden te synchroniseren met externe werkruimten in realtime

Belangrijk

Deze documentatie is buiten gebruik gesteld en wordt mogelijk niet bijgewerkt.

Databricks raadt aan dat u in plaats van dbx syncde Databricks CLI versie 0.205 of hoger gebruikt, die functionaliteit bevat die vergelijkbaar is met dbx sync de databricks sync opdracht.

De Databricks-extensie voor Visual Studio Code bevat ook functionaliteit die vergelijkbaar is met dbx sync geïntegreerd in de Visual Studio Code IDE. Houd er rekening mee dat dbx sync u bestandswijzigingen van een lokale ontwikkelcomputer kunt synchroniseren met DBFS, werkruimtelocaties en Databricks Git-mappen in uw Azure Databricks-werkruimten. De Databricks-extensie voor Visual Studio Code ondersteunt het synchroniseren van bestandswijzigingen alleen naar werkruimtegebruikersbestanden (/Users) en Databricks Git-mappen (/Repos).

Notitie

In dit artikel wordt beschreven dbx door Databricks Labs, dat als zodanig wordt aangeboden en niet wordt ondersteund door Databricks via de technische ondersteuningskanalen van klanten. Vragen en functieaanvragen kunnen worden gecommuniceerd via de pagina Problemen van de databrickslabs/dbx-opslagplaats op GitHub.

U kunt realtime synchronisatie uitvoeren van wijzigingen in bestanden op uw lokale ontwikkelcomputer met de bijbehorende bestanden in uw Azure Databricks-werkruimten met behulp van dbx door Databricks Labs. Deze werkruimtebestanden kunnen zich in DBFS of in Git-mappen van Databricks bevinden.

Realtime bestandssynchronisatie met dbx (ook wel bekend als dbx sync) is handig in scenario's voor snelle codeontwikkeling. U kunt bijvoorbeeld een lokale IDE (Integrated Development Environment) gebruiken voor productiviteitsfuncties, zoals syntaxismarkering, voltooiing van slimme code, codelining en testen en foutopsporing. U kunt vervolgens direct naar uw werkruimte gaan en uw bijgewerkte code uitvoeren.

U kunt zelfstandig, met geautomatiseerde taken of met een IDE gebruikendbx sync.

dbx sync ontwikkelwerkstromen

Er zijn twee ontwikkelwerkstromen voor dbx sync, één met DBFS en een met Databricks Git-mappen.

De typische ontwikkelwerkstroom met dbx sync DBFS is:

  1. Identificeer een lokale map die de bestanden bevat die u wilt synchroniseren met DBFS.
  2. Identificeer het pad in DBFS waarmee u uw lokale directory wilt synchroniseren (of laat dbx sync een standaard DBFS-pad voor u maken).
  3. Voer deze opdracht uit dbx sync dbfs om uw lokale map te synchroniseren met het DBFS-pad. dbx sync begint met het bekijken van uw lokale map voor bestandswijzigingen.
  4. Breng indien nodig wijzigingen aan in bestanden in uw lokale map. dbx sync past deze wijzigingen in realtime toe op de bijbehorende bestanden in het DBFS-pad.

De typische ontwikkelwerkstroom met dbx sync en Databricks Git-mappen is:

  1. Maak een opslagplaats met een Git-provider die door Databricks Git-mappen wordt ondersteund als u nog geen opslagplaats hebt.
  2. Kloon uw opslagplaats naar uw Azure Databricks-werkruimte.
  3. Kloon uw opslagplaats naar uw lokale ontwikkelcomputer.
  4. Voer deze dbx sync repo opdracht uit om uw lokale gekloonde opslagplaats te koppelen aan de gekloonde opslagplaats van uw werkruimte. dbx sync begint met het bekijken van uw lokale map voor bestandswijzigingen.
  5. Breng indien nodig wijzigingen aan in bestanden in uw lokale gekloonde opslagplaats. dbx sync past deze wijzigingen toe op de bijbehorende bestanden in Databricks Git-mappen in realtime.
  6. Push regelmatig bijgewerkte bestanden van de gekloonde opslagplaats in uw werkruimte naar uw Git-provider, zodat de opslagplaats up-to-date blijft met uw Git-provider.

Belangrijk

dbx sync alleen eenrichtingssynchronisatie in realtime van bestandswijzigingen van uw lokale ontwikkelcomputer naar uw externe werkruimte uitvoert. Daarom raadt Databricks niet aan dat u wijzigingen in uw Azure Databricks-werkruimte initieert in bestanden die worden bewaakt door dbx sync. Als u dergelijke door de werkruimte geïnitieerde bestandswijzigingen moet aanbrengen, moet u ook het volgende doen:

  • Voor bestandswijzigingen in DBFS moet u de bijbehorende wijzigingen handmatig aanbrengen in de lokale bestanden.
  • Voor bestandswijzigingen in Databricks Git-mappen pusht u de bestandswijzigingen van uw werkruimte naar uw Git-provider. Haal deze bestandswijzigingen vervolgens op uw lokale ontwikkelcomputer op bij uw Git-provider.

Vereisten

Als u wilt gebruiken dbx sync met Databricks Git-mappen, moet uw Azure Databricks-werkruimte aan de volgende vereisten voldoen:

  • Een kloon van uw opslagplaats met uw Git-provider, terwijl dit niet vereist is, wordt voorgesteld.

Op uw lokale ontwikkelcomputer moet het volgende zijn geïnstalleerd:

  • Python versie 3.8 of hoger. Als u wilt controleren of Python is geïnstalleerd en om de geïnstalleerde Python-versie te controleren, voert u deze uit python --version in uw terminal of PowerShell.

    python --version
    

    Notitie

    Voor sommige installaties is python het mogelijk dat u deze moet gebruiken python3 in plaats van python. Zo ja, vervang python python3 dit dan door dit artikel.

  • pip. Als u wilt controleren of pip deze is geïnstalleerd en om de geïnstalleerde pip versie te controleren, voert u deze uit pip --version of .python -m pip --version

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Notitie

    Voor sommige installaties is pip het mogelijk dat u deze moet gebruiken pip3 in plaats van pip. Zo ja, vervang pip pip3 dit dan door dit artikel.

  • dbx versie 0.8.0 of hoger. Als u wilt controleren of dbx deze is geïnstalleerd en om de geïnstalleerde dbx versie te controleren, voert u de opdracht uit dbx --version. Als u wilt installeren dbx vanuit de Python Package Index (PyPI), voert pip install dbx u uit of python -m pip install dbx. (dbx bevat dbx-synchronisatie.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Notitie

    Zie dbx van Databricks Labs en de dbx-documentatie voor meer informatie.dbx

  • De Databricks CLI versie 0.18 of lager, ingesteld met verificatie. De verouderde Databricks CLI (Databricks CLI versie 0.17) wordt automatisch geïnstalleerd wanneer u deze installeert dbx. Deze verificatie kan worden ingesteld op uw lokale ontwikkelcomputer op een of beide van de volgende locaties:

    • Binnen de DATABRICKS_HOST en DATABRICKS_TOKEN omgevingsvariabelen (te beginnen met verouderde Databricks CLI versie 0.8.0).
    • In een Azure Databricks-configuratieprofiel in uw .databrickscfg bestand.

    dbx zoekt respectievelijk naar verificatiereferenties op deze twee locaties. dbx gebruikt alleen de eerste set overeenkomende referenties die worden gevonden.

    Notitie

    Als u een .databrickscfg bestand gebruikt, dbx sync zoekt u in dit bestand standaard naar een configuratieprofiel met de naam DEFAULT . Als u een ander profiel wilt opgeven, gebruikt u de --profile optie wanneer u de dbx sync opdracht uitvoert, verderop in dit artikel.

    dbx biedt geen ondersteuning voor het gebruik van een .netrc-bestand voor verificatie.

  • Als u wilt gebruiken dbx sync met Databricks Git-mappen, wordt een lokale kloon van uw opslagplaats bij uw Git-provider voorgesteld, terwijl dit niet vereist is. Raadpleeg de documentatie van uw Git-provider om een lokale kloon uit te voeren.

DBFS gebruiken met dbx sync

  1. Ga vanuit de terminal of PowerShell op uw lokale ontwikkelcomputer naar de map met de bestanden die u wilt synchroniseren met DBFS in uw Azure Databricks-werkruimte.

  2. Voer de dbx-synchronisatieopdracht uit om uw lokale map als volgt te synchroniseren met DBFS in uw werkruimte. (Vergeet de punt (.) aan het einde, die uw huidige map vertegenwoordigt.)

    dbx sync dbfs --source .
    

    Tip

    Als u een andere bronmap wilt opgeven, vervangt u de punt (.) door een ander pad.

    Notitie

    Als de fout Error: No such command 'sync' wordt weergegeven, is de installatie dbx waarschijnlijk verouderd. U kunt dit oplossen door uit te voeren pip install --upgrade dbx==<version> of , waar <version> is de nieuwste versie van dbxpython -m pip install --upgrade dbx==version. Dit versienummer vindt u op de PyPI-webpagina voor dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync begint met het synchroniseren van bestanden in uw huidige lokale map met bestanden in het volgende DBFS-pad in uw werkruimte. dbx sync bevestigt dit door af te drukken Target base path gevolgd door het DBFS-pad, bijvoorbeeld:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Tip

    Als u een andere gebruikersnaam of DBFS-pad wilt opgeven, geeft u respectievelijk de --user en --dest opties op wanneer u deze uitvoert dbx sync.

  4. Breng indien nodig wijzigingen aan in uw lokale bestanden.

    Belangrijk

    U moet uw terminal of PowerShell geopend houden om dbx sync door te gaan met synchroniseren. Als u de terminal of PowerShell sluit, dbx sync wordt niet meer gecontroleerd op bestandswijzigingen en wordt de synchronisatie gestopt. Als u de synchronisatie van bestandswijziging wilt hervatten, herhaalt u deze procedure vanaf het begin.

  5. Controleer indien nodig of het bestand in het voorgaande pad in DBFS in uw werkruimte verandert.

Databricks Git-mappen gebruiken met dbx sync

  1. Ga vanuit de terminal of PowerShell op uw lokale ontwikkelcomputer naar de hoofdmap die de kloon van de opslagplaats met uw Git-provider bevat.

  2. Identificeer in uw Azure Databricks-werkruimte de naam van de Databricks Git-map waarnaar u de lokale gekloonde opslagplaats wilt synchroniseren. U vindt deze opslagplaatsnaam door te klikken op Git-mappen in de zijbalk van uw werkruimte.

  3. Voer op uw lokale ontwikkelcomputer de dbx-synchronisatieopdracht uit om uw lokale gekloonde opslagplaats als volgt te synchroniseren met de Databricks Git-mappen in uw werkruimte, waarbij u <your-repo-name> de naam van uw opslagplaats in Databricks Git-mappen vervangt. (Vergeet de punt (.) aan het einde, die uw huidige map vertegenwoordigt.)

    dbx sync repo -d <your-repo-name> --source .
    

    Tip

    Als u een andere bronmap wilt opgeven, vervangt u de punt (.) door een ander pad.

    Notitie

    Als de fout Error: No such command 'sync' wordt weergegeven, is de installatie dbx waarschijnlijk verouderd. U kunt dit oplossen door uit te voeren pip install --upgrade dbx==<version> of , waar <version> is de nieuwste versie van dbxpython -m pip install --upgrade dbx==version. Dit versienummer vindt u op de PyPI-webpagina voor dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync begint met het synchroniseren van bestanden in uw lokale gekloonde opslagplaats met bestanden in Databricks Git-mappen in uw werkruimte. dbx sync bevestigt dit door af te drukken Target base path gevolgd door het Pad naar Databricks Git-mappen, bijvoorbeeld:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Tip

    Als u een andere gebruikersnaam of opslagplaatsnaam wilt opgeven, geeft u respectievelijk de --user en --dest-repo opties op wanneer u deze uitvoert dbx sync.

  5. Breng indien nodig wijzigingen aan in uw lokale bestanden.

    Belangrijk

    U moet uw terminal of PowerShell geopend houden om dbx sync door te gaan met synchroniseren. Als u de terminal of PowerShell sluit, dbx sync wordt niet meer gecontroleerd op bestandswijzigingen en wordt de synchronisatie gestopt. Als u de synchronisatie van bestandswijziging wilt hervatten, herhaalt u deze procedure vanaf het begin.

  6. Controleer waar nodig uw bestandswijzigingen in Databricks Git-mappen in uw werkruimte.

Aanvullende bronnen