Sdílet prostřednictvím


Použití dbx k synchronizaci místních souborů se vzdálenými pracovními prostory v reálném čase

Důležité

Tato dokumentace byla vyřazena a nemusí být aktualizována.

Databricks doporučuje dbx syncmísto použití rozhraní příkazového řádku Databricks verze 0.205 nebo vyšší, která zahrnuje funkce podobné dbx sync příkazu databricks sync .

Rozšíření Databricks pro Visual Studio Code také obsahuje funkce podobné dbx sync integrované do integrovaného vývojového prostředí editoru Visual Studio Code. Všimněte si, že dbx sync můžete synchronizovat změny souborů z místního vývojového počítače do složek DBFS, umístění pracovních prostorů a Gitu Databricks ve vašich pracovních prostorech Azure Databricks. Rozšíření Databricks pro Visual Studio Code podporuje synchronizaci změn souborů pouze u uživatelských souborů pracovního/Users prostoru a složek Git Databricks (/Repos).

Poznámka:

Tento článek se zabývá dbx službou Databricks Labs, která je poskytována tak, jak je, a databricks ji nepodporuje prostřednictvím kanálů technické podpory zákazníků. Dotazy a žádosti o funkce je možné sdělit na stránce Problémy úložiště databrickslabs/dbx na GitHubu.

Synchronizaci změn souborů na místním vývojovém počítači můžete provádět v reálném čase s odpovídajícími soubory v pracovních prostorech Azure Databricks pomocí dbx v Databricks Labs. Tyto soubory pracovního prostoru můžou být ve složkách DBFS nebo Databricks Git.

Synchronizace souborů v reálném čase s dbx (označovanými také jako dbx sync) je užitečná ve scénářích rychlého vývoje kódu. Můžete například použít místní integrované vývojové prostředí (IDE) pro funkce produktivity, jako je zvýrazňování syntaxe, dokončování inteligentního kódu, lintování kódu a testování a ladění. Pak můžete přejít okamžitě do svého pracovního prostoru a spustit aktualizovaný kód.

Můžete použít samostatně, s automatizovanými úlohami nebo s integrovaným vývojovém prostředím ( IDE).dbx sync

dbx sync vývojové pracovní postupy

Existují dva vývojové pracovní postupy pro dbx sync, jeden s DBFS a druhý se složkami Databricks Git.

Typický vývojový pracovní postup se systémem dbx sync souborů DBFS je:

  1. Identifikujte místní adresář obsahující soubory, které chcete synchronizovat s DBFS.
  2. Určete cestu v systému souborů DBFS, se kterou se má místní adresář synchronizovat (nebo nechte dbx sync vytvořit výchozí cestu DBFS za vás).
  3. Spusťte dbx sync dbfs synchronizaci místního adresáře s cestou DBFS. dbx sync začne sledovat změny souborů v místním adresáři.
  4. Podle potřeby proveďte změny souborů v místním adresáři. dbx sync tyto změny použije v odpovídajících souborech v cestě DBFS v reálném čase.

Typický pracovní postup vývoje se složkami dbx sync Git a Databricks je:

  1. Pokud úložiště ještě nemáte k dispozici, vytvořte úložiště s poskytovatelem Gitu, který podporuje složky Databricks Git.
  2. Naklonujte úložiště do pracovního prostoru Azure Databricks.
  3. Naklonujte úložiště do místního vývojového počítače.
  4. Spuštěním přidružte dbx sync repo místní klonované úložiště k naklonovanému úložišti pracovního prostoru. dbx sync začne sledovat změny souborů v místním adresáři.
  5. Podle potřeby proveďte změny souborů v místním naklonovaném úložišti. dbx sync tyto změny použije v odpovídajících souborech ve složkách Gitu Databricks v reálném čase.
  6. Pravidelně odsílejte aktualizované soubory z klonovaného úložiště ve vašem pracovním prostoru poskytovateli Gitu, aby úložiště zůstalo aktuální u vašeho poskytovatele Gitu.

Důležité

dbx sync Provádí pouze jednosměrnou synchronizaci změn souborů v reálném čase z místního vývojového počítače do vzdáleného pracovního prostoru. Proto Databricks nedoporučuje inicializovat změny v pracovním prostoru Azure Databricks na soubory, které jsou monitorovány dbx sync. Pokud musíte provést takové změny souboru iniciovaného pracovním prostorem, musíte také provést následující akce:

  • U změn souborů v DBFS proveďte odpovídající změny místních souborů ručně.
  • U změn souborů ve složkách Git Databricks nasdílejte změny souboru z vašeho pracovního prostoru poskytovateli Gitu. Potom na místním vývojovém počítači stáhněte tyto změny souboru od svého poskytovatele Gitu.

Požadavky

Pokud chcete používat dbx sync složky Git Databricks, váš pracovní prostor Azure Databricks musí splňovat následující požadavek:

  • Doporučujeme klon vašeho úložiště s vaším poskytovatelem Gitu, i když není potřeba.

Na místním počítači pro vývoj musíte mít nainstalovanou následující:

  • Python verze 3.8 nebo vyšší Pokud chcete zkontrolovat, jestli je Python nainstalovaný a jestli chcete zkontrolovat nainstalovanou verzi Pythonu, spusťte python --version ho v terminálu nebo PowerShellu.

    python --version
    

    Poznámka:

    Některé instalace python mohou vyžadovat, abyste místo python3 python. Pokud ano, nahraďte python python3 ho v celém tomto článku.

  • pip. Pokud chcete zkontrolovat, jestli pip je nainstalovaná a jestli chcete zkontrolovat nainstalovanou pip verzi, spusťte pip --version nebo python -m pip --version.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Poznámka:

    Některé instalace pip mohou vyžadovat, abyste místo pip3 pip. Pokud ano, nahraďte pip pip3 ho v celém tomto článku.

  • dbx verze 0.8.0 nebo vyšší. Pokud chcete zkontrolovat, jestli dbx je nainstalovaná a jestli chcete zkontrolovat nainstalovanou dbx verzi, spusťte dbx --versionpříkaz . dbx Instalaci z indexu balíčků Pythonu (PyPI) spusťte pip install dbx nebo python -m pip install dbx. (dbx zahrnuje synchronizaci dbx.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Poznámka:

    Další informace najdete v dbxtématu dbx by Databricks Labs a dokumentace dbx.

  • Rozhraní příkazového řádku Databricks verze 0.18 nebo novější je nastavené s ověřováním. Starší verze Rozhraní příkazového řádku Databricks (Rozhraní příkazového řádku Databricks verze 0.17) se při instalaci dbxnainstaluje automaticky . Toto ověřování můžete nastavit na místním vývojovém počítači v jednom nebo obou následujících umístěních:

    • DATABRICKS_HOST V rámci proměnných prostředí a DATABRICKS_TOKEN proměnných prostředí (počínaje starší verzí Rozhraní příkazového řádku Databricks verze 0.8.0)
    • V konfiguračním profilu Azure Databricks v souboru.databrickscfg.

    dbx hledá přihlašovací údaje pro ověřování v těchto dvou umístěních. dbx používá pouze první sadu odpovídajících přihlašovacích údajů, které najde.

    Poznámka:

    Pokud používáte .databrickscfg soubor, dbx sync vyhledá v tomto souboru konfigurační profil s názvem DEFAULT ve výchozím nastavení. Pokud chcete zadat jiný profil, použijte --profile při spuštění dbx sync příkazu možnost dále v tomto článku.

    dbx nepodporuje použití souboru .netrc pro ověřování.

  • Pokud chcete použít dbx sync se složkami Databricks Git, doporučuje se místní klon úložiště s vaším poskytovatelem Gitu, i když to není nutné. Pokud chcete provést místní klon, projděte si dokumentaci poskytovatele Gitu.

Použití DBFS s dbx sync

  1. V terminálu nebo PowerShellu na místním vývojovém počítači přejděte do adresáře, který obsahuje soubory, které chcete synchronizovat do DBFS v pracovním prostoru Azure Databricks.

  2. Spuštěním příkazu dbx sync synchronizujte místní adresář s DBFS ve vašem pracovním prostoru následujícím způsobem. (Nezapomeňte na tečku (.) na konci, která představuje váš aktuální adresář.)

    dbx sync dbfs --source .
    

    Tip

    Pokud chcete zadat jiný zdrojový adresář, nahraďte tečku (.) jinou cestou.

    Poznámka:

    Pokud se zobrazí chyba Error: No such command 'sync' , instalace dbx pravděpodobně není aktuální. Chcete-li tento problém vyřešit, spusťte pip install --upgrade dbx==<version> nebo python -m pip install --upgrade dbx==version, kde <version> je nejnovější verze dbx. Toto číslo verze najdete na webové stránce PyPI pro dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync začne synchronizovat soubory v aktuálním místním adresáři se soubory v následující cestě DBFS ve vašem pracovním prostoru. dbx sync potvrdí to tiskem Target base path následovaným cestou DBFS, například:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Tip

    Chcete-li zadat jiné uživatelské jméno nebo cestu DBFS, zadejte --user a --dest možnosti, v uvedeném pořadí, když spustíte dbx sync.

  4. Podle potřeby proveďte změny místních souborů.

    Důležité

    Abyste mohli pokračovat v synchronizaci, musíte mít terminál nebo PowerShell otevřený dbx sync . Pokud terminál nebo PowerShell zavřete, dbx sync přestane sledovat změny souborů a přestane se synchronizovat. Pokud chcete obnovit synchronizaci změn souborů, opakujte tento postup od začátku.

  5. Podle potřeby ověřte změny souboru v předchozí cestě v DBFS ve vašem pracovním prostoru.

Použití složek Git Databricks s dbx sync

  1. V terminálu nebo PowerShellu na místním vývojovém počítači přejděte do kořenového adresáře, který obsahuje klon úložiště s vaším poskytovatelem Gitu.

  2. V pracovním prostoru Azure Databricks identifikujte název složky Databricks Git, do které chcete synchronizovat místní klonované úložiště. Název tohoto úložiště najdete kliknutím na složky Gitu na bočním panelu pracovního prostoru.

  3. Na místním vývojovém počítači spusťte příkaz dbx sync , který synchronizuje místní naklonované úložiště do složek Git Databricks ve vašem pracovním prostoru následujícím způsobem a nahraďte <your-repo-name> názvem úložiště ve složkách Git Databricks. (Nezapomeňte na tečku (.) na konci, která představuje váš aktuální adresář.)

    dbx sync repo -d <your-repo-name> --source .
    

    Tip

    Pokud chcete zadat jiný zdrojový adresář, nahraďte tečku (.) jinou cestou.

    Poznámka:

    Pokud se zobrazí chyba Error: No such command 'sync' , instalace dbx pravděpodobně není aktuální. Chcete-li tento problém vyřešit, spusťte pip install --upgrade dbx==<version> nebo python -m pip install --upgrade dbx==version, kde <version> je nejnovější verze dbx. Toto číslo verze najdete na webové stránce PyPI pro dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync začne synchronizovat soubory v místním naklonovaném úložišti se soubory ve složkách Databricks Git ve vašem pracovním prostoru. dbx sync potvrdí to tiskem Target base path následovaným cestou ke složkám Gitu Databricks, například:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Tip

    Chcete-li zadat jiné uživatelské jméno nebo název úložiště, zadejte a --user --dest-repo možnosti, v uvedeném pořadí, když spustíte dbx sync.

  5. Podle potřeby proveďte změny místních souborů.

    Důležité

    Abyste mohli pokračovat v synchronizaci, musíte mít terminál nebo PowerShell otevřený dbx sync . Pokud terminál nebo PowerShell zavřete, dbx sync přestane sledovat změny souborů a přestane se synchronizovat. Pokud chcete obnovit synchronizaci změn souborů, opakujte tento postup od začátku.

  6. Podle potřeby ověřte změny souboru ve složkách Databricks Git ve vašem pracovním prostoru.

Další materiály