Použití dbx k synchronizaci místních souborů se vzdálenými pracovními prostory v reálném čase
Důležité
Tato dokumentace byla vyřazena a nemusí být aktualizována.
Databricks doporučuje dbx sync
místo použití rozhraní příkazového řádku Databricks verze 0.205 nebo vyšší, která zahrnuje funkce podobné dbx sync
příkazu databricks sync
.
Rozšíření Databricks pro Visual Studio Code také obsahuje funkce podobné dbx sync
integrované do integrovaného vývojového prostředí editoru Visual Studio Code. Všimněte si, že dbx sync
můžete synchronizovat změny souborů z místního vývojového počítače do složek DBFS, umístění pracovních prostorů a Gitu Databricks ve vašich pracovních prostorech Azure Databricks. Rozšíření Databricks pro Visual Studio Code podporuje synchronizaci změn souborů pouze u uživatelských souborů pracovního/Users
prostoru a složek Git Databricks (/Repos
).
Poznámka:
Tento článek se zabývá dbx
službou Databricks Labs, která je poskytována tak, jak je, a databricks ji nepodporuje prostřednictvím kanálů technické podpory zákazníků. Dotazy a žádosti o funkce je možné sdělit na stránce Problémy úložiště databrickslabs/dbx na GitHubu.
Synchronizaci změn souborů na místním vývojovém počítači můžete provádět v reálném čase s odpovídajícími soubory v pracovních prostorech Azure Databricks pomocí dbx v Databricks Labs. Tyto soubory pracovního prostoru můžou být ve složkách DBFS nebo Databricks Git.
Synchronizace souborů v reálném čase s dbx
(označovanými také jako dbx sync
) je užitečná ve scénářích rychlého vývoje kódu. Můžete například použít místní integrované vývojové prostředí (IDE) pro funkce produktivity, jako je zvýrazňování syntaxe, dokončování inteligentního kódu, lintování kódu a testování a ladění. Pak můžete přejít okamžitě do svého pracovního prostoru a spustit aktualizovaný kód.
Můžete použít samostatně, s automatizovanými úlohami nebo s integrovaným vývojovém prostředím ( IDE).dbx sync
dbx sync
vývojové pracovní postupy
Existují dva vývojové pracovní postupy pro dbx sync
, jeden s DBFS a druhý se složkami Databricks Git.
Typický vývojový pracovní postup se systémem dbx sync
souborů DBFS je:
- Identifikujte místní adresář obsahující soubory, které chcete synchronizovat s DBFS.
- Určete cestu v systému souborů DBFS, se kterou se má místní adresář synchronizovat (nebo nechte
dbx sync
vytvořit výchozí cestu DBFS za vás). - Spusťte
dbx sync dbfs
synchronizaci místního adresáře s cestou DBFS.dbx sync
začne sledovat změny souborů v místním adresáři. - Podle potřeby proveďte změny souborů v místním adresáři.
dbx sync
tyto změny použije v odpovídajících souborech v cestě DBFS v reálném čase.
Typický pracovní postup vývoje se složkami dbx sync
Git a Databricks je:
- Pokud úložiště ještě nemáte k dispozici, vytvořte úložiště s poskytovatelem Gitu, který podporuje složky Databricks Git.
- Naklonujte úložiště do pracovního prostoru Azure Databricks.
- Naklonujte úložiště do místního vývojového počítače.
- Spuštěním přidružte
dbx sync repo
místní klonované úložiště k naklonovanému úložišti pracovního prostoru.dbx sync
začne sledovat změny souborů v místním adresáři. - Podle potřeby proveďte změny souborů v místním naklonovaném úložišti.
dbx sync
tyto změny použije v odpovídajících souborech ve složkách Gitu Databricks v reálném čase. - Pravidelně odsílejte aktualizované soubory z klonovaného úložiště ve vašem pracovním prostoru poskytovateli Gitu, aby úložiště zůstalo aktuální u vašeho poskytovatele Gitu.
Důležité
dbx sync
Provádí pouze jednosměrnou synchronizaci změn souborů v reálném čase z místního vývojového počítače do vzdáleného pracovního prostoru. Proto Databricks nedoporučuje inicializovat změny v pracovním prostoru Azure Databricks na soubory, které jsou monitorovány dbx sync
. Pokud musíte provést takové změny souboru iniciovaného pracovním prostorem, musíte také provést následující akce:
- U změn souborů v DBFS proveďte odpovídající změny místních souborů ručně.
- U změn souborů ve složkách Git Databricks nasdílejte změny souboru z vašeho pracovního prostoru poskytovateli Gitu. Potom na místním vývojovém počítači stáhněte tyto změny souboru od svého poskytovatele Gitu.
Požadavky
Pokud chcete používat dbx sync
složky Git Databricks, váš pracovní prostor Azure Databricks musí splňovat následující požadavek:
- Doporučujeme klon vašeho úložiště s vaším poskytovatelem Gitu, i když není potřeba.
Na místním počítači pro vývoj musíte mít nainstalovanou následující:
Python verze 3.8 nebo vyšší Pokud chcete zkontrolovat, jestli je Python nainstalovaný a jestli chcete zkontrolovat nainstalovanou verzi Pythonu, spusťte
python --version
ho v terminálu nebo PowerShellu.python --version
Poznámka:
Některé instalace
python
mohou vyžadovat, abyste místopython3
python
. Pokud ano, nahraďtepython
python3
ho v celém tomto článku.pip. Pokud chcete zkontrolovat, jestli
pip
je nainstalovaná a jestli chcete zkontrolovat nainstalovanoupip
verzi, spusťtepip --version
nebopython -m pip --version
.pip --version # Or... python -m pip --version
Poznámka:
Některé instalace
pip
mohou vyžadovat, abyste místopip3
pip
. Pokud ano, nahraďtepip
pip3
ho v celém tomto článku.dbx verze 0.8.0 nebo vyšší. Pokud chcete zkontrolovat, jestli
dbx
je nainstalovaná a jestli chcete zkontrolovat nainstalovanoudbx
verzi, spusťtedbx --version
příkaz .dbx
Instalaci z indexu balíčků Pythonu (PyPI) spusťtepip install dbx
nebopython -m pip install dbx
. (dbx
zahrnuje synchronizaci dbx.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
Poznámka:
Další informace najdete v
dbx
tématu dbx by Databricks Labs a dokumentace dbx.Rozhraní příkazového řádku Databricks verze 0.18 nebo novější je nastavené s ověřováním. Starší verze Rozhraní příkazového řádku Databricks (Rozhraní příkazového řádku Databricks verze 0.17) se při instalaci
dbx
nainstaluje automaticky . Toto ověřování můžete nastavit na místním vývojovém počítači v jednom nebo obou následujících umístěních:DATABRICKS_HOST
V rámci proměnných prostředí aDATABRICKS_TOKEN
proměnných prostředí (počínaje starší verzí Rozhraní příkazového řádku Databricks verze 0.8.0)- V konfiguračním profilu Azure Databricks v souboru
.databrickscfg
.
dbx
hledá přihlašovací údaje pro ověřování v těchto dvou umístěních.dbx
používá pouze první sadu odpovídajících přihlašovacích údajů, které najde.Poznámka:
Pokud používáte
.databrickscfg
soubor,dbx sync
vyhledá v tomto souboru konfigurační profil s názvemDEFAULT
ve výchozím nastavení. Pokud chcete zadat jiný profil, použijte--profile
při spuštěnídbx sync
příkazu možnost dále v tomto článku.dbx
nepodporuje použití souboru .netrc pro ověřování.Pokud chcete použít
dbx sync
se složkami Databricks Git, doporučuje se místní klon úložiště s vaším poskytovatelem Gitu, i když to není nutné. Pokud chcete provést místní klon, projděte si dokumentaci poskytovatele Gitu.
Použití DBFS s dbx sync
V terminálu nebo PowerShellu na místním vývojovém počítači přejděte do adresáře, který obsahuje soubory, které chcete synchronizovat do DBFS v pracovním prostoru Azure Databricks.
Spuštěním příkazu dbx sync synchronizujte místní adresář s DBFS ve vašem pracovním prostoru následujícím způsobem. (Nezapomeňte na tečku (
.
) na konci, která představuje váš aktuální adresář.)dbx sync dbfs --source .
Tip
Pokud chcete zadat jiný zdrojový adresář, nahraďte tečku (
.
) jinou cestou.Poznámka:
Pokud se zobrazí chyba
Error: No such command 'sync'
, instalacedbx
pravděpodobně není aktuální. Chcete-li tento problém vyřešit, spusťtepip install --upgrade dbx==<version>
nebopython -m pip install --upgrade dbx==version
, kde<version>
je nejnovější verzedbx
. Toto číslo verze najdete na webové stránce PyPI pro dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
začne synchronizovat soubory v aktuálním místním adresáři se soubory v následující cestě DBFS ve vašem pracovním prostoru.dbx sync
potvrdí to tiskemTarget base path
následovaným cestou DBFS, například:/tmp/users/<your-Databricks-username>/<local-directory-name>
Tip
Chcete-li zadat jiné uživatelské jméno nebo cestu DBFS, zadejte
--user
a--dest
možnosti, v uvedeném pořadí, když spustítedbx sync
.Podle potřeby proveďte změny místních souborů.
Důležité
Abyste mohli pokračovat v synchronizaci, musíte mít terminál nebo PowerShell otevřený
dbx sync
. Pokud terminál nebo PowerShell zavřete,dbx sync
přestane sledovat změny souborů a přestane se synchronizovat. Pokud chcete obnovit synchronizaci změn souborů, opakujte tento postup od začátku.Podle potřeby ověřte změny souboru v předchozí cestě v DBFS ve vašem pracovním prostoru.
Použití složek Git Databricks s dbx sync
V terminálu nebo PowerShellu na místním vývojovém počítači přejděte do kořenového adresáře, který obsahuje klon úložiště s vaším poskytovatelem Gitu.
V pracovním prostoru Azure Databricks identifikujte název složky Databricks Git, do které chcete synchronizovat místní klonované úložiště. Název tohoto úložiště najdete kliknutím na složky Gitu na bočním panelu pracovního prostoru.
Na místním vývojovém počítači spusťte příkaz dbx sync , který synchronizuje místní naklonované úložiště do složek Git Databricks ve vašem pracovním prostoru následujícím způsobem a nahraďte
<your-repo-name>
názvem úložiště ve složkách Git Databricks. (Nezapomeňte na tečku (.
) na konci, která představuje váš aktuální adresář.)dbx sync repo -d <your-repo-name> --source .
Tip
Pokud chcete zadat jiný zdrojový adresář, nahraďte tečku (
.
) jinou cestou.Poznámka:
Pokud se zobrazí chyba
Error: No such command 'sync'
, instalacedbx
pravděpodobně není aktuální. Chcete-li tento problém vyřešit, spusťtepip install --upgrade dbx==<version>
nebopython -m pip install --upgrade dbx==version
, kde<version>
je nejnovější verzedbx
. Toto číslo verze najdete na webové stránce PyPI pro dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
začne synchronizovat soubory v místním naklonovaném úložišti se soubory ve složkách Databricks Git ve vašem pracovním prostoru.dbx sync
potvrdí to tiskemTarget base path
následovaným cestou ke složkám Gitu Databricks, například:/Repos/<your-Databricks-username>/<your-repo-name>
Tip
Chcete-li zadat jiné uživatelské jméno nebo název úložiště, zadejte a
--user
--dest-repo
možnosti, v uvedeném pořadí, když spustítedbx sync
.Podle potřeby proveďte změny místních souborů.
Důležité
Abyste mohli pokračovat v synchronizaci, musíte mít terminál nebo PowerShell otevřený
dbx sync
. Pokud terminál nebo PowerShell zavřete,dbx sync
přestane sledovat změny souborů a přestane se synchronizovat. Pokud chcete obnovit synchronizaci změn souborů, opakujte tento postup od začátku.Podle potřeby ověřte změny souboru ve složkách Databricks Git ve vašem pracovním prostoru.