Synchronizowanie plików lokalnych za pomocą narzędzia dbx z zdalnymi obszarami roboczymi w czasie rzeczywistym
Ważne
Ta dokumentacja została wycofana i może nie zostać zaktualizowana.
Usługa Databricks zaleca, aby zamiast dbx sync
programu używać interfejsu wiersza polecenia usługi Databricks w wersji 0.205 lub nowszej, co obejmuje funkcje podobne do databricks sync
dbx sync
poleceń.
Rozszerzenie usługi Databricks dla programu Visual Studio Code zawiera również funkcje podobne do dbx sync
zintegrowanego ze środowiskiem IDE programu Visual Studio Code. Należy pamiętać, że dbx sync
można synchronizować zmiany plików z lokalnej maszyny deweloperów do systemu plików DBFS, lokalizacji obszarów roboczych i folderów Git usługi Databricks w obszarach roboczych usługi Azure Databricks. Rozszerzenie usługi Databricks dla programu Visual Studio Code obsługuje synchronizowanie zmian plików tylko z plikami użytkownika obszaru roboczego (/Users
) i folderami Git usługi Databricks (/Repos
).
Uwaga
W tym artykule omówiono dbx
usługę Databricks Labs, która jest dostarczana zgodnie z oczekiwaniami i nie jest obsługiwana przez usługę Databricks za pośrednictwem kanałów pomocy technicznej klienta. Pytania i żądania funkcji można przekazać za pośrednictwem strony Problemy repozytorium databrickslabs/dbx w usłudze GitHub.
Synchronizację zmian w czasie rzeczywistym można przeprowadzić na lokalnej maszynie dewelopera z odpowiednimi plikami w obszarach roboczych usługi Azure Databricks przy użyciu narzędzia dbx firmy Databricks Labs. Te pliki obszaru roboczego mogą znajdować się w systemie plików DBFS lub w folderach Git usługi Databricks.
Synchronizacja plików w czasie rzeczywistym ( dbx
znana również jako dbx sync
) jest przydatna w scenariuszach szybkiego tworzenia kodu. Na przykład możesz użyć lokalnego zintegrowanego środowiska projektowego (IDE) do obsługi funkcji zwiększających produktywność, takich jak wyróżnianie składni, inteligentne uzupełnianie kodu, linting kodu oraz testowanie i debugowanie. Następnie możesz natychmiast przejść do obszaru roboczego i uruchomić zaktualizowany kod.
Można używać samodzielniedbx sync
, z automatycznymi zadaniami lub ze środowiskiem IDE.
dbx sync
przepływy pracy programowania
Istnieją dwa przepływy pracy programistyczne dla dbx sync
programu , jeden z systemem plików DBFS, a drugi z folderami Git usługi Databricks.
Typowy przepływ pracy programowania z systemami dbx sync
DBFS to:
- Zidentyfikuj katalog lokalny zawierający pliki, które chcesz zsynchronizować z systemami DBFS.
- Zidentyfikuj ścieżkę w systemie plików DBFS, z którą chcesz zsynchronizować katalog lokalny (lub pozwól
dbx sync
utworzyć domyślną ścieżkę systemu plików DBFS). - Uruchom polecenie
dbx sync dbfs
, aby zsynchronizować katalog lokalny ze ścieżką systemu plików DBFS.dbx sync
rozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku. - W razie potrzeby wprowadź zmiany w plikach w katalogu lokalnym.
dbx sync
stosuje te zmiany do odpowiednich plików w ścieżce systemu plików DBFS w czasie rzeczywistym.
Typowy przepływ pracy programowania z folderami dbx sync
Git usługi Databricks to:
- Utwórz repozytorium za pomocą dostawcy git obsługiwanego przez foldery Git usługi Databricks, jeśli nie masz już dostępnego repozytorium.
- Sklonuj repozytorium do obszaru roboczego usługi Azure Databricks.
- Sklonuj repozytorium na lokalną maszynę deweloperów.
- Uruchom polecenie
dbx sync repo
, aby skojarzyć sklonowane repozytorium lokalne z sklonowanym repozytorium obszaru roboczego.dbx sync
rozpoczyna oglądanie katalogu lokalnego pod kątem wszelkich zmian w pliku. - Wprowadź zmiany w plikach w lokalnym sklonowanym repozytorium zgodnie z potrzebami.
dbx sync
stosuje te zmiany do odpowiednich plików w folderach Git usługi Databricks w czasie rzeczywistym. - Okresowo wypychaj zaktualizowane pliki z sklonowanego repozytorium w obszarze roboczym do dostawcy usługi Git, aby repozytorium było aktualne u dostawcy usługi Git.
Ważne
dbx sync
Wykonuje tylko jednokierunkową synchronizację zmian plików z lokalnej maszyny deweloperów do zdalnego obszaru roboczego w czasie rzeczywistym. W związku z tym usługa Databricks nie zaleca inicjowania zmian w obszarze roboczym usługi Azure Databricks do plików monitorowanych przez dbx sync
usługę . Jeśli musisz wprowadzić takie zmiany w pliku inicjowane przez obszar roboczy, należy również wykonać następujące czynności:
- W przypadku zmian plików w systemie plików DBFS wprowadź odpowiednie zmiany w plikach lokalnych ręcznie.
- W przypadku zmian plików w folderach Usługi Git usługi Databricks wypchnij zmiany plików z obszaru roboczego do dostawcy usługi Git. Następnie na lokalnej maszynie deweloperów pobierz te zmiany z dostawcy usługi Git.
Wymagania
Jeśli chcesz używać z dbx sync
folderami Git usługi Databricks, obszar roboczy usługi Azure Databricks musi spełniać następujące wymagania:
- Sugerowane jest sklonowanie repozytorium z dostawcą usługi Git, choć nie jest to wymagane.
Na lokalnej maszynie deweloperów musisz mieć zainstalowane następujące elementy:
Środowisko Python w wersji 3.8 lub nowszej. Aby sprawdzić, czy język Python jest zainstalowany, i sprawdzić zainstalowaną wersję języka Python, uruchom polecenie
python --version
w terminalu lub programie PowerShell.python --version
Uwaga
Niektóre instalacje
python
programu mogą wymagać użyciapython3
programu zamiastpython
. Jeśli tak, zastąp ciąg ciągiempython
python3
w całym tym artykule.. Aby sprawdzić, czy
pip
jest zainstalowana, i sprawdzić zainstalowanąpip
wersję, uruchom poleceniepip --version
lubpython -m pip --version
.pip --version # Or... python -m pip --version
Uwaga
Niektóre instalacje
pip
programu mogą wymagać użyciapip3
programu zamiastpip
. Jeśli tak, zastąp ciąg ciągiempip
pip3
w całym tym artykule.dbx w wersji 0.8.0 lub nowszej. Aby sprawdzić, czy
dbx
jest zainstalowana, i sprawdzić zainstalowanądbx
wersję, uruchom poleceniedbx --version
. Aby zainstalować zdbx
poziomu indeksu pakietów języka Python (PyPI), uruchom poleceniepip install dbx
lubpython -m pip install dbx
. (dbx
obejmuje synchronizację dbx).# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
Uwaga
Aby uzyskać więcej informacji na temat
dbx
usługi , zobacz dbx by Databricks Labs i dokumentację dbx.Interfejs wiersza polecenia usługi Databricks w wersji 0.18 lub nowszej jest skonfigurowany przy użyciu uwierzytelniania. Starszy interfejs wiersza polecenia usługi Databricks (interfejs wiersza polecenia usługi Databricks w wersji 0.17) jest instalowany automatycznie podczas instalacji
dbx
programu . To uwierzytelnianie można skonfigurować na lokalnej maszynie deweloperów w jednej lub obu następujących lokalizacjach:DATABRICKS_HOST
W zmiennych środowiskowych iDATABRICKS_TOKEN
(począwszy od starszej wersji interfejsu wiersza polecenia usługi Databricks w wersji 0.8.0).- W profilu konfiguracji usługi Azure Databricks w pliku
.databrickscfg
.
dbx
szuka poświadczeń uwierzytelniania w tych dwóch lokalizacjach odpowiednio.dbx
używa tylko pierwszego zestawu pasujących poświadczeń, które znajdzie.Uwaga
Jeśli używasz
.databrickscfg
pliku,dbx sync
domyślnie wyszukuje w tym pliku profil konfiguracji o nazwieDEFAULT
. Aby określić inny profil, użyj--profile
opcji podczas uruchamianiadbx sync
polecenia w dalszej części tego artykułu.dbx
program nie obsługuje używania pliku .netrc do uwierzytelniania.Jeśli chcesz używać
dbx sync
z folderami Usługi Git usługi Databricks, sugerowane jest lokalne klonowanie repozytorium u dostawcy usługi Git, choć nie jest to wymagane. Aby wykonać klon lokalny, zapoznaj się z dokumentacją dostawcy usługi Git.
Używanie systemu plików DBFS z dbx sync
Z poziomu terminalu lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu zawierającego pliki, które chcesz zsynchronizować z systemem plików DBFS w obszarze roboczym usługi Azure Databricks.
Uruchom polecenie dbx sync, aby zsynchronizować katalog lokalny z systemem plików DBFS w obszarze roboczym w następujący sposób. (Nie zapomnij o kropki (
.
) na końcu, która reprezentuje bieżący katalog.dbx sync dbfs --source .
Napiwek
Aby określić inny katalog źródłowy, zastąp kropkę (
.
) inną ścieżką.Uwaga
Jeśli wystąpi błąd
Error: No such command 'sync'
, instalacjadbx
prawdopodobnie nie jest aktualna. Aby rozwiązać ten problem, uruchom poleceniepip install --upgrade dbx==<version>
lub , gdzie<version>
jest najnowszą wersją programudbx
python -m pip install --upgrade dbx==version
. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
Rozpoczyna synchronizowanie plików w bieżącym katalogu lokalnym z plikami w następującej ścieżce systemu plików DBFS w obszarze roboczym.dbx sync
potwierdza to, drukującTarget base path
, a następnie ścieżkę systemu plików DBFS, na przykład:/tmp/users/<your-Databricks-username>/<local-directory-name>
Napiwek
Aby określić inną nazwę użytkownika lub ścieżkę systemu plików DBFS, określ
--user
odpowiednio opcje i--dest
po uruchomieniu poleceniadbx sync
.Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.
Ważne
Aby kontynuować synchronizowanie, musisz zachować otwarty
dbx sync
terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell,dbx sync
zatrzymasz obserwowanie zmian plików i zatrzyma synchronizację. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.W razie potrzeby zweryfikuj zmiany pliku w poprzedniej ścieżce w systemie plików DBFS w obszarze roboczym.
Używanie folderów Git usługi Databricks z usługą dbx sync
Z poziomu terminalu lub programu PowerShell na lokalnym komputerze deweloperskim przejdź do katalogu głównego zawierającego klon repozytorium za pomocą dostawcy usługi Git.
W obszarze roboczym usługi Azure Databricks zidentyfikuj nazwę folderu Usługi Git usługi Databricks, z którym chcesz zsynchronizować lokalne sklonowane repozytorium. Tę nazwę repozytorium można znaleźć, klikając pozycję Foldery Git na pasku bocznym obszaru roboczego.
Na lokalnej maszynie deweloperów uruchom polecenie dbx sync , aby zsynchronizować lokalne sklonowane repozytorium do folderów Git usługi Databricks w obszarze roboczym w następujący sposób, zastępując
<your-repo-name>
ciąg nazwą repozytorium w folderach Git usługi Databricks. (Nie zapomnij o kropki (.
) na końcu, która reprezentuje bieżący katalog.dbx sync repo -d <your-repo-name> --source .
Napiwek
Aby określić inny katalog źródłowy, zastąp kropkę (
.
) inną ścieżką.Uwaga
Jeśli wystąpi błąd
Error: No such command 'sync'
, instalacjadbx
prawdopodobnie nie jest aktualna. Aby rozwiązać ten problem, uruchom poleceniepip install --upgrade dbx==<version>
lub , gdzie<version>
jest najnowszą wersją programudbx
python -m pip install --upgrade dbx==version
. Ten numer wersji można znaleźć na stronie internetowej PyPI dla dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
Rozpoczyna synchronizowanie plików w lokalnym sklonowanym repozytorium za pomocą plików w folderach Git usługi Databricks w obszarze roboczym.dbx sync
potwierdza to, drukującTarget base path
, a następnie ścieżkę folderów Git usługi Databricks, na przykład:/Repos/<your-Databricks-username>/<your-repo-name>
Napiwek
Aby określić inną nazwę użytkownika lub nazwę repozytorium, określ
--user
odpowiednio opcje i--dest-repo
po uruchomieniu poleceniadbx sync
.Wprowadź zmiany w plikach lokalnych zgodnie z potrzebami.
Ważne
Aby kontynuować synchronizowanie, musisz zachować otwarty
dbx sync
terminal lub program PowerShell. Jeśli zamkniesz terminal lub program PowerShell,dbx sync
zatrzymasz obserwowanie zmian plików i zatrzyma synchronizację. Aby wznowić synchronizację zmian plików, powtórz tę procedurę od początku.W razie potrzeby zweryfikuj zmiany plików w folderach Git usługi Databricks w obszarze roboczym.