Verwenden von dbx zum Synchronisieren lokaler Dateien mit Remotearbeitsbereichen in Echtzeit
Wichtig
Diese Dokumentation wurde eingestellt und wird unter Umständen nicht aktualisiert.
Databricks empfiehlt anstelle von dbx sync
die Verwendung der Databricks CLI-Versionen 0.205 oder höher, deren Funktionalität über den Befehl databricks sync
mit dbx sync
vergleichbar ist.
Die Databricks-Erweiterung für Visual Studio Code enthält ebenfalls Funktionen, die dbx sync
ähneln und in die Visual Studio Code-IDE integriert sind. Beachten Sie außerdem, dass dbx sync
Dateiänderungen von einem lokalen Entwicklungscomputer mit DBFS, Arbeitsbereichsspeicherorten undDatabricks Git-Ordnern in Ihren Azure Databricks-Arbeitsbereichen synchronisieren kann. Die Databricks-Erweiterung für Visual Studio Code unterstützt die Synchronisierung von Dateiänderungen nur für Benutzerdateien in Arbeitsbereichen (/Users
) und Databricks-Git-Ordnern (/Repos
).
Hinweis
Dieser Artikel behandelt dbx
von Databricks Labs, das so wie es ist bereitgestellt wird und nicht von Databricks über Kanäle des technischen Supports von Kunden unterstützt wird. Fragen und Funktionsanfragen können über die Seite Issues des databrickslabs/dbx-Repository auf GitHub mitgeteilt werden.
Sie können eine Echtzeitsynchronisierung von Änderungen an Dateien auf Ihrem lokalen Entwicklungscomputer mit den entsprechenden Dateien in Ihren Azure Databricks-Arbeitsbereichen durchführen, indem Sie dbx von Databricks Labs verwenden. Diese Arbeitsbereichs-Dateien können sich in DBFS oder in Databricks Git-Ordnern befinden.
Die Dateisynchronisierung in Echtzeit mit dbx
(auch bekannt als dbx sync
) ist in Szenarien für die schnelle Codeentwicklung nützlich. Sie können beispielsweise eine lokale integrierte Entwicklungsumgebung (IDE) für Produktivitätsfunktionen wie Syntaxhervorhebung, intelligente Codevervollständigung, Codelinting sowie Testen und Debuggen verwenden. Sie können dann sofort zu Ihrem Arbeitsbereich wechseln und Ihren aktualisierten Code ausführen.
Sie können dbx sync
allein, mit automatisierten Aufträge oder mit einer IDE verwenden.
dbx sync
Entwicklungsworkflows
Es gibt zwei Entwicklungsworkflows für dbx sync
, einen mit DBFS und einen mit Databricks Git-Ordnern.
Der typische Entwicklungsworkflow mit dbx sync
und DBFS ist:
- Identifizieren Sie ein lokales Verzeichnis, das die Dateien enthält, die Sie mit DBFS synchronisieren möchten.
- Identifizieren Sie den Pfad in DBFS, mit dem Ihr lokales Verzeichnis synchronisiert werden soll (oder lassen Sie
dbx sync
einen Standard-DBFS-Pfad für Sie erstellen). - Führen Sie
dbx sync dbfs
aus , um Ihr lokales Verzeichnis mit dem DBFS-Pfad zu synchronisieren.dbx sync
beginnt, Ihr lokales Verzeichnis auf Dateiänderungen zu überwachen. - Nehmen Sie nach Bedarf Änderungen an Dateien in Ihrem lokalen Verzeichnis vor.
dbx sync
wendet diese Änderungen in Echtzeit auf die entsprechenden Dateien im DBFS-Pfad an.
Der typische Entwicklungsworkflow mit dbx sync
und Databricks Git-Ordnern ist:
- Erstellen Sie ein Repository mit einem Git-Anbieter, der von Databricks Git-Ordnern unterstützt wird, wenn noch kein Repository verfügbar ist.
- Klonen Sie Ihr Repository in Ihren Azure Databricks-Workspace.
- Klonen Sie Ihr Repository in Ihren lokalen Entwicklungscomputer.
- Führen Sie
dbx sync repo
aus, um Ihr lokales kloniertes Repository mit dem klonierten Repository ihres Workspaces zu verknüpfen.dbx sync
beginnt, Ihr lokales Verzeichnis auf Dateiänderungen zu überwachen. - Nehmen Sie nach Bedarf Änderungen an Dateien in Ihrem lokalen geklonten Repository vor.
dbx sync
wendet diese Änderungen in Echtzeit auf die entsprechenden Dateien in Databricks Git-Ordnern an. - Pushen Sie regelmäßig aktualisierte Dateien aus dem geklonten Repository in Ihrem Workspace zu Ihrem Git-Anbieter, damit das Repository bei Ihrem Git-Anbieter auf dem neuesten Stand bleibt.
Wichtig
dbx sync
führt nur eine unidirektionale Echtzeitsynchronisierung von Dateiänderungen von Ihrem lokalen Entwicklungscomputer zu Ihrem Remote-Workspace durch. Daher empfiehlt Databricks nicht, dass Sie Änderungen in Ihrem Azure Databricks-Workspace an Dateien initiieren, die von dbx sync
überwacht werden. Wenn Sie solche vom Workspace initiierten Dateiänderungen vornehmen müssen, müssen Sie außerdem Folgendes tun:
- Nehmen Sie für Dateiänderungen in DBFS die entsprechenden Änderungen an den lokalen Dateien manuell vor.
- Pushen Sie für Dateiänderungen in Databricks Git-Ordnern die Dateiänderungen von Ihrem Arbeitsbereich an Ihren Git-Anbieter. Ziehen Sie dann auf Ihrem lokalen Entwicklungscomputer diese Dateiänderungen von Ihrem Git-Anbieter.
Anforderungen
Wenn Sie dbx sync
mit Databricks Git-Ordnern verwenden möchten, muss Ihr Azure Databricks-Arbeitsbereich die folgende Anforderung erfüllen:
- Ein Klon Ihres Repositorys bei Ihrem Git-Anbieter ist zwar nicht erforderlich, wird jedoch empfohlen.
Auf Ihrem lokalen Entwicklungscomputer muss Folgendes installiert sein:
Python (Version 3.8 oder höher) Um zu überprüfen, ob Python installiert ist, und um Ihre installierte Python-Version zu überprüfen, führen Sie
python --version
in Ihrem Terminal oder in PowerShell aus.python --version
Hinweis
Bei einigen Installationen von
python
müssen Sie möglicherweisepython3
anstelle vonpython
verwenden. Wenn ja, ersetzen Sie in diesem Artikelpython
durchpython3
.pip. Um zu überprüfen, ob
pip
installiert ist, und um Ihre installierte Versionpip
zu überprüfen, führen Siepip --version
oderpython -m pip --version
aus.pip --version # Or... python -m pip --version
Hinweis
Bei einigen Installationen von
pip
müssen Sie möglicherweisepip3
anstelle vonpip
verwenden. Wenn ja, ersetzen Sie in diesem Artikelpip
durchpip3
.dbx Version 0.8.0 oder höher. Um zu überprüfen, ob
dbx
installiert ist, und um Ihre installiertedbx
Version zu überprüfen, führen Siedbx --version
aus. Umdbx
aus dem Python-Paketindex (PyPI) zu installieren, führen Siepip install dbx
oderpython -m pip install dbx
aus. (dbx
enthält dbx sync.)# Check whether dbx is installed, and check its version. dbx --version # Install dbx. pip install dbx # Or... python -m pip install dbx
Hinweis
Weitere Informationen zu
dbx
finden Sie unter dbx von Databricks Labs und in der dbx-Dokumentation.Version 0.18 oder niedriger der Databricks-Befehlszeilenschnittstelle mit eingerichteter Authentifizierung. Die Legacyversion der Databricks CLI (Databricks CLI-Versionen 0.17) wird bei der Installation von
dbx
automatisch installiert. Diese Authentifizierung kann auf Ihrem lokalen Entwicklungscomputer in einem oder beiden der folgenden Speicherorte eingerichtet werden:- Innerhalb der Umgebungsvariablen
DATABRICKS_HOST
undDATABRICKS_TOKEN
(ab Databricks CLI-Legacyversion 0.8.0). - In einem Azure Databricks-Konfigurationsprofil in Ihrer
.databrickscfg
-Datei.
dbx
sucht an diesen beiden Speicherorten jeweils nach Anmeldeinformationen für die Authentifizierung.dbx
verwendet nur die erste Gruppe übereinstimmender Anmeldeinformationen, die es findet.Hinweis
Wenn Sie eine
.databrickscfg
-Datei verwenden, suchtdbx sync
standardmäßig in dieser Datei nach einem Konfigurationsprofil namensDEFAULT
. Um ein anderes Profil anzugeben, verwenden Sie die--profile
Option, wenn Sie dendbx sync
Befehl ausführen, später in diesem Artikel.dbx
unterstützt nicht die Verwendung einer .netrc-Datei zur Authentifizierung.- Innerhalb der Umgebungsvariablen
Wenn Sie
dbx sync
mit Databricks Git-Ordnern verwenden möchten, wird ein lokaler Klon Ihres Repositorys mit Ihrem Git-Anbieter vorgeschlagen, während sie nicht erforderlich ist. Informationen zum Ausführen eines lokalen Klons finden Sie in der Dokumentation Ihres Git-Anbieters.
Verwenden von DBFS mit dbx sync
Wechseln Sie vom Terminal oder PowerShell auf Ihrem lokalen Entwicklungscomputer in das Verzeichnis, das die Dateien enthält, die Sie mit DBFS in Ihrem Azure Databricks-Arbeitsbereich synchronisieren möchten.
Führen Sie den Befehl dbx sync aus, um Ihr lokales Verzeichnis wie folgt mit DBFS in Ihrem Workspace zu synchronisieren. (Vergessen Sie nicht den Punkt (
.
) am Ende, der Ihr aktuelles Verzeichnis darstellt.)dbx sync dbfs --source .
Tipp
Um ein anderes Quellverzeichnis anzugeben, ersetzen Sie den Punkt (
.
) durch einen anderen Pfad.Hinweis
Wenn der Fehler
Error: No such command 'sync'
angezeigt wird, ist Ihre Installation vondbx
wahrscheinlich veraltet. Um dies zu beheben, führenpip install --upgrade dbx==<version>
Sie oderpython -m pip install --upgrade dbx==version
aus, wobei<version>
die neueste Version vondbx
ist. Diese Versionsnummer finden Sie auf der PyPI-Webseite für dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
beginnt mit der Synchronisierung von Dateien in Ihrem aktuellen lokalen Verzeichnis mit Dateien im folgenden DBFS-Pfad in Ihrem Arbeitsbereich.dbx sync
bestätigt dies, indem esTarget base path
gefolgt vom DBFS-Pfad ausgibt, zum Beispiel:/tmp/users/<your-Databricks-username>/<local-directory-name>
Tipp
Um einen anderen Benutzernamen oder DBFS-Pfad anzugeben, geben Sie beim Ausführen von
dbx sync
die Optionen--user
bzw.--dest
an.Nehmen Sie bei Bedarf Änderungen an Ihren lokalen Dateien vor.
Wichtig
Sie müssen Ihr Terminal oder PowerShell geöffnet lassen, damit
dbx sync
mit der Synchronisierung fortfahren kann. Wenn Sie Ihr Terminal oder PowerShell schließen, überwachtdbx sync
nicht mehr auf Dateiänderungen und beendet die Synchronisierung. Wiederholen Sie diese Prozedur von Anfang an, um die Synchronisierung von Dateiänderungen fortzusetzen.Überprüfen Sie bei Bedarf Ihre Dateiänderungen im vorangehenden Pfad in DBFS in Ihrem Arbeitsbereich.
Verwenden von Git-Ordnern für Databricks mit dbx sync
Wechseln Sie vom Terminal oder PowerShell auf Ihrem lokalen Entwicklungscomputer in das Stammverzeichnis, das den Klon des Repositorys mit Ihrem Git-Anbieter enthält.
Identifizieren Sie in Ihrem Azure Databricks-Arbeitsbereich den Namen des Databricks Git Ordners, mit dem Sie Ihr lokal geklontes Repository synchronisieren möchten. Sie finden diesen Repositorynamen, indem Sie in der Seitenleiste Ihres Arbeitsbereichs auf Git Ordner klicken.
Führen Sie auf Ihrem lokalen Entwicklungscomputer den Befehl dbx sync aus, um Ihr lokales geklontes Repository wie folgt mit den Databricks-Repositorys in Ihrem Arbeitsbereich zu synchronisieren, und ersetzen Sie
<your-repo-name>
durch den Namen Ihres Repositorys in Databricks Git-Ordnern. (Vergessen Sie nicht den Punkt (.
) am Ende, der Ihr aktuelles Verzeichnis darstellt.)dbx sync repo -d <your-repo-name> --source .
Tipp
Um ein anderes Quellverzeichnis anzugeben, ersetzen Sie den Punkt (
.
) durch einen anderen Pfad.Hinweis
Wenn der Fehler
Error: No such command 'sync'
angezeigt wird, ist Ihre Installation vondbx
wahrscheinlich veraltet. Um dies zu beheben, führenpip install --upgrade dbx==<version>
Sie oderpython -m pip install --upgrade dbx==version
aus, wobei<version>
die neueste Version vondbx
ist. Diese Versionsnummer finden Sie auf der PyPI-Webseite für dbx.pip install --upgrade dbx==<version> # Or... python -m pip install --upgrade dbx==version
dbx sync
beginnt mit der Synchronisierung von Dateien in Ihrem lokalen geklonten Repository mit Dateien in Databricks Git-Ordnern in Ihrem Arbeitsbereich.dbx sync
bestätigt dies durch Drucken vonTarget base path
gefolgt vom Databricks Git-Ordner-Pfad, zum Beispiel:/Repos/<your-Databricks-username>/<your-repo-name>
Tipp
Um einen anderen Benutzernamen oder Repo-Namen anzugeben, geben Sie beim Ausführen von
dbx sync
die Optionen--user
bzw.--dest-repo
an.Nehmen Sie bei Bedarf Änderungen an Ihren lokalen Dateien vor.
Wichtig
Sie müssen Ihr Terminal oder PowerShell geöffnet lassen, damit
dbx sync
mit der Synchronisierung fortfahren kann. Wenn Sie Ihr Terminal oder PowerShell schließen, überwachtdbx sync
nicht mehr auf Dateiänderungen und beendet die Synchronisierung. Wiederholen Sie diese Prozedur von Anfang an, um die Synchronisierung von Dateiänderungen fortzusetzen.Überprüfen Sie bei Bedarf Ihre Dateiänderungen in Databricks Git-Ordnern in Ihrem Arbeitsbereich.
Zusätzliche Ressourcen
- dbx-Dokumentation
- dbx sync-Dokumentation
- databrickslabs/dbx-Repository auf GitHub
- dbx-Einschränkungen