Freigeben über


Verwenden von dbx zum Synchronisieren lokaler Dateien mit Remotearbeitsbereichen in Echtzeit

Wichtig

Diese Dokumentation wurde eingestellt und wird unter Umständen nicht aktualisiert.

Databricks empfiehlt anstelle von dbx sync die Verwendung der Databricks CLI-Versionen 0.205 oder höher, deren Funktionalität über den Befehl databricks sync mit dbx sync vergleichbar ist.

Die Databricks-Erweiterung für Visual Studio Code enthält ebenfalls Funktionen, die dbx sync ähneln und in die Visual Studio Code-IDE integriert sind. Beachten Sie außerdem, dass dbx sync Dateiänderungen von einem lokalen Entwicklungscomputer mit DBFS, Arbeitsbereichsspeicherorten undDatabricks Git-Ordnern in Ihren Azure Databricks-Arbeitsbereichen synchronisieren kann. Die Databricks-Erweiterung für Visual Studio Code unterstützt die Synchronisierung von Dateiänderungen nur für Benutzerdateien in Arbeitsbereichen (/Users) und Databricks-Git-Ordnern (/Repos).

Hinweis

Dieser Artikel behandelt dbx von Databricks Labs, das so wie es ist bereitgestellt wird und nicht von Databricks über Kanäle des technischen Supports von Kunden unterstützt wird. Fragen und Funktionsanfragen können über die Seite Issues des databrickslabs/dbx-Repository auf GitHub mitgeteilt werden.

Sie können eine Echtzeitsynchronisierung von Änderungen an Dateien auf Ihrem lokalen Entwicklungscomputer mit den entsprechenden Dateien in Ihren Azure Databricks-Arbeitsbereichen durchführen, indem Sie dbx von Databricks Labs verwenden. Diese Arbeitsbereichs-Dateien können sich in DBFS oder in Databricks Git-Ordnern befinden.

Die Dateisynchronisierung in Echtzeit mit dbx (auch bekannt als dbx sync) ist in Szenarien für die schnelle Codeentwicklung nützlich. Sie können beispielsweise eine lokale integrierte Entwicklungsumgebung (IDE) für Produktivitätsfunktionen wie Syntaxhervorhebung, intelligente Codevervollständigung, Codelinting sowie Testen und Debuggen verwenden. Sie können dann sofort zu Ihrem Arbeitsbereich wechseln und Ihren aktualisierten Code ausführen.

Sie können dbx sync allein, mit automatisierten Aufträge oder mit einer IDE verwenden.

dbx sync Entwicklungsworkflows

Es gibt zwei Entwicklungsworkflows für dbx sync, einen mit DBFS und einen mit Databricks Git-Ordnern.

Der typische Entwicklungsworkflow mit dbx sync und DBFS ist:

  1. Identifizieren Sie ein lokales Verzeichnis, das die Dateien enthält, die Sie mit DBFS synchronisieren möchten.
  2. Identifizieren Sie den Pfad in DBFS, mit dem Ihr lokales Verzeichnis synchronisiert werden soll (oder lassen Sie dbx sync einen Standard-DBFS-Pfad für Sie erstellen).
  3. Führen Sie dbx sync dbfs aus , um Ihr lokales Verzeichnis mit dem DBFS-Pfad zu synchronisieren. dbx sync beginnt, Ihr lokales Verzeichnis auf Dateiänderungen zu überwachen.
  4. Nehmen Sie nach Bedarf Änderungen an Dateien in Ihrem lokalen Verzeichnis vor. dbx sync wendet diese Änderungen in Echtzeit auf die entsprechenden Dateien im DBFS-Pfad an.

Der typische Entwicklungsworkflow mit dbx sync und Databricks Git-Ordnern ist:

  1. Erstellen Sie ein Repository mit einem Git-Anbieter, der von Databricks Git-Ordnern unterstützt wird, wenn noch kein Repository verfügbar ist.
  2. Klonen Sie Ihr Repository in Ihren Azure Databricks-Workspace.
  3. Klonen Sie Ihr Repository in Ihren lokalen Entwicklungscomputer.
  4. Führen Sie dbx sync repo aus, um Ihr lokales kloniertes Repository mit dem klonierten Repository ihres Workspaces zu verknüpfen. dbx sync beginnt, Ihr lokales Verzeichnis auf Dateiänderungen zu überwachen.
  5. Nehmen Sie nach Bedarf Änderungen an Dateien in Ihrem lokalen geklonten Repository vor. dbx sync wendet diese Änderungen in Echtzeit auf die entsprechenden Dateien in Databricks Git-Ordnern an.
  6. Pushen Sie regelmäßig aktualisierte Dateien aus dem geklonten Repository in Ihrem Workspace zu Ihrem Git-Anbieter, damit das Repository bei Ihrem Git-Anbieter auf dem neuesten Stand bleibt.

Wichtig

dbx sync führt nur eine unidirektionale Echtzeitsynchronisierung von Dateiänderungen von Ihrem lokalen Entwicklungscomputer zu Ihrem Remote-Workspace durch. Daher empfiehlt Databricks nicht, dass Sie Änderungen in Ihrem Azure Databricks-Workspace an Dateien initiieren, die von dbx sync überwacht werden. Wenn Sie solche vom Workspace initiierten Dateiänderungen vornehmen müssen, müssen Sie außerdem Folgendes tun:

  • Nehmen Sie für Dateiänderungen in DBFS die entsprechenden Änderungen an den lokalen Dateien manuell vor.
  • Pushen Sie für Dateiänderungen in Databricks Git-Ordnern die Dateiänderungen von Ihrem Arbeitsbereich an Ihren Git-Anbieter. Ziehen Sie dann auf Ihrem lokalen Entwicklungscomputer diese Dateiänderungen von Ihrem Git-Anbieter.

Anforderungen

Wenn Sie dbx sync mit Databricks Git-Ordnern verwenden möchten, muss Ihr Azure Databricks-Arbeitsbereich die folgende Anforderung erfüllen:

  • Ein Klon Ihres Repositorys bei Ihrem Git-Anbieter ist zwar nicht erforderlich, wird jedoch empfohlen.

Auf Ihrem lokalen Entwicklungscomputer muss Folgendes installiert sein:

  • Python (Version 3.8 oder höher) Um zu überprüfen, ob Python installiert ist, und um Ihre installierte Python-Version zu überprüfen, führen Sie python --version in Ihrem Terminal oder in PowerShell aus.

    python --version
    

    Hinweis

    Bei einigen Installationen von python müssen Sie möglicherweise python3 anstelle von python verwenden. Wenn ja, ersetzen Sie in diesem Artikel python durch python3.

  • pip. Um zu überprüfen, ob pip installiert ist, und um Ihre installierte Version pip zu überprüfen, führen Sie pip --version oder python -m pip --version aus.

    pip --version
    
    # Or...
    
    python -m pip --version
    

    Hinweis

    Bei einigen Installationen von pip müssen Sie möglicherweise pip3 anstelle von pip verwenden. Wenn ja, ersetzen Sie in diesem Artikel pip durch pip3.

  • dbx Version 0.8.0 oder höher. Um zu überprüfen, ob dbx installiert ist, und um Ihre installierte dbx Version zu überprüfen, führen Sie dbx --version aus. Um dbx aus dem Python-Paketindex (PyPI) zu installieren, führen Sie pip install dbx oder python -m pip install dbx aus. (dbx enthält dbx sync.)

    # Check whether dbx is installed, and check its version.
    dbx --version
    
    # Install dbx.
    pip install dbx
    
    # Or...
    python -m pip install dbx
    

    Hinweis

    Weitere Informationen zu dbx finden Sie unter dbx von Databricks Labs und in der dbx-Dokumentation.

  • Version 0.18 oder niedriger der Databricks-Befehlszeilenschnittstelle mit eingerichteter Authentifizierung. Die Legacyversion der Databricks CLI (Databricks CLI-Versionen 0.17) wird bei der Installation von dbx automatisch installiert. Diese Authentifizierung kann auf Ihrem lokalen Entwicklungscomputer in einem oder beiden der folgenden Speicherorte eingerichtet werden:

    • Innerhalb der Umgebungsvariablen DATABRICKS_HOST und DATABRICKS_TOKEN (ab Databricks CLI-Legacyversion 0.8.0).
    • In einem Azure Databricks-Konfigurationsprofil in Ihrer .databrickscfg-Datei.

    dbx sucht an diesen beiden Speicherorten jeweils nach Anmeldeinformationen für die Authentifizierung. dbx verwendet nur die erste Gruppe übereinstimmender Anmeldeinformationen, die es findet.

    Hinweis

    Wenn Sie eine .databrickscfg-Datei verwenden, sucht dbx sync standardmäßig in dieser Datei nach einem Konfigurationsprofil namens DEFAULT. Um ein anderes Profil anzugeben, verwenden Sie die --profile Option, wenn Sie den dbx sync Befehl ausführen, später in diesem Artikel.

    dbx unterstützt nicht die Verwendung einer .netrc-Datei zur Authentifizierung.

  • Wenn Sie dbx sync mit Databricks Git-Ordnern verwenden möchten, wird ein lokaler Klon Ihres Repositorys mit Ihrem Git-Anbieter vorgeschlagen, während sie nicht erforderlich ist. Informationen zum Ausführen eines lokalen Klons finden Sie in der Dokumentation Ihres Git-Anbieters.

Verwenden von DBFS mit dbx sync

  1. Wechseln Sie vom Terminal oder PowerShell auf Ihrem lokalen Entwicklungscomputer in das Verzeichnis, das die Dateien enthält, die Sie mit DBFS in Ihrem Azure Databricks-Arbeitsbereich synchronisieren möchten.

  2. Führen Sie den Befehl dbx sync aus, um Ihr lokales Verzeichnis wie folgt mit DBFS in Ihrem Workspace zu synchronisieren. (Vergessen Sie nicht den Punkt (.) am Ende, der Ihr aktuelles Verzeichnis darstellt.)

    dbx sync dbfs --source .
    

    Tipp

    Um ein anderes Quellverzeichnis anzugeben, ersetzen Sie den Punkt (.) durch einen anderen Pfad.

    Hinweis

    Wenn der Fehler Error: No such command 'sync' angezeigt wird, ist Ihre Installation von dbx wahrscheinlich veraltet. Um dies zu beheben, führen pip install --upgrade dbx==<version> Sie oder python -m pip install --upgrade dbx==version aus, wobei <version> die neueste Version von dbx ist. Diese Versionsnummer finden Sie auf der PyPI-Webseite für dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  3. dbx sync beginnt mit der Synchronisierung von Dateien in Ihrem aktuellen lokalen Verzeichnis mit Dateien im folgenden DBFS-Pfad in Ihrem Arbeitsbereich. dbx sync bestätigt dies, indem es Target base path gefolgt vom DBFS-Pfad ausgibt, zum Beispiel:

    /tmp/users/<your-Databricks-username>/<local-directory-name>
    

    Tipp

    Um einen anderen Benutzernamen oder DBFS-Pfad anzugeben, geben Sie beim Ausführen von dbx sync die Optionen --user bzw. --dest an.

  4. Nehmen Sie bei Bedarf Änderungen an Ihren lokalen Dateien vor.

    Wichtig

    Sie müssen Ihr Terminal oder PowerShell geöffnet lassen, damit dbx sync mit der Synchronisierung fortfahren kann. Wenn Sie Ihr Terminal oder PowerShell schließen, überwacht dbx sync nicht mehr auf Dateiänderungen und beendet die Synchronisierung. Wiederholen Sie diese Prozedur von Anfang an, um die Synchronisierung von Dateiänderungen fortzusetzen.

  5. Überprüfen Sie bei Bedarf Ihre Dateiänderungen im vorangehenden Pfad in DBFS in Ihrem Arbeitsbereich.

Verwenden von Git-Ordnern für Databricks mit dbx sync

  1. Wechseln Sie vom Terminal oder PowerShell auf Ihrem lokalen Entwicklungscomputer in das Stammverzeichnis, das den Klon des Repositorys mit Ihrem Git-Anbieter enthält.

  2. Identifizieren Sie in Ihrem Azure Databricks-Arbeitsbereich den Namen des Databricks Git Ordners, mit dem Sie Ihr lokal geklontes Repository synchronisieren möchten. Sie finden diesen Repositorynamen, indem Sie in der Seitenleiste Ihres Arbeitsbereichs auf Git Ordner klicken.

  3. Führen Sie auf Ihrem lokalen Entwicklungscomputer den Befehl dbx sync aus, um Ihr lokales geklontes Repository wie folgt mit den Databricks-Repositorys in Ihrem Arbeitsbereich zu synchronisieren, und ersetzen Sie <your-repo-name> durch den Namen Ihres Repositorys in Databricks Git-Ordnern. (Vergessen Sie nicht den Punkt (.) am Ende, der Ihr aktuelles Verzeichnis darstellt.)

    dbx sync repo -d <your-repo-name> --source .
    

    Tipp

    Um ein anderes Quellverzeichnis anzugeben, ersetzen Sie den Punkt (.) durch einen anderen Pfad.

    Hinweis

    Wenn der Fehler Error: No such command 'sync' angezeigt wird, ist Ihre Installation von dbx wahrscheinlich veraltet. Um dies zu beheben, führen pip install --upgrade dbx==<version> Sie oder python -m pip install --upgrade dbx==version aus, wobei <version> die neueste Version von dbx ist. Diese Versionsnummer finden Sie auf der PyPI-Webseite für dbx.

    pip install --upgrade dbx==<version>
    
    # Or...
    python -m pip install --upgrade dbx==version
    
  4. dbx sync beginnt mit der Synchronisierung von Dateien in Ihrem lokalen geklonten Repository mit Dateien in Databricks Git-Ordnern in Ihrem Arbeitsbereich. dbx sync bestätigt dies durch Drucken von Target base path gefolgt vom Databricks Git-Ordner-Pfad, zum Beispiel:

    /Repos/<your-Databricks-username>/<your-repo-name>
    

    Tipp

    Um einen anderen Benutzernamen oder Repo-Namen anzugeben, geben Sie beim Ausführen von dbx sync die Optionen --user bzw. --dest-repo an.

  5. Nehmen Sie bei Bedarf Änderungen an Ihren lokalen Dateien vor.

    Wichtig

    Sie müssen Ihr Terminal oder PowerShell geöffnet lassen, damit dbx sync mit der Synchronisierung fortfahren kann. Wenn Sie Ihr Terminal oder PowerShell schließen, überwacht dbx sync nicht mehr auf Dateiänderungen und beendet die Synchronisierung. Wiederholen Sie diese Prozedur von Anfang an, um die Synchronisierung von Dateiänderungen fortzusetzen.

  6. Überprüfen Sie bei Bedarf Ihre Dateiänderungen in Databricks Git-Ordnern in Ihrem Arbeitsbereich.

Zusätzliche Ressourcen