Freigeben über


Was sind Arbeitsbereichsdateien?

Eine Arbeitsbereichsdatei ist eine Datei in Ihrer Azure Databricks-Arbeitsbereichsdateistruktur, die nicht einer der folgenden Typen ist:

  • Notebooks
  • Abfragen
  • Dashboards
  • Genie Spaces
  • Experimente

Andere als diese ausgeschlossenen Typen können Arbeitsbereichsdateien ein beliebiger Dateityp sein. Häufige Beispiele sind:

  • .py-Dateien, die in benutzerdefinierten Modulen verwendet werden.
  • .md-Dateien, z. B README.md.
  • .csv- oder andere kleine Datendateien.
  • .txt-Dateien.
  • .whl-Bibliotheken.
  • Protokolldateien.

Empfehlungen zum Arbeiten mit Dateien finden Sie unter Empfehlungen für Dateien in Volumes und Arbeitsbereichsdateien.

Ihre Azure Databricks-Arbeitsbereich-Dateistruktur kann Ordner enthalten, die an ein Git-Repository mit dem Namen "Databricks Git-Ordner" angefügt sind. Sie haben einige zusätzliche Grenzwerte bei der Unterstützung von Dateitypen. Eine Liste der in Git-Ordnern unterstützten Dateitypen (vormals "Repos") finden Sie unter Ressourcentypen, die in Git-Ordnern unterstützt werden.

Wichtig

Arbeitsbereichsdateien sind für Databricks Runtime 11.2 standardmäßig überall aktiviert. Verwenden Sie für Produktionsworkloads Databricks Runtime 11.3 LTS oder höher. Wenden Sie sich an den Arbeitsbereichsadministrator, wenn Sie nicht auf diese Funktionalität zugreifen können.

Verwendungszwecke von Arbeitsbereichsdateien

Azure Databricks bietet Funktionen, die der lokalen Entwicklung für viele Arbeitsbereichsdateitypen ähneln, einschließlich eines integrierten Datei-Editors. Nicht alle Anwendungsfälle für alle Dateitypen werden unterstützt.

Sie können den Zugriff auf Arbeitsbereichsdateien mithilfe vertrauter Muster aus Notebookinteraktionen erstellen, bearbeiten und verwalten. Sie können relative Pfade für Bibliotheksimporte aus Arbeitsbereichsdateien verwenden, ähnlich wie bei der lokalen Entwicklung. Weitere Informationen finden Sie unter:

In Arbeitsbereichsdateien gespeicherte Initskripts weisen ein besonderes Verhalten auf. Mithilfe von Arbeitsbereichsdateien können Sie Initskripts in jeder Databricks Runtime-Version speichern und darauf verweisen. Weitere Informationen finden Sie unter Speichern von Initialisierungsskripts in Arbeitsbereichsdateien.

Hinweis

In Databricks Runtime 14.0 und höher ist das aktuelle Standardarbeitsverzeichnis (CWD) für lokal ausgeführten Code das Verzeichnis, das das ausgeführte Notebook oder Skript enthält. Dies ist eine Verhaltensänderung von Databricks Runtime 13.3 LTS und niedriger. Weitere Informationen finden Sie unter Was ist das aktuelle Standardarbeitsverzeichnis?.

Einschränkungen

  • Wenn Ihr Workflow Quellcode verwendet, der sich in einem Remote-Git-Repository befindet, können Sie nicht in das aktuelle Verzeichnis schreiben oder mithilfe eines relativen Pfads schreiben. Schreiben Sie Daten in andere Speicherortoptionen.
  • Sie können beim Speichern in Arbeitsbereichsdateien keine git-Befehle verwenden. Das Erstellen von .git-Verzeichnissen ist in Arbeitsbereichsdateien nicht zulässig.
  • Das Lesen von Arbeitsbereichsdateien mit Spark-Executoren (z. B. spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) wird nicht mit serverloser Berechnung unterstützt.
  • Executors können nicht in Arbeitsbereichsdateien schreiben.
  • Symlinks werden für Zielverzeichnisse unter dem /Workspace Stammordner unterstützt.
  • Auf Arbeitsbereichsdateien kann nicht über benutzerdefinierte Funktionen (User-Defined Functions, UDFs) in Clustern mit dem Zugriffsmodus „Freigegeben“ auf Databricks Runtime 14.2 und niedriger zugegriffen werden.

Dateigrößenbeschränkung

  • Die Größe der Arbeitsbereichsdatei ist auf der Benutzeroberfläche auf 500 MB beschränkt. Die maximale Dateigröße, die beim Schreiben aus einem Cluster zulässig ist, beträgt 256 MB.

Zugriffsberechtigungsbeschränkung für Dateizugriff

Berechtigung für den Zugriff auf Dateien in Ordnern, die nach /Workspace ablaufen, nach 36 Stunden für die interaktive Berechnung und nach 30 Tagen für Aufträge. Databricks empfiehlt, lange Ausführungen als Aufträge auszuführen, wenn sie /Workspace-Dateizugriff benötigen.

Arbeitsbereichsdateien aktivieren

Um die Unterstützung für Nicht-Notebook-Dateien in Ihrem Databricks-Arbeitsbereich zu aktivieren, rufen Sie die REST-API /api/2.0/workspace-conf von einem Notebook oder einer anderen Umgebung mit Zugriff auf Ihren Databricks-Arbeitsbereich auf. Arbeitsbereichsdateien sind standardmäßig aktiviert.

Um die Unterstützung für Nicht-Notebook-Dateien in Ihrem Databricks-Arbeitsbereich zu aktivieren oder wieder zu aktivieren, rufen Sie /api/2.0/workspace-conf auf und erhalten den Wert des Schlüssels enableWorkspaceFileSystem. Wenn diese Option auf true festgelegt ist, sind Nicht-Notebook-Dateien bereits für Ihren Arbeitsbereich aktiviert.

Im folgenden Beispiel wird gezeigt, wie Sie diese API von einem Notebook aus aufrufen können, um zu prüfen, ob Arbeitsbereichsdateien deaktiviert sind und sie gegebenenfalls wieder zu aktivieren.

Beispiel: Notebook für die erneute Aktivierung der Unterstützung für Databricks-Arbeitsbereichsdateien

Notebook abrufen