Delen via


Wat zijn werkruimtebestanden?

Een werkruimtebestand is een bestand in de bestandsstructuur van uw Azure Databricks-werkruimte die niet een van de volgende typen is:

  • Notebooks
  • Query's
  • Dashboards
  • Genie-ruimten
  • Experimenten

Met uitzondering van deze uitgesloten typen kunnen werkruimtebestanden elk bestandstype zijn. Dit zijn enkele veel voorkomende voorbeelden:

  • .py bestanden die worden gebruikt in aangepaste modules.
  • .md bestanden, zoals README.md.
  • .csv of andere kleine gegevensbestanden.
  • .txt archief.
  • .whl Bibliotheken.
  • Logboekbestanden.

Zie Aanbevelingen voor bestanden in volumes en werkruimtebestanden voor aanbevelingen voor het werken met bestanden.

De bestandsstructuur van uw Azure Databricks-werkruimte kan mappen bevatten die zijn gekoppeld aan een Git-opslagplaats met de naam Databricks Git-mappen. Ze hebben enkele extra beperkingen in ondersteuning voor bestandstypen. Zie Assettypen die worden ondersteund in Git-mappen voor een lijst met bestandstypen die worden ondersteund in Git-mappen (voorheen Opslagplaatsen).

Belangrijk

Werkruimtebestanden zijn standaard overal ingeschakeld in Databricks Runtime versie 11.2. Voor productieworkloads gebruikt u Databricks Runtime 11.3 LTS of hoger. Neem contact op met uw werkruimtebeheerder als u geen toegang hebt tot deze functionaliteit.

Wat u kunt doen met werkruimtebestanden

Azure Databricks biedt functionaliteit die vergelijkbaar is met lokale ontwikkeling voor veel werkruimtebestandstypen, waaronder een ingebouwde bestandseditor. Niet alle use cases voor alle bestandstypen worden ondersteund.

U kunt de toegang tot werkruimtebestanden maken, bewerken en beheren met behulp van vertrouwde patronen van notebookinteracties. U kunt relatieve paden gebruiken voor bibliotheekimport uit werkruimtebestanden, vergelijkbaar met lokale ontwikkeling. Zie voor meer informatie:

Init-scripts die zijn opgeslagen in werkruimtebestanden, hebben een speciaal gedrag. U kunt werkruimtebestanden gebruiken om init-scripts op te slaan en ernaar te verwijzen in elke Databricks Runtime-versie. Zie Store init-scripts in werkruimtebestanden.

Notitie

In Databricks Runtime 14.0 en hoger is de standaard huidige werkmap (CWD) voor lokaal uitgevoerde code de map met het notebook of script dat wordt uitgevoerd. Dit is een wijziging in gedrag van Databricks Runtime 13.3 LTS en hieronder. Zie Wat is de standaard huidige werkmap?

Beperkingen

  • Als uw werkstroom gebruikmaakt van broncode in een externe Git-opslagplaats, kunt u niet naar de huidige map schrijven of schrijven met behulp van een relatief pad. Schrijf gegevens naar andere locatieopties.
  • U kunt geen opdrachten gebruiken git wanneer u opslaat in werkruimtebestanden. Het maken van .git mappen is niet toegestaan in werkruimtebestanden.
  • Lezen vanuit werkruimtebestanden met behulp van Spark-uitvoerders (zoals spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) wordt niet ondersteund met serverloze berekeningen.
  • Uitvoerders kunnen niet schrijven naar werkruimtebestanden.
  • Symlinks worden ondersteund voor doelmappen onder de /Workspace hoofdmap.
  • Werkruimtebestanden kunnen niet worden geopend vanuit door de gebruiker gedefinieerde functies (UDF's) op clusters met de modus voor gedeelde toegang op Databricks Runtime 14.2 en lager.

Maximale bestandsgrootte

  • De grootte van het werkruimtebestand is beperkt tot 500 MB vanuit de gebruikersinterface. De maximale bestandsgrootte die is toegestaan bij het schrijven vanuit een cluster is 256 MB.

Machtigingslimiet voor bestandstoegang

Machtiging voor toegang tot bestanden in mappen onder /Workspace verlopen na 36 uur voor interactieve berekening en na 30 dagen voor taken. Databricks raadt aan lange uitvoeringen uit te voeren als taken als ze toegang tot /Workspace-bestanden nodig hebben.

Werkruimtebestanden inschakelen

Als u ondersteuning wilt inschakelen voor niet-notebookbestanden in uw Databricks-werkruimte, roept u de REST API /api/2.0/workspace-conf aan vanuit een notebook of een andere omgeving met toegang tot uw Databricks-werkruimte. Werkruimtebestanden zijn standaard ingeschakeld .

Als u ondersteuning voor niet-notebookbestanden in uw Databricks-werkruimte wilt in- of opnieuw inschakelen, roept u de /api/2.0/workspace-conf waarde van de sleutel aan en haalt u deze enableWorkspaceFileSystem op. Als dit is ingesteld op true, zijn niet-notebookbestanden al ingeschakeld voor uw werkruimte.

In het volgende voorbeeld ziet u hoe u deze API vanuit een notebook kunt aanroepen om te controleren of werkruimtebestanden zijn uitgeschakeld en zo ja, schakel ze opnieuw in.

Voorbeeld: Notebook voor het opnieuw inschakelen van ondersteuning voor Databricks-werkruimtebestanden

Notebook downloaden