Delen via


Wat zijn werkruimtebestanden?

Een werkruimtebestand is een bestand in de bestandsstructuur van uw Azure Databricks-werkruimte die niet een van de volgende typen is:

  • Query's
  • Dashboards
  • Genie-ruimten
  • Experimenten

Met uitzondering van deze uitgesloten typen kunnen werkruimtebestanden elk bestandstype zijn. Dit zijn enkele veel voorkomende voorbeelden:

  • .ipynb notitieblokken
  • bronnotitieblokken, die gebruikmaken van uitbreidingen .py, .sql, .ren .scala
  • .py bestanden die worden gebruikt in aangepaste modules
  • .md-bestanden, zoals README.md
  • .csv of andere kleine gegevensbestanden
  • .txt bestanden
  • .whl bibliotheken
  • Logboekbestanden

Voor aanbevelingen voor het werken met bestanden, zie Aanbevelingen voor bestanden in volumes en werkruimtebestanden.

De bestandsstructuur van uw Azure Databricks-werkruimte kan mappen bevatten die zijn gekoppeld aan een Git-opslagplaats met de naam Databricks Git-mappen. Ze hebben enkele extra beperkingen in ondersteuning voor bestandstypen. Voor een lijst met ondersteunde bestandstypen in Git-mappen (voorheen Opslagplaatsen), zie Assettypen die worden ondersteund in Git-mappen.

Belangrijk

Werkruimtebestanden zijn standaard overal ingeschakeld in Databricks Runtime versie 11.2. Voor productieworkloads gebruikt u Databricks Runtime 11.3 LTS of hoger. Neem contact op met uw werkruimtebeheerder als u geen toegang hebt tot deze functionaliteit.

Wat u kunt doen met werkruimtebestanden

Azure Databricks biedt functionaliteit die vergelijkbaar is met lokale ontwikkeling voor veel werkruimtebestandstypen, waaronder een ingebouwde bestandseditor. Niet alle use cases voor alle bestandstypen worden ondersteund.

U kunt de toegang tot werkruimtebestanden maken, bewerken en beheren met behulp van vertrouwde patronen van notebookinteracties. U kunt relatieve paden gebruiken voor bibliotheekimport uit werkruimtebestanden, vergelijkbaar met lokale ontwikkeling. Zie voor meer informatie:

Init-scripts die zijn opgeslagen in werkruimtebestanden, hebben een speciaal gedrag. U kunt werkruimtebestanden gebruiken om init-scripts op te slaan en ernaar te verwijzen in elke Databricks Runtime-versie. Zie Store init-scripts in werkruimtebestanden.

Notitie

In Databricks Runtime 14.0 en hoger is de standaard huidige werkmap (CWD) voor lokaal uitgevoerde code de map met het notebook of script dat wordt uitgevoerd. Dit is een wijziging in gedrag van Databricks Runtime 13.3 LTS en hieronder. Zie Wat is de standaard huidige werkmap?

Beperkingen

  • Als uw werkstroom gebruikmaakt van broncode in een externe Git-opslagplaats, kunt u niet naar de huidige map schrijven of schrijven met behulp van een relatief pad. Schrijf gegevens naar andere locatieopties.
  • U kunt geen opdrachten gebruiken git wanneer u opslaat in werkruimtebestanden. Het maken van .git mappen is niet toegestaan in werkruimtebestanden.
  • Lezen vanuit werkruimtebestanden met behulp van Spark-uitvoerders (zoals spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) wordt niet ondersteund met serverloze berekeningen.
  • Uitvoerders kunnen niet schrijven naar werkruimtebestanden.
  • Symlinks worden alleen ondersteund voor doelmappen onder de /Workspace hoofdmap, zoals os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing").
  • Werkruimtebestanden kunnen niet worden geopend vanuit door de gebruiker gedefinieerde functies (UDF's) op clusters met de modus voor gedeelde toegang op Databricks Runtime 14.2 en lager.
  • Notebooks worden alleen ondersteund als werkruimtebestanden in Databricks Runtime 16.2 en hoger en in serverloze omgeving 2 en hoger.

Maximale bestandsgrootte

  • De bestandsgrootte van de werkruimte is beperkt tot 500 MB. Bewerkingen die proberen bestanden te downloaden of te maken die groter zijn dan deze limiet, mislukken.

Machtigingslimiet voor bestandstoegang

Machtiging voor toegang tot bestanden in mappen onder /Workspace verlopen na 36 uur voor interactieve berekening en na 30 dagen voor taken. Databricks raadt aan lange uitvoeringen uit te voeren als taken als ze toegang tot /Workspace-bestanden nodig hebben.

Werkruimtebestanden inschakelen

Als u ondersteuning wilt inschakelen voor niet-notebookbestanden in uw Databricks-werkruimte, roept u de REST API /api/2.0/workspace-conf aan vanuit een notebook of een andere omgeving met toegang tot uw Databricks-werkruimte. Werkruimtebestanden zijn standaard ingeschakeld .

Als u ondersteuning voor niet-notebookbestanden in uw Databricks-werkruimte wilt in- of opnieuw inschakelen, roept u de /api/2.0/workspace-conf aan en haalt u de waarde van de enableWorkspaceFileSystem sleutel op. Als deze is ingesteld op true, zijn niet-notebookbestanden al ingeschakeld voor uw werkruimte.

In het volgende voorbeeld ziet u hoe u deze API vanuit een notebook kunt aanroepen om te controleren of werkruimtebestanden zijn uitgeschakeld en zo ja, schakel ze opnieuw in.

Voorbeeld: Notebook voor het opnieuw inschakelen van ondersteuning voor Databricks-werkruimtebestanden

Notitieblok ophalen