Vad är arbetsytefiler?
En arbetsytefil är en fil i ditt Azure Databricks-arbetsytefilträd som inte är en av de typer som anges på följande sätt:
- Notebook-filer
- Frågor
- Instrumentpaneler
- Genie-blanksteg
- Experiment
Förutom dessa undantagna typer kan arbetsytefiler vara valfri filtyp. Vanliga exempel:
-
.py
filer som används i anpassade moduler. -
.md
filer, till exempelREADME.md
. -
.csv
eller andra små datafiler. -
.txt
filer. -
.whl
bibliotek. - Loggfiler.
Rekommendationer om att arbeta med filer finns i rekommendationer för filer i volumes och arbetsytefiler.
Ditt Azure Databricks-arbetsytefilträd kan innehålla mappar som är kopplade till en Git-lagringsplats med namnet "Databricks Git-mappar". De har några ytterligare begränsningar i filtypsstöd. För en list av filtyper som stöds i Git-mappar (tidigare "Repos"), se Filtyper som stöds i Git-mappar.
Viktigt!
Arbetsytefiler är aktiverade överallt som standard i Databricks Runtime version 11.2. För produktionsarbetsbelastningar använder du Databricks Runtime 11.3 LTS eller senare. Kontakta arbetsytans administratör om du inte kan komma åt den här funktionen.
Vad du kan göra med arbetsytefiler
Azure Databricks tillhandahåller funktioner som liknar lokal utveckling för många filtyper för arbetsytor, inklusive en inbyggd filredigerare. Alla användningsfall för alla filtyper stöds inte.
Du kan skapa, redigera och hantera åtkomst till arbetsytefiler med hjälp av välbekanta mönster från notebook-interaktioner. Du kan använda relativa sökvägar för biblioteksimporter från arbetsytefiler, ungefär som lokal utveckling. Mer information finns i:
- Grundläggande användning av arbetsytefiler
- Interagera programmatiskt med arbetsytefiler
- Arbeta med Python- och R-moduler
- Visa bilder
- Hantera notebook-filer
- Fil-ACL:er
Init-skript som lagras i arbetsytefiler har ett särskilt beteende. Du kan använda arbetsytefiler för att lagra och referera till init-skript i alla Databricks Runtime-versioner. Se Lagra init-skript i arbetsytefiler.
Kommentar
I Databricks Runtime 14.0 och senare är den aktuella standardkatalogen (CWD) för kod som körs lokalt katalogen som innehåller anteckningsboken eller skriptet som körs. Det här är en ändring i beteendet från Databricks Runtime 13.3 LTS och nedan. Se Vad är standardkatalogen för aktuell arbetskatalog?.
Begränsningar
- Om arbetsflödet använder källkod som finns på en fjärransluten Git-lagringsplats kan du inte skriva till den aktuella katalogen eller skriva med hjälp av en relativ sökväg. Skriv data till andra platsalternativ.
- Du kan inte använda
git
kommandon när du sparar till arbetsytefiler. Det går inte att skapa.git
kataloger i arbetsytefiler. - Läsning från arbetsytefiler med Spark-körverktyg (till exempel
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
) stöds inte med serverlös beräkning. - Det går inte att skriva till arbetsytefiler.
- Symlinks stöds endast för målkataloger under rotmappen
/Workspace
, till exempelos.symlink("/Workspace/Users/someone@example.com/Testing", "Testing")
. - Arbetsytefiler kan inte nås från användardefinierade funktioner (UDF:er) i kluster med läget för delad åtkomst på Databricks Runtime 14.2 och nedan.
Filstorlek limit
- Filsstorleken i arbetsytan är begränsad till 500MB. Åtgärder som försöker ladda ned eller skapa filer som är större än den här limit misslyckas.
Filåtkomstbehörighet limit
Behörighet att komma åt filer i mappar under /Workspace
upphör att gälla efter 36 timmar för interaktiv beräkning och efter 30 dagar för jobb. Databricks rekommenderar att du kör långa körningar som jobb om de behöver filåtkomst för /Workspace.
Aktivera arbetsytefiler
Om du vill aktivera stöd för icke-notebook-filer på din Databricks-arbetsyta anropar du REST API:et /api/2.0/workspace-conf från en notebook-fil eller annan miljö med åtkomst till databricks-arbetsytan. Arbetsytefiler är aktiverade som standard.
Om du vill aktivera eller aktivera om stöd för filer som inte är notebook-filer i din Databricks-arbetsyta, anropa /api/2.0/workspace-conf
och ange get som värde för enableWorkspaceFileSystem
-nyckeln. Om det är mellan set och true
är filer som inte är notebook-filer redan aktiverade i din arbetsyta.
I följande exempel visas hur du kan anropa det här API:et från en notebook-fil för att kontrollera om arbetsytefiler är inaktiverade och i så fall återaktivera dem.