Co to są pliki obszaru roboczego?
Plik obszaru roboczego to plik w drzewie plików obszaru roboczego usługi Azure Databricks, który nie jest jednym z typów wymienionych w następujący sposób:
- Notesy
- Zapytania
- Pulpity nawigacyjne
- Miejsca genie
- Eksperymenty
Inne niż te wykluczone typy, pliki obszaru roboczego mogą być dowolnym typem pliku. Do powszechnych przykładów należą:
-
.py
pliki używane w modułach niestandardowych. -
.md
pliki, takie jakREADME.md
. -
.csv
lub inne małe pliki danych. -
.txt
Pliki. -
.whl
Biblioteki. - Pliki dziennika.
Aby uzyskać zalecenia dotyczące pracy z plikami, zobacz Zalecenia dotyczące plików w woluminach i plikach obszaru roboczego.
Drzewo plików obszaru roboczego usługi Azure Databricks może zawierać foldery dołączone do repozytorium Git o nazwie "Foldery Git usługi Databricks". Mają pewne dodatkowe ograniczenia w obsłudze typów plików. Aby uzyskać listę typów plików obsługiwanych w folderach Git (dawniej "Repozytoria"), zobacz Typy zasobów obsługiwane w folderach Git.
Ważne
Pliki obszarów roboczych są domyślnie włączone w środowisku Databricks Runtime w wersji 11.2. W przypadku obciążeń produkcyjnych użyj środowiska Databricks Runtime 11.3 LTS lub nowszego. Skontaktuj się z administratorem obszaru roboczego, jeśli nie możesz uzyskać dostępu do tej funkcji.
Co można zrobić za pomocą plików obszaru roboczego
Usługa Azure Databricks udostępnia funkcje podobne do programowania lokalnego dla wielu typów plików obszarów roboczych, w tym wbudowanego edytora plików. Nie wszystkie przypadki użycia dla wszystkich typów plików są obsługiwane.
Dostęp do plików obszaru roboczego można tworzyć, edytować i zarządzać nimi przy użyciu znanych wzorców z interakcji z notesem. Ścieżki względne można używać do importowania biblioteki z plików obszaru roboczego, podobnie jak w przypadku programowania lokalnego. Aby uzyskać więcej informacji, zobacz:
- Podstawowe użycie plików obszaru roboczego
- Programowe interakcje z plikami obszaru roboczego
- Praca z modułami python i R
- Wyświetlanie obrazów
- Zarządzanie notesami
- Listy ACL plików
Skrypty inicjowania przechowywane w plikach obszaru roboczego mają specjalne zachowanie. Za pomocą plików obszaru roboczego można przechowywać skrypty inicjowania i odwoływać się do nich w dowolnych wersjach środowiska Databricks Runtime. Zobacz Przechowywanie skryptów inicjowania w plikach obszaru roboczego.
Uwaga
W środowisku Databricks Runtime 14.0 lub nowszym domyślnym bieżącym katalogiem roboczym (CWD) wykonywanym lokalnie jest katalog zawierający notes lub skrypt. Jest to zmiana zachowania środowiska Databricks Runtime 13.3 LTS i poniżej. Zobacz Co to jest domyślny bieżący katalog roboczy?.
Ograniczenia
- Jeśli przepływ pracy używa kodu źródłowego znajdującego się w zdalnym repozytorium Git, nie można zapisać w bieżącym katalogu ani zapisać przy użyciu ścieżki względnej. Zapisywanie danych w innych opcjach lokalizacji.
- Nie można używać
git
poleceń podczas zapisywania w plikach obszaru roboczego. Tworzenie katalogów.git
nie jest dozwolone w plikach obszaru roboczego. - Odczytywanie z plików obszaru roboczego przy użyciu funkcji wykonawczych platformy Spark (takich jak
spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")
) nie jest obsługiwane w przypadku obliczeń bezserwerowych. - Funkcje wykonawcze nie mogą zapisywać w plikach obszaru roboczego.
- Linki Symlinki są obsługiwane dla katalogów docelowych w folderze
/Workspace
głównym. - Nie można uzyskać dostępu do plików obszaru roboczego z funkcji zdefiniowanych przez użytkownika (UDF) w klastrach z trybem dostępu współdzielonego w środowisku Databricks Runtime 14.2 lub nowszym.
Limit rozmiaru pliku
- Rozmiar pliku przestrzeni roboczej jest ograniczony do 500 MB. Operacje, które próbują pobrać lub utworzyć pliki większe niż ten limit, zakończy się niepowodzeniem.
Limit uprawnień dostępu do plików
Uprawnienie dostępu do plików w folderach w obszarze wygasa po upływie /Workspace
36 godzin dla interakcyjnych obliczeń i po 30 dniach dla zadań. Usługa Databricks zaleca uruchamianie długotrwałych wykonań jako zadań, jeśli potrzebują dostępu do pliku /Workspace.
Włączanie plików obszaru roboczego
Aby włączyć obsługę plików innych niż notes w obszarze roboczym usługi Databricks, wywołaj interfejs API REST /api/2.0/workspace-conf z notesu lub innego środowiska z dostępem do obszaru roboczego usługi Databricks. Pliki obszaru roboczego są domyślnie włączone .
Aby włączyć lub ponownie włączyć obsługę plików innych niż notes w obszarze roboczym usługi Databricks, wywołaj /api/2.0/workspace-conf
metodę i pobierz wartość enableWorkspaceFileSystem
klucza. Jeśli jest ona ustawiona na true
, pliki inne niż notesy są już włączone dla obszaru roboczego.
W poniższym przykładzie pokazano, jak wywołać ten interfejs API z notesu, aby sprawdzić, czy pliki obszaru roboczego są wyłączone, a jeśli tak, włącz je ponownie.