Sdílet prostřednictvím


Co jsou soubory pracovního prostoru?

Soubor pracovního prostoru je soubor ve stromu souborů pracovního prostoru Azure Databricks, který není jedním z typů uvedených takto:

  • Dotazy
  • Řídicí panely
  • Genie spaces
  • Experimenty

Kromě těchto vyloučených typů mohou být soubory pracovního prostoru libovolným typem souboru. K běžným příkladům patří:

  • .ipynb poznámkové bloky
  • zdrojové poznámkové bloky, které používají rozšíření .py, .sql, .ra .scala
  • .py soubory používané ve vlastních modulech
  • .md soubory, například README.md
  • .csv nebo jiné malé datové soubory
  • .txt soubory
  • knihovny .whl
  • Soubory protokolu

Pro doporučení týkající se práce se soubory se podívejte do tématu Doporučení pro soubory ve svazcích a souborech pracovních prostorů.

Váš souborový strom pracovního prostoru Azure Databricks může obsahovat složky připojené k úložišti Git s názvem "Složky Git Databricks". Podpora typů souborů má určitá další omezení. Seznam typů souborů podporovaných ve složkách Git (dříve „Repos“) najdete v tématu Typy prostředků podporované ve složkách Git.

Důležité

Soubory pracovního prostoru jsou ve výchozím nastavení povolené všude v Databricks Runtime verze 11.2. Pro produkční úlohy použijte Databricks Runtime 11.3 LTS nebo vyšší. Pokud k této funkci nemáte přístup, obraťte se na správce pracovního prostoru.

Co můžete dělat se soubory pracovního prostoru

Azure Databricks poskytuje funkce podobné místnímu vývoji pro mnoho typů souborů pracovního prostoru, včetně integrovaného editoru souborů. Nepodporují se všechny případy použití pro všechny typy souborů.

Můžete vytvářet, upravovat a spravovat přístup k souborům pracovního prostoru pomocí známých vzorů z interakcí poznámkových bloků. Relativní cesty můžete použít pro importy knihoven ze souborů pracovního prostoru, podobně jako místní vývoj. Další podrobnosti najdete v tématu:

Inicializační skripty uložené v souborech pracovního prostoru mají zvláštní chování. Soubory pracovního prostoru můžete použít k ukládání a odkazování na inicializační skripty v libovolné verzi Databricks Runtime. Viz Ukládání inicializačních skriptů v souborech pracovního prostoru.

Poznámka:

Ve službě Databricks Runtime 14.0 a vyšší je výchozí aktuální pracovní adresář (CWD) pro kód spuštěný místně, je adresář obsahující spuštěný poznámkový blok nebo skript. Jedná se o změnu chování z Databricks Runtime 13.3 LTS a níže. Podívejte se, co je výchozí aktuální pracovní adresář?

Omezení

  • Pokud váš pracovní postup používá zdrojový kód umístěný ve vzdáleném úložišti Git, nemůžete zapisovat do aktuálního adresáře nebo zapisovat pomocí relativní cesty. Zapisujte data do jiných možností umístění.
  • Příkazy nelze použít git při ukládání do souborů pracovního prostoru. Vytváření adresářů .git není v souborech pracovního prostoru povolené.
  • Čtení ze souborů pracovního prostoru pomocí exekutorů Sparku (například spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) se nepodporuje s bezserverovými výpočetními prostředky.
  • Exekutory nemohou zapisovat do souborů pracovního prostoru.
  • Symlinky jsou podporovány pouze pro cílové adresáře v kořenové složce /Workspace, například os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing").
  • Soubory pracovního prostoru nelze získat přístup z uživatelem definovaných funkcí (UDF) v clusterech s režimem sdíleného přístupu v Databricks Runtime 14.2 a níže.
  • Poznámkové bloky jsou podporovány jenom jako soubory pracovních prostorů v Databricks Runtime 16.2 a vyšších a v bezserverovém prostředí 2 a vyšším.

Omezení velikosti souboru

  • Velikost souboru pracovního prostoru je omezená na 500 MB. Operace, které se pokusí stáhnout nebo vytvořit soubory větší, než je tento limit, selžou.

Omezení oprávnění přístupu k souborům

Oprávnění pro přístup k souborům ve složkách, jejichž /Workspace platnost vyprší po 36 hodinách pro interaktivní výpočetní prostředky a po 30 dnech pro úlohy. Databricks doporučuje spouštět dlouhé spouštění jako úlohy, pokud potřebují přístup k souborům /Workspace.

Povolení souborů pracovního prostoru

Pokud chcete povolit podporu souborů jiných než poznámkových bloků v pracovním prostoru Databricks, volejte rozhraní REST API /api/2.0/workspace-conf z poznámkového bloku nebo jiného prostředí s přístupem k pracovnímu prostoru Databricks. Soubory pracovního prostoru jsou ve výchozím nastavení povolené .

Pokud chcete povolit nebo znovu povolit podporu souborů, které nejsou poznámkovými bloky v pracovním prostoru Databricks, zavolejte /api/2.0/workspace-conf a získejte hodnotu klíče enableWorkspaceFileSystem. Pokud je nastavená na true, soubory, které nejsou poznámkovými bloky, už jsou pro váš pracovní prostor povolené.

Následující příklad ukazuje, jak můžete volat toto rozhraní API z poznámkového bloku, abyste zkontrolovali, jestli jsou soubory pracovního prostoru zakázané, a pokud ano, znovu je povolte.

Příklad: Poznámkový blok pro opětovné povolení podpory souborů pracovního prostoru Databricks

Získejte poznámkový blok