Doporučení pro soubory ve svazcích a souborech pracovních prostorů
Při nahrávání nebo ukládání dat nebo souborů do Azure Databricks můžete tyto soubory ukládat pomocí svazků katalogu Unity nebo souborů pracovního prostoru. Tento článek obsahuje doporučení a požadavky pro používání těchto umístění. Další podrobnosti o svazcích a souborech pracovních prostorů najdete v tématu Co jsou svazky katalogu Unity? a Co jsou soubory pracovního prostoru?.
Databricks doporučuje používat svazky katalogu Unity k ukládání dat, knihoven a artefaktů sestavení. Ukládejte poznámkové bloky, dotazy SQL a soubory kódu jako soubory pracovního prostoru. Adresáře souborů pracovního prostoru můžete nakonfigurovat jako složky Gitu pro synchronizaci se vzdálenými úložišti Git. Viz integrace Gitu pro složky Databricks Git. Malé datové soubory používané pro testovací scénáře je také možné uložit jako soubory pracovního prostoru.
Následující tabulky poskytují konkrétní doporučení pro soubory v závislosti na typu souboru nebo potřeb funkcí.
Důležité
Systém souborů Databricks (DBFS) je také k dispozici pro ukládání souborů, ale nedoporučuje se, protože všichni uživatelé pracovního prostoru mají přístup k souborům v DBFS. Viz DBFS.
Typy souborů
Následující tabulka obsahuje doporučení úložiště pro typy souborů. Databricks podporuje mnoho formátů souborů nad rámec toho, co jsou uvedené v této tabulce jako příklady.
Typ souboru | Doporučení |
---|---|
Objekty Databricks, jako jsou poznámkové bloky a dotazy | Uložit jako soubory pracovního prostoru |
Strukturované datové soubory, jako jsou soubory Parquet a soubory ORC | Ukládání ve svazcích katalogu Unity |
Částečně strukturované datové soubory, jako jsou textové soubory (.csv , .txt ) a soubory JSON (.json ) |
Ukládání ve svazcích katalogu Unity |
Nestrukturované datové soubory, jako jsou soubory obrázků (.png , .svg ), zvukové soubory (.mp3 ) a soubory dokumentů (.pdf , .docx ) |
Ukládání ve svazcích katalogu Unity |
Nezpracované datové soubory používané pro adhoc nebo raný průzkum dat | Ukládání ve svazcích katalogu Unity |
Provozní data, jako jsou soubory protokolů | Ukládání ve svazcích katalogu Unity |
Velké archivní soubory, jako jsou soubory ZIP (.zip ) |
Ukládání ve svazcích katalogu Unity |
Soubory zdrojového kódu, jako jsou soubory Pythonu (.py ), soubory Java (.java ) a soubory Scala (.scala ) |
Pokud je to možné, uložte jako soubory pracovního prostoru s dalšími souvisejícími objekty, jako jsou poznámkové bloky a dotazy. Databricks doporučuje spravovat tyto soubory ve složce Git pro správu verzí a sledování změn těchto souborů. |
Vytváření artefaktů a knihoven, jako jsou kola Pythonu (.whl ) a soubory JAR (.jar ) |
Ukládání ve svazcích katalogu Unity |
Konfigurační soubory | Uložte konfigurační soubory potřebné napříč pracovními prostory ve svazcích katalogu Unity, ale pokud se jedná o soubory projektu ve složce Git, uložte je jako soubory pracovního prostoru. |
Porovnání funkcí
Následující tabulka porovnává nabídky funkcí souborů pracovních prostorů a svazků katalogu Unity.
Funkce | Soubory pracovního prostoru | Svazky katalogu Unity |
---|---|---|
Přístup k souborům | Soubory pracovního prostoru jsou přístupné jenom sobě v rámci stejného pracovního prostoru. | Soubory jsou globálně přístupné napříč pracovními prostory. |
Programový přístup | K souborům je možné přistupovat pomocí: – Rozhraní SPARK API - POJISTKA - dbutils - REST API - Sady SDK Databricks - Databricks CLI |
K souborům je možné přistupovat pomocí: – Rozhraní SPARK API - POJISTKA - dbutils - REST API - Sady SDK Databricks - Konektory SQL Databricks - Databricks CLI - Zprostředkovatel Terraformu pro Databricks |
Sady prostředků Databricks | Ve výchozím nastavení se všechny soubory v sadě, které zahrnují knihovny a objekty Databricks, jako jsou poznámkové bloky a dotazy, nasazují bezpečně jako soubory pracovního prostoru. Oprávnění jsou definována v konfiguraci sady. | Balíčky je možné přizpůsobit tak, aby zahrnovaly knihovny, které jsou již ve svazcích, když knihovny překročí limit velikosti souborů pracovního prostoru. Viz závislosti knihovny sad prostředků Databricks. |
Úroveň oprávnění souboru | Oprávnění jsou na úrovni složky Git, pokud je soubor ve složce Git, jinak jsou oprávnění nastavená na úrovni souboru. | Oprávnění jsou na úrovni svazku. |
Správa oprávnění | Oprávnění jsou spravována seznamy ACL pracovního prostoru a jsou omezena na obsah pracovního prostoru. | Metadata a oprávnění spravuje katalog Unity. Tato oprávnění platí pro všechny pracovní prostory, které mají přístup k katalogu. |
Připojení externího úložiště | Nepodporuje připojení externího úložiště. | Poskytuje možnost odkazovat na existující datové sady v externím úložišti vytvořením externího svazku. Podívejte se, co jsou svazky katalogu Unity? |
Podpora definovaná uživatelem | Nepodporováno | Zápis z funkcí definovaných uživatelem se podporuje pomocí svazků FUSE. |
Velikost souboru | Ukládejte menší soubory menší než 500 MB, například soubory zdrojového kódu (.py , .md , .yml ) potřebné spolu s poznámkovými bloky. |
Ukládejte velmi velké datové soubory v mezích určených poskytovateli cloudových služeb. |
Nahrání a stažení | Podpora nahrávání a stahování až 10 MB | Podpora nahrávání a stahování až 5 GB |
Podpora vytváření tabulek | Tabulky nelze vytvořit se soubory pracovního prostoru jako umístění. | Tabulky lze vytvářet ze souborů ve svazku spuštěním COPY INTO , automatickým načítáním nebo jinými možnostmi popsanými v Ingestování dat do data Databricks Lakehouse. |
Adresářová struktura a cesty k souborům | Soubory jsou uspořádané do vnořených adresářů, z nichž každý má vlastní model oprávnění: - Domovské adresáře uživatelů, jeden pro každého uživatele a instanční objekt v pracovním prostoru – Složky Gitu -Společný |
Soubory jsou uspořádané do vnořených adresářů uvnitř svazku. Podívejte se, jak můžete získat přístup k datům v katalogu Unity?. |
Historie souborů | Ke sledování změn souborů použijte složku Git v pracovních prostorech. | Protokoly auditu jsou k dispozici. |