Co jsou svazky katalogu Unity?
Svazky jsou objekty katalogu Unity, které umožňují správu nad netabulkovými datovými sadami. Svazky představují logický objem úložiště v místě cloudového objektového úložiště. Svazky poskytují možnosti pro přístup k souborům, jejich ukládání, řízení a uspořádání.
Zatímco tabulky poskytují zásady správného řízení nad tabulkovou datovou sadou, svazky přidávají zásady správného řízení nad ne tabulkovou datovou sadou. Svazky můžete použít k ukládání a přístupu k souborům v libovolném formátu, včetně strukturovaných, částečně strukturovaných a nestrukturovaných dat.
Databricks doporučuje používat svazky k řízení přístupu ke všem ne tabulkovým datům. Podobně jako tabulky mohou být svazky spravované nebo externí.
Důležité
Svazky nelze použít jako umístění pro tabulky. Svazky jsou určeny pouze pro přístup k datům na základě cesty. Tabulky použijte, když chcete pracovat s tabulkovými daty v katalogu Unity.
Následující články obsahují další informace o práci se svazky:
- Vytváření a správa svazků
- Správa souborů ve svazcích
- Prozkoumejte úložiště a najděte datové soubory.
- Spravované a externí svazky.
- Jaká jsou oprávnění pro svazky?
Poznámka:
Při práci se svazky musíte použít SQL warehouse nebo cluster s běžícím Databricks Runtime 13.3 LTS nebo novějším, pokud nepoužíváte uživatelská rozhraní Azure Databricks, jako je Catalog Explorer.
Co je spravovaný svazek?
Spravovaný svazek je svazek úložiště řízený katalogem Unity, který je vytvořen v rámci spravovaného úložiště ve schématu, které ho obsahuje. Viz Určení spravovaného umístění úložiště v katalogu Unity.
Spravované svazky umožňují vytvořit spravované úložiště pro práci se soubory bez režie externích umístění a přihlašovacích údajů k úložišti. Při vytváření spravovaného svazku nemusíte zadávat umístění a veškerý přístup k souborům pro data ve spravovaných svazcích probíhá prostřednictvím cest spravovaných katalogem Unity.
Co je externí svazek?
Externí svazek je úložný svazek řízený katalogem Unity, zaregistrovaný v adresáři v rámci externího umístění pomocí úložných přihlašovacích údajů řízených katalogem Unity.
Katalog Unity nespravuje životní cyklus a rozložení souborů v externích svazcích. Když odstraníte externí svazek, katalog Unity neodstraní podkladová data.
Jaká cesta se používá pro přístup k souborům ve svazku?
Svazky se nacházejí na třetí úrovni tříúrovňového prostoru názvů katalogu Unity (catalog.schema.volume
):
Cesta pro přístup ke svazkům je stejná bez ohledu na to, jestli používáte Apache Spark, SQL, Python nebo jiné jazyky a knihovny. To se liší od starších vzorů přístupu pro soubory v úložišti objektů svázané s pracovním prostorem Azure Databricks.
Cesta pro přístup k souborům ve svazcích používá následující formát:
/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>
Azure Databricks také podporuje volitelné dbfs:/
schéma při práci s Apache Sparkem, takže funguje také následující cesta:
dbfs:/Volumes/<catalog>/<schema>/<volume>/<path>/<file-name>
Sekvence /<catalog>/<schema>/<volume>
v cestě odpovídá třem názvům objektů katalogu Unity přidruženým k souboru. Tyto prvky cesty jsou jen pro čtení a ne přímo zapisovatelné uživateli, což znamená, že tyto adresáře není možné vytvářet ani odstraňovat pomocí operací systému souborů. Automaticky se spravují a synchronizují s odpovídajícími entitami katalogu Unity.
Poznámka:
K datům v externích svazcích můžete přistupovat také pomocí identifikátorů URI cloudového úložiště.
Rezervované cesty pro svazky
Svazky uvádí následující rezervované cesty používané pro přístup ke svazkům:
dbfs:/Volumes
/Volumes
Poznámka:
Cesty jsou také vyhrazeny pro potenciální překlepy v těchto cestách z rozhraní Apache Spark API a dbutils
, včetně /volumes
, /Volume
, /volume
, ať už jsou nebo nejsou předcházeny dbfs:/
. Cesta /dbfs/Volumes
je také vyhrazená, ale nelze ji použít pro přístup ke svazkům.
Svazky jsou podporovány pouze na Databricks Runtime 13.3 LTS a vyšších verzích. V Databricks Runtime 12.2 LTS a níže mohou operace s /Volumes
cestami uspět, ale mohou zapisovat data pouze na dočasné úložné disky připojené k výpočetním clusterům, místo aby se data ukládala na svazky Unity Catalogu podle očekávání.
Důležité
Pokud máte předem existující data uložená v rezervované cestě v kořenovém adresáři DBFS, můžete vytvořit lístek podpory a získat dočasný přístup k datům a přesunout je do jiného umístění.
Omezení
Výpočetní prostředky s podporou katalogu Unity musíte použít k interakci se svazky katalogu Unity. Svazky nepodporují všechny typy úloh.
Následující tabulka popisuje objemová omezení Unity katalogu na základě verze Databricks Runtime.
Verze Databricks Runtime | Omezení |
---|---|
14.3 LTS a vyšší |
|
14.2 a níže |
|
Všechny podporované verze Databricks Runtime |
|