Spravované versus externí svazky
Tento článek popisuje rozdíly mezi spravovanými svazky a externími svazky a důvody, proč se můžete rozhodnout používat externí svazky. Databricks doporučuje spravované svazky jako nejjednodušší řešení pro ukládání a správu přístupu k ne tabulkovým datům.
Další pokyny ke konfiguraci přístupu ke cloudovému úložišti objektů najdete v tématu Připojení ke cloudovému úložišti objektů a službám pomocí katalogu Unity.
Rozdíly Chování mezi spravovanými a externími svazky
Spravované a externí svazky poskytují téměř identické prostředí při používání nástrojů, uživatelských rozhraní a rozhraní API Azure Databricks. Níže jsou uvedené rozdíly mezi těmito typy svazků.
Spravované svazky poskytují plně spravované úložiště. To znamená následující:
- Všechny interakce se soubory ve spravovaných svazcích musí procházet katalogem Unity.
- Rozložení názvů adresářů a dat je spravováno katalogem Unity. Názvy adresářů zahrnují hodnoty hash, aby nedocházelo ke konfliktům v podkladových účtech cloudového úložiště objektů.
- Když odstraníte spravovaný svazek, Azure Databricks odstraní podkladová data do 30 dnů.
Externí svazky přinášejí správu dat do cloudového objektového úložiště. To znamená následující:
- K interakci se soubory v externích svazcích můžete použít cloudové identifikátory URI v Azure Databricks nebo externích systémech.
- Všechny adresáře vytvořené v rámci externího svazku nebo nahraných souborů jsou relativní vzhledem k zadanému
LOCATION
při vytváření. - Když externí svazek odstraníte, odeberete ho z katalogu Unity, ale podkladová data zůstanou v externím umístění beze změny.
Proč používat externí svazky?
Externí svazky umožňují přidat zásady správného řízení dat katalogu Unity do existujících adresářů cloudového úložiště objektů. Mezi případy použití externích svazků patří:
- Přidání zásad správného řízení do datových souborů bez migrace
- Řízení souborů vytvořených jinými systémy, které musí být ingestovány nebo přístupné službou Azure Databricks.
- Řízení dat vytvořených službou Azure Databricks, ke kterým musí přistupovat přímo z cloudového úložiště objektů jinými systémy.
Databricks doporučuje používat externí svazky k ukládání ne tabulkových datových souborů, které se čtou nebo zapisují externími systémy, kromě Azure Databricks. Katalog Unity neřídí čtení a zápisy prováděné přímo proti cloudovému úložišti objektů z externích systémů, takže musíte nakonfigurovat další zásady a přihlašovací údaje ve vašem cloudovém účtu, abyste zajistili, že zásady správného řízení dat se respektují mimo Azure Databricks.