Sdílet prostřednictvím


Spravované versus externí svazky

Tento článek popisuje rozdíly mezi spravovanými svazky a externími svazky a důvody, proč se můžete rozhodnout používat externí svazky. Databricks doporučuje spravované svazky jako nejjednodušší řešení pro ukládání a správu přístupu k ne tabulkovým datům.

Další pokyny ke konfiguraci přístupu ke cloudovému úložišti objektů najdete v tématu Připojení ke cloudovému úložišti objektů a službám pomocí katalogu Unity.

Rozdíly Chování mezi spravovanými a externími svazky

Spravované a externí svazky poskytují téměř identické prostředí při používání nástrojů, uživatelských rozhraní a rozhraní API Azure Databricks. Níže jsou uvedené rozdíly mezi těmito typy svazků.

Spravované svazky poskytují plně spravované úložiště. To znamená následující:

  • Všechny interakce se soubory ve spravovaných svazcích musí procházet katalogem Unity.
  • Rozložení názvů adresářů a dat je spravováno katalogem Unity. Názvy adresářů zahrnují hodnoty hash, aby nedocházelo ke konfliktům v podkladových účtech cloudového úložiště objektů.
  • Když odstraníte spravovaný svazek, Azure Databricks odstraní podkladová data do 30 dnů.

Externí svazky přinášejí správu dat do cloudového objektového úložiště. To znamená následující:

  • K interakci se soubory v externích svazcích můžete použít cloudové identifikátory URI v Azure Databricks nebo externích systémech.
  • Všechny adresáře vytvořené v rámci externího svazku nebo nahraných souborů jsou relativní vzhledem k zadanému LOCATION při vytváření.
  • Když externí svazek odstraníte, odeberete ho z katalogu Unity, ale podkladová data zůstanou v externím umístění beze změny.

Proč používat externí svazky?

Externí svazky umožňují přidat zásady správného řízení dat katalogu Unity do existujících adresářů cloudového úložiště objektů. Mezi případy použití externích svazků patří:

  • Přidání zásad správného řízení do datových souborů bez migrace
  • Řízení souborů vytvořených jinými systémy, které musí být ingestovány nebo přístupné službou Azure Databricks.
  • Řízení dat vytvořených službou Azure Databricks, ke kterým musí přistupovat přímo z cloudového úložiště objektů jinými systémy.

Databricks doporučuje používat externí svazky k ukládání ne tabulkových datových souborů, které se čtou nebo zapisují externími systémy, kromě Azure Databricks. Katalog Unity neřídí čtení a zápisy prováděné přímo proti cloudovému úložišti objektů z externích systémů, takže musíte nakonfigurovat další zásady a přihlašovací údaje ve vašem cloudovém účtu, abyste zajistili, že zásady správného řízení dat se respektují mimo Azure Databricks.