Sdílet prostřednictvím


Přístup k datům Databricks pomocí externích systémů

Tento článek obsahuje přehled funkcí a doporučení pro správu a řízení dat v Azure Databricks pro jiné systémy.

Tyto vzory se zaměřují na scénáře, ve kterých vaše organizace potřebuje integrovat důvěryhodné nástroje nebo systémy do dat Azure Databricks. Pokud hledáte pokyny ke sdílení dat mimo vaši organizaci, přečtěte si téma Bezpečné sdílení dat a prostředků AI s uživateli v jiných organizacích.

Jaký externí přístup Azure Databricks podporuje?

Azure Databricks doporučuje použití katalogu Unity k řízení všech datových prostředků.

Následující tabulka obsahuje přehled formátů podpory a vzorů přístupu pro objekty katalogu Unity.

Objekt katalogu Unity Podporované formáty Vzory přístupu
Spravované tabulky Delta Lake, Iceberg Prodej přihlašovacích údajů, katalog Iceberg REST, Sdílení Delta
Externí tabulky Delta Lake Poskytování přihlašovacích údajů, katalog Iceberg REST, Delta Sharing, identifikátory URI cloudu
Externí tabulky CSV, JSON, Avro, Parquet, ORC, text Identifikátory URI cloudu
Externí svazky Všechny datové typy Identifikátory URI cloudu

Poznámka

Podpora Icebergu popisuje tabulky napsané službou Azure Databricks pomocí Delta Lake, ale s povolenými čteními Iceberg (UniForm).

Další podrobnosti o těchto objektech katalogu Unity najdete v následujících tématech:

Vydávání přihlašovacích údajů katalogu Unity

Přihlašovací údaje katalogu Unity umožňují uživatelům nakonfigurovat externí klienty tak, aby dědily oprávnění k datům, která se řídí službou Azure Databricks. Podívejte se na poskytování přihlašovacích údajů v katalogu Unity pro přístup k externím systémům.

Čtení tabulek pomocí klientů Icebergu

Azure Databricks poskytuje klientům Iceberg podporu jen pro čtení pro tabulky zaregistrované ve službě Unity Catalog. Mezi podporované klienty patří Apache Spark, Apache Flink, Trino a Snowflake. Viz Čtení tabulek Databricks z klientů Iceberg.

Sdílení tabulek jen pro čtení napříč doménami

S pomocí Delta Sharing můžete poskytnout přístup pouze pro čtení ke spravovaným nebo externím tabulkám Delta v různých doménách a podporovaných systémech. Mezi softwarové systémy, které podporují čtení tabulek Delta Sharing bez kopírování, patří SAP, Amperity a Oracle. Viz Bezpečné sdílení dat a prostředků AI s uživateli v jiných organizacích.

Poznámka

Pomocí Delta Sharing můžete také zákazníkům nebo partnerům udělit přístup jen pro čtení. Delta Sharing také zálohuje data sdílená pomocí Databricks Marketplace.

Čtení a zápis externích tabulek Delta

K externím tabulkám katalogu Unity, které jsou spravovány Delta Lake, můžete přistupovat pomocí externích klientů pro čtení a zápis Delta Lake pomocí identifikátorů URI a přihlašovacích údajů pro cloudové úložiště objektů.

Katalog Unity neřídí čtení a zápisy prováděné přímo proti cloudovému úložišti objektů z externích systémů, takže musíte nakonfigurovat další zásady a přihlašovací údaje ve vašem cloudovém účtu, abyste zajistili, že zásady správného řízení dat se respektují mimo Azure Databricks.

Poznámka

Dokumentace k Azure Databricks uvádí omezení a aspekty kompatibility na základě verzí a funkcí platformy Databricks Runtime. Musíte potvrdit, jaké protokoly a funkce tabulek čtenáře a zápisu váš klient podporuje. Viz delta.io.

Přístup k tabulkovým datům mimo Delta Lake s externími tabulkami

Externí tabulky Katalogu Unity podporují mnoho jiných formátů než Delta Lake, včetně Parquet, ORC, CSV a JSON. Externí tabulky ukládají všechny datové soubory do adresářů v umístění cloudového úložiště objektů určeném identifikátorem URI cloudu poskytnutého během vytváření tabulky. Jiné systémy k těmto datovým souborům přistupují přímo z cloudového úložiště objektů.

Katalog Unity neřídí čtení a zápisy prováděné přímo proti cloudovému úložišti objektů z externích systémů, takže musíte nakonfigurovat další zásady a přihlašovací údaje ve vašem cloudovém účtu, abyste zajistili, že zásady správného řízení dat se respektují mimo Azure Databricks.

Čtení a zápis do externích tabulek z více systémů může vést k problémům s konzistencí a poškození dat, protože pro jiné formáty než Delta Lake nejsou poskytovány žádné transakční záruky.

Katalog Unity nemusí zaznamenat nové oddíly zapsané do externích tabulek, které jsou zálohovány formáty jinými než Delta Lake. Databricks doporučuje pravidelně spouštět MSCK REPAIR TABLE table_name, aby se zajistilo, že katalog Unity zaregistroval všechny datové soubory zapsané externími systémy.

Přístup k netabulárním datům s externími svazky

Databricks doporučuje používat externí svazky k ukládání ne tabulkových datových souborů, které se čtou nebo zapisují externími systémy, kromě Azure Databricks. Viz Co jsou svazky katalogu Unity?.

Katalog Unity neřídí čtení a zápisy prováděné přímo proti cloudovému úložišti objektů z externích systémů, takže musíte nakonfigurovat další zásady a přihlašovací údaje ve vašem cloudovém účtu, abyste zajistili, že zásady správného řízení dat se respektují mimo Azure Databricks.

Svazky poskytují rozhraní API, sady SDK a další nástroje pro vkládání souborů do svazků a jejich získávání ze svazků. Viz Správa souborů ve svazcích.

Poznámka

Delta Sharing umožňuje sdílet data s jinými účty Azure Databricks, ale neintegruje se s externími systémy.