Toegang tot Databricks-gegevens met behulp van externe systemen
Dit artikel biedt een overzicht van functionaliteit en aanbevelingen voor het beschikbaar maken van gegevens die worden beheerd en bestuurd door Azure Databricks voor andere systemen.
Deze patronen zijn gericht op scenario's where uw organisatie vertrouwde hulpprogramma's of systemen moet integreren in Azure Databricks-gegevens. Zie Gegevens en AI-assets veilig delen met gebruikers in andere organisatiesals u hulp nodig hebt bij het delen van gegevens buiten uw organisatie.
Welke externe toegang biedt Azure Databricks?
Azure Databricks raadt het gebruik van Unity Catalog aan om al uw gegevensassets te beheren.
De volgende table biedt een overzicht van ondersteuningsindelingen en toegangspatronen voor Unity Catalog-objecten.
Unity Catalog-object | Ondersteunde indelingen | Toegangspatronen |
---|---|---|
Beheerde tables | Delta Lake, Iceberg | Credential vending, Iceberg REST catalog, Delta Sharing |
Externe tables | Delta Lake | Inloggegevensuitgifte, Iceberg REST catalog, Delta Sharing, cloud-URI's |
Externe tables | CSV, JSON, Avro, Parquet, ORC, tekst | Cloud-URI's |
Externe volumes | Alle gegevenstypen | Cloud-URIs |
Notitie
Iceberg-ondersteuning beschrijft tables dat door Azure Databricks is opgesteld met behulp van Delta Lake, maar met ingeschakelde Iceberg-leesbewerkingen (UniForm).
Zie het volgende voor meer informatie over deze Unity-Catalog-objecten:
Unity Catalog verstrekking van toegangsgegevens
Met Unity Catalog referentieverkoop kunnen gebruikers externe clients configureren om bevoegdheden over te nemen op gegevens die worden beheerd door Azure Databricks. Zie Unity Catalog identiteitsverstrekking voor toegang tot externe systemen.
Lees tables met Iceberg-cliënten
Azure Databricks biedt Iceberg-clients alleen-lezenondersteuning voor tables geregistreerd bij Unity Catalog. Ondersteunde clients zijn Apache Spark, Apache Flink, Trino en Snowflake. Zie Iceberg-clientsDatabricks-tables uitlezen.
Deel alleen-lezen tables over domeinen
U kunt Delta Delen gebruiken om alleen-lezentoegang te grant tot beheerde of externe Delta-tables tussen domeinen en ondersteunde systemen. Softwaresystemen die zero-copy-leesbewerkingen van Delta Sharing ondersteunen tables SAP, Amperity en Oracle bevatten. Zie Gegevens en AI-assets veilig delen met gebruikers in andere organisaties.
Notitie
U kunt Delta Delen ook gebruiken om alleen-lezentoegang tot klanten of partners te grant. Delta Sharing maakt ook back-ups van gegevens die worden gedeeld met behulp van de Databricks Marketplace.
Externe Delta-tables lezen en schrijven
U kunt toegang krijgen tot Unity Catalog externe tables ondersteund door Delta Lake vanuit externe Delta Lake-lezer- en schrijfclients met behulp van cloudobjectopslag-URI's en credentials.
Unity Catalog beheert geen lees- en schrijfbewerkingen die rechtstreeks worden uitgevoerd op basis van cloudobjectopslag van externe systemen. U moet dus aanvullende beleidsregels en credentials configureren in uw cloudaccount om ervoor te zorgen dat het beleid voor gegevensbeheer buiten Azure Databricks wordt gerespecteerd.
Notitie
De Documentatie van Azure Databricks bevat beperkingen en compatibiliteitsoverwegingen op basis van databricks Runtime-versies en platformfuncties. U moet controleren welke lezer- en schrijfprotocollen en table-mogelijkheden uw cliënt ondersteunt. Zie delta.io.
Toegang tot niet-Delta Lake-tabelgegevens met externe tables
Unity Catalog biedt externe tables ondersteuning voor veel andere indelingen dan Delta Lake, waaronder Parquet, ORC, CSV en JSON. Externe tables alle gegevensbestanden opslaan in mappen in een opslaglocatie voor cloudobjecten die is opgegeven door een cloud-URI die is opgegeven tijdens het maken van table. Andere systemen hebben rechtstreeks toegang tot deze gegevensbestanden vanuit de opslag van cloudobjecten.
Unity Catalog beheert geen lees- en schrijfbewerkingen die rechtstreeks worden uitgevoerd op basis van cloudobjectopslag van externe systemen. U moet dus aanvullende beleidsregels en credentials configureren in uw cloudaccount om ervoor te zorgen dat het beleid voor gegevensbeheer buiten Azure Databricks wordt gerespecteerd.
Lezen en schrijven naar externe tables van meerdere systemen kan leiden tot consistentieproblemen en beschadiging van gegevens, omdat er geen transactionele garanties worden geboden voor andere indelingen dan Delta Lake.
Mogelijk haalt Unity Catalog geen nieuwe partities op die zijn geschreven naar externe tables, ondersteund door andere formats dan Delta Lake. Databricks raadt aan regelmatig MSCK REPAIR TABLE table_name
uit te voeren om ervoor te zorgen dat Unity Catalog alle gegevensbestanden heeft geregistreerd die zijn geschreven door externe systemen.
Toegang tot niet-tabellaire gegevens met externe volumes
Databricks raadt aan externe volumes te gebruiken om niet-tabellaire gegevensbestanden op te slaan die naast Azure Databricks worden gelezen of geschreven door externe systemen. Zie Wat is Unity Catalogvolumes?.
Unity Catalog beheert geen lees- en schrijfbewerkingen die rechtstreeks worden uitgevoerd op basis van cloudobjectopslag van externe systemen. U moet dus aanvullende beleidsregels en credentials configureren in uw cloudaccount om ervoor te zorgen dat het beleid voor gegevensbeheer buiten Azure Databricks wordt gerespecteerd.
Volumes biedt API's, SDK's en andere hulpprogramma's voor het ophalen van bestanden uit en het plaatsen van bestanden in volumes. Zie Bestanden beheren in volumes.
Notitie
Met Delta Sharing kunt u volumes delen met andere Azure Databricks-accounts, maar niet integreren met externe systemen.