Odczytywanie tabel Databricks z klientów Delta
Użyj katalogu REST Iceberg, aby odczytać tabele zarejestrowane w katalogu Unity na platformie Azure Databricks od obsługiwanych klientów Iceberg, w tym Apache Spark i DuckDB.
Napiwek
Aby uzyskać informacje na temat sposobu odczytywania danych z Azure Databricks przy użyciu Microsoft Fabric, zobacz Używanie Microsoft Fabric do odczytywania danych zarejestrowanych w Unity Catalog.
Odczytywanie z użyciem interfejsu REST API Unity
Interfejs API REST Unity zapewnia klientom zewnętrznym dostęp do odczytu do tabel Delta zarejestrowanych w Unity Catalog. Niektórzy klienci obsługują tworzenie tabel oraz zapisywanie danych w już istniejących tabelach.
Skonfiguruj dostęp przy użyciu punktu końcowego /api/2.1/unity-catalog
.
Wymagania
Azure Databricks obsługuje dostęp do tabel za pośrednictwem Unity REST API jako część Unity Catalog. Aby korzystać z tych punktów końcowych, musisz mieć włączony katalog Unity w Twoim obszarze roboczym. Następujące typy tabel kwalifikują się do odczytu za pomocą REST API dla Unity:
- Tabele zarządzane Unity Catalog.
- Tabele zewnętrzne w katalogu Unity przechowywane w Delta Lake.
Aby skonfigurować dostęp do odczytu tabel Databricks z klientami Delta przy użyciu interfejsu Unity REST API, należy wykonać następujące kroki konfiguracji:
- Włącz dostęp do danych zewnętrznych dla swojego magazynu metadanych. Zobacz Włączanie dostępu do danych zewnętrznych w magazynie metadanych.
- Udziel jednostce konfigurowania integracji uprawnienia
EXTERNAL USE SCHEMA
w schemacie zawierającym tabele. Zobacz Udziel głównego DOSTĘPU ZEWNĘTRZNEGO USE SCHEMA. - Uwierzytelnianie przy użyciu osobistego tokenu dostępu usługi Databricks. Zobacz Uwierzytelnianie dostępu do zasobów usługi Azure Databricks.
Odczytywanie tabel delta za pomocą platformy Apache Spark
Poniżej znajduje się przykład ustawień konfiguracji Apache Spark umożliwiających odczyt zarządzanych przez Unity Catalog i zewnętrznych tabel Delta.
"spark.sql.extensions": "io.delta.sql.DeltaSparkSessionExtension",
"spark.sql.catalog.spark_catalog": "io.unitycatalog.spark.UCSingleCatalog",
"spark.sql.catalog.<uc-catalog-name>": "io.unitycatalog.spark.UCSingleCatalog",
"spark.sql.catalog.<uc-catalog-name>.uri": "<workspace-url>/api/2.1/unity-catalog",
"spark.sql.catalog.<uc-catalog-name>.token":"<token>",
"spark.sql.defaultCatalog":"<uc-catalog-name>"
Zastąp następujące zmienne:
-
<uc-catalog-name>
: nazwa katalogu w Unity Catalog, który zawiera twoje tabele. -
<workspace-url>
: adres URL obszaru roboczego usługi Azure Databricks. -
<token>
: token PAT dla głównego podmiotu konfigurującego integrację.
Ważny
Określone konfiguracje różnią się w zależności od typu magazynu obiektów w chmurze, który wspiera wykaz. Aby uzyskać dodatkowe konfiguracje, zobacz dokumentację OSS Unity Catalog.