Поделиться через


Чтение общих таблиц Delta Sharing с помощью DataFrames Apache Spark

В этой статье приведены примеры синтаксиса использования Apache Spark для запроса данных, совместно используемых с помощью разностного общего доступа. Используйте ключевое deltasharing слово в качестве параметра формата для операций DataFrame.

Другие варианты запроса общих данных

Вы также можете создавать запросы, использующие имена общих таблиц в каталогах Delta Sharing, зарегистрированных в хранилище метаданных, например в следующих примерах:

SQL

SELECT * FROM shared_table_name

Python

spark.read.table("shared_table_name")

Дополнительные сведения о настройке разностного общего доступа в Azure Databricks и запросах данных с использованием общих имен таблиц см. в для чтения данных с помощью Databricks to Databricks Delta Sharing (для получателей).

Структурированное потоковое вещание можно использовать для поэтапной обработки записей в общих таблицах. Чтобы использовать структурированную потоковую передачу, необходимо включить совместное использование истории для таблицы. См. ALTER SHARE. Для общего доступа к журналам требуется Databricks Runtime 12.2 LTS или более поздней версии.

Если в общей таблице включен канал изменений данных в исходной таблице Delta и журнале, включенном в общей папке, можно использовать канал изменений при чтении разностной общей папки с структурированной потоковой передачей или пакетными операциями. См. статью Использование веб-канала изменений данных Delta Lake в Azure Databricks.

Чтение с помощью ключевого слова формата разностного общего доступа

Ключевое deltasharing слово поддерживается для операций чтения с данными Apache Spark, как показано в следующем примере:

df = (spark.read
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Чтение канала данных изменений для общих таблиц Delta Sharing

Для таблиц с общей историей и включённым потоком изменений данных, можно считывать записи потока изменений данных с помощью DataFrames Apache Spark. Для общего доступа к журналам требуется Databricks Runtime 12.2 LTS или более поздней версии.

df = (spark.read
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .option("endingTimestamp", "2021-05-21 12:00:00")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

Чтение общих таблиц Delta Sharing с помощью структурированного стриминга

Для таблиц, имеющих общий журнал, можно использовать общую таблицу в качестве источника для структурированной потоковой передачи. Для общего доступа к журналам требуется Databricks Runtime 12.2 LTS или более поздней версии.

streaming_df = (spark.readStream
  .format("deltasharing")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)

# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
  .format("deltasharing")
  .option("readChangeFeed", "true")
  .option("startingTimestamp", "2021-04-21 05:45:46")
  .load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)