Чтение общих таблиц Delta Sharing с помощью DataFrames Apache Spark
В этой статье приведены примеры синтаксиса использования Apache Spark для запроса данных, совместно используемых с помощью разностного общего доступа. Используйте ключевое deltasharing
слово в качестве параметра формата для операций DataFrame.
Другие варианты запроса общих данных
Вы также можете создавать запросы, использующие имена общих таблиц в каталогах Delta Sharing, зарегистрированных в хранилище метаданных, например в следующих примерах:
SQL
SELECT * FROM shared_table_name
Python
spark.read.table("shared_table_name")
Дополнительные сведения о настройке разностного общего доступа в Azure Databricks и запросах данных с использованием общих имен таблиц см. в
Структурированное потоковое вещание можно использовать для поэтапной обработки записей в общих таблицах. Чтобы использовать структурированную потоковую передачу, необходимо включить совместное использование истории для таблицы. См. ALTER SHARE. Для общего доступа к журналам требуется Databricks Runtime 12.2 LTS или более поздней версии.
Если в общей таблице включен канал изменений данных в исходной таблице Delta и журнале, включенном в общей папке, можно использовать канал изменений при чтении разностной общей папки с структурированной потоковой передачей или пакетными операциями. См. статью Использование веб-канала изменений данных Delta Lake в Azure Databricks.
Чтение с помощью ключевого слова формата разностного общего доступа
Ключевое deltasharing
слово поддерживается для операций чтения с данными Apache Spark, как показано в следующем примере:
df = (spark.read
.format("deltasharing")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
Чтение канала данных изменений для общих таблиц Delta Sharing
Для таблиц с общей историей и включённым потоком изменений данных, можно считывать записи потока изменений данных с помощью DataFrames Apache Spark. Для общего доступа к журналам требуется Databricks Runtime 12.2 LTS или более поздней версии.
df = (spark.read
.format("deltasharing")
.option("readChangeFeed", "true")
.option("startingTimestamp", "2021-04-21 05:45:46")
.option("endingTimestamp", "2021-05-21 12:00:00")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
Чтение общих таблиц Delta Sharing с помощью структурированного стриминга
Для таблиц, имеющих общий журнал, можно использовать общую таблицу в качестве источника для структурированной потоковой передачи. Для общего доступа к журналам требуется Databricks Runtime 12.2 LTS или более поздней версии.
streaming_df = (spark.readStream
.format("deltasharing")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)
# If CDF is enabled on the source table
streaming_cdf_df = (spark.readStream
.format("deltasharing")
.option("readChangeFeed", "true")
.option("startingTimestamp", "2021-04-21 05:45:46")
.load("<profile-path>#<share-name>.<schema-name>.<table-name>")
)