Синхронизация Apache Spark для определений внешних таблиц Azure Synapse в бессерверном пуле SQL
Бессерверный пул SQL может автоматически синхронизировать метаданные из Apache Spark. Для каждой базы данных, имеющейся в бессерверных пулах Apache Spark, будет создана база данных бессерверного пула SQL.
Для каждой внешней таблицы Spark, основанной на Parquet или CSV и размещенной в службе хранилища Azure, внешняя таблица создается в базе данных бессерверного пула SQL. Таким образом, вы можете завершить работу пулов Spark и по-прежнему запрашивать внешние таблицы Spark из бессерверного пула SQL.
Если таблица секционирована в Spark, файлы в хранилище упорядочиваются по папкам. Бессерверный пул SQL будет использовать для запроса метаданные секции и только целевые папки и файлы.
Синхронизация метаданных автоматически настраивается для каждого бессерверного пула Apache Spark, подготовленного в рабочей области Azure Synapse. Вы можете сразу же начать выполнение запросов ко внешним таблицам Spark.
Каждая внешняя таблица Spark на основе Parquet или CSV, размещенная в службе хранилища Azure, представлена внешней таблицей в схеме dbo, которая соответствует базе данных бессерверного пула SQL.
Для запросов к внешним таблицам Spark выполните запрос, нацеленный на внешнюю таблицу [spark_table]. Перед выполнением примера убедитесь, что у вас есть правильный доступ к учетной записи хранения, в которой находятся файлы.
SELECT * FROM [db].dbo.[spark_table]
Сопоставление типов данных Apache Spark с типами данных SQL
Дополнительные сведения о сопоставлении типов данных Apache Spark с типами данных SQL см. в статье Общие таблицы метаданных Azure Synapse Analytics.
Дальнейшие действия
Перейдите к статье Управление доступом к хранилищу, чтобы узнать больше о контроле доступа к хранилищу.