Поделиться через


Set параметры конфигурации Spark в Azure Databricks

Вы можете set свойства конфигурации Spark (confs Spark) для настройки параметров в вычислительной среде.

Databricks обычно рекомендует настраивать большинство свойств Spark. Особенно при миграции из Apache Spark с открытым исходным кодом или обновлении версий среды выполнения Databricks устаревшие конфигурации Spark могут переопределить новые поведения по умолчанию, которые optimize рабочих нагрузок.

Для многих действий, контролируемых свойствами Spark, Azure Databricks также предоставляет параметры для включения поведения на уровне table или настройки пользовательского поведения в рамках операции записи. Например, эволюция schema ранее контролировалась свойством Spark, но теперь поддерживается в SQL, Python и Scala. См. синтаксис эволюции Schema для слияния.

Настройка свойств Spark для записных книжек и заданий

Вы можете настроить свойства Spark для set записных книжек и заданий. Область конфигурации зависит от того, как set ее.

Свойства, настроенные: Относится к:
Использование конфигурации вычислений Все записные книжки и задания выполняются с помощью вычислительного ресурса.
В записной книжке Только SparkSession для текущей записной книжки.

Инструкции по настройке свойств Spark на уровне вычислений см. в разделе "Конфигурация Spark".

Чтобы set свойство Spark в записной книжке, используйте следующий синтаксис:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Настройка свойств Spark в Databricks SQL

Databricks SQL позволяет администраторам настраивать свойства Spark для доступа к данным в меню параметров рабочей области. См. раздел "Включение конфигурации доступа к данным"

Кроме конфигураций доступа к данным, Databricks SQL позволяет лишь несколько конфечений Spark, которые были псевдонимами более коротких имен для простоты. См. конфигурации parameters.

Для большинства поддерживаемых конфигураций SQL можно переопределить глобальное поведение в текущем сеансе. В следующем примере отключен режим ANSI:

SET ANSI_MODE = false

Настройка свойств Spark для конвейеров Delta Live Tables

Delta Live Tables позволяет настроить свойства Spark для конвейера, для одного вычислительного ресурса, настроенного для конвейера, или для отдельных потоков: материализованных viewsили потоковых tables.

Вы можете set свойства конвейера и вычислений Spark с помощью пользовательского интерфейса или JSON. См. Настройте конвейер Delta Live Tables.

Используйте опцию spark_conf в функциях декоратора DLT для настройки свойств Spark для потоков: viewsили tables. См. свойства Python Delta Live Tables.

Настройка свойств Spark для бессерверных записных книжек и заданий

Бессерверные вычисления не поддерживают настройку большинства свойств Spark для записных книжек или заданий. Ниже приведены свойства, которые можно настроить.

Свойство По умолчанию Описание
spark.databricks.execution.timeout 9000 Время ожидания выполнения (в секундах) для запросов Spark Connect. Значение по умолчанию применимо только для записных книжек, работающих на бессерверных вычислениях. Для заданий, выполняемых в бессерверных вычислительных и общих кластерах, время ожидания отсутствует, если это свойство не установлено на set.
spark.sql.legacy.timeParserPolicy EXCEPTION Политика синтаксического анализа времени.
spark.sql.session.timeZone Etc/UTC Идентификатор локального сеанса timezone в формате идентификаторов зон, основанных на регионе, или смещений зон.
spark.sql.shuffle.partitions auto Число секций по умолчанию, используемых при перемешивании данных для соединений или агрегаций.
spark.sql.ansi.enabled true Если значение true, Spark SQL использует диалект, совместимый с ANSI, вместо совместимости с Hive.