Set параметры конфигурации Spark в Azure Databricks
Вы можете set свойства конфигурации Spark (confs Spark) для настройки параметров в вычислительной среде.
Databricks обычно рекомендует настраивать большинство свойств Spark. Особенно при миграции из Apache Spark с открытым исходным кодом или обновлении версий среды выполнения Databricks устаревшие конфигурации Spark могут переопределить новые поведения по умолчанию, которые optimize рабочих нагрузок.
Для многих действий, контролируемых свойствами Spark, Azure Databricks также предоставляет параметры для включения поведения на уровне table или настройки пользовательского поведения в рамках операции записи. Например, эволюция schema ранее контролировалась свойством Spark, но теперь поддерживается в SQL, Python и Scala. См. синтаксис эволюции Schema для слияния.
Настройка свойств Spark для записных книжек и заданий
Вы можете настроить свойства Spark для set записных книжек и заданий. Область конфигурации зависит от того, как set ее.
Свойства, настроенные: | Относится к: |
---|---|
Использование конфигурации вычислений | Все записные книжки и задания выполняются с помощью вычислительного ресурса. |
В записной книжке | Только SparkSession для текущей записной книжки. |
Инструкции по настройке свойств Spark на уровне вычислений см. в разделе "Конфигурация Spark".
Чтобы set свойство Spark в записной книжке, используйте следующий синтаксис:
SQL
SET spark.sql.ansi.enabled = true
Python
spark.conf.set("spark.sql.ansi.enabled", "true")
Scala
spark.conf.set("spark.sql.ansi.enabled", "true")
Настройка свойств Spark в Databricks SQL
Databricks SQL позволяет администраторам настраивать свойства Spark для доступа к данным в меню параметров рабочей области. См. раздел "Включение конфигурации доступа к данным"
Кроме конфигураций доступа к данным, Databricks SQL позволяет лишь несколько конфечений Spark, которые были псевдонимами более коротких имен для простоты. См. конфигурации parameters.
Для большинства поддерживаемых конфигураций SQL можно переопределить глобальное поведение в текущем сеансе. В следующем примере отключен режим ANSI:
SET ANSI_MODE = false
Настройка свойств Spark для конвейеров Delta Live Tables
Delta Live Tables позволяет настроить свойства Spark для конвейера, для одного вычислительного ресурса, настроенного для конвейера, или для отдельных потоков: материализованных viewsили потоковых tables.
Вы можете set свойства конвейера и вычислений Spark с помощью пользовательского интерфейса или JSON. См. Настройте конвейер Delta Live Tables.
Используйте опцию spark_conf
в функциях декоратора DLT для настройки свойств Spark для потоков: viewsили tables. См. свойства Python Delta Live Tables.
Настройка свойств Spark для бессерверных записных книжек и заданий
Бессерверные вычисления не поддерживают настройку большинства свойств Spark для записных книжек или заданий. Ниже приведены свойства, которые можно настроить.
Свойство | По умолчанию | Описание |
---|---|---|
spark.databricks.execution.timeout |
9000 |
Время ожидания выполнения (в секундах) для запросов Spark Connect. Значение по умолчанию применимо только для записных книжек, работающих на бессерверных вычислениях. Для заданий, выполняемых в бессерверных вычислительных и общих кластерах, время ожидания отсутствует, если это свойство не установлено на set. |
spark.sql.legacy.timeParserPolicy |
EXCEPTION |
Политика синтаксического анализа времени. |
spark.sql.session.timeZone |
Etc/UTC |
Идентификатор локального сеанса timezone в формате идентификаторов зон, основанных на регионе, или смещений зон. |
spark.sql.shuffle.partitions |
auto |
Число секций по умолчанию, используемых при перемешивании данных для соединений или агрегаций. |
spark.sql.ansi.enabled |
true |
Если значение true, Spark SQL использует диалект, совместимый с ANSI, вместо совместимости с Hive. |