Definir as propriedades de configuração do Spark no Azure Databricks

Artigo
11/07/2024

Você pode definir propriedades de configuração do Spark (configurações do Spark) para personalizar as configurações em seu ambiente de computação.

A Databricks geralmente não recomenda a configuração da maioria das propriedades do Spark. Especialmente ao migrar do Apache Spark de código aberto ou ao atualizar as versões do Databricks Runtime, as configurações herdadas do Spark podem substituir os novos comportamentos padrão que otimizam as cargas de trabalho.

Para muitos comportamentos controlados por propriedades do Spark, o Azure Databricks também oferece opções para habilitar o comportamento no nível da tabela ou para configurar um comportamento personalizado como parte de uma operação de gravação. Por exemplo, a evolução do esquema era controlada anteriormente por uma propriedade do Spark, mas agora tem cobertura em SQL, Python e Scala. Confira Sintaxe de evolução de esquema para mesclagem.

Configurar propriedades do Spark para notebooks e trabalhos

Você pode definir as propriedades do Spark para notebooks e trabalhos. O escopo da configuração depende de como você a definiu.

Propriedades configuradas:	Aplica-se a:
Usando a configuração de computação	Todos os notebooks e trabalhos são executados com o recurso de computação.
Em um notebook	Somente a SparkSession para o notebook atual.

Para obter instruções sobre como configurar as propriedades do Spark no nível da computação, consulte Configuração do Spark.

Para definir uma propriedade do Spark em um notebook, use a sintaxe a seguir:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Configurar as propriedades do Spark no Databricks SQL

O Databricks SQL permite que os administradores configurem as propriedades do Spark para acesso aos dados no menu de configurações do espaço de trabalho. Consulte Habilitar configuração de acesso a dados

Além das configurações de acesso a dados, o SQL da Databricks permite apenas algumas configurações do Spark, que foram apelidadas com nomes mais curtos para simplificar. Consulte Parâmetros de configuração.

Para a maioria das configurações SQL com suporte, é possível substituir o comportamento global na sua sessão atual. O exemplo a seguir desativa o modo ANSI:

SET ANSI_MODE = false

Configurar as propriedades do Spark para pipelines do Delta Live Tables

O Delta Live Tables permite configurar propriedades do Spark para um pipeline, para um recurso de computação configurado para um pipeline ou para fluxos individuais, visualizações materializadas ou tabelas de streaming.

Você pode definir as propriedades de pipeline e computação do Spark usando a interface do usuário ou JSON. Consulte Configurar um pipeline do Delta Live Tables.

Use a opção spark_conf nas funções do decorador DLT para configurar as propriedades do Spark para fluxos, exibições ou tabelas. Consulte Propriedades do Delta Live Tables no Python.

Configurar as propriedades do Spark para notebooks e trabalhos sem servidor

A computação sem servidor não dá suporte à configuração da maioria das propriedades do Spark para notebooks ou trabalhos. A seguir estão as propriedades que você pode configurar:

spark.sql.legacy.timeParserPolicy (O valor padrão é EXCEPTION)
spark.sql.session.timeZone (O valor padrão é Etc/UTC)
spark.sql.shuffle.partitions (O valor padrão é auto)
spark.sql.ansi.enabled (O valor padrão é true)

Compartilhar via