Set proprietà di configurazione di Spark in Azure Databricks

Articolo
01/22/2025

È possibile set proprietà di configurazione Di Spark (Spark confs) per personalizzare le impostazioni nell'ambiente di calcolo.

Databricks consiglia in genere di configurare la maggior parte delle proprietà spark. In particolare quando si esegue la migrazione da Apache Spark open source o si aggiornano le versioni di Databricks Runtime, le configurazioni Spark legacy possono eseguire l'override di nuovi comportamenti predefiniti che optimize carichi di lavoro.

Per molti comportamenti controllati dalle proprietà spark, Azure Databricks offre anche opzioni per abilitare il comportamento a livello di table o per configurare il comportamento personalizzato come parte di un'operazione di scrittura. Ad esempio, l'evoluzione di schema è stata precedentemente controllata da una proprietà Spark, ma ora è supportata in SQL, Python e Scala. Vedere Schema sintassi dell'evoluzione per l'unione.

Configurare le proprietà di Spark per notebook e processi

È possibile set proprietà Spark per notebook e processi. L'ambito della configurazione dipende dalla modalità di set.

Proprietà configurate:	Si applica a:
Uso della configurazione di calcolo	Tutti i notebook e i processi vengono eseguiti con la risorsa di calcolo.
All'interno di un notebook	Solo SparkSession per il notebook corrente.

Per istruzioni sulla configurazione delle proprietà Spark a livello di calcolo, vedere Configurazione di Spark.

Per set una proprietà Spark in un notebook, usare la sintassi seguente:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Configurare le proprietà di Spark in Databricks SQL

Databricks SQL consente agli amministratori di configurare le proprietà spark per l'accesso ai dati nel menu delle impostazioni dell'area di lavoro. Vedere Abilitare la configurazione dell'accesso ai dati

Oltre alle configurazioni di accesso ai dati, Databricks SQL consente solo una manciata di file confs Spark, che sono stati aliasati per nomi più brevi per semplicità. Consulta Configurazione parameters.

Per le configurazioni SQL più supportate, è possibile eseguire l'override del comportamento globale nella sessione corrente. L'esempio seguente disattiva la modalità ANSI:

SET ANSI_MODE = false

Configurare le proprietà di Spark per le pipeline Delta Live Tables

Delta Live Tables consente di configurare le proprietà di Spark per una pipeline, per una risorsa di calcolo configurata per una pipeline o per flussi individuali, flussi materializzati viewso streaming tables.

È possibile set pipeline e calcolare le proprietà di Spark usando l'interfaccia utente o JSON. Consulta Configurare una Tables Delta Live pipeline.

Usare l'opzione spark_conf nelle funzioni di decoratori DLT per configurare le proprietà di Spark per i flussi viewso tables. Vedi le proprietà di Python Delta Live Tables.

Configurare le proprietà di Spark per notebook e processi serverless

L'ambiente di calcolo senza sever non supporta l'impostazione della maggior parte delle proprietà Spark per notebook o processi. Di seguito sono riportate le proprietà che è possibile configurare:

Proprietà	Predefinito	Descrizione
`spark.databricks.execution.timeout`	`9000`	Timeout, in secondi, per l'esecuzione delle query Spark Connect. Il valore predefinito è applicabile solo per i notebook in esecuzione nel calcolo serverless. Per i lavori in esecuzione su calcolo serverless e cluster condivisi, non esiste timeout a meno che questa proprietà non sia impostata su set.
`spark.sql.legacy.timeParserPolicy`	`EXCEPTION`	Politica del parser dell'ora.
`spark.sql.session.timeZone`	`Etc/UTC`	ID di sessione locale timezone nel formato di ID di zona basati su regioni o offset di zona.
`spark.sql.shuffle.partitions`	`auto`	Numero predefinito di partizioni da usare per il rimescolamento dei dati per join o aggregazioni.
`spark.sql.ansi.enabled`	`true`	Quando è vero, Spark SQL utilizza un dialetto conforme ANSI anziché essere conforme a Hive.

Condividi tramite