Sdílet prostřednictvím


Set Konfigurační vlastnosti Sparku v Azure Databricks

Vlastnosti konfigurace Sparku (confs Spark) můžete set a přizpůsobit tak nastavení ve výpočetním prostředí.

Databricks obecně doporučuje nakonfigurovat většinu vlastností Sparku. Zvláště při migraci z open-source Apache Sparku nebo upgradu verzí Databricks Runtime můžou starší konfigurace Sparku přepsat nové výchozí chování, které optimize úlohách.

U mnoha chování řízených vlastnostmi Sparku nabízí Azure Databricks také možnosti povolení chování na úrovni table nebo konfiguraci vlastního chování v rámci operace zápisu. Například schema vývoj byl dříve řízen vlastností Sparku, ale nyní má pokrytí v SQL, Pythonu a Scala. Viz syntaxi vývoje Schema pro sloučení.

Konfigurace vlastností Sparku pro poznámkové bloky a úlohy

Vlastnosti Sparku můžete set pro poznámkové bloky a úlohy. Rozsah konfigurace závisí na tom, jak ji set.

Nakonfigurované vlastnosti: Platí pro:
Použití konfigurace výpočetních prostředků Všechny poznámkové bloky a úlohy běží s výpočetním prostředkem.
V poznámkovém bloku Pouze SparkSession pro aktuální poznámkový blok.

Pokyny ke konfiguraci vlastností Sparku na úrovni výpočetních prostředků najdete v tématu Konfigurace Sparku.

Pokud chcete set vlastnost Sparku v poznámkovém bloku, použijte následující syntaxi:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Konfigurace vlastností Sparku v Databricks SQL

Databricks SQL umožňuje správcům konfigurovat vlastnosti Sparku pro přístup k datům v nabídce nastavení pracovního prostoru. Viz Povolení konfigurace přístupu k datům

Kromě konfigurací přístupu k datům umožňuje Databricks SQL jenom několik konfigurací Sparku, které byly aliasy pro zjednodušení kratšími názvy. Viz konfigurace parameters.

U většiny podporovaných konfigurací SQL můžete přepsat globální chování v aktuální relaci. Následující příklad vypne režim ANSI:

SET ANSI_MODE = false

Konfigurace vlastností Sparku pro kanály Delta Live Tables

Delta Live Tables umožňuje konfigurovat vlastnosti Sparku pro potrubí, pro jeden výpočetní prostředek nakonfigurovaný pro potrubí nebo pro jednotlivé toky, které jsou materializovány viewsnebo streamovány tables.

Pomocí uživatelského rozhraní nebo JSON můžete zpracovat potrubí a vlastnosti Spark set. Viz Konfiguracekanálu Delta Live .

Pomocí možnosti spark_conf ve funkcích dekorátoru DLT můžete konfigurovat vlastnosti Sparku pro toky, viewsnebo tables. Podívejte se na Python Delta Live Tables vlastnosti.

Konfigurace vlastností Sparku pro bezserverové poznámkové bloky a úlohy

Výpočetní prostředí bez serveru nepodporuje nastavení většiny vlastností Sparku pro poznámkové bloky nebo úlohy. Níže jsou uvedené vlastnosti, které můžete nakonfigurovat:

Vlastnost Výchozí Popis
spark.databricks.execution.timeout 9000 Časový limit spuštění dotazů Spark Connect v sekundách. Výchozí hodnota je použitelná jenom pro poznámkové bloky spuštěné na bezserverových výpočetních prostředcích. U úloh spuštěných na bezserverových výpočetních a sdílených clusterech neexistuje časový limit, pokud tato vlastnost není set.
spark.sql.legacy.timeParserPolicy EXCEPTION Zásady analyzátoru času.
spark.sql.session.timeZone Etc/UTC ID místní relace timezone ve formátu buď ID zón založených na oblasti, nebo posunů zóny.
spark.sql.shuffle.partitions auto Výchozí nastavení počtu oddílů, které se mají použít při přesouvání dat pro spojení nebo agregace.
spark.sql.ansi.enabled true Pokud je pravda, Spark SQL místo toho, aby byl kompatibilní s Hivem, používá dialekt kompatibilní se standardem ANSI.