Set Konfigurační vlastnosti Sparku v Azure Databricks
Vlastnosti konfigurace Sparku (confs Spark) můžete set a přizpůsobit tak nastavení ve výpočetním prostředí.
Databricks obecně doporučuje nakonfigurovat většinu vlastností Sparku. Zvláště při migraci z open-source Apache Sparku nebo upgradu verzí Databricks Runtime můžou starší konfigurace Sparku přepsat nové výchozí chování, které optimize úlohách.
U mnoha chování řízených vlastnostmi Sparku nabízí Azure Databricks také možnosti povolení chování na úrovni table nebo konfiguraci vlastního chování v rámci operace zápisu. Například schema vývoj byl dříve řízen vlastností Sparku, ale nyní má pokrytí v SQL, Pythonu a Scala. Viz syntaxi vývoje Schema pro sloučení.
Konfigurace vlastností Sparku pro poznámkové bloky a úlohy
Vlastnosti Sparku můžete set pro poznámkové bloky a úlohy. Rozsah konfigurace závisí na tom, jak ji set.
Nakonfigurované vlastnosti: | Platí pro: |
---|---|
Použití konfigurace výpočetních prostředků | Všechny poznámkové bloky a úlohy běží s výpočetním prostředkem. |
V poznámkovém bloku | Pouze SparkSession pro aktuální poznámkový blok. |
Pokyny ke konfiguraci vlastností Sparku na úrovni výpočetních prostředků najdete v tématu Konfigurace Sparku.
Pokud chcete set vlastnost Sparku v poznámkovém bloku, použijte následující syntaxi:
SQL
SET spark.sql.ansi.enabled = true
Python
spark.conf.set("spark.sql.ansi.enabled", "true")
Scala
spark.conf.set("spark.sql.ansi.enabled", "true")
Konfigurace vlastností Sparku v Databricks SQL
Databricks SQL umožňuje správcům konfigurovat vlastnosti Sparku pro přístup k datům v nabídce nastavení pracovního prostoru. Viz Povolení konfigurace přístupu k datům
Kromě konfigurací přístupu k datům umožňuje Databricks SQL jenom několik konfigurací Sparku, které byly aliasy pro zjednodušení kratšími názvy. Viz konfigurace parameters.
U většiny podporovaných konfigurací SQL můžete přepsat globální chování v aktuální relaci. Následující příklad vypne režim ANSI:
SET ANSI_MODE = false
Konfigurace vlastností Sparku pro kanály Delta Live Tables
Delta Live Tables umožňuje konfigurovat vlastnosti Sparku pro potrubí, pro jeden výpočetní prostředek nakonfigurovaný pro potrubí nebo pro jednotlivé toky, které jsou materializovány viewsnebo streamovány tables.
Pomocí uživatelského rozhraní nebo JSON můžete zpracovat potrubí a vlastnosti Spark set. Viz
Pomocí možnosti spark_conf
ve funkcích dekorátoru DLT můžete konfigurovat vlastnosti Sparku pro toky, viewsnebo tables. Podívejte se na Python Delta Live Tables vlastnosti.
Konfigurace vlastností Sparku pro bezserverové poznámkové bloky a úlohy
Výpočetní prostředí bez serveru nepodporuje nastavení většiny vlastností Sparku pro poznámkové bloky nebo úlohy. Níže jsou uvedené vlastnosti, které můžete nakonfigurovat:
Vlastnost | Výchozí | Popis |
---|---|---|
spark.databricks.execution.timeout |
9000 |
Časový limit spuštění dotazů Spark Connect v sekundách. Výchozí hodnota je použitelná jenom pro poznámkové bloky spuštěné na bezserverových výpočetních prostředcích. U úloh spuštěných na bezserverových výpočetních a sdílených clusterech neexistuje časový limit, pokud tato vlastnost není set. |
spark.sql.legacy.timeParserPolicy |
EXCEPTION |
Zásady analyzátoru času. |
spark.sql.session.timeZone |
Etc/UTC |
ID místní relace timezone ve formátu buď ID zón založených na oblasti, nebo posunů zóny. |
spark.sql.shuffle.partitions |
auto |
Výchozí nastavení počtu oddílů, které se mají použít při přesouvání dat pro spojení nebo agregace. |
spark.sql.ansi.enabled |
true |
Pokud je pravda, Spark SQL místo toho, aby byl kompatibilní s Hivem, používá dialekt kompatibilní se standardem ANSI. |