Nastavení vlastností konfigurace Sparku v Azure Databricks
Vlastnosti konfigurace Sparku (Confs Sparku) můžete nastavit tak, aby se přizpůsobila nastavení ve výpočetním prostředí.
Databricks obecně doporučuje nakonfigurovat většinu vlastností Sparku. Zvláště když migrujete z opensourcového Apache Sparku nebo upgradujete verze Databricks Runtime, starší konfigurace Sparku můžou přepsat nové výchozí chování, které optimalizuje úlohy.
U mnoha chování řízených vlastnostmi Sparku poskytuje Azure Databricks také možnosti povolení chování na úrovni tabulky nebo konfiguraci vlastního chování v rámci operace zápisu. Vývoj schématu byl například dříve řízen vlastností Sparku, ale nyní má pokrytí v SQL, Pythonu a Scala. Viz syntaxe vývoje schématu pro sloučení.
Konfigurace vlastností Sparku pro poznámkové bloky a úlohy
Vlastnosti Sparku můžete nastavit pro poznámkové bloky a úlohy. Rozsah konfigurace závisí na tom, jak ji nastavíte.
Nakonfigurované vlastnosti: | Platí pro: |
---|---|
Použití konfigurace výpočetních prostředků | Všechny poznámkové bloky a úlohy běží s výpočetním prostředkem. |
V poznámkovém bloku | Pouze SparkSession pro aktuální poznámkový blok. |
Pokyny ke konfiguraci vlastností Sparku na úrovni výpočetních prostředků najdete v tématu Konfigurace Sparku.
K nastavení vlastnosti Spark v poznámkovém bloku použijte následující syntaxi:
SQL
SET spark.sql.ansi.enabled = true
Python
spark.conf.set("spark.sql.ansi.enabled", "true")
Scala
spark.conf.set("spark.sql.ansi.enabled", "true")
Konfigurace vlastností Sparku v Databricks SQL
Databricks SQL umožňuje správcům konfigurovat vlastnosti Sparku pro přístup k datům v nabídce nastavení pracovního prostoru. Viz Povolení konfigurace přístupu k datům
Kromě konfigurací přístupu k datům umožňuje Databricks SQL jenom několik konfigurací Sparku, které byly aliasy pro zjednodušení kratšími názvy. Viz parametry konfigurace .
U většiny podporovaných konfigurací SQL můžete přepsat globální chování v aktuální relaci. Následující příklad vypne režim ANSI:
SET ANSI_MODE = false
Konfigurace vlastností Sparku pro kanály Delta Live Tables
Delta Live Tables umožňuje konfigurovat vlastnosti Sparku pro kanál, jeden výpočetní prostředek nakonfigurovaný pro kanál nebo pro jednotlivé toky, materializovaná zobrazení nebo streamované tabulky.
Vlastnosti kanálu a výpočetního Sparku můžete nastavit pomocí uživatelského rozhraní nebo JSON. Viz Konfigurace kanálu delta živých tabulek.
Pomocí možnosti spark_conf
ve funkcích dekorátoru DLT můžete nakonfigurovat vlastnosti Sparku pro toky, zobrazení nebo tabulky. Viz vlastnosti Python Delta Live Tables.
Konfigurace vlastností Sparku pro bezserverové poznámkové bloky a úlohy
Výpočetní prostředí bez serveru nepodporuje nastavení většiny vlastností Sparku pro poznámkové bloky nebo úlohy. Níže jsou uvedené vlastnosti, které můžete nakonfigurovat:
Vlastnost | Výchozí | Popis |
---|---|---|
spark.databricks.execution.timeout |
9000 |
Časový limit spuštění dotazů Spark Connect v sekundách. Výchozí hodnota je použitelná jenom pro poznámkové bloky spuštěné na bezserverových výpočetních prostředcích. U úloh spuštěných na výpočetních prostředcích bez serveru a sdílených clusterech neexistuje časový limit, pokud není tato vlastnost nastavená. |
spark.sql.legacy.timeParserPolicy |
EXCEPTION |
Zásady analyzátoru času. |
spark.sql.session.timeZone |
Etc/UTC |
ID místního časového pásma relace ve formátu ID zón založených na oblasti nebo posunů zóny. |
spark.sql.shuffle.partitions |
auto |
Výchozí nastavení počtu oddílů, které se mají použít při přesouvání dat pro spojení nebo agregace. |
spark.sql.ansi.enabled |
true |
Pokud je pravda, Spark SQL místo toho, aby byl kompatibilní s Hivem, používá dialekt kompatibilní se standardem ANSI. |