Set Spark-konfigurationsegenskaper i Azure Databricks
Du kan set Spark-konfigurationsalternativ (Spark-konfigurationer) för att justera inställningar i din beräkningsmiljö.
Databricks rekommenderar vanligtvis att du inte konfigurerar de flesta Spark-egenskaper. Särskilt när du migrerar från Apache Spark med öppen källkod eller uppgraderar Databricks Runtime-versioner kan äldre Spark-konfigurationer åsidosätta nya standardbeteenden som optimize arbetsbelastningar.
För många beteenden som styrs av Spark-egenskaper tillhandahåller Azure Databricks även alternativ för att antingen aktivera beteende på table nivå eller för att konfigurera anpassat beteende som en del av en skrivåtgärd. Till exempel kontrollerades schema utveckling tidigare av en Spark-egenskap, men har nu täckning i SQL, Python och Scala. Se Schema evolutionssyntax för sammanslagning.
Konfigurera Spark-egenskaper för notebook-filer och jobb
Du kan set Spark-egenskaper för anteckningsböcker och jobb. Konfigurationens omfattning beror på hur du set den.
Konfigurerade egenskaper: | Gäller för: |
---|---|
Använda beräkningskonfiguration | Alla notebook-filer och jobb körs med beräkningsresursen. |
I en notebook-fil | Endast SparkSession för den aktuella notebook-filen. |
Anvisningar om hur du konfigurerar Spark-egenskaper på beräkningsnivå finns i Spark-konfiguration.
Om du vill set en Spark-egenskap i en anteckningsbok använder du följande syntax:
SQL
SET spark.sql.ansi.enabled = true
Python
spark.conf.set("spark.sql.ansi.enabled", "true")
Scala
spark.conf.set("spark.sql.ansi.enabled", "true")
Konfigurera Spark-egenskaper i Databricks SQL
Med Databricks SQL kan administratörer konfigurera Spark-egenskaper för dataåtkomst på menyn för arbetsyteinställningar. Se Aktivera konfiguration av dataåtkomst
Förutom konfigurationer för dataåtkomst tillåter Databricks SQL bara en handfull Spark-konfigurationer, som har aliaserats till kortare namn för enkelhetens skull. Se Konfiguration parameters.
För de flesta SQL-konfigurationer som stöds kan du åsidosätta det globala beteendet i den aktuella sessionen. I följande exempel inaktiveras ANSI-läge:
SET ANSI_MODE = false
Konfigurera Spark-egenskaper för Delta Live Tables pipelines
Med Delta Live Tables kan du konfigurera Spark-egenskaper för en pipeline, för en beräkningsresurs konfigurerad för en pipeline, eller för enskilda flöden - antingen materialiserade viewseller strömmande tables.
Du kan set egenskaper för pipeline och beräkning av Spark med hjälp av användargränssnittet eller JSON. Se hur du konfigurerar en Delta Live-pipeline Tables.
Använd alternativet spark_conf
i DLT-dekoratörsfunktioner för att konfigurera Spark-egenskaper för flöden, viewseller tables. Se Python Delta Live Tables egenskaper.
Konfigurera Spark-egenskaper för serverlösa notebook-filer och jobb
Severless compute stöder inte inställning av de flesta Spark-egenskaper för notebook-filer eller jobb. Följande är de egenskaper som du kan konfigurera:
-
spark.sql.legacy.timeParserPolicy
(Standardvärdet ärEXCEPTION
) -
spark.sql.session.timeZone
(Standardvärdet ärEtc/UTC
) -
spark.sql.shuffle.partitions
(Standardvärdet ärauto
) -
spark.sql.ansi.enabled
(Standardvärdet ärtrue
)