Ustawianie właściwości konfiguracji platformy Spark w usłudze Azure Databricks

Artykuł
01/23/2025

Możesz ustawić właściwości konfiguracji platformy Spark (ograniczenia platformy Spark), aby dostosować ustawienia w środowisku obliczeniowym.

Usługa Databricks zwykle zaleca skonfigurowanie większości właściwości platformy Spark. Szczególnie w przypadku migracji z platformy Apache Spark typu open source lub uaktualniania wersji środowiska Databricks Runtime starsze konfiguracje platformy Spark mogą zastąpić nowe domyślne zachowania, które optymalizują obciążenia.

W przypadku wielu zachowań kontrolowanych przez właściwości platformy Spark usługa Azure Databricks udostępnia również opcje włączania zachowania na poziomie tabeli lub konfigurowania zachowania niestandardowego w ramach operacji zapisu. Na przykład ewolucja schematu była wcześniej kontrolowana przez właściwość Spark, ale teraz ma pokrycie w językach SQL, Python i Scala. Zobacz Składnia ewolucji schematu, aby scalić.

Konfigurowanie właściwości platformy Spark dla notesów i zadań

Możesz ustawić właściwości platformy Spark dla notesów i zadań. Zakres konfiguracji zależy od sposobu jej ustawienia.

Skonfigurowane właściwości:	Dotyczy:
Korzystanie z konfiguracji obliczeniowej	Wszystkie notesy i zadania są uruchamiane z zasobem obliczeniowym.
W notesie	Tylko platforma SparkSession dla bieżącego notesu.

Aby uzyskać instrukcje dotyczące konfigurowania właściwości platformy Spark na poziomie obliczeń, zobacz Konfiguracja platformy Spark.

Aby ustawić właściwość Spark w notesie, użyj następującej składni:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Konfigurowanie właściwości platformy Spark w usłudze Databricks SQL

Usługa Databricks SQL umożliwia administratorom konfigurowanie właściwości platformy Spark na potrzeby dostępu do danych w menu ustawień obszaru roboczego. Zobacz Włączanie konfiguracji dostępu do danych

Poza konfiguracjami dostępu do danych usługa Sql usługi Databricks zezwala tylko na kilka ograniczeń platformy Spark, które zostały aliasami krótsze nazwy dla uproszczenia. Zobacz Parametry konfiguracji.

W przypadku większości obsługiwanych konfiguracji SQL można zastąpić globalne zachowanie w bieżącej sesji. Poniższy przykład wyłącza tryb ANSI:

SET ANSI_MODE = false

Konfigurowanie właściwości platformy Spark dla potoków tabel na żywo usługi Delta

Delta Live Tables umożliwia skonfigurowanie właściwości platformy Spark dla potoku, dla jednego zasobu obliczeniowego skonfigurowanego dla potoku lub dla poszczególnych przepływów, zmaterializowanych widoków lub tabel przesyłania strumieniowego.

Właściwości potoku i obliczeń platformy Spark można ustawić przy użyciu interfejsu użytkownika lub kodu JSON. Zobacz Konfigurowanie potoku tabel na żywo delty.

spark_conf Użyj opcji w funkcjach dekoratora DLT, aby skonfigurować właściwości platformy Spark dla przepływów, widoków lub tabel. Zobacz Właściwości tabel różnicowych na żywo języka Python.

Konfigurowanie właściwości platformy Spark dla notesów i zadań bezserwerowych

Przetwarzanie bezserwerowe nie obsługuje ustawiania większości właściwości platformy Spark dla notesów lub zadań. Poniżej przedstawiono właściwości, które można skonfigurować:

Własność	Domyślny	Opis
`spark.databricks.execution.timeout`	`9000`	Limit czasu wykonywania w sekundach dla zapytań Spark Connect. Wartość domyślna ma zastosowanie tylko dla notebooków działających na bezserwerowej platformie obliczeniowej. W przypadku zadań uruchamianych na obliczeniach bezserwerowych i współdzielonych klastrach nie ma limitu czasu, chyba że zostanie ustawiona odpowiednia właściwość.
`spark.sql.legacy.timeParserPolicy`	`EXCEPTION`	Polityka analizatora czasu.
`spark.sql.session.timeZone`	`Etc/UTC`	Identyfikator lokalnej strefy czasowej sesji w formacie identyfikatorów stref opartych na regionie lub przesunięć strefy.
`spark.sql.shuffle.partitions`	`auto`	Domyślna liczba partycji do użycia podczas mieszania danych dla sprzężeń lub agregacji.
`spark.sql.ansi.enabled`	`true`	Gdy wartość to true, Spark SQL używa dialektu zgodnego z ANSI zamiast zgodnego z Hive.

Udostępnij za pośrednictwem