Ustawianie właściwości konfiguracji platformy Spark w usłudze Azure Databricks
Możesz ustawić właściwości konfiguracji platformy Spark (ograniczenia platformy Spark), aby dostosować ustawienia w środowisku obliczeniowym.
Usługa Databricks zwykle zaleca skonfigurowanie większości właściwości platformy Spark. Szczególnie w przypadku migracji z platformy Apache Spark typu open source lub uaktualniania wersji środowiska Databricks Runtime starsze konfiguracje platformy Spark mogą zastąpić nowe domyślne zachowania, które optymalizują obciążenia.
W przypadku wielu zachowań kontrolowanych przez właściwości platformy Spark usługa Azure Databricks udostępnia również opcje włączania zachowania na poziomie tabeli lub konfigurowania zachowania niestandardowego w ramach operacji zapisu. Na przykład ewolucja schematu była wcześniej kontrolowana przez właściwość Spark, ale teraz ma pokrycie w językach SQL, Python i Scala. Zobacz Składnia ewolucji schematu, aby scalić.
Konfigurowanie właściwości platformy Spark dla notesów i zadań
Możesz ustawić właściwości platformy Spark dla notesów i zadań. Zakres konfiguracji zależy od sposobu jej ustawienia.
Skonfigurowane właściwości: | Dotyczy: |
---|---|
Korzystanie z konfiguracji obliczeniowej | Wszystkie notesy i zadania są uruchamiane z zasobem obliczeniowym. |
W notesie | Tylko platforma SparkSession dla bieżącego notesu. |
Aby uzyskać instrukcje dotyczące konfigurowania właściwości platformy Spark na poziomie obliczeń, zobacz Konfiguracja platformy Spark.
Aby ustawić właściwość Spark w notesie, użyj następującej składni:
SQL
SET spark.sql.ansi.enabled = true
Python
spark.conf.set("spark.sql.ansi.enabled", "true")
Scala
spark.conf.set("spark.sql.ansi.enabled", "true")
Konfigurowanie właściwości platformy Spark w usłudze Databricks SQL
Usługa Databricks SQL umożliwia administratorom konfigurowanie właściwości platformy Spark na potrzeby dostępu do danych w menu ustawień obszaru roboczego. Zobacz Włączanie konfiguracji dostępu do danych
Poza konfiguracjami dostępu do danych usługa Sql usługi Databricks zezwala tylko na kilka ograniczeń platformy Spark, które zostały aliasami krótsze nazwy dla uproszczenia. Zobacz Parametry konfiguracji.
W przypadku większości obsługiwanych konfiguracji SQL można zastąpić globalne zachowanie w bieżącej sesji. Poniższy przykład wyłącza tryb ANSI:
SET ANSI_MODE = false
Konfigurowanie właściwości platformy Spark dla potoków tabel na żywo usługi Delta
Delta Live Tables umożliwia skonfigurowanie właściwości platformy Spark dla potoku, dla jednego zasobu obliczeniowego skonfigurowanego dla potoku lub dla poszczególnych przepływów, zmaterializowanych widoków lub tabel przesyłania strumieniowego.
Właściwości potoku i obliczeń platformy Spark można ustawić przy użyciu interfejsu użytkownika lub kodu JSON. Zobacz Konfigurowanie potoku tabel na żywo delty.
spark_conf
Użyj opcji w funkcjach dekoratora DLT, aby skonfigurować właściwości platformy Spark dla przepływów, widoków lub tabel. Zobacz Właściwości tabel różnicowych na żywo języka Python.
Konfigurowanie właściwości platformy Spark dla notesów i zadań bezserwerowych
Przetwarzanie bezserwerowe nie obsługuje ustawiania większości właściwości platformy Spark dla notesów lub zadań. Poniżej przedstawiono właściwości, które można skonfigurować:
spark.sql.legacy.timeParserPolicy
(wartość domyślna toEXCEPTION
)spark.sql.session.timeZone
(wartość domyślna toEtc/UTC
)spark.sql.shuffle.partitions
(wartość domyślna toauto
)spark.sql.ansi.enabled
(wartość domyślna totrue
)