Udostępnij za pośrednictwem


Ustawianie właściwości konfiguracji platformy Spark w usłudze Azure Databricks

Możesz ustawić właściwości konfiguracji platformy Spark (ograniczenia platformy Spark), aby dostosować ustawienia w środowisku obliczeniowym.

Usługa Databricks zwykle zaleca skonfigurowanie większości właściwości platformy Spark. Szczególnie w przypadku migracji z platformy Apache Spark typu open source lub uaktualniania wersji środowiska Databricks Runtime starsze konfiguracje platformy Spark mogą zastąpić nowe domyślne zachowania, które optymalizują obciążenia.

W przypadku wielu zachowań kontrolowanych przez właściwości platformy Spark usługa Azure Databricks udostępnia również opcje włączania zachowania na poziomie tabeli lub konfigurowania zachowania niestandardowego w ramach operacji zapisu. Na przykład ewolucja schematu była wcześniej kontrolowana przez właściwość Spark, ale teraz ma pokrycie w językach SQL, Python i Scala. Zobacz Składnia ewolucji schematu, aby scalić.

Konfigurowanie właściwości platformy Spark dla notesów i zadań

Możesz ustawić właściwości platformy Spark dla notesów i zadań. Zakres konfiguracji zależy od sposobu jej ustawienia.

Skonfigurowane właściwości: Dotyczy:
Korzystanie z konfiguracji obliczeniowej Wszystkie notesy i zadania są uruchamiane z zasobem obliczeniowym.
W notesie Tylko platforma SparkSession dla bieżącego notesu.

Aby uzyskać instrukcje dotyczące konfigurowania właściwości platformy Spark na poziomie obliczeń, zobacz Konfiguracja platformy Spark.

Aby ustawić właściwość Spark w notesie, użyj następującej składni:

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Konfigurowanie właściwości platformy Spark w usłudze Databricks SQL

Usługa Databricks SQL umożliwia administratorom konfigurowanie właściwości platformy Spark na potrzeby dostępu do danych w menu ustawień obszaru roboczego. Zobacz Włączanie konfiguracji dostępu do danych

Poza konfiguracjami dostępu do danych usługa Sql usługi Databricks zezwala tylko na kilka ograniczeń platformy Spark, które zostały aliasami krótsze nazwy dla uproszczenia. Zobacz Parametry konfiguracji.

W przypadku większości obsługiwanych konfiguracji SQL można zastąpić globalne zachowanie w bieżącej sesji. Poniższy przykład wyłącza tryb ANSI:

SET ANSI_MODE = false

Konfigurowanie właściwości platformy Spark dla potoków tabel na żywo usługi Delta

Delta Live Tables umożliwia skonfigurowanie właściwości platformy Spark dla potoku, dla jednego zasobu obliczeniowego skonfigurowanego dla potoku lub dla poszczególnych przepływów, zmaterializowanych widoków lub tabel przesyłania strumieniowego.

Właściwości potoku i obliczeń platformy Spark można ustawić przy użyciu interfejsu użytkownika lub kodu JSON. Zobacz Konfigurowanie potoku tabel na żywo delty.

spark_conf Użyj opcji w funkcjach dekoratora DLT, aby skonfigurować właściwości platformy Spark dla przepływów, widoków lub tabel. Zobacz Właściwości tabel różnicowych na żywo języka Python.

Konfigurowanie właściwości platformy Spark dla notesów i zadań bezserwerowych

Przetwarzanie bezserwerowe nie obsługuje ustawiania większości właściwości platformy Spark dla notesów lub zadań. Poniżej przedstawiono właściwości, które można skonfigurować:

  • spark.sql.legacy.timeParserPolicy (wartość domyślna to EXCEPTION)
  • spark.sql.session.timeZone (wartość domyślna to Etc/UTC)
  • spark.sql.shuffle.partitions (wartość domyślna to auto)
  • spark.sql.ansi.enabled (wartość domyślna to true)