Establecimiento de las propiedades de configuración de Spark en Azure Databricks
Puede establecer las propiedades de configuración de Spark (configuraciones de Spark) para personalizar la configuración en el entorno de proceso.
Por lo general, Databricks recomienda configurar la mayoría de las propiedades de Spark. Especialmente al migrar desde Apache Spark de código abierto o al actualizar versiones de Databricks Runtime, las configuraciones heredadas de Spark pueden invalidar nuevos comportamientos predeterminados que optimizan las cargas de trabajo.
Para muchos comportamientos controlados por las propiedades de Spark, Azure Databricks también proporciona opciones para habilitar el comportamiento en un nivel de tabla o para configurar el comportamiento personalizado como parte de una operación de escritura. Por ejemplo, la evolución del esquema se controló previamente mediante una propiedad Spark, pero ahora tiene cobertura en SQL, Python y Scala. Consulte Sintaxis de evolución del esquema para combinar.
Configuración de las propiedades de Spark para cuadernos y trabajos
Puede establecer las propiedades de Spark para cuadernos y trabajos. El ámbito de la configuración depende de cómo lo establezca.
Propiedades configuradas: | Se aplica a: |
---|---|
Uso de la configuración del proceso | Todos los cuadernos y trabajos se ejecutan con el recurso de proceso. |
Dentro de un cuaderno | Solo SparkSession para el cuaderno actual. |
Para obtener instrucciones sobre cómo configurar las propiedades de Spark en el nivel de proceso, consulte Configuración de Spark.
Para establecer una propiedad de Spark en un cuaderno, use la sintaxis siguiente:
SQL
SET spark.sql.ansi.enabled = true
Python
spark.conf.set("spark.sql.ansi.enabled", "true")
Scala
spark.conf.set("spark.sql.ansi.enabled", "true")
Configuración de las propiedades de Spark en Databricks SQL
Databricks SQL permite a los administradores configurar las propiedades de Spark para el acceso a datos en el menú de configuración del área de trabajo. Consulte Habilitar la configuración de acceso a datos
Aparte de las configuraciones de acceso a datos, Databricks SQL solo permite una serie de configuraciones de Spark, que tienen nombres más cortos para simplificar. Vea Parámetros de configuración de SSL.
Para la mayoría de las configuraciones de SQL admitidas, puede invalidar el comportamiento global en la sesión actual. En el ejemplo siguiente se desactiva el modo ANSI:
SET ANSI_MODE = false
Configuración de las propiedades de Spark para canalizaciones de Delta Live Tables
Delta Live Tables permite configurar las propiedades de Spark para una canalización, para un recurso de proceso configurado para una canalización o para flujos individuales, vistas materializadas o tablas de streaming.
Puede establecer propiedades de Spark de canalización y proceso mediante la interfaz de usuario o JSON. Consulte Configuración de una canalización de Delta Live Tables.
Use la opción spark_conf
en las funciones de decorador DLT para configurar las propiedades de Spark para flujos, vistas o tablas. Vea Propiedades de Delta Live Tables de Python.
Configuración de las propiedades de Spark para cuadernos y trabajos sin servidor
El proceso sin servidor no admite la configuración de la mayoría de las propiedades de Spark para cuadernos o trabajos. A continuación se muestran las propiedades que puede configurar:
spark.sql.legacy.timeParserPolicy
(El valor predeterminado esEXCEPTION
)spark.sql.session.timeZone
(El valor predeterminado esEtc/UTC
)spark.sql.shuffle.partitions
(El valor predeterminado esauto
)spark.sql.ansi.enabled
(El valor predeterminado estrue
)