Définir les propriétés de configuration Spark sur Azure Databricks

Article
11/07/2024

Vous pouvez définir des propriétés de configuration Spark (Spark confs) pour personnaliser les paramètres dans votre environnement de calcul.

Databricks recommande en général de ne pas configurer la plupart des propriétés de Spark. En particulier lors de la migration à partir d’Apache Spark open source ou lors de la mise à niveau des versions de Databricks Runtime, les configurations Spark héritées peuvent remplacer de nouveaux comportements par défaut qui optimisent les charges de travail.

Pour de nombreux comportements contrôlés par les propriétés Spark, Azure Databricks fournit également des options permettant d’activer le comportement au niveau d’une table ou de configurer un comportement personnalisé dans le cadre d’une opération d’écriture. Par exemple, l’évolution du schéma a été précédemment contrôlée par une propriété Spark, mais a désormais une couverture dans SQL, Python et Scala. Consultez Syntaxe d’évolution de schéma pour la fusion.

Configurer des propriétés Spark pour les notebook et les travaux

Vous pouvez définir des propriétés Spark pour les notebook et les travaux. L’étendue de la configuration dépend de la façon dont vous la définissez.

Propriétés configurées :	S’applique à :
Utilisation de la configuration de calcul	Tous les notebook et travaux s’exécutent avec la ressource de calcul.
Dans un notebook	Seule la session SparkSession pour le notebook actuel.

Pour obtenir des instructions sur la configuration des propriétés Spark au niveau du calcul, consultez configuration Spark.

Pour définir une propriété Spark dans un notebook, utilisez la syntaxe suivante :

SQL

SET spark.sql.ansi.enabled = true

Python

spark.conf.set("spark.sql.ansi.enabled", "true")

Scala

spark.conf.set("spark.sql.ansi.enabled", "true")

Configurer des propriétés Spark dans Databricks SQL

Databricks SQL permet aux administrateurs de configurer les propriétés Spark pour l’accès aux données dans le menu paramètres de l’espace de travail. Consulter Activer la configuration de l’accès aux données

En dehors des configurations d’accès aux données, Databricks SQL autorise uniquement une poignée de confs Spark, qui ont été alias pour des noms plus courts par souci de simplicité. Consultez Paramètres de configuration.

Pour la plupart des configurations SQL prises en charge, vous pouvez remplacer le comportement global dans votre session active. L’exemple suivant désactive le mode ANSI :

SET ANSI_MODE = false

Configurer des propriétés Spark pour les pipelines Delta Live Tables

Delta Live Tables vous permet de configurer des propriétés Spark pour un pipeline, pour une ressource de calcul configurée pour un pipeline, ou pour des flux individuels, des vues matérialisées ou des tables de streaming.

Vous pouvez définir des propriétés Spark de pipeline et de calcul à l’aide de l’interface utilisateur ou JSON. Consultez Configurer un pipeline Delta Live Tables.

Utilisez l’option spark_conf dans les fonctions de décorateur DLT pour configurer les propriétés Spark pour les flux, les vues ou les tables. Consultez Propriétés des tables dynamiques Python Delta.

Configurer les propriétés Spark pour les notebook et les travaux serverless

Le calcul sans serveur ne prend pas en charge la définition de la plupart des propriétés Spark pour les notebooks ou les travaux. Voici les propriétés que vous pouvez configurer :

spark.sql.legacy.timeParserPolicy (La valeur par défaut EXCEPTION)
spark.sql.session.timeZone (La valeur par défaut Etc/UTC)
spark.sql.shuffle.partitions (La valeur par défaut auto)
spark.sql.ansi.enabled (La valeur par défaut true)

Partager via