Mises à jour de maintenance de Databricks Runtime
Cet article liste les mises à jour de maintenance sur les versions non prises en charge de Databricks Runtime. Pour ajouter une mise à jour de maintenance à un cluster existant, redémarrez le cluster. Pour voir les mises à jour de maintenance sur les versions de Databricks Runtime non prises en charge, consultez Mises à jour de maintenance pour Databricks Runtime (archivées).
Remarque
Les publications se font par étapes. Il se peut que votre compte Azure Databricks ne se mette pas à jour pendant plusieurs jours après la date de publication initiale.
Versions de Databricks Runtime
Mises à jour de maintenance par version :
- Databricks Runtime 15.4
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 15.4
Consultez Databricks Runtime 15.4 LTS.
- 5 novembre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-49867][SQL] Améliorer le message d’erreur lorsque l’index est hors limites lors de l’appel de GetColumnByOrdinal
- [SPARK-49863][SQL] Correction de NormalizeFloatingNumbers pour préserver la possibilité null des structs imbriqués
- [SPARK-49829] Réviser l’optimisation de l’ajout d’entrée au magasin d’états dans la jointure de flux de flux (correction de correction)
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- [SPARK-46632][SQL] Corriger l’élimination de sous-expression lorsque des expressions ternaires équivalentes ont des enfants différents
- [SPARK-49443][SQL][PYTHON] Implémenter to_variant_object expression et rendre schema_of_variant expressions imprimer OBJECT pour les objets Variant
- [SPARK-49615] Correctif de bogue : Rendre la validation du schéma de colonne ML conforme à la configuration
spark.sql.caseSensitive
Spark.
- 22 octobre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-49867][SQL] Améliorer le message d’erreur lorsque l’index est hors limites lors de l’appel de GetColumnByOrdinal
- [SPARK-49863][SQL] Correction de NormalizeFloatingNumbers pour préserver la possibilité null des structs imbriqués
- [SPARK-49829] Réviser l’optimisation de l’ajout d’entrée au magasin d’états dans la jointure de flux de flux (correction de correction)
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- [SPARK-46632][SQL] Corriger l’élimination de sous-expression lorsque des expressions ternaires équivalentes ont des enfants différents
- [SPARK-49443][SQL][PYTHON] Implémenter to_variant_object expression et rendre schema_of_variant expressions imprimer OBJECT pour les objets Variant
- [SPARK-49615] Correctif de bogue : Rendre la validation du schéma de colonne ML conforme à la configuration
spark.sql.caseSensitive
Spark.
- 10 octobre 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs de schéma lors de l’exécution de GetArrayStructFields
- [SPARK-49688][CONNECT] Correction d’une course de données entre l’interruption et le plan d’exécution
- [BACKPORT][[SPARK-49474]])https://issues.apache.org/jira/browse/SPARK-49474[SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- [SPARK-49460][SQL] Suivi : corriger les risques potentiels du NPE
- 25 septembre 2024
- [SPARK-49628][SQL] ConstantFolding doit copier une expression avec état avant d’évaluer
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- [SPARK-49492][CONNECT] Rattacher une tentative sur l’espace réservé d’exécution inactif
- [SPARK-49458][CONNECT][PYTHON] Fournir l’ID de session côté serveur via ReattachExecute
- [SPARK-49017][SQL] L’instruction Insert échoue lorsque plusieurs paramètres sont utilisés
- [SPARK-49451] Autorisez les clés dupliquées dans parse_json.
- Divers correctifs de bogues.
- 17 septembre 2024
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembleur, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor prenant en charge les colonnes d’entrée imbriquées
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49526][CONNECT][CORRECTIF LOGICIEL-15.4.2] Prise en charge des chemins de style Windows dans ArtifactManager
- Rétablir « [SPARK-48482][PYTHON] dropDuplicates et dropDuplicatesWIthinWatermark doit accepter des arguments de longueur variable »
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic d’altération aléatoire
- [SPARK-49366][CONNECT] Traiter le nœud Union comme feuille dans la résolution de colonnes de trame de données
- [SPARK-49018][SQL] Corriger approx_count_distinct ne fonctionne pas correctement avec le classement
- [SPARK-49460][SQL] Supprimer
cleanupResource()
de EmptyRelationExec - [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer null correctement
- [SPARK-49336][CONNECT] Limiter le niveau d’imbrication lors de la troncation d’un message protobuf
- 29 août 2024
- La sortie d’une instruction
SHOW CREATE TABLE
inclut désormais tous les filtres de lignes ou masques de colonne définis sur une vue matérialisée ou une table de diffusion en continu. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez Filtrer les données de table sensibles à l’aide de filtres de lignes et de masques de colonne. - Sur le calcul configuré avec le mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumis aux mêmes limitations que celles documentées pour Structured Streaming. Consultez Limitations et exigences de diffusion en continu pour le mode d’accès partagé à Unity Catalog.
- [SPARK-48941][SPARK-48970] Corrections de rétroportage de l’enregistreur/lecteur ML
- [SPARK-49074][SQL] Correxion d’une variante avec
df.cache()
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion de manière cohérente des options de lecteur de dataframe booléen
- [SPARK-48955][SQL] Inclusion des modifications apportées à ArrayCompact dans la version 15.4
- [SPARK-48937][SQL] Ajouter la prise en charge du classement pour les expressions de chaîne StringToMap
- [SPARK-48929] Correction de l’erreur interne d’affichage et nettoyage du contexte d’exception de l’analyseur
- [SPARK-49125][SQL] Autorisation des noms de colonnes dupliqués dans l’écriture CSV
- [SPARK-48934][SS] Types DateHeure Python convertis de manière incorrecte pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48843] Empêchement d’une boucle infinie avec BindParameters
- [SPARK-48981] Correction de la méthode simpleString de StringType dans pyspark pour les classements
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correctifs de rétroportage de l’enregistreur ML Spark
- [SPARK-48725][SQL] Intégration de CollationAwareUTF8String.lowerCaseCodePoints dans les expressions de chaîne
- [SPARK-48978][SQL] Implémentation du chemin rapide ASCII dans la prise en charge du classement pour UTF8_LCASE
- [SPARK-49047][PYTHON] [CONNECT] Troncature du message pour la journalisation
- [SPARK-49146][SS] Déplacement des erreurs d’assertion liées au filigrane manquant dans les requêtes de diffusion en continu en mode d’ajout vers le framework d’erreurs
- [SPARK-48977][SQL] Optimisation de la recherche de chaînes sous le classement UTF8_LCASE
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant de terminer
- [SPARK-48463] Ajout à StringIndexer de la prise en charge des colonnes d’entrée imbriquées
- [SPARK-48954] try_mod() remplace try_remainder()
- Mises à jour de sécurité du système d’exploitation
- La sortie d’une instruction
Databricks Runtime 15.3
Consultez Databricks Runtime 15.3.
- 5 novembre 2024
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- [SPARK-49867][SQL] Améliorer le message d’erreur lorsque l’index est hors limites lors de l’appel de GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation de l’ajout d’entrée au magasin d’états dans la jointure de flux de flux (correction de correction)
- [SPARK-49863][SQL] Correction de NormalizeFloatingNumbers pour préserver la possibilité null des structs imbriqués
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-46632][SQL] Corriger l’élimination de sous-expression lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
- 22 octobre 2024
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- [SPARK-49867][SQL] Améliorer le message d’erreur lorsque l’index est hors limites lors de l’appel de GetColumnByOrdinal
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation de l’ajout d’entrée au magasin d’états dans la jointure de flux de flux (correction de correction)
- [SPARK-49863][SQL] Correction de NormalizeFloatingNumbers pour préserver la possibilité null des structs imbriqués
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-46632][SQL] Corriger l’élimination de sous-expression lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [SPARK-49688][CONNECT] Correction d’une course de données entre l’interruption et le plan d’exécution
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs de schéma lors de l’exécution de GetArrayStructFields
- [BACKPORT][[SPARK-49474]])https://issues.apache.org/jira/browse/SPARK-49474[SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-49492][CONNECT] Rattacher une tentative sur l’espace réservé d’exécution inactif
- [SPARK-49628][SQL] ConstantFolding doit copier une expression avec état avant d’évaluer
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- [SPARK-49458][CONNECT][PYTHON] Fournir l’ID de session côté serveur via ReattachExecute
- [SPARK-48719][SQL] Correction du bogue de calcul de
RegrSlope
&RegrIntercept
lorsque le premier paramètre a la valeur Null - Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- [SPARK-49336][CONNECT] Limiter le niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-49526][CONNECT][15.3.5] Prise en charge des chemins de style Windows dans ArtifactManager
- [SPARK-49366][CONNECT] Traiter le nœud Union comme feuille dans la résolution de colonnes de trame de données
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic d’altération aléatoire
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion de manière cohérente des options de lecteur de dataframe booléen
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer null correctement
- [SPARK-48862][PYTHON][CONNECT] Éviter d’appeler
_proto_to_string
lorsque le niveau INFO n’est pas activé - [SPARK-49146][SS] Déplacement des erreurs d’assertion liées au filigrane manquant dans les requêtes de diffusion en continu en mode d’ajout vers le framework d’erreurs
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections de rétroportage de l’enregistreur/lecteur ML
- [SPARK-48706][PYTHON] Les fonctions définies par l’utilisateur Python dans les fonctions d’ordre supérieur ne doivent pas lever d’erreur interne
- [SPARK-48954] try_mod() remplace try_remainder()
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49047][PYTHON] [CONNECT] Troncature du message pour la journalisation
- [SPARK-48740][SQL] Capture précoce de l’erreur de spécification de fenêtre manquante
- 1er août 2024
- [Changement cassant] Dans Databricks Runtime 15.3 et versions ultérieures, l’appel de toute fonction définie par l’utilisateur Python (UDF), la fonction d’agrégation définie par l’utilisateur (UDAF) ou la fonction de table définie par l’utilisateur (UDTF) qui utilise un type
VARIANT
comme argument ou valeur de retour lève une exception. Cette modification a pour but de prévenir les problèmes qui pourraient survenir en raison d’une valeur invalide renvoyée par l’une de ces fonctions. Pour en savoir plus sur leVARIANT
type, consultez utiliser VARIANTs pour stocker des données semi-structurées. - Sur le calcul serverless pour les notebooks et les travaux, le mode SQL ANSI est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Sur le calcul configuré avec le mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumis aux mêmes limitations que celles documentées pour Structured Streaming. Consultez Limitations et exigences de diffusion en continu pour le mode d’accès partagé à Unity Catalog.
- La sortie d’une instruction
SHOW CREATE TABLE
inclut désormais tous les filtres de lignes ou masques de colonne définis sur une vue matérialisée ou une table de diffusion en continu. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez Filtrer les données de table sensibles à l’aide de filtres de lignes et de masques de colonne. - [SPARK-46957][CORE] La mise hors service des fichiers aléatoires migrés doit être en mesure de nettoyer à partir de l’exécuteur
- [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags est correctement threadlocal
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correctifs de rétroportage de l’enregistreur ML Spark
- [SPARK-48713][SQL] Ajout d’une vérification de plage d’index pour UnsafeRow.pointTo lorsque baseObject est un tableau d’octets
- [SPARK-48834][SQL] Désactivation de l’entrée/sortie de variante vers les fonctions définies par l’utilisateur scalaire python, les fonctions UDTF et les fonctions UDAF lors de la compilation des requêtes
- [SPARK-48934][SS] Types DateHeure Python convertis de manière incorrecte pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48705][PYTHON] Utilisation explicite de worker_main quand il démarre par pyspark
- [SPARK-48544][SQL] Réduction de la sollicitation de la mémoire des TreeNode BitSets vides
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant de terminer
- [SPARK-49054][SQL] La valeur par défaut de colonne doit prendre en charge les fonctions current_*
- [SPARK-48653][PYTHON] Correction des références de classe d’erreur de source de données Python non valides
- [SPARK-48463] Ajout à StringIndexer de la prise en charge des colonnes d’entrée imbriquées
- [SPARK-48810][CONNECT] L’API de session stop() doit être idempotente et ne pas échouer si la session est déjà fermée par le serveur
- [SPARK-48873][SQL] Utilisation de UnsafeRow dans l’analyseur JSON.
- Mises à jour de sécurité du système d’exploitation
- [Changement cassant] Dans Databricks Runtime 15.3 et versions ultérieures, l’appel de toute fonction définie par l’utilisateur Python (UDF), la fonction d’agrégation définie par l’utilisateur (UDAF) ou la fonction de table définie par l’utilisateur (UDTF) qui utilise un type
- 11 juillet 2024
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()
pour conserver un état de table tout au long de la durée de vie d’un DataFrame. - Le pilote JDBC Snowflake est mis à jour à la version 3.16.1.
- Cette version inclut un correctif à un problème qui empêchait l’affichage correct de l’onglet Environnement de l’interface utilisateur Spark lors de l’exécution dans Databricks Container Services.
- Pour ignorer les partitions non valides lors de la lecture des données, des sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)’. Vous pouvez également utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Toutefois, l’option de source de données est prioritaire sur la configuration SQL. Ce paramètre est false par défaut.
- [SPARK-48100][SQL] Résolution des problèmes liés au fait d’ignorer les champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-47463][SQL] Utilisation de V2Predicate pour inclure dans un wrapper une expression avec le type de retour booléen
- [SPARK-48292][CORE] Rétablissement de[SPARK-39195][SQL] Spark OutputCommitCoordinator doit abandonner l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48475][PYTHON] Optimisation de _get_jvm_function dans PySpark.
- [SPARK-48286]Correction de l’analyse de la colonne avec l’expression par défaut existante – Ajout d’une erreur exposée à l’utilisateur
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan à un jeu de données de streaming
- Rétablir « [SPARK-47406][SQL] Traitement de TIMESTAMP et DATETIME dans MYSQLDialect »
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- [SPARK-48503][14.3-15.3][SQL] Correction des sous-requêtes scalaires non valides avec group-by ou des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48445][SQL] Ne pas incorporer les fonctions définies par l’utilisateur avec des enfants coûteux
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48273][maître][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48566][PYTHON] Correction d’un bogue où les index de partition sont incorrects lorsque UDTF analyze() utilise à la fois select et partitionColumns
- [SPARK-48556][SQL] Correction d’un message d’erreur incorrect pointant vers UNSUPPORTED_GROUPING_EXPRESSION
- Mises à jour de sécurité du système d’exploitation
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
Databricks Runtime 15.2
Consultez Databricks Runtime 15.2.
- 5 novembre 2024
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation de l’ajout d’entrée au magasin d’états dans la jointure de flux de flux (correction de correction)
- [SPARK-49863][SQL] Correction de NormalizeFloatingNumbers pour préserver la possibilité null des structs imbriqués
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-46632][SQL] Corriger l’élimination de sous-expression lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
- 22 octobre 2024
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- [SPARK-48843][15.3,15.2] Empêcher une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation de l’ajout d’entrée au magasin d’états dans la jointure de flux de flux (correction de correction)
- [SPARK-49863][SQL] Correction de NormalizeFloatingNumbers pour préserver la possibilité null des structs imbriqués
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-46632][SQL] Corriger l’élimination de sous-expression lorsque des expressions ternaires équivalentes ont des enfants différents
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [BACKPORT][[SPARK-49474]])https://issues.apache.org/jira/browse/SPARK-49474[SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs de schéma lors de l’exécution de GetArrayStructFields
- [SPARK-49688][CONNECT] Correction d’une course de données entre l’interruption et le plan d’exécution
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- [SPARK-48719][SQL] Correction du bogue de calcul de RegrSlope &RegrIntercept lorsque le premier paramètre est null
- [SPARK-49458][CONNECT][PYTHON] Fournir l’ID de session côté serveur via ReattachExecute
- [SPARK-49628][SQL] ConstantFolding doit copier une expression avec état avant d’évaluer
- [SPARK-49492][CONNECT] Rattacher une tentative sur l’espace réservé d’exécution inactif
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- [SPARK-49336][CONNECT] Limiter le niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-49526][CONNECT] Prise en charge des chemins de style Windows dans ArtifactManager
- [SPARK-49366][CONNECT] Traiter le nœud Union comme feuille dans la résolution de colonnes de trame de données
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic d’altération aléatoire
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer null correctement
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-48862][PYTHON][CONNECT] Éviter d’appeler
_proto_to_string
lorsque le niveau INFO n’est pas activé - [SPARK-49263][CONNECT] Client Python Spark Connect : gestion de manière cohérente des options de lecteur de dataframe booléen
- [SPARK-49146][SS] Déplacement des erreurs d’assertion liées au filigrane manquant dans les requêtes de diffusion en continu en mode d’ajout vers le framework d’erreurs
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections de rétroportage de l’enregistreur/lecteur ML
- [SPARK-48050][SS] Journaliser le plan logique au début de la requête
- [SPARK-48706][PYTHON] Les fonctions définies par l’utilisateur Python dans les fonctions d’ordre supérieur ne doivent pas lever d’erreur interne
- [SPARK-48740][SQL] Capture précoce de l’erreur de spécification de fenêtre manquante
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49047][PYTHON] [CONNECT] Troncature du message pour la journalisation
- 1er août 2024
- Sur le calcul serverless pour les notebooks et les travaux, le mode SQL ANSI est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Sur le calcul configuré avec le mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumis aux mêmes limitations que celles documentées pour Structured Streaming. Consultez Limitations et exigences de diffusion en continu pour le mode d’accès partagé à Unity Catalog.
- La sortie d’une instruction
SHOW CREATE TABLE
inclut désormais tous les filtres de lignes ou masques de colonne définis sur une vue matérialisée ou une table de diffusion en continu. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez Filtrer les données de table sensibles à l’aide de filtres de lignes et de masques de colonne. - [SPARK-48705][PYTHON] Utilisation explicite de worker_main quand il démarre par pyspark
- [SPARK-48047][SQL] Réduire la sollicitation de la mémoire des balises TreeNode vides
- [SPARK-48810][CONNECT] L’API de session stop() doit être idempotente et ne pas échouer si la session est déjà fermée par le serveur
- [SPARK-48873][SQL] Utilisation de UnsafeRow dans l’analyseur JSON.
- [SPARK-46957][CORE] La mise hors service des fichiers aléatoires migrés doit être en mesure de nettoyer à partir de l’exécuteur
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant de terminer
- [SPARK-48713][SQL] Ajout d’une vérification de plage d’index pour UnsafeRow.pointTo lorsque baseObject est un tableau d’octets
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correctifs de rétroportage de l’enregistreur ML Spark
- [SPARK-48544][SQL] Réduction de la sollicitation de la mémoire des TreeNode BitSets vides
- [SPARK-48934][SS] Types DateHeure Python convertis de manière incorrecte pour définir le délai d’expiration dans applyInPandasWithState
- [SPARK-48463] Ajout à StringIndexer de la prise en charge des colonnes d’entrée imbriquées
- Mises à jour de sécurité du système d’exploitation
- 11 juillet 2024
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()
pour conserver un état de table tout au long de la durée de vie d’un DataFrame. - Le pilote JDBC Snowflake est mis à jour à la version 3.16.1.
- Cette version inclut un correctif à un problème qui empêchait l’affichage correct de l’onglet Environnement de l’interface utilisateur Spark lors de l’exécution dans Databricks Container Services.
- Sur les notebooks et les travaux serverless, le mode SQL ANSI est activé par défaut et prend en charge les noms courts
- Pour ignorer les partitions non valides lors de la lecture des données, des sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)’. Vous pouvez également utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Toutefois, l’option de source de données est prioritaire sur la configuration SQL. Ce paramètre est false par défaut.
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48292][CORE] Rétablissement de[SPARK-39195][SQL] Spark OutputCommitCoordinator doit abandonner l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48100][SQL] Résolution des problèmes liés au fait d’ignorer les champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48286]Correction de l’analyse de la colonne avec l’expression par défaut existante – Ajout d’une erreur exposée à l’utilisateur
- [SPARK-48294][SQL] Gérer les minuscules dans nestedTypeMissingElementTypeError
- [SPARK-48556][SQL] Correction d’un message d’erreur incorrect pointant vers UNSUPPORTED_GROUPING_EXPRESSION
- [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags est correctement threadlocal
- [SPARK-48503][SQL] Correction des sous-requêtes scalaires non valides avec group-by ou des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48475][PYTHON] Optimisation de _get_jvm_function dans PySpark.
- [SPARK-48566][PYTHON] Correction d’un bogue où les index de partition sont incorrects lorsque UDTF analyze() utilise à la fois select et partitionColumns
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan à un jeu de données de streaming
- [SPARK-47463][SQL] Utilisation de V2Predicate pour inclure dans un wrapper une expression avec le type de retour booléen
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- [SPARK-48445][SQL] Ne pas incorporer les fonctions définies par l’utilisateur avec des enfants coûteux
- Mises à jour de sécurité du système d’exploitation
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
applyInPandasWithState()
est disponible sur des clusters partagés.- Corrige un bogue dans lequel l’optimisation de la fenêtre de classement à l’aide de Photon TopK a mal géré les partitions avec des structs.
- Correction d’un bogue dans la fonction try_divide() où les entrées contenant des décimales ont entraîné des exceptions inattendues.
- [SPARK-48197][SQL] Éviter l’erreur d’assertion pour une fonction lambda non valide
- [SPARK-48276][PYTHON][CONNECT] Ajouter la méthode
__repr__
manquante pourSQLExpression
- [SPARK-48014][SQL] Modifier l’erreur makeFromJava dans EvaluatePython en une erreur indiquée à l’utilisateur
- [SPARK-48016][SQL] Corriger un bogue dans la fonction try_divide lorsque la valeur est décimale
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une session lorsque la session par défaut est fermée par le serveur
- [SPARK-48173][SQL] CheckAnalysis doit voir l’intégralité du plan de requête
- [SPARK-48056][CONNECT][PYTHON] Réexécuter le plan si une erreur SESSION_NOT_FOUND est déclenchée et qu’aucune réponse partielle n’a été reçue
- [SPARK-48172][SQL] Résoudre les problèmes d’échappement dans rétroportage JDBCDialects vers 15.2
- [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- [SPARK-48288] Ajouter un type de données source pour une expression connector cast
- [SPARK-48310][PYTHON][CONNECT] Les propriétés mises en cache doivent retourner des copies
- [SPARK-48277]Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une session lorsque la session par défaut est fermée par le serveur
- Rétablir « [SPARK-47406][SQL] Traitement de TIMESTAMP et DATETIME dans MYSQLDialect »
- [SPARK-47994][SQL] Corriger un bogue de CASSE avec le filtre de colonne dans SQLServer
- [SPARK-47764][CORE][SQL] Nettoyer les dépendances aléatoires basées sur ShuffleCleanupMode
- [SPARK-47921][CONNECT] Corriger la création d’ExecuteJobTag dans ExecuteHolder
- [SPARK-48010][SQL] Éviter les appels répétés à conf.resolver dans resolveExpression
- [SPARK-48146][SQL] Corriger la fonction d’agrégation dans l’assertion enfant d’expression With
- [SPARK-48180][SQL] Améliorer l’erreur lorsque l’appel UDTF avec l’argument TABLE oublie les parenthèses autour de plusieurs expressions PARTITION/ORDER BY
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 14.3Databricks Runtime 14.3.
Cosnsulter Databricks Runtime 14.3 LTS.
- 5 novembre 2024
- [SPARK-48843] Empêchement d’une boucle infinie avec BindParameters
- [SPARK-49829] Réviser l’optimisation de l’ajout d’entrée au magasin d’états dans la jointure de flux de flux (correction de correction)
- [SPARK-49863][SQL] Correction de NormalizeFloatingNumbers pour préserver la possibilité null des structs imbriqués
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classifier la classe Error pour l’erreur de fonction utilisateur du récepteur Foreach
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-46632][SQL] Corriger l’élimination de sous-expression lorsque des expressions ternaires équivalentes ont des enfants différents
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- Mises à jour de sécurité du système d’exploitation
- 22 octobre 2024
- [SPARK-48843] Empêchement d’une boucle infinie avec BindParameters
- [SPARK-49863][SQL] Correction de NormalizeFloatingNumbers pour préserver la possibilité null des structs imbriqués
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- [SPARK-46632][SQL] Corriger l’élimination de sous-expression lorsque des expressions ternaires équivalentes ont des enfants différents
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classifier la classe Error pour l’erreur de fonction utilisateur du récepteur Foreach
- [SPARK-49829] Réviser l’optimisation de l’ajout d’entrée au magasin d’états dans la jointure de flux de flux (correction de correction)
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [BACKPORT][[SPARK-49474]])https://issues.apache.org/jira/browse/SPARK-49474[SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs de schéma lors de l’exécution de GetArrayStructFields
- [SPARK-49688][CONNECT] Correction d’une course de données entre l’interruption et le plan d’exécution
- 25 septembre 2024
- [SPARK-48810][CONNECT] L’API de session stop() doit être idempotente et ne pas échouer si la session est déjà fermée par le serveur
- [SPARK-48719][SQL] Correction du bogue de calcul de ' RegrS...
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- [SPARK-49628][SQL] ConstantFolding doit copier une expression avec état avant d’évaluer
- [SPARK-49492][CONNECT] Rattacher une tentative sur l’espace réservé d’exécution inactif
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- [SPARK-49336][CONNECT] Limiter le niveau d’imbrication lors de la troncation d’un message protobuf
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic d’altération aléatoire
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembleur, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor prenant en charge les colonnes d’entrée imbriquées
- [SPARK-49526][CONNECT] Prise en charge des chemins de style Windows dans ArtifactManager
- [SPARK-49409][CONNECT] Ajuster la valeur par défaut de CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49366][CONNECT] Traiter le nœud Union comme feuille dans la résolution de colonnes de trame de données
- 29 août 2024
- [SPARK-49146][SS] Déplacement des erreurs d’assertion liées au filigrane manquant dans les requêtes de diffusion en continu en mode d’ajout vers le framework d’erreurs
- [SPARK-48862][PYTHON][CONNECT] Éviter d’appeler
_proto_to_string
lorsque le niveau INFO n’est pas activé - [SPARK-49263][CONNECT] Client Python Spark Connect : gestion de manière cohérente des options de lecteur de dataframe booléen
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections de rétroportage de l’enregistreur/lecteur ML
- [SPARK-48706][PYTHON] Les fonctions définies par l’utilisateur Python dans les fonctions d’ordre supérieur ne doivent pas lever d’erreur interne
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer null correctement
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48934][SS] Types DateHeure Python convertis de manière incorrecte pour définir le délai d’expiration dans applyInPandasWithState
- 1er août 2024
- Cette version inclut un correctif de bogue pour les classes
ColumnVector
etColumnarArray
de l’interface Java Spark. Avant ce correctif, uneArrayIndexOutOfBoundsException
pouvait être levée, ou des données incorrectes pouvaient être renvoyées lorsqu’une instance de l’une de ces classes contenait des valeursnull
. - Sur le calcul serverless pour les notebooks et les travaux, le mode SQL ANSI est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Sur le calcul configuré avec le mode d’accès partagé, les lectures et écritures par lots Kafka sont désormais soumis aux mêmes limitations que celles documentées pour Structured Streaming. Consultez Limitations et exigences de diffusion en continu pour le mode d’accès partagé à Unity Catalog.
- La sortie d’une instruction
SHOW CREATE TABLE
inclut désormais tous les filtres de lignes ou masques de colonne définis sur une vue matérialisée ou une table de diffusion en continu. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez Filtrer les données de table sensibles à l’aide de filtres de lignes et de masques de colonne. - [SPARK-48896] [SPARK-48909] [SPARK-48883] Correctifs de rétroportage de l’enregistreur ML Spark
- [SPARK-48889][SS] testStream pour décharger les magasins d’état avant de terminer
- [SPARK-48705][PYTHON] Utilisation explicite de worker_main quand il démarre par pyspark
- [SPARK-48047][SQL] Réduire la sollicitation de la mémoire des balises TreeNode vides
- [SPARK-48544][SQL] Réduction de la sollicitation de la mémoire des TreeNode BitSets vides
- [SPARK-46957][CORE] La mise hors service des fichiers aléatoires migrés doit être en mesure de nettoyer à partir de l’exécuteur
- [SPARK-48463] Ajout à StringIndexer de la prise en charge des colonnes d’entrée imbriquées
- [SPARK-47202][PYTHON] Correction des datetimes de rupture de typo avec tzinfo
- [SPARK-47713][SQL][CONNECT] Correction d’une jointure réflexive défaillante
- Mises à jour de sécurité du système d’exploitation
- Cette version inclut un correctif de bogue pour les classes
- 11 juillet 2024
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()
pour conserver un état de table tout au long de la durée de vie d’un DataFrame. - Le pilote JDBC Snowflake est mis à jour à la version 3.16.1.
- Cette version inclut un correctif à un problème qui empêchait l’affichage correct de l’onglet Environnement de l’interface utilisateur Spark lors de l’exécution dans Databricks Container Services.
- Sur le calcul serverless pour les notebooks et les travaux, le mode SQL ANSI est activé par défaut. Consultez Paramètres de configuration Spark pris en charge.
- Pour ignorer les partitions non valides lors de la lecture des données, des sources de données basées sur des fichiers, telles que Parquet, ORC, CSV ou JSON, peuvent définir l’option de source de données ignoreInvalidPartitionPaths sur true. Par exemple : spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…). Vous pouvez également utiliser la configuration SQL spark.sql.files.ignoreInvalidPartitionPaths. Toutefois, l’option de source de données est prioritaire sur la configuration SQL. Ce paramètre est false par défaut.
- [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags est correctement threadlocal
- [SPARK-48445][SQL] Ne pas incorporer les fonctions définies par l’utilisateur avec des enfants coûteux
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan à un jeu de données de streaming
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- [SPARK-48503][SQL] Correction des sous-requêtes scalaires non valides avec group-by ou des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48100][SQL] Résolution des problèmes liés au fait d’ignorer les champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48252][SQL] Mise à jour de CommonExpressionRef si nécessaire
- [SPARK-48475][PYTHON] Optimisation de _get_jvm_function dans PySpark.
- [SPARK-48292][CORE] Rétablissement de[SPARK-39195][SQL] Spark OutputCommitCoordinator doit abandonner l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- Mises à jour de sécurité du système d’exploitation
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
applyInPandasWithState()
est disponible sur des clusters partagés.- Corrige un bogue dans lequel l’optimisation de la fenêtre de classement à l’aide de Photon TopK a mal géré les partitions avec des structs.
- [SPARK-48310][PYTHON][CONNECT] Les propriétés mises en cache doivent retourner des copies
- [SPARK-48276][PYTHON][CONNECT] Ajouter la méthode
__repr__
manquante pourSQLExpression
- [SPARK-48294][SQL] Gérer les minuscules dans nestedTypeMissingElementTypeError
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- (Changement de comportement) La fonction
dbutils.widgets.getAll()
est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook. - Correction d’un bogue dans la fonction try_divide() où les entrées contenant des décimales ont entraîné des exceptions inattendues.
- [SPARK-48056][CONNECT][PYTHON] Réexécuter le plan si une erreur SESSION_NOT_FOUND est déclenchée et qu’aucune réponse partielle n’a été reçue
- [SPARK-48146][SQL] Corriger la fonction d’agrégation dans l’assertion enfant d’expression With
- [SPARK-47986][CONNECT] [PYTHON] Impossible de créer une session lorsque la session par défaut est fermée par le serveur
- [SPARK-48180][SQL] Améliorer l’erreur lorsque l’appel UDTF avec l’argument TABLE oublie les parenthèses autour de plusieurs expressions PARTITION/ORDER BY
- [SPARK-48016][SQL] Corriger un bogue dans la fonction try_divide lorsque la valeur est décimale
- [SPARK-48197][SQL] Éviter l’erreur d’assertion pour une fonction lambda non valide
- [SPARK-47994][SQL] Corriger un bogue de CASSE avec le filtre de colonne dans SQLServer
- [SPARK-48173][SQL] CheckAnalysis doit voir l’intégralité du plan de requête
- [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- Mises à jour de sécurité du système d’exploitation
- (Changement de comportement) La fonction
- 9 mai 2024
- (Modification de comportement) Les types UDF
applyInPandas
etmapInPandas
sont désormais pris en charge sur le calcul en mode d’accès partagé exécutant Databricks Runtime 14.3 et les versions ultérieures. - [SPARK-47739][SQL] Inscription du type avro logique
- [SPARK-47941] [SS] [Connect] Propagation des erreurs d’initialisation du Worker ForeachBatch aux utilisateurs pour PySpark
- [SPARK-48010][SQL] Éviter les appels répétés à conf.resolver dans resolveExpression
- [SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47956][SQL] Vérification de l’intégrité pour la référence LCA non résolue
- [SPARK-47543][CONNECT][PYTHON] Déduire dict comme Mapype à partir de Pandas DataFrame pour permettre la création de DataFrame
- [SPARK-47819][CONNECT][Cherry-pick-14.3] Utilisation du rappel asynchrone pour le nettoyage de l’exécution
- [SPARK-47764][CORE][SQL] Nettoyer les dépendances aléatoires basées sur ShuffleCleanupMode
- [SPARK-48018][SS] Correction de groupId null à l’origine d’une erreur de paramètre manquant avec levée de KafkaException.couldNotReadOffsetRange
- [SPARK-47839][SQL] Correction du bogue d’agrégation dans RewriteWithExpression
- [SPARK-47371][SQL] XML : balises de ligne trouvées dans CDATA ignorées
- [SPARK-47895][SQL] groupe by all doit être idempotent
- [SPARK-47973][CORE] Site d’appel de journal dans SparkContext.stop() et ultérieur dans SparkContext.assertNotStopped()
- Mises à jour de sécurité du système d’exploitation
- (Modification de comportement) Les types UDF
- 25 avril 2024
- [SPARK-47543][CONNECT][PYTHON] Déduire
dict
commeMapType
à partir de Pandas DataFrame pour permettre la création de DataFrame - [SPARK-47694][CONNECT] Rendre la taille maximale de message configurable côté client
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] Valider le nom de colonne avec un schéma mis en cache
- [SPARK-47862][PYTHON][CONNECT]Corriger la génération de fichiers proto
- Rétablir “[SPARK-47543][CONNECT][PYTHON] Déduire
dict
commeMapType
à partir de Pandas DataFrame pour permettre la création de DataFrame” - [SPARK-47704][SQL] L’analyse JSON échoue avec “java.lang.ClassCastException” quand spark.sql.json.enablePartialResults est activé
- [SPARK-47812][CONNECT] Prendre en charge la sérialisation de SparkSession pour le Worker ForEachBatch
- [SPARK-47818][CONNECT][Cherry-pick-14.3] Présenter un cache du plan dans SparkConnectPlanner pour améliorer les performances de l’option Analyser des requêtes
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
échoue avec un plan non valide - Mises à jour de sécurité du système d’exploitation
- [SPARK-47543][CONNECT][PYTHON] Déduire
- 11 avril 2024
- (Changement de comportement) Pour garantir un comportement cohérent entre les types de calcul, les fonctions définies par l’utilisateur PySpark sur les clusters partagés correspondent désormais au comportement des fonctions définies par l’utilisateur sur les clusters sans isolation et les clusters affectés. Cette mise à jour inclut les modifications suivantes susceptibles d’interrompre le code existant :
- Les fonctions définies par l’utilisateur avec un type de retour
string
ne convertissent plus implicitement les valeurs nonstring
en valeursstring
. Auparavant, les fonctions définies par l’utilisateur avec un type de retourstr
encapsulaient la valeur de retour avec une fonctionstr()
, quel que soit le type de données réel de la valeur renvoyée. - Les fonctions définies par l’utilisateur avec des types de retour
timestamp
n’appliquent plus implicitement de conversion detimestamp
avectimezone
. - Les configurations de cluster Spark
spark.databricks.sql.externalUDF.*
ne s’appliquent plus aux fonctions définies par l’utilisateur PySpark sur les clusters partagés. - La configuration du cluster Spark
spark.databricks.safespark.externalUDF.plan.limit
n’affecte plus les fonctions définies par l’utilisateur PySpark, supprimant ainsi la limitation de la préversion publique de 5 fonctions définies par l’utilisateur par requête pour les fonctions définies par l’utilisateur PySpark. - La configuration de cluster Spark
spark.databricks.safespark.sandbox.size.default.mib
ne s’applique plus aux fonctions définies par l’utilisateur PySpark sur les clusters partagés. Au lieu de cela, la mémoire disponible sur le système est utilisée. Pour limiter la mémoire des fonctions définies par l’utilisateur PySpark, utilisezspark.databricks.pyspark.udf.isolation.memoryLimit
avec une valeur minimale de100m
.
- Les fonctions définies par l’utilisateur avec un type de retour
- Le type de données
TimestampNTZ
est désormais pris en charge en tant que colonne de clustering avec clustering liquide. Consultez Utilisation des clustering liquides pour les tableaux Delta. - [SPARK-47511][SQL] Expressions With rendues canoniques par réaffection des ID
- [SPARK-47509][SQL] Blocage des expressions de sous-requête dans les fonctions lambda et d’ordre supérieur
- [SPARK-46990][SQL] Correction du chargement de fichiers Avro vides émis par event-hubs
- [SPARK-47638][PS][CONNECT] Omission de la validation du nom de colonne dans PS
- Mises à jour de sécurité du système d’exploitation
- (Changement de comportement) Pour garantir un comportement cohérent entre les types de calcul, les fonctions définies par l’utilisateur PySpark sur les clusters partagés correspondent désormais au comportement des fonctions définies par l’utilisateur sur les clusters sans isolation et les clusters affectés. Cette mise à jour inclut les modifications suivantes susceptibles d’interrompre le code existant :
- 14 mars 2024
- [SPARK-47135][SS] Implémentation de classes d’erreur pour les exceptions de perte de données Kafka
- [SPARK-47176][SQL] Avoir une fonction d’assistance ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passer l’identificateur de table à l’exécution de l’analyse de la source de données des lignes pour la stratégie V2.
- [SPARK-47044][SQL] Ajouter une requête exécutée pour les sources de données externes JDBC pour expliquer la sortie
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- [SPARK-47070] Corriger l’agrégation non valide après la réécriture de la sous-requête
- [SPARK-47121][CORE] Éviter RejectedExecutionExceptions lors de l’arrêt de StandaloneSchedulerBackend
- Rétablir « [SPARK-46861] [CORE] Éviter l’interblocage dans DAGScheduler »
- [SPARK-47125][SQL] Retourner null si Univocity ne déclenche jamais l’analyse
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier doit inclure d’autres expressions dans l’arborescence de l’expression
- [SPARK-47129][CONNECT][SQL] Faire en sorte que le cache
ResolveRelations
se connecte au plan correctement - [SPARK-47241][SQL] Résolution des problèmes d’ordre de règle pour ExtractGenerator
- [SPARK-47035][SS][CONNECT] Protocole pour l’écouteur côté client
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la création de rapports numSourceRows par l’indicateur de performance d’opération du double du nombre correct de lignes.
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose des privilèges SELECT et MODIFY sur ANY FILE.
- [SPARK-47071][SQL] Inline Avec expression si elle contient une expression spéciale
- [SPARK-47059][SQL] Attacher un contexte d’erreur pour la commande ALTER COLUMN v1
- [SPARK-46993][SQL] Corriger le pliage constant pour les variables de session
- Mises à jour de sécurité du système d’exploitation
- 3 janvier 2024
- [SPARK-46933] Ajouter une mesure du temps d’exécution des requêtes pour les connecteurs qui utilisent JDBCRDD.
- [SPARK-46763] Corriger l’échec d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs dupliqués.
- [SPARK-46954] XML : Wrap InputStreamReader avec BufferedReader.
- [SPARK-46655] Ignorer le contexte de requête intercepté dans les méthodes
DataFrame
. - [SPARK-44815] Cache df.schema pour éviter un appel de procédure distante (RPC) supplémentaire.
- [SPARK-46952] XML : limite la taille de l’enregistrement endommagé.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46736] conserver le champ de message vide dans le connecteur protobuf.
- [SPARK-45182] Ignorer l’achèvement de la tâche de l’ancienne étape après avoir réessayé l’étape parentale indéterminée telle que déterminée par la somme de contrôle.
- [SPARK-46414] Utiliser prependBaseUri pour afficher les importations javascript.
- [SPARK-46383] Réduire l’utilisation du tas de pilotes en réduisant la durée de vie de
TaskInfo.accumulables()
. - [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
- [SPARK-46954] XML : Optimiser la recherche d’index de schéma.
- [SPARK-46676] dropDuplicatesWithinWatermark ne doit pas échouer lors de la canonisation du plan.
- [SPARK-46644] Modifier l’ajout et la fusion dans SQLMetric à utiliser isZero.
- [SPARK-46731] Gérer l’instance du fournisseur de magasin d’état par source de données d’état – lecteur.
- [SPARK-46677] Résoudre la résolution de
dataframe["*"]
. - [SPARK-46610] Créer une table doit lever une exception lorsqu’aucune valeur pour une clé dans les options n’est levée.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-45433] Correction de l’inférence de schéma CSV/JSON quand les horodatages ne correspondent pas au timestampFormat spécifié.
- [SPARK-46930] Ajouter la prise en charge d’un préfixe personnalisé pour les champs de type union dans Avro.
- [SPARK-46227] Retour vers la version 14.3.
- [SPARK-46822] Respect spark.sql.legacy.charVarcharAsString lors de la conversion du type jdbc en type catalyseur dans jdbc.
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 14.1
Consultez Databricks Runtime 14.1.
- 5 novembre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- 22 octobre 2024
- [SPARK-49782][SQL] La règle ResolveDataFrameDropColumns résout Les éléments Non résolusAttribute avec la sortie enfant
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- 10 octobre 2024
- [BACKPORT][[SPARK-49474]])https://issues.apache.org/jira/browse/SPARK-49474[SS] Classifier la classe Error pour l’erreur de fonction utilisateur FlatMapGroupsWithState
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs de schéma lors de l’exécution de GetArrayStructFields
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-49628][SQL] ConstantFolding doit copier une expression avec état avant d’évaluer
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic d’altération aléatoire
- [SPARK-48719][SQL] Correction du bogue de calcul de ' RegrS...
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- [SPARK-49526][CONNECT] Prise en charge des chemins de style Windows dans ArtifactManager
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- [SPARK-49263][CONNECT] Client Python Spark Connect : gestion de manière cohérente des options de lecteur de dataframe booléen
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer null correctement
- 14 août 2024
- [SPARK-48706][PYTHON] Les fonctions définies par l’utilisateur Python dans les fonctions d’ordre supérieur ne doivent pas lever d’erreur interne
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48050][SS] Journaliser le plan logique au début de la requête
- 1er août 2024
- Cette version inclut un correctif de bogue pour les classes
ColumnVector
etColumnarArray
de l’interface Java Spark. Avant ce correctif, uneArrayIndexOutOfBoundsException
pouvait être levée, ou des données incorrectes pouvaient être renvoyées lorsqu’une instance de l’une de ces classes contenait des valeursnull
. - La sortie d’une instruction
SHOW CREATE TABLE
inclut désormais tous les filtres de lignes ou masques de colonne définis sur une vue matérialisée ou une table de diffusion en continu. Voir SHOW CREATE TABLE. Pour en savoir plus sur les filtres de lignes et les masques de colonne, consultez Filtrer les données de table sensibles à l’aide de filtres de lignes et de masques de colonne. - [SPARK-48705][PYTHON] Utilisation explicite de worker_main quand il démarre par pyspark
- [SPARK-47202][PYTHON] Correction des datetimes de rupture de typo avec tzinfo
- Mises à jour de sécurité du système d’exploitation
- Cette version inclut un correctif de bogue pour les classes
- 11 juillet 2024
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()
pour conserver un état de table tout au long de la durée de vie d’un DataFrame. - Cette version inclut un correctif à un problème qui empêchait l’affichage correct de l’onglet Environnement de l’interface utilisateur Spark lors de l’exécution dans Databricks Container Services.
- [SPARK-48475][PYTHON] Optimisation de _get_jvm_function dans PySpark.
- [SPARK-48445][SQL] Ne pas incorporer les fonctions définies par l’utilisateur avec des enfants coûteux
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan à un jeu de données de streaming
- [SPARK-48292][CORE] Rétablissement de[SPARK-39195][SQL] Spark OutputCommitCoordinator doit abandonner l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48503][SQL] Correction des sous-requêtes scalaires non valides avec group-by ou des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48100][SQL] Résolution des problèmes liés au fait d’ignorer les champs de structure imbriqués non sélectionnés dans le schéma
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
- Corrige un bogue dans lequel l’optimisation de la fenêtre de classement à l’aide de Photon TopK a mal géré les partitions avec des structs.
- [SPARK-48276][PYTHON][CONNECT] Ajouter la méthode
__repr__
manquante pourSQLExpression
- [SPARK-48277]Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- (Changement de comportement) La fonction
dbutils.widgets.getAll()
est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook. - [SPARK-47994][SQL] Corriger un bogue de CASSE avec le filtre de colonne dans SQLServer
- [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- [SPARK-48173][SQL] CheckAnalysis doit voir l’intégralité du plan de requête
- Mises à jour de sécurité du système d’exploitation
- (Changement de comportement) La fonction
- 9 mai 2024
- [SPARK-47371][SQL] XML : balises de ligne trouvées dans CDATA ignorées
- [SPARK-47895][SQL] groupe by all doit être idempotent
- [SPARK-47956][SQL] Vérification de l’intégrité pour la référence LCA non résolue
- [SPARK-48044][PYTHON][CONNECT] Cache
DataFrame.isStreaming
- [SPARK-47973][CORE] Site d’appel de journal dans SparkContext.stop() et ultérieur dans SparkContext.assertNotStopped()
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2024
- [SPARK-47704][SQL] L’analyse JSON échoue avec “java.lang.ClassCastException” quand spark.sql.json.enablePartialResults est activé
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
échoue avec un plan non valide - Mises à jour de sécurité du système d’exploitation
- 11 avril 2024
- [SPARK-47638][PS][CONNECT] Omission de la validation du nom de colonne dans PS
- [SPARK-38708][SQL] Mise à niveau du client Metastore Hive de Hive 3.1 vers la version 3.1.3
- [SPARK-47309][SQL][XML] Ajout des tests unitaires d’inférence de schéma
- [SPARK-47509][SQL] Blocage des expressions de sous-requête dans les fonctions lambda et d’ordre supérieur
- [SPARK-46990][SQL] Correction du chargement de fichiers Avro vides émis par event-hubs
- Mises à jour de sécurité du système d’exploitation
- 1er avril 2024
- [SPARK-47305][SQL] Correction de PruneFilters pour étiqueter correctement l’indicateur isStreaming de LocalRelation lorsque le plan présente à la fois Lot et En continu
- [SPARK-47218][SQL] XML : Omission des balises de ligne commentées dans le générateur de jetons XML
- [SPARK-47300][SQL] L’indicateur entre guillemets
quoteIfNeeded
doit commencer par des chiffres - [SPARK-47368][SQL] Suppression de la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- [SPARK-47070] Corriger l’agrégation non valide après la réécriture de la sous-requête
- [SPARK-47322][PYTHON][CONNECT] Gestion des duplications de noms de colonnes
withColumnsRenamed
cohérente avecwithColumnRenamed
- [SPARK-47300] Correctif pour DecomposerSuite
- [SPARK-47218] [SQL] XML : Modification concernant SchemaOfXml qui échouait en mode DROPMALFORMED
- [SPARK-47385] Correction des encodeurs tuples avec les entrées Option.
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2024
- [SPARK-47176][SQL] Avoir une fonction d’assistance ResolveAllExpressionsUpWithPruning
- [SPARK-47145][SQL] Passer l’identificateur de table à l’exécution de l’analyse de la source de données des lignes pour la stratégie V2.
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- [SPARK-47129][CONNECT][SQL] Faire en sorte que le cache
ResolveRelations
se connecte au plan correctement - Rétablir « [SPARK-46861] [CORE] Éviter l’interblocage dans DAGScheduler »
- [SPARK-47044][SQL] Ajouter une requête exécutée pour les sources de données externes JDBC pour expliquer la sortie
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la création de rapports numSourceRows par l’indicateur de performance d’opération du double du nombre correct de lignes.
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose des privilèges SELECT et MODIFY sur ANY FILE.
- Vous pouvez désormais ingérer des fichiers XML à l’aide du chargeur automatique, read_files, COPY INTO, DLT et DBSQL. La prise en charge des fichiers XML peut déduire et évoluer automatiquement le schéma, sauver des données avec des incompatibilités de type, valider XML à l’aide de XSD, prendre en charge des expressions SQL telles que from_xml, schema_of_xml et to_xml. Pour plus d’informations, consultez Prise en charge des fichiers XML. Si vous utilisiez précédemment le package spark-xml externe, veuillez consulter ici pour obtenir des conseils sur la migration.
- [SPARK-46248][SQL] XML : Prise en charge des options ignoreCorruptFiles et ignoreMissingFiles
- [SPARK-47059][SQL] Attacher un contexte d’erreur pour la commande ALTER COLUMN v1
- [SPARK-46954][SQL] XML : Wrap InputStreamReader avec BufferedReader
- [SPARK-46954][SQL] XML : Optimiser la recherche d’index de schéma
- [SPARK-46630][SQL] XML : Validation du nom de l’élément XML lors de l’écriture
- Mises à jour de sécurité du système d’exploitation
- 8 février 2024
- Les requêtes de flux des changements de données (CDF) sur les vues matérialisées du catalogue Unity ne sont pas prises en charge et la tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog retourne une erreur. Les tables de streaming de catalogue Unity prennent en charge les requêtes CDF sur des tables non
APPLY CHANGES
dans Databricks Runtime 14.1 et versions ultérieures. Les requêtes CDF ne sont pas prises en charge avec les tables de streaming du catalogue Unity dans Databricks Runtime 14.0 et versions antérieures. - [SPARK-46952] XML : limite la taille de l’enregistrement endommagé.
- [SPARK-45182] Ignorer l’achèvement de la tâche de l’ancienne étape après avoir réessayé l’étape parentale indéterminée telle que déterminée par la somme de contrôle.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46933] Ajouter une mesure du temps d’exécution des requêtes pour les connecteurs qui utilisent JDBCRDD.
- [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
- [SPARK-45582] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie.
- [SPARK-46930] Ajouter la prise en charge d’un préfixe personnalisé pour les champs de type union dans Avro.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- [SPARK-46396] L’inférence de l’horodatage ne doit pas lever d’exception.
- [SPARK-46822] Respect spark.sql.legacy.charVarcharAsString lors de la conversion du type jdbc en type catalyseur dans jdbc.
- [SPARK-45957] Éviter de générer un plan d’exécution pour les commandes non exécutables.
- Mises à jour de sécurité du système d’exploitation
- Les requêtes de flux des changements de données (CDF) sur les vues matérialisées du catalogue Unity ne sont pas prises en charge et la tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog retourne une erreur. Les tables de streaming de catalogue Unity prennent en charge les requêtes CDF sur des tables non
- 31 janvier 2024
- [SPARK-46684] Correction de CoGroup.applyInPandas/Arrow pour passer les arguments correctement.
- [SPARK-46763] Corriger l’échec d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs dupliqués.
- [SPARK-45498] Suivi : Ignorer l’achèvement des tâches des anciennes tentatives d’étapes.
- [SPARK-46382] XML : Mise à jour de la documentation pour
ignoreSurroundingSpaces
. - [SPARK-46383] Réduire l’utilisation du tas de pilotes en réduisant la durée de vie de
TaskInfo.accumulables()
. - [SPARK-46382] XML : ignoreSurroundingSpaces défini par défaut sur true.
- [SPARK-46677] Résoudre la résolution de
dataframe["*"]
. - [SPARK-46676] dropDuplicatesWithinWatermark ne doit pas échouer lors de la canonisation du plan.
- [SPARK-46633] Correction du lecteur Avro pour la gestion des blocs de longueur nulle.
- [SPARK-45912] Amélioration de l’API XSDToSchema : Modification de l’API HDFS pour l’accessibilité du stockage cloud.
- [SPARK-46599] XML : Utiliser TypeCoercion.findTightestCommonType pour vérifier la compatibilité.
- [SPARK-46382] XML : Capture des valeurs dispersées entre des éléments
- [SPARK-46769] Affiner l’inférence de schéma associée au timestamp.
- [SPARK-46610] Créer une table doit lever une exception lorsqu’aucune valeur pour une clé dans les options n’est levée.
- [SPARK-45964] Suppression de l’accesseur SQL privé dans le package XML et JSON sous le package Catalyst.
- Rétablir [SPARK-46769] Affiner l’inférence de schéma associée au timestamp.
- [SPARK-45962] Suppression de
treatEmptyValuesAsNulls
et utilisation à la place de l’optionnullValue
dans XML. - [SPARK-46541] Correction de l’ambiguïté de la référence à une colonne dans la jointure automatique.
- Mises à jour de sécurité du système d’exploitation
- 17 janvier 2024
- Le nœud
shuffle
du plan d’explication retourné par une requête Photon est mis à jour pour ajouter l’indicateurcausedBroadcastJoinBuildOOM=true
quand une erreur de mémoire insuffisante se produit pendant une lecture aléatoire qui fait partie d’une jointure de diffusion. - Pour éviter une latence accrue lors de la communication sur TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 visant à corriger le bogue JDK JDK-8293562.
- [SPARK-46538] Résolution du problème de référence de colonne ambiguë dans
ALSModel.transform
. - [SPARK-46417] Plus d’échec lors de l’appel de hive.getTable et quand throwException a la valeur false.
- [SPARK-46484] Les fonctions d’assistance
resolveOperators
conservent l’ID de plan. - [SPARK-46153] XML : Ajout de la prise en charge de TimestampNTZType.
- [SPARK-46152] XML : ajout de la prise en charge de DecimalType dans l’inférence de schéma XML.
- [SPARK-46145] spark.catalog.listTables ne lève pas d’exception quand la table ou la vue est introuvable.
- [SPARK-46478] Inversion de SPARK-43049 pour utiliser varchar(255) d’Oracle pour la chaîne.
- [SPARK-46394] Résolution des problèmes de spark.catalog.listDatabases() sur les schémas avec des caractères spéciaux quand
spark.sql.legacy.keepCommandOutputSchema
est défini sur true. - [SPARK-46337]
CTESubstitution
doit conserver lePLAN_ID_TAG
. - [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais rebaser pour timestamp ntz.
- [SPARK-46587] XML : Correction de la conversion des grands entiers XSD.
- [SPARK-45814] ArrowConverters.createEmptyArrowBatch appelle close() pour éviter une fuite de mémoire.
- [SPARK-46132] Prise en charge du mot de passe de clé pour les clés JKS pour RPC SSL.
- [SPARK-46602] Propagation de
allowExisting
lors de la création d’une vue quand la vue/la table n’existe pas. - [SPARK-46173] Appel de trimAll ignoré lors de l’analyse des dates.
- [SPARK-46355] XML : Fermeture de InputStreamReader à la fin d’une lecture.
- [SPARK-46600] Déplacement du code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
- [SPARK-46261]
DataFrame.withColumnsRenamed
devrait conserver l’ordre dict/map. - [SPARK-46056] Correction du NPE de la lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
- [SPARK-46260]
DataFrame.withColumnsRenamed
doit respecter l’ordre des dictés. - [SPARK-46250] Réalisation d’une opération « deflake » sur test_parity_listener.
- [SPARK-46370] Correction du bogue lors de l’interrogation d’une table après la modification des valeurs par défaut des colonnes.
- [SPARK-46609] Explosion exponentielle évitée dans PartitioningPreservingUnaryExecNode.
- [SPARK-46058] Ajout d’un indicateur distinct pour privateKeyPassword.
- Le nœud
- 14 décembre 2023
- Correction d’un problème où les traits de soulignement en échappement dans les opérations getColumns provenant de clients JDBC ou ODBC étaient gérés incorrectement et interprétés comme des caractères génériques.
- [SPARK-45509] Correction du comportement de référence de la colonne df pour Spark Connect.
- [SPARK-45844] Implémentation de l’insensibilité à la casse pour XML.
- [SPARK-46141] Changement de la valeur par défaut de spark.sql.legacy.ctePrecedencePolicy en CORRECTED.
- [SPARK-46028] Acceptation de la colonne d’entrée par
Column.__getitem__
. - [SPARK-46255] Prise en charge de la conversion de type complexe -> chaîne.
- [SPARK-45655] Expressions non déterministes autorisées dans AggregateFunctions dans CollectMetrics.
- [SPARK-45433] Correction de l’inférence de schéma CSV/JSON quand les horodatages ne correspondent pas au timestampFormat spécifié.
- [SPARK-45316] Ajout de nouveaux paramètres
ignoreCorruptFiles
/ignoreMissingFiles
àHadoopRDD
etNewHadoopRDD
. - [SPARK-45852] Gestion correcte de l’erreur de récursivité lors de la journalisation.
- [SPARK-45920] Le regroupement par un ordinal doit être idempotent.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfix
pour corriger une vulnérabilité PyArrow RCE. - Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
getColumns
provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques. - Lors de l’ingestion de données CSV à l’aide de tables de chargement automatique ou de diffusion en continu, les fichiers CSV volumineux sont désormais fractionnés et peuvent être traités en parallèle pendant l’inférence de schéma et le traitement des données.
- [SPARK-45892] Validation du plan d’optimiseur de refactorisation pour dissocier
validateSchemaOutput
etvalidateExprIdUniqueness
. - [SPARK-45620] Les API liées à l’UDF Python utilisent désormais camelCase.
- [SPARK-44790] Ajout de l’implémentation
to_xml
et de liaisons pour Python, Spark Connect et SQL. - [SPARK-45770] Correction de la résolution de colonne avec
DataFrameDropColumns
pourDataframe.drop
. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - [SPARK-44784] Le test SBT est désormais hermétique.
- Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
- 10 novembre 2023
- [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - [SPARK-45250] Profil de ressource de tâche de niveau de support ajouté pour le cluster yarn lorsque l’allocation dynamique est désactivée.
- [SPARK-44753] Ajout du lecteur et de l’enregistreur XML DataFrame pour PySpark SQL.
- [SPARK-45396] Ajout d’une entrée de document pour le module
PySpark.ml.connect
. - [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45541] SSLFactory ajouté.
- [SPARK-45577] Correction de
UserDefinedPythonTableFunctionAnalyzeRunner
pour permettre la transmission de valeurs pliées d’arguments nommés. - [SPARK-45562] ‘rowTag’ est devenu une option requise.
- [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - [SPARK-43380] Correction de ralentissement dans la lecture Avro.
- [SPARK-45430]
FramelessOffsetWindowFunction
n’échoue plus lorsqueIGNORE NULLS
etoffset > rowCount
. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- [SPARK-45386] Correction d’un problème à cause duquel
StorageLevel.NONE
retournerait incorrectement 0. - [SPARK-44219] Ajout de vérification de validations par règle pour les réécritures d’optimisation.
- [SPARK-45543] Correction d’un problème à cause duquel
InferWindowGroupLimit
provoquait un problème si les autres fonctions de fenêtre n’avaient pas le même cadre de fenêtre que les fonctions de classement. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45545]
- 27 septembre 2023
- [SPARK-44823] Mise à jour de
black
vers 23.9.1 et correction d’une vérification erronée. - [SPARK-45339] PySpark journalise désormais les erreurs qu’il retente.
- Rétablissez [SPARK-42946] Rédaction des données sensibles imbriquées sous des substitutions de variables.
- [SPARK-44551] commentaires modifiés à synchroniser avec OSS.
- [SPARK-45360] Le générateur de sessions Spark prend en charge l’initialisation à partir de
SPARK_REMOTE
. - [SPARK-45279]
plan_id
est joint à tous les plans logiques. - [SPARK-45425] Mappage de
TINYINT
àShortType
pourMsSqlServerDialect
. - [SPARK-45419] Suppression de l’entrée de mappage de version de fichier des versions plus volumineuses pour éviter de réutiliser des ID de fichiers SST
rocksdb
. - [SPARK-45488] Ajout de la prise en charge de la valeur dans l’élément
rowTag
. - [SPARK-42205] Suppression de la journalisation des
Accumulables
dans les événements de démarrageTask/Stage
dans journaux des événementsJsonProtocol
. - [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - [SPARK-45256]
DurationWriter
échoue lors de l’écriture de plus de valeurs que la capacité initiale. - [SPARK-43380] Correction des problèmes de conversion de type de données
Avro
sans entraîner de régression des performances. - [SPARK-45182] Ajout de la prise en charge de la restauration de l’étape de mappage aléatoire afin que toutes les tâches intermédiaires puissent être retentées lorsque la sortie de l’étape est indéterminée.
- [SPARK-45399] Ajout d’options XML à l’aide de
newOption
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44823] Mise à jour de
Databricks Runtime 13.3 LTS
Consultez Databricks Runtime 13.3 LTS.
- 5 novembre 2024
- [SPARK-48843] Empêchement d’une boucle infinie avec BindParameters
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classifier la classe Error pour l’erreur de fonction utilisateur du récepteur Foreach
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- Mises à jour de sécurité du système d’exploitation
- 22 octobre 2024
- [SPARK-48843] Empêchement d’une boucle infinie avec BindParameters
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS] Classifier la classe Error pour l’erreur de fonction utilisateur du récepteur Foreach
- [SPARK-49905] Utiliser ShuffleOrigin dédié pour l’opérateur avec état pour empêcher la modification du shuffle à partir d’AQE
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs de schéma lors de l’exécution de GetArrayStructFields
- 25 septembre 2024
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- [SPARK-48719][SQL] Correction du bogue de calcul de RegrSlope &RegrIntercept lorsque le premier paramètre est null
- [SPARK-43242][CORE] Correction de l’erreur « Type inattendu de BlockId » dans le diagnostic d’altération aléatoire
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- [SPARK-49526][CONNECT] Prise en charge des chemins de style Windows dans ArtifactManager
- [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembleur, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor prenant en charge les colonnes d’entrée imbriquées
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- 14 août 2024
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer null correctement
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- 1er août 2024
- Cette version inclut un correctif de bogue pour les classes
ColumnVector
etColumnarArray
de l’interface Java Spark. Avant ce correctif, uneArrayIndexOutOfBoundsException
pouvait être levée, ou des données incorrectes pouvaient être renvoyées lorsqu’une instance de l’une de ces classes contenait des valeursnull
. - [SPARK-47202][PYTHON] Correction des datetimes de rupture de typo avec tzinfo
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correctifs de rétroportage de l’enregistreur ML Spark
- [SPARK-48463] Ajout à StringIndexer de la prise en charge des colonnes d’entrée imbriquées
- Mises à jour de sécurité du système d’exploitation
- Cette version inclut un correctif de bogue pour les classes
- 11 juillet 2024
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()
pour conserver un état de table tout au long de la durée de vie d’un DataFrame. - Cette version inclut un correctif à un problème qui empêchait l’affichage correct de l’onglet Environnement de l’interface utilisateur Spark lors de l’exécution dans Databricks Container Services.
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- [SPARK-48292][CORE] Rétablissement de[SPARK-39195][SQL] Spark OutputCommitCoordinator doit abandonner l’étape lorsque le fichier validé n’est pas cohérent avec l’état de la tâche
- [SPARK-48503][SQL] Correction des sous-requêtes scalaires non valides avec group-by ou des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan à un jeu de données de streaming
- [SPARK-48475][PYTHON] Optimisation de _get_jvm_function dans PySpark.
- [SPARK-48273][SQL] Correction de la réécriture tardive de PlanWithUnresolvedIdentifier
- [SPARK-48445][SQL] Ne pas incorporer les fonctions définies par l’utilisateur avec des enfants coûteux
- Mises à jour de sécurité du système d’exploitation
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
- [SPARK-48277]Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- (Changement de comportement) La fonction
dbutils.widgets.getAll()
est désormais prise en charge pour obtenir toutes les valeurs de widget dans un notebook. - [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- [SPARK-47994][SQL] Corriger un bogue de CASSE avec le filtre de colonne dans SQLServer
- Mises à jour de sécurité du système d’exploitation
- (Changement de comportement) La fonction
- 9 mai 2024
- [SPARK-47956][SQL] Vérification de l’intégrité pour la référence LCA non résolue
- [SPARK-46822] [SQL] Respecter spark.sql.legacy.charVarcharAsString lors de la conversion du type jdbc en type catalyseur dans jdbc
- [SPARK-47895][SQL] groupe by all doit être idempotent
- [SPARK-48018][SS] Correction de groupId null à l’origine d’une erreur de paramètre manquant avec levée de KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Site d’appel de journal dans SparkContext.stop() et ultérieur dans SparkContext.assertNotStopped()
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2024
- [SPARK-44653][SQL] Les unions DataFrame non triviales ne doivent pas arrêter la mise en cache
- Divers correctifs de bogues.
- 11 avril 2024
- [SPARK-47509][SQL] Blocage des expressions de sous-requête dans les fonctions lambda et d’ordre supérieur
- Mises à jour de sécurité du système d’exploitation
- 1er avril 2024
- [SPARK-47385] Correction des encodeurs tuples avec les entrées Option.
- [SPARK-38708][SQL] Mise à niveau du client Metastore Hive de Hive 3.1 vers la version 3.1.3
- [SPARK-47200][SS] Classe d’erreurs pour l’erreur de transaction de fonction utilisateur par lot Foreach
- [SPARK-47368][SQL] Suppression de la vérification de la configuration inferTimestampNTZ dans ParquetRowConverter
- [SPARK-44252][SS] Définir une nouvelle classe d’erreur et l’appliquer lorsque le chargement de l’état à partir de DFS échoue
- [SPARK-47135][SS] Implémentation de classes d’erreur pour les exceptions de perte de données Kafka
- [SPARK-47300][SQL] L’indicateur entre guillemets
quoteIfNeeded
doit commencer par des chiffres - [SPARK-47305][SQL] Correction de PruneFilters pour étiqueter correctement l’indicateur isStreaming de LocalRelation lorsque le plan présente à la fois Lot et En continu
- [SPARK-47070] Corriger l’agrégation non valide après la réécriture de la sous-requête
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2024
- [SPARK-47145][SQL] Passer l’identificateur de table à l’exécution de l’analyse de la source de données des lignes pour la stratégie V2.
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- [SPARK-47176][SQL] Avoir une fonction d’assistance ResolveAllExpressionsUpWithPruning
- [SPARK-47044][SQL] Ajouter une requête exécutée pour les sources de données externes JDBC pour expliquer la sortie
- [SPARK-47125][SQL] Retourner null si Univocity ne déclenche jamais l’analyse
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la création de rapports numSourceRows par l’indicateur de performance d’opération du double du nombre correct de lignes.
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose des privilèges SELECT et MODIFY sur ANY FILE.
- Mises à jour de sécurité du système d’exploitation
- 8 février 2024
- Les requêtes de flux des changements de données (CDF) sur les vues matérialisées du catalogue Unity ne sont pas prises en charge et la tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog retourne une erreur. Les tables de streaming de catalogue Unity prennent en charge les requêtes CDF sur des tables non
APPLY CHANGES
dans Databricks Runtime 14.1 et versions ultérieures. Les requêtes CDF ne sont pas prises en charge avec les tables de streaming du catalogue Unity dans Databricks Runtime 14.0 et versions antérieures. - [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46933] Ajouter une mesure du temps d’exécution des requêtes pour les connecteurs qui utilisent JDBCRDD.
- [SPARK-45582] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie.
- [SPARK-46396] L’inférence de l’horodatage ne doit pas lever d’exception.
- [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
- [SPARK-46941] Impossible d’insérer un nœud de limite de groupe de fenêtres pour le calcul top-k s’il contient SizeBasedWindowFunction.
- Mises à jour de sécurité du système d’exploitation
- Les requêtes de flux des changements de données (CDF) sur les vues matérialisées du catalogue Unity ne sont pas prises en charge et la tentative d’exécution d’une requête CDF avec une vue matérialisée Unity Catalog retourne une erreur. Les tables de streaming de catalogue Unity prennent en charge les requêtes CDF sur des tables non
- 31 janvier 2024
- [SPARK-46610] Créer une table doit lever une exception lorsqu’aucune valeur pour une clé dans les options n’est levée.
- [SPARK-46383] Réduire l’utilisation du tas de pilotes en réduisant la durée de vie de TaskInfo.accumulables().
- [SPARK-46600] Déplacement du code partagé entre SqlConf et SqlApiConf vers SqlApiConfHelper.
- [SPARK-46676] dropDuplicatesWithinWatermark ne doit pas échouer lors de la canonisation du plan.
- [SPARK-46763] Corriger l’échec d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs dupliqués.
- Mises à jour de sécurité du système d’exploitation
- 17 janvier 2024
- Le nœud
shuffle
du plan d’explication retourné par une requête Photon est mis à jour pour ajouter l’indicateurcausedBroadcastJoinBuildOOM=true
quand une erreur de mémoire insuffisante se produit pendant une lecture aléatoire qui fait partie d’une jointure de diffusion. - Pour éviter une latence accrue lors de la communication sur TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 visant à corriger le bogue JDK JDK-8293562.
- [SPARK-46058] Ajout d’un indicateur distinct pour privateKeyPassword.
- [SPARK-46173] Appel de trimAll ignoré lors de l’analyse des dates.
- [SPARK-46370] Correction du bogue lors de l’interrogation d’une table après la modification des valeurs par défaut des colonnes.
- [SPARK-46370] Correction du bogue lors de l’interrogation d’une table après la modification des valeurs par défaut des colonnes.
- [SPARK-46370] Correction du bogue lors de l’interrogation d’une table après la modification des valeurs par défaut des colonnes.
- [SPARK-46609] Explosion exponentielle évitée dans PartitioningPreservingUnaryExecNode.
- [SPARK-46132] Prise en charge du mot de passe de clé pour les clés JKS pour RPC SSL.
- [SPARK-46602] Propagation de
allowExisting
lors de la création d’une vue quand la vue/la table n’existe pas. - [SPARK-46249] Verrou d’instance exigé pour acquérir des métriques RocksDB afin d’éviter une concurrence pour les opérations en arrière-plan.
- [SPARK-46417] Plus d’échec lors de l’appel de hive.getTable et quand throwException a la valeur false.
- [SPARK-46538] Résolution du problème de référence de colonne ambiguë dans
ALSModel.transform
. - [SPARK-46478] Inversion de SPARK-43049 pour utiliser varchar(255) d’Oracle pour la chaîne.
- [SPARK-46250] Réalisation d’une opération « deflake » sur test_parity_listener.
- [SPARK-46394] Résolution des problèmes de spark.catalog.listDatabases() sur les schémas avec des caractères spéciaux quand
spark.sql.legacy.keepCommandOutputSchema
est défini sur true. - [SPARK-46056] Correction du NPE de la lecture vectorisée Parquet avec la valeur par défaut byteArrayDecimalType.
- [SPARK-46145] spark.catalog.listTables ne lève pas d’exception quand la table ou la vue est introuvable.
- [SPARK-46466] Le lecteur Parquet vectorisé ne doit jamais rebaser pour timestamp ntz.
- Le nœud
- 14 décembre 2023
- Correction d’un problème où les traits de soulignement en échappement dans les opérations getColumns provenant de clients JDBC ou ODBC étaient gérés incorrectement et interprétés comme des caractères génériques.
- [SPARK-45920] Le regroupement par un ordinal doit être idempotent.
- [SPARK-44582] Itérateur ignoré sur SMJ s’il a été nettoyé.
- [SPARK-45433] Correction de l’inférence de schéma CSV/JSON quand les horodatages ne correspondent pas au timestampFormat spécifié.
- [SPARK-45655] Expressions non déterministes autorisées dans AggregateFunctions dans CollectMetrics.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfix
pour corriger une vulnérabilité PyArrow RCE. - Le connecteur Spark-snowflake a été mis à niveau vers la version 2.12.0.
- [SPARK-44846] Suppression d’expressions de regroupement complexes après
RemoveRedundantAggregates
. - [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-45892] Validation du plan d’optimiseur de refactorisation pour dissocier
validateSchemaOutput
etvalidateExprIdUniqueness
. - [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
- 10 novembre 2023
- Les filtres de partition sur les requêtes de streaming de Delta Lake font désormais l’objet d’un pushdown avant la limitation de débit pour avoir une meilleure utilisation.
- Requêtes de flux de données modifiées sur les tables de streaming du catalogue Unity et les vues matérialisées pour afficher les messages d’erreur.
- [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
n’échoue plus lorsqueIGNORE NULLS
etoffset > rowCount
. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- [SPARK-44219] Ajout de validations par règle supplémentaires pour les réécritures d’optimisation.
- [SPARK-45543] Correction d’un problème à cause duquel
InferWindowGroupLimit
provoquait un problème si les autres fonctions de fenêtre n’avaient pas le même cadre de fenêtre que les fonctions de classement. - Mises à jour de sécurité du système d’exploitation
- 23 octobre 2023
- [SPARK-45256] Correction d’un problème à cause duquel
DurationWriter
échouait lors de l’écriture de plus de valeurs que la capacité initiale. - [SPARK-45419] Évitez de réutiliser les fichiers
rocksdb sst
dans une autre instancerocksdb
en supprimant les entrées de carte de version de versions plus volumineuses. - [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - Correctifs divers.
- [SPARK-45256] Correction d’un problème à cause duquel
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
- La fonction
array_insert
est basée sur 1 pour les index positifs et négatifs, alors qu’avant, elle était basée sur 0 pour les index négatifs. Il insère désormais un nouvel élément à la fin des tableaux d’entrée pour l’index -1. Pour restaurer le comportement précédent, affectez àspark.sql.legacy.negativeIndexInArrayInsert
la valeurtrue
. - Correction d’un problème relatif au fait de ne pas ignorer les fichiers endommagés lorsque
ignoreCorruptFiles
est activé pendant l’inférence de schéma CSV avec le chargeur automatique. - Rétablissez [SPARK-42946].
- [SPARK-42205] Mise à jour du protocole JSON pour supprimer la journalisation des accumulables dans une tâche ou des événements de démarrage d’étape.
- [SPARK-45178] Retournez pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser le wrapper. - [SPARK-45316] Ajout de nouveaux paramètres
ignoreCorruptFiles
etignoreMissingFiles
àHadoopRDD
etNewHadoopRDD
. - [SPARK-44740] Correction des valeurs de métadonnées pour les artefacts.
- [SPARK-45360] Configuration du générateur de sessions Spark initialisée à partir de
SPARK_REMOTE
. - [SPARK-44551] commentaires modifiés à synchroniser avec OSS.
- [SPARK-45346] L’inférence de schéma Parquet respecte désormais les indicateurs respectant la casse lors de la fusion du schéma.
- [SPARK-44658]
ShuffleStatus.getMapStatus
renvoie désormaisNone
à la place deSome(null)
. - [SPARK-44840] Définition de
array_insert()
1 pour les index négatifs.
- 14 septembre 2023
- [SPARK-44873] Ajout de la prise en charge de
alter view
avec des colonnes imbriquées dans le client Hive. - [SPARK-44878] Désactivation de la limite stricte pour le gestionnaire d’écritures
RocksDB
afin d’éviter l’exception d’insertion sur le cache complet.
- [SPARK-44873] Ajout de la prise en charge de
- 30 août 2023
- La commande dbutils
cp
(dbutils.fs.cp
) est désormais optimisée pour accélérer la copie. Grâce à cette amélioration, les opérations de copie peuvent prendre jusqu’à 100 fois moins de temps, selon la taille du fichier. La fonctionnalité est disponible sur tous les systèmes Cloud et de fichiers accessibles dans Databricks, y compris pour les volumes Unity Catalog et les montages DBFS. - [SPARK-44455] Citez les identifiants avec des guillemets inversés dans le résultat
SHOW CREATE TABLE
. - [SPARK-44763] Correction d’un problème qui affichait une chaîne comme un double dans l’arithmétique binaire avec intervalle.
- [SPARK-44871] Correction du comportement de
percentile_disc
. - [SPARK-44714] Réduit les restrictions de la résolution LCA concernant les requêtes.
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread
. - [SPARK-44505] Ajout d’un remplacement pour la prise en charge des colonnes dans Analyse de DSv2.
- [SPARK-44479] Correction de la conversion de protobuf à partir d’un type de structure vide.
- [SPARK-44718] Faites correspondre la configuration en mode mémoire par défaut
ColumnVector
avec la valeur de configurationOffHeapMemoryMode
. - [SPARK-42941] Ajout de la prise en charge de
StreamingQueryListener
dans Python. - [SPARK-44558] Exportation du niveau du journal Spark Connect de PySpark.
- [SPARK-44464] Correction de
applyInPandasWithStatePythonRunner
pour les lignes de sortie qui présentent Null comme première valeur de colonne. - [SPARK-44643] Correction de
Row.__repr__
lorsque le champ est une ligne vide. - Mises à jour de sécurité du système d’exploitation
- La commande dbutils
Databricks Runtime 12.2 LTS
Voir Databricks Runtime 12.2 LTS.
- 10 octobre 2024
- [SPARK-49743][SQL] OptimizeCsvJsonExpr ne doit pas modifier les champs de schéma lors de l’exécution de GetArrayStructFields
- 25 septembre 2024
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- Divers correctifs de bogues.
- 17 septembre 2024
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- Divers correctifs de bogues.
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections de rétroportage de l’enregistreur/lecteur ML
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-49056][SQL] ErrorClassesJsonReader ne peut pas gérer null correctement
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-48463][ML] Ajout à StringIndexer de la prise en charge des colonnes d’entrée imbriquées
- Mises à jour de sécurité du système d’exploitation
- 1er août 2024
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correctifs de rétroportage de l’enregistreur ML Spark
- 1er août 2024
- Pour appliquer les correctifs de sécurité requis, la version Python dans Databricks Runtime 12.2 LTS est mise à niveau de 3.9.5 à 3.9.19.
- 11 juillet 2024
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
.checkpoint()
pour conserver un état de table tout au long de la durée de vie d’un DataFrame. - [SPARK-48481][SQL][SS] Ne pas appliquer OptimizeOneRowPlan à un jeu de données de streaming
- [SPARK-47070] Corriger l’agrégation non valide après la réécriture de la sous-requête
- [SPARK-42741][SQL] Pas de désenveloppement des casts dans la comparaison binaire quand le littéral est null
- [SPARK-48445][SQL] Ne pas incorporer les fonctions définies par l’utilisateur avec des enfants coûteux
- [SPARK-48503][SQL] Correction des sous-requêtes scalaires non valides avec group-by ou des colonnes non équivalentes qui ont été incorrectement autorisées
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
- (Modification de comportement) Les DataFrames mis en cache sur les sources de table Delta sont désormais invalidés si la table source est remplacée. Cette modification signifie que toutes les modifications d’état apportées aux tables Delta invalident désormais les résultats mis en cache. Utilisez
- 17 juin 2024
- [SPARK-48277]Améliorer le message d’erreur pour ErrorClassesJsonReader.getErrorMessage
- Divers correctifs de bogues.
- 21 mai 2024
- [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- Mises à jour de sécurité du système d’exploitation
- 9 mai 2024
- [SPARK-44251][SQL] Définition de la valeur pouvant accepter Null correctement sur une clé de jointure fusionnée dans une jointure externe complète USING
- [SPARK-47973][CORE] Site d’appel de journal dans SparkContext.stop() et ultérieur dans SparkContext.assertNotStopped()
- [SPARK-47956][SQL] Vérification de l’intégrité pour la référence LCA non résolue
- [SPARK-48018][SS] Correction de groupId null à l’origine d’une erreur de paramètre manquant avec levée de KafkaException.couldNotReadOffsetRange
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2024
- Mises à jour de sécurité du système d’exploitation
- 11 avril 2024
- Mises à jour de sécurité du système d’exploitation
- 1er avril 2024
- [SPARK-47305][SQL] Correction de PruneFilters pour étiqueter correctement l’indicateur isStreaming de LocalRelation lorsque le plan présente à la fois Lot et En continu
- [SPARK-44252][SS] Définir une nouvelle classe d’erreur et l’appliquer lorsque le chargement de l’état à partir de DFS échoue
- [SPARK-47135][SS] Implémentation de classes d’erreur pour les exceptions de perte de données Kafka
- [SPARK-47200][SS] Classe d’erreurs pour l’erreur de transaction de fonction utilisateur par lot Foreach
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2024
- [SPARK-47176][SQL] Avoir une fonction d’assistance ResolveAllExpressionsUpWithPruning
- Rétablir « [SPARK-46861] [CORE] Éviter l’interblocage dans DAGScheduler »
- [SPARK-47125][SQL] Retourner null si Univocity ne déclenche jamais l’analyse
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la création de rapports numSourceRows par l’indicateur de performance d’opération du double du nombre correct de lignes.
- La création d’un schéma avec un emplacement défini nécessite désormais que l’utilisateur dispose des privilèges SELECT et MODIFY sur ANY FILE.
- [SPARK-45582][SS] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie
- Mises à jour de sécurité du système d’exploitation
- 13 février 2024
- [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2024
- [SPARK-46763] Corriger l’échec d’assertion dans ReplaceDeduplicateWithAggregate pour les attributs dupliqués.
- Mises à jour de sécurité du système d’exploitation
- 25 Décembre 2023
- Pour éviter une latence accrue lors de la communication sur TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 visant à corriger le bogue JDK JDK-8293562.
- [SPARK-39440] Ajout d’une configuration pour désactiver la chronologie des événements.
- [SPARK-46132] Prise en charge du mot de passe de clé pour les clés JKS pour RPC SSL.
- [SPARK-46394] Résolution des problèmes de spark.catalog.listDatabases() sur les schémas avec des caractères spéciaux quand
spark.sql.legacy.keepCommandOutputSchema
est défini sur true. - [SPARK-46417] Plus d’échec lors de l’appel de hive.getTable et quand throwException a la valeur false.
- [SPARK-43067] Correction de l’emplacement du fichier de ressources de classe d’erreur dans le connecteur Kafka.
- [SPARK-46249] Verrou d’instance exigé pour acquérir des métriques RocksDB afin d’éviter une concurrence pour les opérations en arrière-plan.
- [SPARK-46602] Propagation de
allowExisting
lors de la création d’une vue quand la vue/la table n’existe pas. - [SPARK-46058] Ajout d’un indicateur distinct pour privateKeyPassword.
- [SPARK-46145] spark.catalog.listTables ne lève pas d’exception quand la table ou la vue est introuvable.
- [SPARK-46538] Résolution du problème de référence de colonne ambiguë dans
ALSModel.transform
. - [SPARK-42852] Rétablissement des modifications liées à NamedLambdaVariable dans EquivalentExpressions.
- 14 décembre 2023
- Correction d’un problème où les traits de soulignement en échappement dans les opérations getColumns provenant de clients JDBC ou ODBC étaient gérés incorrectement et interprétés comme des caractères génériques.
- [SPARK-44582] Itérateur ignoré sur SMJ s’il a été nettoyé.
- [SPARK-45920] Le regroupement par un ordinal doit être idempotent.
- [SPARK-45655] Expressions non déterministes autorisées dans AggregateFunctions dans CollectMetrics.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfix
pour corriger une vulnérabilité PyArrow RCE. - Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
getColumns
provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques. - [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage
Stage
etTask
. - [SPARK-44846] Suppression d’expressions de regroupement complexes après
RemoveRedundantAggregates
. - [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures
USING
. - [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-43973] L’interface utilisateur de flux structuré affiche désormais correctement les requêtes ayant échoué.
- [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
- 14 novembre 2023
- Les filtres de partition sur les requêtes de streaming de Delta Lake font désormais l’objet d’un pushdown avant la limitation de débit pour avoir une meilleure utilisation.
- [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-45430]
FramelessOffsetWindowFunction
n’échoue plus lorsqueIGNORE NULLS
etoffset > rowCount
. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- Mises à jour de sécurité du système d’exploitation
- 24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - Correctifs divers.
- [SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
- [SPARK-42553] Vérifiez qu’il y a au moins une unité de temps après l’intervalle.
- [SPARK-45346] L’inférence de schéma Parquet respecte l’indicateur respectant la casse lors de la fusion du schéma.
- [SPARK-45178] Retournez pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser le wrapper. - [SPARK-45084]
StateOperatorProgress
pour utiliser un numéro de partition aléatoire précis et adéquat.
- 12 septembre 2023
- [SPARK-44873] Ajout de la prise en charge de
alter view
avec des colonnes imbriquées dans le client Hive. - [SPARK-44718] Faites correspondre la configuration en mode mémoire par défaut
ColumnVector
avec la valeur de configurationOffHeapMemoryMode
. - [SPARK-43799] Ajout de l’option binaire du descripteur à l’API
Protobuf
PySpark. - Correctifs divers.
- [SPARK-44873] Ajout de la prise en charge de
- 30 août 2023
- [SPARK-44485] Optimisation de
TreeNode.generateTreeString
. - [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread
. - [SPARK-44871][11.3-13.0] Correction du comportement de
percentile_disc
. - [SPARK-44714] Réduit les restrictions de la résolution LCA concernant les requêtes.
- Mises à jour de sécurité du système d’exploitation
- [SPARK-44485] Optimisation de
- 15 août 2023
- [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44464] Correction de
applyInPandasWithStatePythonRunner
pour les lignes de sortie qui présententNull
comme première valeur de colonne. - Mises à jour de sécurité du système d’exploitation
- 29 juillet 2023
- Correction d’un problème à cause duquel
dbutils.fs.ls()
renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé. - [SPARK-44199]
CacheManager
n’actualisefileIndex
plus inutilement. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel
- 24 juillet 2023
- [SPARK-44337] Correction d’un problème à cause duquel tout champ défini sur
Any.getDefaultInstance
provoquait une erreur d’analyse. - [SPARK-44136] Correction d’un problème à cause duquel
StateManager
se matérialisait dans un exécuteur au lieu du pilote dansFlatMapGroupsWithStateExec
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44337] Correction d’un problème à cause duquel tout champ défini sur
- 23 juin 2023
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- Photonized
approx_count_distinct
. - La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- [SPARK-43779]
ParseToDate
se chargeEvalMode
désormais dans le thread principal. - [SPARK-43156][SPARK-43098] Test d’erreur de nombre de sous-requêtes scalaire étendu avec
decorrelateInnerQuery
désactivé. - Mises à jour de sécurité du système d’exploitation
- Photonized
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Améliorez les performances des mises à jour incrémentielles avec Iceberg et Parquet
SHALLOW CLONE
. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-43404] Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43413][11.3-13.0] Correction de la sous-requête
IN
de possibilité de valeurs nulles deListQuery
. - [SPARK-43522] Correction de la création d’un nom de colonne struct avec un index du tableau.
- [SPARK-43541] Propagation de toutes les balises
Project
dans la résolution des expressions et des colonnes manquantes. - [SPARK-43527] Résolution de
catalog.listCatalogs
dans PySpark. - [SPARK-43123] Les métadonnées de champ interne ne fuient plus vers des catalogues.
- [SPARK-43340] Correction du champ de trace de pile manquant dans des journaux d’événements.
- [SPARK-42444]
DataFrame.drop
gère désormais correctement les colonnes dupliquées. - [SPARK-42937]
PlanSubqueries
est désormais définiInSubqueryExec#shouldBroadcast
sur true. - [SPARK-43286] Mise à jour du mode CBC
aes_encrypt
pour générer des images virtuelles aléatoires. - [SPARK-43378] Ferme correctement les objets de flux dans
deserializeFromChunkedBuffer
.
- L’analyseur JSON en mode
- 17 mai 2023
- Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
- Si un fichier Avro a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui ont différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Auto Loader effectue maintenant les opérations suivantes.
-
- Lit correctement et ne sauve plus les types
Integer
,Short
etByte
si l’un de ces types de données est fourni, mais le fichier Avro suggère l’un des deux autres types.
- Lit correctement et ne sauve plus les types
-
- Empêche la lecture des types d’intervalles en tant que types date ou horodatage pour éviter d’obtenir des dates endommagées.
-
- Empêche la lecture
Decimal
des types avec une précision inférieure.
- Empêche la lecture
- [SPARK-43172] Expose l’hôte et le jeton du client Spark Connect.
- [SPARK-43293]
__qualified_access_only
est ignoré dans les colonnes normales. - [SPARK-43098] Correction d’un bogue d’exactitude lorsque la
COUNT
sous-requête scalaire est regroupée par clause. - [SPARK-43085] Prise en charge de l’attribution de colonnes
DEFAULT
pour les noms de tables en plusieurs parties. - [SPARK-43190]
ListQuery.childOutput
est désormais cohérent avec la sortie secondaire. - [SPARK-43192] Suppression de la validation de l’ensemble de caractères de l’agent utilisateur.
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2023
- Si un fichier Parquet a été lu uniquement avec l’option
failOnUnknownFields
ou avec Auto Loader en mode d’évolution defailOnNewColumns
schéma, les colonnes qui avaient différents types de données sont lues commenull
au lieu de générer une erreur indiquant que le fichier ne peut pas être lu. Ces lectures échouent maintenant et recommandent aux utilisateurs d’utiliser l’optionrescuedDataColumn
. - Désormais, le chargeur automatique lit et ne sauve plus correctement les types
Integer
,Short
etByte
si l’un de ces types de données est fourni. Le fichier Parquet suggère l’un des deux autres types. Lorsque la colonne de données sauvée était précédemment activée, l’incompatibilité du type de données entraînait le sauvetage des colonnes même si elles étaient lisibles. - [SPARK-43009] Paramétrisation de
sql()
avec des constantesAny
- [SPARK-42406] Arrêter les champs récursifs Protobuf en supprimant le champ
- [SPARK-43038] Prise en charge du mode GCM par
aes_encrypt()
/aes_decrypt()
- [SPARK-42971] Modification pour imprimer
workdir
siappDirs
est Null lors de l’événement de handle de workerWorkDirCleanup
- [SPARK-43018] Correction d’un bogue pour INSERT des commandes avec des littéraux d’horodatage
- Mises à jour de sécurité du système d’exploitation
- Si un fichier Parquet a été lu uniquement avec l’option
- 11 avril 2023
- Prise en charge des formats de source de données hérités dans la commande
SYNC
. - Corrige un problème dans le comportement %autoreload dans les notebooks en dehors d’un dépôt.
- Correction d’un problème à cause duquel l’évolution du schéma du chargeur automatique peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42928] Rend
resolvePersistentFunction
synchronisé. - [SPARK-42936] Corrige un problème LC lorsque la clause peut être résolue directement par son agrégat enfant.
- [SPARK-42967] Corrige
SparkListenerTaskStart.stageAttemptId
lorsqu’une tâche démarre après l’annulation de la phase. - Mises à jour de sécurité du système d’exploitation
- Prise en charge des formats de source de données hérités dans la commande
- 29 mars 2023
Databricks SQL prend désormais en charge la spécification de valeurs par défaut pour les colonnes des tables Delta Lake, au moment de la création de la table ou après. Les commandes suivantes
INSERT
,UPDATE
,DELETE
etMERGE
peuvent faire référence à n’importe quelle valeur par défaut d’une colonne à l’aide de la mot clé expliciteDEFAULT
. De plus, si des affectationsINSERT
ont une liste explicite de moins de colonnes que la table cible, les valeurs de colonne par défaut correspondantes sont remplacées par les colonnes restantes (ou NULL si aucune valeur par défaut n’est spécifiée).Par exemple :
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
Le chargeur automatique lance désormais au moins un journal RocksDB synchrone propre pour les flux
Trigger.AvailableNow
afin de s’assurer que le point de contrôle peut être nettoyé régulièrement pour les flux du chargeur automatique à exécution rapide. Certains flux peuvent mettre plus longtemps à s’arrêter, mais vous économiserez des coûts de stockage et améliorerez l’expérience du chargeur automatique dans les exécutions futures.Vous pouvez maintenant modifier une table Delta pour ajouter la prise en charge des fonctionnalités de table à l’aide de
DeltaTable.addFeatureSupport(feature_name)
.[SPARK-42794] Augmentation de lockAcquireTimeoutMs à 2 minutes pour l’acquisition du magasin d’état RocksDB dans Structure Streaming
[SPARK-42521] Ajout des valeurs NULL pour INSERT avec des listes spécifiées par l’utilisateur de moins de colonnes que la table cible
[SPARK-42702][SPARK-42623] Prise en charge de la requête paramétrable dans la sous-requête et la CTE
[SPARK-42668] Intercepter une exception lors de la tentative de fermeture du flux compressé dans l’arrêt HDFSStateStoreProvider
[SPARK-42403] JsonProtocol doit gérer les chaînes JSON Null
- 8 mars 2023
- Le message d’erreur « Échec de l’initialisation de la configuration » a été amélioré pour fournir plus de contexte au client.
- Il existe un changement de terminologie pour l’ajout de fonctionnalités à une table Delta à l’aide de la propriété table. La syntaxe préférée est maintenant
'delta.feature.featureName'='supported'
au lieu de'delta.feature.featureName'='enabled'
. Pour la compatibilité descendante, l’utilisation de'delta.feature.featureName'='enabled'
fonctionne toujours et continuera de fonctionner. - À partir de cette version, il est possible de créer ou de remplacer une table par une propriété de table
delta.ignoreProtocolDefaults
supplémentaire pour ignorer les configurations Spark liées au protocole, ce qui inclue les versions de lecteur et d’enregistreur par défaut, et les fonctionnalités de table prises en charge par défaut. - [SPARK-42070] Modifier la valeur par défaut de l’argument de la fonction Mask de -1 à NULL
- [SPARK-41793] Résultat incorrect pour les cadres de fenêtre définis par une clause de plage sur les décimales importantes
- [SPARK-42484] Meilleur message d’erreur UnsafeRowUtils
- [SPARK-42516] Capturez toujours la configuration du fuseau horaire de session lors de la création de vues
- [SPARK-42635] Correction de l’expression TimestampAdd.
- [SPARK-42622] Désactivation de la substitution dans les valeurs
- [SPARK-42534] Correction de la clause de limite DB2Dialect
- [SPARK-42121] Ajouter des fonctions table intégrées posexplode, posexplode_outer, json_tuple et pile
- [SPARK-42045] Mode SQL ANSI : Round/Bround doit retourner une erreur sur un dépassement de capacité d’entier minuscule, petit ou important
- Mises à jour de sécurité du système d’exploitation
Databricks Runtime 11.3 LTS
Voir Databricks Runtime 11.3 LTS.
- 10 octobre 2024
- Divers correctifs de bogues.
- 25 septembre 2024
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- Divers correctifs de bogues.
- 17 septembre 2024
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- 14 août 2024
- [SPARK-48941][SPARK-48970] Corrections de rétroportage de l’enregistreur/lecteur ML
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-48463][ML] Ajout à StringIndexer de la prise en charge des colonnes d’entrée imbriquées
- Mises à jour de sécurité du système d’exploitation
- 1er août 2024
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correctifs de rétroportage de l’enregistreur ML Spark
- 1er août 2024
- Pour appliquer les correctifs de sécurité requis, la version Python dans Databricks Runtime 11.3 LTS est mise à niveau de 3.9.5 à 3.9.19.
- 11 juillet 2024
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- [SPARK-47070] Corriger l’agrégation non valide après la réécriture de la sous-requête
- Mises à jour de sécurité du système d’exploitation
- 17 juin 2024
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- Mises à jour de sécurité du système d’exploitation
- 9 mai 2024
- [SPARK-48018][SS] Correction de groupId null à l’origine d’une erreur de paramètre manquant avec levée de KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Site d’appel de journal dans SparkContext.stop() et ultérieur dans SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Définition de la valeur pouvant accepter Null correctement sur une clé de jointure fusionnée dans une jointure externe complète USING
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2024
- Mises à jour de sécurité du système d’exploitation
- 11 avril 2024
- Mises à jour de sécurité du système d’exploitation
- 1er avril 2024
- [SPARK-44252][SS] Définir une nouvelle classe d’erreur et l’appliquer lorsque le chargement de l’état à partir de DFS échoue
- [SPARK-47135][SS] Implémentation de classes d’erreur pour les exceptions de perte de données Kafka
- Rétablir « [SPARK-46861] [CORE] Éviter l’interblocage dans DAGScheduler »
- [SPARK-47200][SS] Classe d’erreurs pour l’erreur de transaction de fonction utilisateur par lot Foreach
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2024
- [SPARK-47167][SQL] Ajouter une classe concrète pour la relation anonyme JDBC
- [SPARK-47125][SQL] Retourner null si Univocity ne déclenche jamais l’analyse
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la création de rapports numSourceRows par l’indicateur de performance d’opération du double du nombre correct de lignes.
- [SPARK-45582][SS] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie
- 13 février 2024
- [SPARK-46794] Supprimer les sous-requêtes des contraintes LogicalRDD.
- [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2024
- Mises à jour de sécurité du système d’exploitation
- 25 Décembre 2023
- Pour éviter une latence accrue lors de la communication sur TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 visant à corriger le bogue JDK JDK-8293562.
- [SPARK-46058] Ajout d’un indicateur distinct pour privateKeyPassword.
- [SPARK-46602] Propagation de
allowExisting
lors de la création d’une vue quand la vue/la table n’existe pas. - [SPARK-46394] Résolution des problèmes de spark.catalog.listDatabases() sur les schémas avec des caractères spéciaux quand
spark.sql.legacy.keepCommandOutputSchema
est défini sur true. - [SPARK-46538] Résolution du problème de référence de colonne ambiguë dans
ALSModel.transform
. - [SPARK-39440] Ajout d’une configuration pour désactiver la chronologie des événements.
- [SPARK-46249] Verrou d’instance exigé pour acquérir des métriques RocksDB afin d’éviter une concurrence pour les opérations en arrière-plan.
- [SPARK-46132] Prise en charge du mot de passe de clé pour les clés JKS pour RPC SSL.
- 14 décembre 2023
- Correction d’un problème où les traits de soulignement en échappement dans les opérations getColumns provenant de clients JDBC ou ODBC étaient gérés incorrectement et interprétés comme des caractères génériques.
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfix
pour corriger une vulnérabilité PyArrow RCE. - Correction d’un problème à cause duquel les traits de soulignement d’échappement dans les opérations
getColumns
provenant de clients JDBC ou ODBC n’étaient pas interprétés comme des caractères génériques. - [SPARK-43973] L’interface utilisateur de flux structuré affiche désormais correctement les requêtes ayant échoué.
- [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures
USING
. - [SPARK-44846] Suppression d’expressions de regroupement complexes après
RemoveRedundantAggregates
. - Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
- 14 novembre 2023
- Les filtres de partition sur les requêtes de streaming de Delta Lake font désormais l’objet d’un pushdown avant la limitation de débit pour avoir une meilleure utilisation.
- [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage de phase et de tâche.
- [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - Rétablissez [SPARK-33861].
- [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45430]
FramelessOffsetWindowFunction
n’échoue plus lorsqueIGNORE NULLS
etoffset > rowCount
. - [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - Mises à jour de sécurité du système d’exploitation
- 24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - Correctifs divers.
- [SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- La dépendance Snowflake-jdbc a été mise à niveau de 3.13.29 à 3.13.33.
- [SPARK-45178] Retournez pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser le wrapper. - [SPARK-45084]
StateOperatorProgress
pour utiliser un numéro de partition aléatoire précis et adéquat. - [SPARK-45346] L’inférence de schéma Parquet respecte désormais l’indicateur respectant la casse lors de la fusion d’un schéma.
- Mises à jour de sécurité du système d’exploitation
- 10 septembre 2023
- Correctifs divers.
- 30 août 2023
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread
. - [SPARK-44871][11.3-13.0] Correction du comportement de
percentile_disc
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
- 15 août 2023
- [SPARK-44485] Optimisation de
TreeNode.generateTreeString
. - [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-44464] Correction de
applyInPandasWithStatePythonRunner
pour les lignes de sortie qui présententNull
comme première valeur de colonne. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44485] Optimisation de
- 27 juillet 2023
- Correction d’un problème à cause duquel
dbutils.fs.ls()
renvoyaitINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
lorsqu’il était appelé pour un chemin d’accès à un emplacement de stockage qui entrait en conflit avec un autre emplacement de stockage externe ou managé. - [SPARK-44199]
CacheManager
n’actualisefileIndex
plus inutilement. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel
- 24 juillet 2023
- [SPARK-44136] [SS] Correction d’un problème à cause duquel StateManager pouvait être matérialisé dans l’exécuteur au lieu du pilote dans FlatMapGroupsWithStateExec.
- Mises à jour de sécurité du système d’exploitation
- 23 juin 2023
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- Photonized
approx_count_distinct
. - La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- [SPARK-43779]
ParseToDate
se chargeEvalMode
désormais dans le thread principal. - [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Test de bogue de nombre de sous-requêtes scalaire étendu avec
decorrelateInnerQuery
désactivé. - [SPARK-43098] Correction du bogue COUNT lorsque la sous-requête scalaire dispose d’une clause group by
- Mises à jour de sécurité du système d’exploitation
- Photonized
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Améliorez les performances des mises à jour incrémentielles avec Iceberg et Parquet
SHALLOW CLONE
. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-43404]Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43527] Résolution de
catalog.listCatalogs
dans PySpark. - [SPARK-43413][11.3-13.0] Correction de la sous-requête
IN
de possibilité de valeurs nulles deListQuery
. - [SPARK-43340] Correction du champ de trace de pile manquant dans des journaux d’événements.
- L’analyseur JSON en mode
Databricks Runtime 10.4 LTS
Consultez Databricks Runtime 10.4 LTS.
- 5 novembre 2024
- Mises à jour de sécurité du système d’exploitation
- 22 octobre 2024
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-46601] [CORE] Corriger l’erreur de journal dans handleStatusMessage
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- Mises à jour de sécurité du système d’exploitation
- 17 septembre 2024
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- 14 août 2024
- [SPARK-48597][SQL] Introduction d’un marqueur pour la propriété isStreaming dans la représentation textuelle du plan logique
- [SPARK-48941][SPARK-48970] Corrections de rétroportage de l’enregistreur/lecteur ML
- [SPARK-48463][ML] Ajout à StringIndexer de la prise en charge des colonnes d’entrée imbriquées
- 1er août 2024
- [SPARK-48896] [SPARK-48909] [SPARK-48883] Correctifs de rétroportage de l’enregistreur ML Spark
- Mises à jour de sécurité du système d’exploitation
- 11 juillet 2024
- [SPARK-48383][SS] Génération d’une meilleure erreur pour les partitions incompatibles dans l’option startOffset dans Kafka
- Mises à jour de sécurité du système d’exploitation
- 17 juin 2024
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- Mises à jour de sécurité du système d’exploitation
- 9 mai 2024
- [SPARK-48018][SS] Correction de groupId null à l’origine d’une erreur de paramètre manquant avec levée de KafkaException.couldNotReadOffsetRange
- [SPARK-47973][CORE] Site d’appel de journal dans SparkContext.stop() et ultérieur dans SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Définition de la valeur pouvant accepter Null correctement sur une clé de jointure fusionnée dans une jointure externe complète USING
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2024
- Mises à jour de sécurité du système d’exploitation
- 11 avril 2024
- Mises à jour de sécurité du système d’exploitation
- 1er avril 2024
- [SPARK-47135][SS] Implémentation de classes d’erreur pour les exceptions de perte de données Kafka
- [SPARK-44252][SS] Définir une nouvelle classe d’erreur et l’appliquer lorsque le chargement de l’état à partir de DFS échoue
- [SPARK-47200][SS] Classe d’erreurs pour l’erreur de transaction de fonction utilisateur par lot Foreach
- Rétablir « [SPARK-46861] [CORE] Éviter l’interblocage dans DAGScheduler »
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2024
- [SPARK-47125][SQL] Retourner null si Univocity ne déclenche jamais l’analyse
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la création de rapports numSourceRows par l’indicateur de performance d’opération du double du nombre correct de lignes.
- [SPARK-45582][SS] Impossibilité d’utiliser l’instance de magasin après un appel de commit dans l’agrégation de streaming en mode sortie
- Mises à jour de sécurité du système d’exploitation
- 13 février 2024
- [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2024
- Mises à jour de sécurité du système d’exploitation
- 25 Décembre 2023
- Pour éviter une latence accrue lors de la communication sur TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 visant à corriger le bogue JDK JDK-8293562.
- [SPARK-46058] Ajout d’un indicateur distinct pour privateKeyPassword.
- [SPARK-46538] Résolution du problème de référence de colonne ambiguë dans
ALSModel.transform
. - [SPARK-39440] Ajout d’une configuration pour désactiver la chronologie des événements.
- [SPARK-46132] Prise en charge du mot de passe de clé pour les clés JKS pour RPC SSL.
- 14 décembre 2023
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfix
pour corriger une vulnérabilité PyArrow RCE. - [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - [SPARK-43718] Correction de la possibilité de valeurs Null pour les clés dans les jointures
USING
. - [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage de phase et de tâche.
- [SPARK-44846] Suppression d’expressions de regroupement complexes après
RemoveRedundantAggregates
. - Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
- 14 novembre 2023
- [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - Rétablissez [SPARK-33861].
- Mises à jour de sécurité du système d’exploitation
- [SPARK-45541] Ajout de
- 24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- [SPARK-45084]
StateOperatorProgress
pour utiliser un numéro de partition aléatoire précis et adéquat. - [SPARK-45178] Retournez pour exécuter un lot unique pour
Trigger.AvailableNow
avec des sources non prises en charge plutôt que d’utiliser le wrapper. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45084]
- 10 septembre 2023
- Correctifs divers.
- 30 août 2023
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
taskThread
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-44818] Correction de la course pour l’interruption de tâche en attente émise avant l’initialisation de
- 15 août 2023
- [SPARK-44504] La tâche de maintenance nettoie les fournisseurs chargés en cas d’erreur d’arrêt.
- [SPARK-43973] L’interface utilisateur de flux structuré affiche désormais correctement les requêtes ayant échoué.
- Mises à jour de sécurité du système d’exploitation
- 23 juin 2023
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- [SPARK-43098] Correction du bogue COUNT lorsque la sous-requête scalaire dispose d’une clause group by
- [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery
- [SPARK-43156][SPARK-43098] Test de nombre de sous-requêtes scalaire étendu avec
decorrelateInnerQuery
désactivé. - Mises à jour de sécurité du système d’exploitation
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Correction d’un problème dans l’analyse de données sauvées JSON pour empêcher
UnknownFieldException
. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-43404] Ignorez la réutilisation du fichier SST pour la même version du magasin d’état RocksDB afin d’éviter une erreur de non-correspondance d’ID.
- [SPARK-43413] Correction de la possibilité de valeurs nulles de
ListQuery
de la sous-requêteIN
. - Mises à jour de sécurité du système d’exploitation
- L’analyseur JSON en mode
- 17 mai 2023
- Les analyses Parquet sont désormais robustes contre les OOMs lors de l’analyse de fichiers exceptionnellement structurés en ajustant dynamiquement la taille des lots. Les métadonnées de fichier sont analysées pour réduire la taille du lot de manière préventive et sont à nouveau réduites lors des nouvelles tentatives de tâche en tant que filet de sécurité final.
- [SPARK-41520] Fractionnez le modèle d’arborescence
AND_OR
pour séparerAND
etOR
. - [SPARK-43190]
ListQuery.childOutput
est désormais cohérent avec la sortie secondaire. - Mises à jour de sécurité du système d’exploitation
- 25 avril 2023
- [SPARK-42928] Rend
resolvePersistentFunction
synchronisé. - Mises à jour de sécurité du système d’exploitation
- [SPARK-42928] Rend
- 11 avril 2023
- Correction d’un problème à cause duquel l’évolution du schéma du chargeur automatique peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42937]
PlanSubqueries
est désormais définiInSubqueryExec#shouldBroadcast
sur true. - [SPARK-42967] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
- 29 mars 2023
- [SPARK-42668] Intercepter une exception lors de la tentative de fermeture du flux compressé dans l’arrêt HDFSStateStoreProvider
- [SPARK-42635] Correction de …
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2023
- [SPARK-41162] Correction de la jointure anti-jointure et de la semi-jointure pour la jointure automatique avec agrégations
- [SPARK-33206] Correction du calcul de poids du cache d’index aléatoire pour les petits fichiers d’index
- [SPARK-42484] Amélioration du message d’erreur
UnsafeRowUtils
- Correctifs divers.
- 28 février 2023
- Prise en charge de la colonne générée pour les date_format aaaa-MM-jj. Cette modification prend en charge l’élagage de partition pour les aaaa-MM-jj en tant que date_format dans les colonnes générées.
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 LTS ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- Prise en charge de la colonne générée pour les date_format aaaa-MM-jj. Cette modification prend en charge l’élagage de partition pour les aaaa-MM-jj en tant que date_format dans les colonnes générées.
- Mises à jour de sécurité du système d’exploitation
- 16 février 2023
- [SPARK-30220] Activer l’utilisation des sous-requêtes Exists/In en dehors du nœud Filtre
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
- 18 janvier 2023
- Le connecteur Azure Synapse retourne un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
. - [SPARK-38277] Nettoyage du lot d’écriture après le commit du magasin d’états RocksDB
- [SPARK-41199] Correction du problème de métriques quand la source de streaming DSv1 et la source de streaming DSv2 sont utilisées ensemble
- [SPARK-41198] Correction de métriques dans les requêtes de streaming ayant une source de streaming CTE et DSv1.
- [SPARK-41339] Fermez et recréez le lot d’écriture RocksDB au lieu de simplement l’effacer.
- [SPARK-41732] Appliquer l’élagage basé sur un modèle d’arborescence pour la règle SessionWindowing.
- Mises à jour de sécurité du système d’exploitation
- Le connecteur Azure Synapse retourne un message d’erreur plus descriptif quand un nom de colonne contient des caractères non valides comme des espaces ou des points-virgules. Dans ce cas, le message suivant est retourné :
- 29 novembre 2022
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
- Quand
csvignoreleadingwhitespace
est défini surtrue
, il supprime l’espace blanc de début des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
. - Quand
csvignoretrailingwhitespace
est défini surtrue
, il supprime l’espace blanc de fin des valeurs pendant les écritures lorsquetempformat
est défini surCSV
ouCSV GZIP
. Les espaces blancs sont conservés lorsque la configuration est définie surfalse
. Par défaut, la valeur esttrue
.
- Quand
- Correction d’un problème avec l’analyse JSON dans Auto Loader quand toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypes
n’a pas été définie ou défini surfalse
) et que le JSON contenait des objets imbriqués. - Mises à jour de sécurité du système d’exploitation
- Les utilisateurs peuvent configurer le comportement des espaces blancs de début et de fin lors de l’écriture de données à l’aide du connecteur Redshift. Les options suivantes ont été ajoutées pour contrôler la gestion des espaces blancs :
- 15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- [SPARK-40646] L’analyse JSON pour les structs, les mappages et les tableaux a été corrigée de sorte que lorsqu’une partie d’un enregistrement ne correspond pas au schéma, le reste de l’enregistrement peut toujours être analysé correctement au lieu de retourner des valeurs Null. Pour opter pour l’amélioration du comportement, définissez
spark.sql.json.enablePartialResults
surtrue
. L’indicateur est désactivé par défaut pour conserver le comportement d’origine. - [SPARK-40292] Correction des noms de colonnes dans la fonction
arrays_zip
lorsque des tableaux sont référencés à partir de structs imbriqués - Mises à jour de sécurité du système d’exploitation
- 1er novembre 2022
- Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type
, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE
. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwrites
est activé - [SPARK-40697] Ajoutez un remplissage de caractères côté lecture pour couvrir les fichiers de données externes
- [SPARK-40596] Remplissez ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée
- 18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- [SPARK-40468] Correction de la taille des colonnes au format CSV lorsque
_corrupt_record
est sélectionné. - Mises à jour de sécurité du système d’exploitation
- [SPARK-40468] Correction de la taille des colonnes au format CSV lorsque
- 22 septembre 2022
- Les utilisateurs peuvent définir spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) pour réactiver la liste intégrée du chargeur automatique sur ADLS Gen2. La liste intégrée a été précédemment désactivée en raison de problèmes de performances, mais peut avoir entraîné une augmentation des coûts de stockage pour les clients. - [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40213] Prise en charge de la conversion de valeurs ASCII pour les caractères Latin-1
- [SPARK-40380] Correction du pliage constant de InvokeLike pour éviter un littéral non sérialisable incorporé dans le plan
- [SPARK-38404] Amélioration de la résolution CTE lorsqu’un CTE imbriqué fait référence à un CTE externe
- [SPARK-40089] Correction du tri pour certains types décimaux
- [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- Les utilisateurs peuvent définir spark.conf.set(
- 6 septembre 2022
- [SPARK-40235] Utilisation d’un verrou interruptible au lieu d’un verrou synchronisé dans Executor.updateDependencies().
- [SPARK-40218] GROUPING SETS doit conserver les colonnes de regroupement.
- [SPARK-39976] ArrayIntersect doit gérer correctement la valeur Null dans l’expression de gauche.
- [SPARK-40053] Ajout de
assume
aux cas d’annulation dynamique nécessitant un environnement de runtime Python. - [SPARK-35542] Correctif : Un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement.
- [SPARK-40079] Ajout d’une validation de inputCols pour le processus d’imputation en cas d’entrée vide.
- 24 août 2022
- [SPARK-39983] Plus de mise en cache des relations de diffusion non sérialisées sur le pilote.
- [SPARK-39775] Désactivation des valeurs par défaut lors de l’analyse des schémas Avro.
- [SPARK-39962] Application d’une projection lorsque les attributs de groupe sont vides
- [SPARK-37643] Quand charVarcharAsString a la valeur true, la requête de prédicat de type de données char doit ignorer la règle rpadding.
- Mises à jour de sécurité du système d’exploitation
- 9 août 2022
- [SPARK-39847] Correction de la condition de concurrence dans RocksDBLoader.loadLibrary() si le thread de l’appelant est interrompu
- [SPARK-39731] Correction du problème dans les sources de données CSV et JSON lors de l’analyse des dates au format “aaaaMMjj” avec une stratégie d’analyseur de temps CORRIGÉE
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- [SPARK-39625] Ajout de Dataset.as(StructType).
- [SPARK-39689] Prise en charge du
lineSep
sur 2 caractères dans la source de données CSV. - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded doit être thread-safe.
- [SPARK-39570] La table incluse doit autoriser les expressions avec des alias.
- [SPARK-39702] Réduction de la surcharge mémoire de TransportCipher$EncryptedMessage en utilisant un byteRawChannel partagé.
- [SPARK-39575] Ajout de ByteBuffer#rewind après ByteBuffer#get dans AvroDeserializer.
- [SPARK-39476] Désactivation de l’optimisation du cast de désenveloppement lors de la conversion de Long en Flottant/Double ou d’Entier en Flottant.
- [SPARK-38868] Pas de propagation des exceptions depuis le prédicat de filtre lors de l’optimisation des jointures externes.
- Mises à jour de sécurité du système d’exploitation
- 20 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39355] Une colonne unique utilise des guillemets pour construire UnresolvedAttribute.
- [SPARK-39548] La commande CreateView avec une requête de clause de fenêtre provoque un problème de définition de fenêtre incorrecte introuvable.
- [SPARK-39419] Correction d’ArraySort pour lever une exception quand le comparateur retourne Null.
- Désactivation de l’utilisation par le chargeur automatique des API cloud intégrées pour dresser la liste des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
- 5 juillet 2022
- [SPARK-39376] Masquage des colonnes dupliquées dans l’extension en étoile de l’alias de sous-requête de NATURAL/USING JOIN
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2022
- [SPARK-39283] Correction d’un interblocage entre TaskMemoryManager et UnsafeExternalSorter.SpillableIterator.
- [SPARK-39285] Spark ne doit pas vérifier les noms des champs lors de la lecture de fichiers.
- [SPARK-34096] Amélioration des performances avec nth_value qui ignore les valeurs Null sur une fenêtre de décalage.
- [SPARK-36718] Correction de la vérification de
isExtractOnly
dans CollapseProject.
- 2 juin 2022
- [SPARK-39093] Erreur de compilation codegen évitée lors de la division des intervalles d’année-mois ou des intervalles de jours-heures par un entier.
- [SPARK-38990] Exception NullPointerException évitée lors de l’évaluation du format date_trunc/trunc comme référence liée.
- Mises à jour de sécurité du système d’exploitation
- 18 mai 2022
- Corrige une fuite de mémoire intégrée potentielle dans Auto Loader.
- [SPARK-38918] Le nettoyage de colonne imbriquée doit exclure les attributs qui n’appartiennent pas à la relation actuelle.
- [SPARK-37593] Réduction de la taille de page par défaut de LONG_ARRAY_OFFSET si G1GC et ON_HEAP sont utilisés.
- [SPARK-39084] Correction de df.rdd.isEmpty() en utilisant TaskContext pour arrêter l’itérateur à la fin de la tâche.
- [SPARK-32268] Ajout de ColumnPruning dans injectBloomFilter.
- [SPARK-38974] Filtrage des fonctions inscrites avec un nom de base de données indiqué dans les fonctions de liste.
- [SPARK-38931] Création d’un répertoire dfs racine pour RocksDBFileManager avec un nombre inconnu de clés sur le premier point de contrôle.
- Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- Mise à niveau du Kit de développement logiciel (SDK) Java AWS de la version 1.11.655 vers la version 1.12.1899.
- Correction d’un problème lié aux bibliothèques délimitées aux notebooks qui ne fonctionnaient pas dans les travaux de streaming par lots.
- [SPARK-38616] Suivi du texte de requête SQL dans Catalyst TreeNode
- Mises à jour de sécurité du système d’exploitation
- 6 avril 2022
- Les fonctions Spark SQL suivantes sont désormais disponibles avec cette version :
timestampadd()
etdateadd()
: Ajout d’une durée dans une unité spécifiée à une expression d’horodatage.timestampdiff()
etdatediff()
: Calcule de la différence de temps entre deux expressions d’horodatage d’une unité spécifiée.
- Parquet-MR a été mis à niveau vers la version 1.12.2
- Prise en charge améliorée des schémas complets dans les fichiers Parquet
- [SPARK-38631] Utilisation d’une implémentation basée sur Java pour le désarchivage tar sur Utils.unpack.
- [SPARK-38509][SPARK-38481] Cherry-picking de trois modifications
timestmapadd/diff
. - [SPARK-38523] Correction de la référence à la colonne d’enregistrement endommagée du CSV.
- [SPARK-38237]
ClusteredDistribution
autorisé à exiger des clés de clustering complètes. - [SPARK-38437] Sérialisation avec tolérance de la date et heure à partir de la source de données.
- [SPARK-38180] Expressions d’up-cast sécurisées autorisées dans les prédicats d’égalité corrélés.
- [SPARK-38155] Agrégat distinct interdit dans les sous-requêtes latérales avec des prédicats non pris en charge.
- Mises à jour de sécurité du système d’exploitation
- Les fonctions Spark SQL suivantes sont désormais disponibles avec cette version :
Databricks Runtime 9.1 LTS
Voir Databricks Runtime 9.1 LTS.
- 5 novembre 2024
- Mises à jour de sécurité du système d’exploitation
- 22 octobre 2024
- Mises à jour de sécurité du système d’exploitation
- 10 octobre 2024
- Mises à jour de sécurité du système d’exploitation
- 25 septembre 2024
- [SPARK-49000][SQL] Correction de « select count(distinct 1) from t » où t est vide table en développant RewriteDistinctAggregates
- Mises à jour de sécurité du système d’exploitation
- 6 septembre 2024
- Mises à jour de sécurité du système d’exploitation
- 29 août 2024
- [SPARK-49065][SQL] Le rebasage dans les formateur/analyseurs hérités doit prendre en charge les fuseaux horaires non JVM par défaut
- 14 août 2024
- 1er août 2024
- Mises à jour de sécurité du système d’exploitation
- 11 juillet 2024
- Mises à jour de sécurité du système d’exploitation
- 17 juin 2024
- Mises à jour de sécurité du système d’exploitation
- 21 mai 2024
- [SPARK-48105][SS] Corriger la condition de concurrence entre le déchargement du magasin d’état et la capture instantanée
- Mises à jour de sécurité du système d’exploitation
- 9 mai 2024
- [SPARK-47973][CORE] Site d’appel de journal dans SparkContext.stop() et ultérieur dans SparkContext.assertNotStopped()
- [SPARK-44251][SQL] Définition de la valeur pouvant accepter Null correctement sur une clé de jointure fusionnée dans une jointure externe complète USING
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2024
- Divers correctifs de bogues.
- 11 avril 2024
- Mises à jour de sécurité du système d’exploitation
- 1er avril 2024
- Rétablir « [SPARK-46861] [CORE] Éviter l’interblocage dans DAGScheduler »
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2024
- Mises à jour de sécurité du système d’exploitation
- 29 février 2024
- Correction d’un problème où l’utilisation d’une collection locale comme source dans une commande MERGE pouvait entraîner la création de rapports numSourceRows par l’indicateur de performance d’opération du double du nombre correct de lignes.
- Mises à jour de sécurité du système d’exploitation
- 13 février 2024
- [SPARK-46861] Éviter l’interblocage dans DAGScheduler.
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2024
- Mises à jour de sécurité du système d’exploitation
- 25 Décembre 2023
- Pour éviter une latence accrue lors de la communication sur TLSv1.3, cette version de maintenance inclut un correctif pour l’installation du JDK 8 visant à corriger le bogue JDK JDK-8293562.
- [SPARK-46058] Ajout d’un indicateur distinct pour privateKeyPassword.
- [SPARK-39440] Ajout d’une configuration pour désactiver la chronologie des événements.
- [SPARK-46132] Prise en charge du mot de passe de clé pour les clés JKS pour RPC SSL.
- 14 décembre 2023
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2023
- Nouveau package installé,
pyarrow-hotfix
pour corriger une vulnérabilité PyArrow RCE. - [SPARK-45859] Objets UDF rendus différés
ml.functions
. - [SPARK-45544] Prise en charge SSL intégrée dans
TransportContext
. - [SPARK-45730] Contraintes de temps améliorées pour
ReloadingX509TrustManagerSuite
. - Mises à jour de sécurité du système d’exploitation
- Nouveau package installé,
- 14 novembre 2023
- [SPARK-45545]
SparkTransportConf
hériteSSLOptions
lors de la création. - [SPARK-45429] Ajout de classes d’assistance pour la communication RPC SSL.
- [SPARK-45427] Ajout de paramètres SSL RPC à
SSLOptions
etSparkTransportConf
. - [SPARK-45584]Correction de l’échec de l’exécution de la sous-requête avec
TakeOrderedAndProjectExec
. - [SPARK-45541] Ajout de
SSLFactory
. - [SPARK-42205] Suppression des cumulables de journalisation dans les événements de démarrage de phase et de tâche.
- Mises à jour de sécurité du système d’exploitation
- [SPARK-45545]
- 24 octobre 2023
- [SPARK-45426] Ajout de la prise en charge de
ReloadingX509TrustManager
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-45426] Ajout de la prise en charge de
- 13 octobre 2023
- Mises à jour de sécurité du système d’exploitation
- 10 septembre 2023
- Correctifs divers.
- 30 août 2023
- Mises à jour de sécurité du système d’exploitation
- 15 août 2023
- Mises à jour de sécurité du système d’exploitation
- 23 juin 2023
- La bibliothèque Snowflake-jdbc est mise à niveau vers la version 3.13.29 pour résoudre un problème de sécurité.
- Mises à jour de sécurité du système d’exploitation
- 15 juin 2023
- [SPARK-43098] Correction du bogue de COUNT quand la sous-requête scalaire a une clause group by.
- [SPARK-43156][SPARK-43098] Test de bogue de nombre de sous-requêtes scalaire étendu avec
decorrelateInnerQuery
désactivé. - [SPARK-40862] Prise en charge des sous-requêtes non agrégées dans RewriteCorrelatedScalarSubquery.
- Mises à jour de sécurité du système d’exploitation
- 2 juin 2023
- L’analyseur JSON en mode
failOnUnknownFields
supprime un enregistrement en modeDROPMALFORMED
et échoue directement en modeFAILFAST
. - Correction d’un problème dans l’analyse de données sauvées JSON pour empêcher
UnknownFieldException
. - Correction d’un problème dans Auto Loader où différents formats de fichier source étaient incohérents lorsque le schéma fourni n’incluait aucune partition déduite. Ce problème peut entraîner des échecs inattendus lors de la lecture de fichiers avec des colonnes manquantes dans le schéma de partition déduite.
- [SPARK-37520] Ajout des fonctions de chaîne
startswith()
etendswith()
- [SPARK-43413] Correction de la possibilité de valeurs nulles de
ListQuery
de la sous-requêteIN
. - Mises à jour de sécurité du système d’exploitation
- L’analyseur JSON en mode
- 17 mai 2023
- Mises à jour de sécurité du système d’exploitation
- 25 avril 2023
- Mises à jour de sécurité du système d’exploitation
- 11 avril 2023
- Correction d’un problème à cause duquel l’évolution du schéma du chargeur automatique peut passer dans une boucle d’échec infinie, lorsqu’une nouvelle colonne est détectée dans le schéma d’un objet JSON imbriqué.
- [SPARK-42967] Correction de SparkListenerTaskStart.stageAttemptId lorsqu’une tâche est démarrée après l’annulation de la phase.
- 29 mars 2023
- Mises à jour de sécurité du système d’exploitation
- 14 mars 2023
- [SPARK-42484] Amélioration du message d’erreur pour
UnsafeRowUtils
. - Correctifs divers.
- [SPARK-42484] Amélioration du message d’erreur pour
- 28 février 2023
- Les utilisateurs peuvent désormais lire et écrire certaines tables Delta qui nécessitent Reader version 3 et Writer version 7, à l’aide de Databricks Runtime 9.1 LTS ou version ultérieure. Pour réussir, les fonctionnalités de table répertoriées dans le protocole des tables doivent être prises en charge par la version actuelle de Databricks Runtime.
- Mises à jour de sécurité du système d’exploitation
- 16 février 2023
- Mises à jour de sécurité du système d’exploitation
- 31 janvier 2023
- Les types de tables JDBC sont désormais EXTERNAL par défaut.
- 18 janvier 2023
- Mises à jour de sécurité du système d’exploitation
- 29 novembre 2022
- Correction d’un problème avec l’analyse JSON dans Auto Loader quand toutes les colonnes étaient laissées en tant que chaînes (
cloudFiles.inferColumnTypes
n’a pas été définie ou défini surfalse
) et que le JSON contenait des objets imbriqués. - Mises à jour de sécurité du système d’exploitation
- Correction d’un problème avec l’analyse JSON dans Auto Loader quand toutes les colonnes étaient laissées en tant que chaînes (
- 15 novembre 2022
- Mise à niveau d’Apache commons-text vers 1.10.0.
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers.
- 1er novembre 2022
- Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée
_change_type
, mais que le flux de données modifiées était désactivé sur cette table, les données de cette colonne se remplissaient incorrectement avec des valeurs NULL lors de l’exécution deMERGE
. - Correction d’un problème avec Auto Loader où un fichier peut être dupliqué dans le même micro-lot quand
allowOverwrites
est activé - [SPARK-40596] Remplissez ExecutorDecommission avec des messages dans ExecutorDecommissionInfo
- Mises à jour de sécurité du système d’exploitation
- Correction d’un problème à cause duquel, si une table Delta avait une colonne définie par l’utilisateur nommée
- 18 octobre 2022
- Mises à jour de sécurité du système d’exploitation
- 5 octobre 2022
- Correctifs divers.
- Mises à jour de sécurité du système d’exploitation
- 22 septembre 2022
- Les utilisateurs peuvent définir spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) pour réactiver la liste intégrée pour Auto Loader sur ADLS Gen2. La liste intégrée a été précédemment désactivée en raison de problèmes de performances, mais peut avoir entraîné une augmentation des coûts de stockage pour les clients.
- [SPARK-40315] Ajout de hashCode() pour Literal d’ArrayBasedMapData
- [SPARK-40089] Correction du tri pour certains types décimaux
- [SPARK-39887] RemoveRedundantAliases doit conserver les alias qui rendent la sortie des nœuds de projection uniques
- 6 septembre 2022
- [SPARK-40235] Utilisation d’un verrou interruptible au lieu d’une synchronisation dans Executor.updateDependencies()
- [SPARK-35542] Correctif : un bucketizer créé pour plusieurs colonnes avec des paramètres splitsArray, inputCols et outputCols ne peut pas être chargé après son enregistrement
- [SPARK-40079] Ajout d’une validation d’Imputer inputCols en cas d’entrée vide
- 24 août 2022
- [SPARK-39666] Utilisation de UnsafeProjection.create pour respecter
spark.sql.codegen.factoryMode
dans ExpressionEncoder - [SPARK-39962] Application d’une projection lorsque les attributs de groupe sont vides
- Mises à jour de sécurité du système d’exploitation
- [SPARK-39666] Utilisation de UnsafeProjection.create pour respecter
- 9 août 2022
- Mises à jour de sécurité du système d’exploitation
- 27 juillet 2022
- Les résultats de l’opération Delta MERGE sont cohérents lorsque la source n’est pas déterministe.
- [SPARK-39689] Prise en charge pour le
lineSep
de 2 caractères dans la source de données CSV - [SPARK-39575] Ajout de
ByteBuffer#rewind
aprèsByteBuffer#get
dansAvroDeserializer
. - [SPARK-37392] Correction de l’erreur de performances pour l’optimiseur de catalyseur.
- Mises à jour de sécurité du système d’exploitation
- 13 juillet 2022
- [SPARK-39419]
ArraySort
lève une exception lorsque le comparateur renvoie null. - Désactivation de l’utilisation par le chargeur automatique des API cloud intégrées pour dresser la liste des répertoires sur Azure.
- Mises à jour de sécurité du système d’exploitation
- [SPARK-39419]
- 5 juillet 2022
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers.
- 15 juin 2022
- [SPARK-39283] Correction du blocage entre
TaskMemoryManager
etUnsafeExternalSorter.SpillableIterator
.
- [SPARK-39283] Correction du blocage entre
- 2 juin 2022
- [SPARK-34554] Implémentez la méthode
copy()
dansColumnarMap
. - Mises à jour de sécurité du système d’exploitation
- [SPARK-34554] Implémentez la méthode
- 18 mai 2022
- Correction d’une fuite de mémoire intégrée potentielle dans Auto Loader.
- Mise à niveau la version du kit SDK AWS de la version 1.11.655 vers la version 1.11.678.
- [SPARK-38918] Le nettoyage de colonne imbriquée doit filtrer les attributs qui n’appartiennent pas à la relation actuelle
- [SPARK-39084] Correction
df.rdd.isEmpty()
à l’aide deTaskContext
pour arrêter l’itérateur lors de l’achèvement de la tâche - Mises à jour de sécurité du système d’exploitation
- 19 avril 2022
- Mises à jour de sécurité du système d’exploitation
- Correctifs divers.
- 6 avril 2022
- [SPARK-38631] Utilisation d’une implémentation basée sur Java pour le désarchivage tar sur Utils.unpack.
- Mises à jour de sécurité du système d’exploitation
- 22 mars 2022
- Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire actif était
/databricks/driver
. - [SPARK-38437] Sérialisation indulgente de la date et heure à partir de la source de données
- [SPARK-38180] Autorisation des expressions up-cast sécurisées dans les prédicats d’égalité corrélés
- [SPARK-38155] Interdiction de tout agrégat distinct dans les sous-requêtes latérales avec des prédicats non pris en charge
- [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un parquet.
- Remplacement du répertoire de travail en cours des notebooks sur les clusters à forte concurrence avec le contrôle d’accès à la table ou l’activation du passage des informations d’identification par le répertoire d’accueil de l’utilisateur. Auparavant, le répertoire actif était
- 14 mars 2022
- [SPARK-38236][SQL] Les chemins d’accès absolus des fichiers spécifiés dans la table Créer/Modifier sont traités comme relatifs
- [SPARK-34069] Interruption du thread de tâche si la propriété locale
SPARK_JOB_INTERRUPT_ON_CANCEL
a la valeur true.
- 23 février 2022
- [SPARK-37859] Les tables SQL créées avec JDBC avec Spark 3.1 ne sont pas lisibles avec la version Spark 3.2.
- 8 février 2022
- [SPARK-27442] Suppression d’un champ de vérification lors de la lecture ou de l’écriture de données dans un parquet.
- Mises à jour de sécurité du système d’exploitation
- 1er février 2022
- Mises à jour de sécurité du système d’exploitation
- 26 janvier 2022
- Correction d’un problème à cause duquel les transactions concurrentes sur les tables Delta pouvaient être validées dans un ordre non sérialisable dans certaines conditions rares.
- Correction d’un problème à cause duquel la commande
OPTIMIZE
pouvait échouer lors de l’activation du dialecte SQL ANSI.
- 19 janvier 2022
- Correctifs mineurs et améliorations de la sécurité.
- Mises à jour de sécurité du système d’exploitation
- 4 novembre 2021
- Correction d’un problème qui pouvait entraîner l’échec des flux Structured Streaming avec
ArrayIndexOutOfBoundsException
. - Correction d’une condition de concurrence susceptible d’entraîner l’échec d’une requête avec une exception IOException telle que
java.io.IOException: No FileSystem for scheme
ou qui pouvait faire que les modifications apportées àsparkContext.hadoopConfiguration
n’entrent pas en vigueur dans les requêtes. - Le connecteur Apache Spark pour Delta Sharing a été mis à niveau vers la version 0.2.0.
- Correction d’un problème qui pouvait entraîner l’échec des flux Structured Streaming avec
- 20 octobre 2021
- Mise à niveau du connecteur BigQuery de la version 0.18.1 à la version 0.22.2. Cela ajoute la prise en charge du type BigNumeric.