共用方式為


Databricks Runtime 維護更新

本文列出支援的 Databricks Runtime 版本的維護更新。 若要將維護更新新增至現有的叢集,請重新啟動叢集。 如需未支援的 Databricks Runtime 版本的維護更新,請參閱 Databricks Runtime 維護更新

注意

分階段發行。 在初始發行日期之後的幾天內,您的 Azure Databricks 帳戶可能不會更新。

Databricks Runtime 版本

依版本的維護更新:

Databricks Runtime 16.1

請參閱 Databricks Runtime 16.1

  • 2024 年 11 月 27 日
    • 此版本包含一項修正,針對在某些與背景自動壓縮相關的特定情況下,Delta 表格的主鍵可能被移除的問題。
    • 在此版本中,Databricks 計算節點中 SSD 的快取大小會動態擴充到 SSD 的初始大小,並在必要時縮減到 spark.databricks.io.cache.maxDiskUsage 限制。 請參閱 在 Azure Databricks 上使用快取優化效能
    • [SPARK-50338][CORE] 使 LazyTry 例外狀況變得更簡潔
    • 作業系統安全性更新。

Databricks Runtime 16.0

請參閱 Databricks Runtime 16.0

  • 2024 年 12 月 4 日
    • USE CATALOG 語句現在支援 IDENTIFIER 子句。 透過這項支援,您可以根據字串變數或參數標記來參數化目前目錄。
    • 此版本包含一項修正,針對在某些與背景自動壓縮相關的特定情況下,Delta 表格的主鍵可能被移除的問題。
    • 在此版本中,Databricks 計算節點中 SSD 的快取大小會動態擴充到 SSD 的初始大小,並在必要時縮減到 spark.databricks.io.cache.maxDiskUsage 限制。 請參閱 在 Azure Databricks 上使用快取優化效能
    • [SPARK-50322][SQL] 修正子查詢中的參數化標識符
    • [SPARK-50034][CORE] 修正將致命錯誤誤報為未捕獲異常的問題,SparkUncaughtExceptionHandler
    • [SPARK-47435][SQL] 修正 MySQL UNSIGNED TINYINT 的溢位問題
    • [SPARK-49757][SQL] 支援 IDENTIFIERSET 語句中的 CATALOG 表達式
    • [SPARK-50426][PYTHON] 使用內建或 Java 數據源時避免靜態 Python 數據源查閱
    • [SPARK-50338][CORE] 使 LazyTry 例外狀況變得更簡潔
    • 作業系統安全性更新。
  • 2024 年 12 月 10 日
    • 重大變化)在 Databricks Runtime 15.4 和更高版本中,Photon 的正則表達式處理已更新,以匹配 Apache Spark 正則表達式處理的行為。 先前,Photon 執行的正則表示式函式,例如 split()regexp_extract(),能接受一些被 Spark 解析器拒絕的正則表示式。 為了保持與 Apache Spark 的一致性,Photon 查詢將會針對那些被 Apache Spark 認為無效的正則表達式而失敗。 由於這項變更,如果您的Spark程式代碼包含無效的正規表示式,您可能會看到錯誤。 例如,表達式 split(str_col, '{'),其中包含不相符的大括弧,而且先前由 Photon 接受,現在會失敗。 若要修正此表示式,您可以逸出大括號字元:split(str_col, '\\{')。 Photon 和 Spark 行為也因非 ASCII 字元的一些正則表達式比對而有所不同。 此系統也已更新,以確保 Photon 系統符合 Apache Spark 的運作方式。
    • 在此版本中,您現在可以使用文字輸入的 vector_search 或內嵌輸入 query_text 來查詢 query_vector 函式。
    • 您現在可以透過 Spark 組態屬性 spark.databricks.execution.timeout來設定 Spark Connect 查詢的超時。 對於在無伺服器運算上執行的筆記型電腦,預設值為 9000(秒)。 除非設定此組態屬性,否則在無伺服器計算和共用叢集上執行的作業不會有逾時。 持續超過指定逾時的執行會導致 QUERY_EXECUTION_TIMEOUT_EXCEEDED 錯誤。
    • [SPARK-49843][SQL] 修正 char/varchar 欄的更改註釋
    • [SPARK-49924][SQL] 在 containsNull 被替換後保持 ArrayCompact
    • [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
    • [SPARK-48780][SQL] 將 NamedParametersSupport 中的錯誤泛型化,以便處理函式和程序
    • [SPARK-49876][CONNECT] 從 Spark Connect 服務移除全域鎖定
    • [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
    • [SPARK-49615] Bugfix:使 ML 列架構驗證符合 spark 配置 spark.sql.caseSensitive
    • [SPARK-48782][SQL] 新增在目錄中執行程序的支援
    • [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
    • [SPARK-49829] 修改將輸入新增至數據流聯結中狀態存放區的優化 (正確性修正)
    • 還原 “[SPARK-49002][SQL] 一致地處理 WAREHOUSE/SCHEMA/TABLE/PARTITION/DIRECTORY 中的無效位置
    • [SPARK-50028][CONNECT] 以細粒度鎖取代 Spark Connect 伺服器接聽程式中的全域鎖定
    • [SPARK-49615] [ML] 讓所有 ML 功能轉換器數據集架構驗證都符合 “spark.sql.caseSensitive” 設定。
    • [SPARK-50124][SQL] LIMIT/OFFSET 應保留數據排序
    • 作業系統安全性更新。

Databricks Runtime 15.4

請參閱 Databricks Runtime 15.4 LTS

  • 2024 年 12 月 10 日
    • USE CATALOG 語句現在支援 IDENTIFIER 子句。 透過這項支援,您可以根據字串變數或參數標記來參數化目前目錄。
    • 此版本包含一項修正,針對在某些與背景自動壓縮相關的特定情況下,Delta 表格的主鍵可能被移除的問題。
    • 在此版本中,Databricks 計算節點中 SSD 的快取大小會動態擴充到 SSD 的初始大小,並在必要時縮減到 spark.databricks.io.cache.maxDiskUsage 限制。 請參閱 在 Azure Databricks 上使用快取優化效能
    • pyodbc 套件會從 4.0.38 版更新為 4.0.39 版。 這項變更是必要的,因為已在 4.0.38 版中找到 Bug,且該版本已從 PyPI 中移除。
    • [SPARK-50329][SQL] 修正 InSet$toString
    • [SPARK-47435][SQL] 修正 MySQL UNSIGNED TINYINT 的溢位問題
    • [SPARK-49757][SQL] 支援 IDENTIFIERSET 語句中的 CATALOG 表達式
    • [SPARK-50426][PYTHON] 使用內建或 Java 數據源時避免靜態 Python 數據源查閱
    • 當剖析 JSON 且啟用 “spark.sql.json.enablePartialResults” 時,[SPARK-48863][SQL] 修正 ClassCastException。
    • [SPARK-50310][PYTHON] 新增旗標以停用 PySpark 的 DataFrameQueryContext
    • [15.3-15.4] [[SPARK-50034]]https://issues.apache.org/jira/browse/SPARK-50034)[CORE] 修正將嚴重錯誤錯誤報告為 SparkUncaughtExceptionHandler 中未攔截的例外狀況
    • 作業系統安全性更新。
  • 2024 年 11 月 26 日
    • 在此版本中,您現在可以使用文字輸入的 vector_search 或內嵌輸入 query_text 來查詢 query_vector 函式。
    • 您現在可以透過 Spark 組態屬性 spark.databricks.execution.timeout來設定 Spark Connect 查詢的超時。 對於在無伺服器運算上執行的筆記型電腦,預設值為 9000(秒)。 除非設定此組態屬性,否則在無伺服器計算和共用叢集上執行的作業不會有逾時。 持續超過指定逾時的執行會導致 QUERY_EXECUTION_TIMEOUT_EXCEEDED 錯誤。
    • [SPARK-50322][SQL] 修正子查詢中的參數化標識符
    • [SPARK-49615] [ML] 讓所有 ML 功能轉換器數據集架構驗證都符合 “spark.sql.caseSensitive” 設定。
    • [SPARK-50124][SQL] LIMIT/OFFSET 應保留數據排序
    • 作業系統安全性更新。
  • 2024 年 11 月 5 日
    • 重大變化)在 Databricks Runtime 15.4 和更高版本中,Photon 的正則表達式處理已更新,以匹配 Apache Spark 正則表達式處理的行為。 先前,Photon 執行的正則表示式函式,例如 split()regexp_extract(),能接受一些被 Spark 解析器拒絕的正則表示式。 為了保持與 Apache Spark 的一致性,Photon 查詢將會針對那些被 Apache Spark 認為無效的正則表達式而失敗。 由於這項變更,如果您的Spark程式代碼包含無效的正規表示式,您可能會看到錯誤。 例如,表達式 split(str_col, '{'),其中包含不相符的大括弧,而且先前由 Photon 接受,現在會失敗。 若要修正此表示式,您可以逸出大括號字元:split(str_col, '\\{')。 Photon 和 Spark 行為也因非 ASCII 字元的一些正則表達式比對而有所不同。 此系統也已更新,以確保 Photon 系統符合 Apache Spark 的運作方式。
    • [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
    • [SPARK-49867][SQL]在呼叫 GetColumnByOrdinal 時,改善索引超出界限時的錯誤訊息
    • [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
    • [SPARK-49829] 修改將輸入新增至數據流聯結中狀態存放區的優化 (正確性修正)
    • [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
    • [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
    • [SPARK-49443][SQL][PYTHON]實作to_variant_object表示式,並讓schema_of_variant表達式列印 Variant 物件的 OBJECT
    • [SPARK-49615] Bugfix:讓 ML 資料行架構驗證符合 Spark 配置 spark.sql.caseSensitive
  • 2024年10月22日
    • [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
    • [SPARK-49867][SQL]在呼叫 GetColumnByOrdinal 時,改善索引超出界限時的錯誤訊息
    • [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
    • [SPARK-49829] 修改將輸入新增至數據流聯結中狀態存放區的優化 (正確性修正)
    • [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
    • [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
    • [SPARK-49443][SQL][PYTHON]實作to_variant_object表示式,並讓schema_of_variant表達式列印 Variant 物件的 OBJECT
    • [SPARK-49615] Bugfix:讓 ML 資料行架構驗證符合 Spark 配置 spark.sql.caseSensitive
  • 2024年10月10日
  • 2024年9月25日
    • [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
    • [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
    • [SPARK-49492][CONNECT]在非使用中ExecutionHolder上嘗試重新附加
    • [SPARK-49458][CONNECT][PYTHON]透過 ReattachExecute 提供伺服器端會話標識碼
    • [SPARK-49017][SQL] Insert 語句在使用多個參數時失敗
    • [SPARK-49451] 允許parse_json中的重複索引鍵。
    • 其他錯誤修正。
  • 2024 年 9 月 17 日
    • [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor 支援巢状輸入數據行
    • [SPARK-49409][CONNECT]調整預設值 CONNECT_SESSION_PLAN_CACHE_SIZE
    • [SPARK-49526][CONNECT][HOTFIX-15.4.2] 支援 ArtifactManager 中的 Windows 樣式路徑
    • 還原 “[SPARK-48482][PYTHON] dropDuplicates 和 dropDuplicatesWIthinWatermark 應該接受可變長度自變數”
    • [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
    • [SPARK-49366][CONNECT] 將聯集節點視為數據框架數據行解析中的分葉
    • [SPARK-49018][SQL]修正approx_count_distinct無法正確使用定序
    • [SPARK-49460][SQL] 從 EmptyRelationExec 移除 cleanupResource()
    • [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
    • [SPARK-49336][CONNECT] 在截斷 protobuf 訊息時限制巢狀層級
  • 2024 年 8 月 29 日
    • SHOW CREATE TABLE 語句的輸出現在包含具體化檢視或串流數據表上定義的任何數據列篩選或數據行遮罩。 請參閱 SHOW CREATE TABLE。 若要了解數據列篩選和數據行遮罩,請參閱 使用數據列篩選和數據行遮罩篩選敏感數據。
    • 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 Unity 目錄共用存取模式的串流限制和需求。
    • [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
    • [SPARK-49074][SQL]使用 df.cache() 修正變化
    • [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
    • [SPARK-48955][SQL] 在 15.4 中包含 ArrayCompact 變更
    • [SPARK-48937][SQL] 新增 StringToMap 字串運算式的定序支援
    • [SPARK-48929] 修正檢視內部錯誤並清除剖析器例外狀況內容
    • [SPARK-49125][SQL] 允許 CSV 寫入中重複的數據行名稱
    • [SPARK-48934][SS] 在 applyInPandasWithState 中設定逾時,Python 日期時間類型轉換不正確
    • [SPARK-48843] 使用 BindParameters 防止無限迴圈
    • [SPARK-48981] 修正 pyspark 中 StringType 的 simpleString 方法,以進行定序
    • [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
    • [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML 寫入器修正
    • [SPARK-48725][SQL] 將 CollationAwareUTF8String.lowerCaseCodePoints 整合到字串運算式中
    • [SPARK-48978][SQL] 在定序支援中實作 ASCII 快速路徑,以支援 UTF8_LCASE
    • [SPARK-49047][PYTHON][CONNECT] 截斷訊息以進行記錄
    • [SPARK-49146][SS] 將與追加模式串流查詢水印遺失相關的斷言錯誤移至錯誤架構
    • [SPARK-48977][SQL] 在 UTF8_LCASE定序下優化字串搜尋
    • [SPARK-48889][SS] testStream 在完成之前卸載狀態存放區
    • [SPARK-48463] 讓 StringIndexer 支援巢狀輸入數據行
    • [SPARK-48954] try_mod() 取代 try_remainder()
    • 作業系統安全性更新。

Databricks Runtime 14.3

請參閱 Databricks Runtime 14.3 LTS

  • 2024 年 12 月 10 日
    • 此版本包含一項修正,針對在某些與背景自動壓縮相關的特定情況下,Delta 表格的主鍵可能被移除的問題。
    • [SPARK-50329][SQL] 修正 InSet$toString
    • 作業系統安全性更新。
  • 2024 年 11 月 26 日
    • [SPARK-49615] [ML] 讓所有 ML 功能轉換器數據集架構驗證都符合 “spark.sql.caseSensitive” 設定。
    • 作業系統安全性更新。
  • 2024 年 11 月 5 日
    • [SPARK-48843] 使用 BindParameters 防止無限迴圈
    • [SPARK-49829] 修改將輸入新增至數據流聯結中狀態存放區的優化 (正確性修正)
    • [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
    • [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326[SS] 將 Foreach 接收器使用者函式錯誤分類至錯誤類別
    • [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
    • [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
    • [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
    • 作業系統安全性更新。
  • 2024年10月22日
    • [SPARK-48843] 使用 BindParameters 防止無限迴圈
    • [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
    • [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
    • [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
    • [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
    • [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326([SS] 將 Foreach 接收使用者函式的錯誤分類為錯誤類別)
    • [SPARK-49829] 修改將輸入新增至數據流聯結中狀態存放區的優化 (正確性修正)
    • 作業系統安全性更新。
  • 2024年10月10日
  • 2024年9月25日
    • [SPARK-48810][CONNECT] 工作階段 API 現在為等冪,如果伺服器已經關閉工作階段,則不會失敗
    • [SPARK-48719][SQL]修正 'RegrS... 的計算錯誤...
    • [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
    • [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
    • [SPARK-49492][CONNECT]在非使用中ExecutionHolder上嘗試重新附加
    • 作業系統安全性更新。
  • 2024 年 9 月 17 日
    • [SPARK-49336][CONNECT] 在截斷 protobuf 訊息時限制巢狀層級
    • [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
    • [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor 支援巢状輸入數據行
    • [SPARK-49526][CONNECT]支援 ArtifactManager 中的 Windows 樣式路徑
    • [SPARK-49409][CONNECT]調整預設值 CONNECT_SESSION_PLAN_CACHE_SIZE
    • [SPARK-49366][CONNECT] 將聯集節點視為數據框架數據行解析中的分葉
  • 2024 年 8 月 29 日
    • [SPARK-49146][SS] 將與追加模式串流查詢水印遺失相關的斷言錯誤移至錯誤架構
    • [SPARK-48862][PYTHON][CONNECT] 避免在未啟用 INFO 層級時呼叫 _proto_to_string
    • [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
  • 2024 年 8 月 14 日
    • [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
    • [SPARK-48706][PYTHON] 高階函式的 Python UDF 不應擲回內部錯誤
    • [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
    • [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
    • [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
    • [SPARK-48934][SS] 在 applyInPandasWithState 中設定逾時,Python 日期時間類型轉換不正確
  • 2024 年 8 月 1 日
    • 此版本包含 Spark Java 介面中 ColumnVectorColumnarArray 類別的錯誤修正。 在此修正之前,當其中一個類別的實例包含 ArrayIndexOutOfBoundsException 值時,可能會擲回 null 或傳回不正確的數據。
    • 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱 支援的 Spark 組態參數
    • 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 Unity 目錄共用存取模式的串流限制和需求。
    • SHOW CREATE TABLE 語句的輸出現在包含具體化檢視或串流數據表上定義的任何數據列篩選或數據行遮罩。 請參閱 SHOW CREATE TABLE。 若要了解數據列篩選和數據行遮罩,請參閱 使用數據列篩選和數據行遮罩篩選敏感數據。
    • [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML 寫入器修正
    • [SPARK-48889][SS] testStream 在完成之前卸載狀態存放區
    • [SPARK-48705][PYTHON] 以 pyspark 開頭時明確使用 worker_main
    • [SPARK-48047][SQL] 降低空白 TreeNode 標籤的記憶體壓力
    • [SPARK-48544][SQL] 降低空白 TreeNode BitSets 的記憶體壓力
    • [SPARK-46957][CORE] 解除委任已移轉的隨機檔案應該能夠從執行程式清除
    • [SPARK-48463] 讓 StringIndexer 支援巢狀輸入數據行
    • [SPARK-47202][PYTHON] 修正使用 tzinfo 的錯字中斷日期時間
    • [SPARK-47713][SQL][CONNECT] 修正自連接失敗
    • 作業系統安全性更新。
  • 2024 年 7 月 11 日
    • 行為變更)如果覆寫源數據表,則針對 Delta 數據表來源快取的數據框架現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用 .checkpoint() 在 DataFrame 的存留期內保存數據表狀態。
    • Snowflake JDBC 驅動程式已更新為 3.16.1 版。
    • 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
    • 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱 支援的 Spark 組態參數
    • 若要在讀取數據時忽略無效的數據分割,檔案型數據源,例如 Parquet、ORC、CSV 或 JSON,可以將 ignoreInvalidPartitionPaths 數據源選項設定為 true。 例如:spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)。 您也可使用 SQL 組態 spark.sql.files.ignoreInvalidPartitionPaths。 不過,資料來源選項的優先順序高於 SQL 組態。 預設的設定為 false。
    • [SPARK-48648][PYTHON][CONNECT] 將 SparkConnectClient.tags 正確設定為 threadlocal
    • [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
    • [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
    • [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
    • [SPARK-48503][SQL] 修正對非對等欄位的分組造成的無效純量子查詢允許問題
    • [SPARK-48100][SQL] 修正略過架構中未選取的巢狀結構字段的問題
    • [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
    • [SPARK-48252][SQL] 視需要更新 CommonExpressionRef
    • [SPARK-48475][PYTHON] 在 PySpark 中優化 _get_jvm_function。
    • [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
    • 作業系統安全性更新。
  • 2024 年 6 月 17 日
    • applyInPandasWithState() 可在共用叢集上使用。
    • 修正 Photon TopK 在排名窗口優化中錯誤處理含有結構體的分區的錯誤。
    • [SPARK-48310][PYTHON][CONNECT] 快取的屬性必須傳回復本
    • [SPARK-48276][PYTHON][CONNECT] 新增 __repr__ 的遺漏 SQLExpression 方法
    • [SPARK-48294][SQL] 處理 nestedTypeMissingElementTypeError 中的小寫
    • 作業系統安全性更新。
  • 2024 年 5 月 21 日
    • 行為變更dbutils.widgets.getAll() 現在支援 在筆記本中取得所有小工具值
    • 修正了 try_divide() 函式中的 Bug,其中包含小數點的輸入會導致非預期的例外狀況。
    • [SPARK-48056][CONNECT][PYTHON] 如果引發 SESSION_NOT_FOUND 錯誤且未收到任何部分回應,請重新執行計劃
    • [SPARK-48146][SQL] 修正 With 運算式子系判斷提示中的彙總函式
    • [SPARK-47986][CONNECT][PYTHON] 伺服器關閉預設工作階段時,無法建立新的工作階段
    • [SPARK-48180][SQL] 改善當 UDTF 呼叫時,TABLE 自變數忘記在多個 PARTITION/ORDER BY 表達式周圍加上括號時的錯誤
    • [SPARK-48016][SQL] 修正使用小數時 try_divide 函式中的錯誤
    • [SPARK-48197][SQL] 避免無效匿名函式的判斷提示錯誤
    • [SPARK-47994][SQL] 修正 SQLServer 中 "CASE WHEN" 欄位篩選下推的錯誤
    • [SPARK-48173][SQL] CheckAnalysis 應該會看到整個查詢計劃
    • [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
    • 作業系統安全性更新。
  • 2024 年 5 月 9 日
    • (行為變更) applyInPandasmapInPandas UDF 類型現在支援執行 Databricks Runtime 14.3 和更新版本的共用存取模式計算。
    • [SPARK-47739][SQL] 註冊邏輯 avro 類型
    • [SPARK-47941] [SS] [Connect] 將 ForeachBatch 背景工作角色初始化錯誤傳播給 PySpark 的使用者
    • [SPARK-48010][SQL] 避免在 resolveExpression 中重複呼叫 conf.resolver
    • [SPARK-48044][PYTHON][CONNECT] 緩存 DataFrame.isStreaming
    • [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
    • [SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷為 Mapype 的聽寫,以允許建立 DataFrame
    • [SPARK-47819][CONNECT][Cherry-pick-14.3] 使用非同步回呼來執行清除
    • [SPARK-47764][CORE][SQL] 根據 ShuffleCleanupMode 清除隨機顯示相依性
    • [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
    • [SPARK-47839][SQL] 修正 RewriteWithExpression 中的彙總錯誤
    • [SPARK-47371] [SQL] XML:忽略 CDATA 中找到的資料列標籤
    • [SPARK-47895][SQL] 依全部分組應該是等冪的
    • [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
    • 作業系統安全性更新。
  • 2024 年 4 月 25 日
    • [SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷 dictMapType,以允許建立 DataFrame
    • [SPARK-47694][CONNECT] 在用戶端上設定訊息大小上限
    • [SPARK-47664][PYTHON][CONNECT][Cher-pick-14.3] 使用快取架構驗證數據行名稱
    • [SPARK-47862][PYTHON][CONNECT] 修正 proto 檔案的產生
    • 還原「[SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷 dictMapType,以允許建立 DataFrame」
    • [SPARK-47704][SQL] 啟用 spark.sql.json.enablePartialResults 時,JSON 剖析會失敗並出現 “java.lang.ClassCastException”
    • [SPARK-47812][CONNECT] 支援 ForEachBatch 背景工作角色的 SparkSession 序列化
    • [SPARK-47818][CONNECT][Cherry-pick-14.3] 在 SparkConnectPlanner 中引進計畫快取,以改善分析要求的效能
    • [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite 失敗且計畫無效
    • 作業系統安全性更新。
  • 2024 年 4 月 11 日
    • (行為變更) 為了確保跨計算類型的行為一致,共用叢集上的 PySpark UDF 現在符合無隔離和指派叢集上的 UDF 行為。 此更新包含下列可能會中斷現有程式代碼的變更:
      • 具有 string 傳回類型的 UDF 不再隱含地將非string 值轉換成 string 值。 先前,不論傳回值的實際資料類型為何,具有 str 傳回型別的 UDF 都會使用 str() 函式包裝傳回值。
      • 具有 timestamp 傳回型別的 UDF 不再以隱含地將轉換套用至 timestamptimezone
      • Spark 叢集設定 spark.databricks.sql.externalUDF.* 不再套用至共用叢集上的 PySpark UDF。
      • Spark 叢集設定 spark.databricks.safespark.externalUDF.plan.limit 不再影響 PySpark UDF,從而移除了 PySpark UDF 的每個查詢 5 個 UDF 的公開預覽限制。
      • Spark 叢集設定 spark.databricks.safespark.sandbox.size.default.mib 不再套用至共用叢集上的 PySpark UDF。 相反地,將使用系統上的可用記憶體。 若要限制 PySpark UDF 的記憶體,請使用 spark.databricks.pyspark.udf.isolation.memoryLimit,且最小值為 100m
    • TimestampNTZ 數據類型現在支援為具有液體叢集的叢集數據行。 請參閱 對 Delta 表使用液態叢集
    • [SPARK-47511][SQL] 透過重新指派識別碼來標準化 With 運算式
    • [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
    • [SPARK-46990][SQL] 修正載入事件中樞發出的空白 Avro 檔案
    • [SPARK-47638][PS][CONNECT] 略過 PS 中的欄位名稱驗證
    • 作業系統安全性更新。
  • 2024 年 3 月 14 日
    • [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
    • [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 協助程式函式
    • [SPARK-47145][SQL] 將數據表標識碼傳遞給 V2 策略的數據列數據源掃描執行程式。
    • [SPARK-47044][SQL] 新增 JDBC 外部數據源的執行查詢,以說明輸出
    • [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
    • [SPARK-47070] 修正子查詢重寫之後無效的彙總
    • [SPARK-47121][CORE] 避免在 StandaloneSchedulerBackend 關機期間發生 RejectedExecutionExceptions
    • 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
    • [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
    • [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier 應該在運算式樹狀架構中包含其他運算式
    • [SPARK-47129][CONNECT][SQL] 正確設定 ResolveRelations 快取連線計劃
    • [SPARK-47241][SQL] 修正 ExtractGenerator 的規則順序問題
    • [SPARK-47035][SS][CONNECT] 用戶端接聽程式的通訊協定
    • 作業系統安全性更新。
  • 2024 年 2 月 29 日
    • 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作統計指標 numSourceRows 報告的資料列數量多出一倍。
    • 使用已定義的位置建立架構現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 許可權。
    • [SPARK-47071][SQL] 如果包含特殊運算式,則內嵌 With 運算式
    • [SPARK-47059][SQL] 為 ALTER COLUMN v1 命令附加錯誤上下文
    • [SPARK-46993][SQL] 修正工作階段變數的常數折疊
    • 作業系統安全性更新。
  • 2024 年 1 月 3 日
    • [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
    • [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
    • [SPARK-46954] XML:使用 BufferedReader 包裝 InputStreamReader。
    • [SPARK-46655] 略過 DataFrame 方法中的查詢內容攔截。
    • [SPARK-44815] Cache df.schema 以避免額外的 RPC。
    • [SPARK-46952] XML:限制損毀記錄的大小。
    • [SPARK-46794] 從 LogicalRDD 條件約束中移除子查詢。
    • [SPARK-46736] 保留 protobuf 連接器中的空白訊息欄位。
    • [SPARK-45182] 在重試由總和檢查碼決定的父不確定階段之後,略過舊階段的工作完成。
    • [SPARK-46414] 使用 prependBaseUri 來轉譯 javascript 匯入。
    • [SPARK-46383] 藉由減少 TaskInfo.accumulables() 的生命週期來減少驅動程式堆積使用量。
    • [SPARK-46861] 避免 DAGScheduler 中的鎖死。
    • [SPARK-46954] XML: 優化結構索引查閱。
    • [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計畫標準化時失敗。
    • [SPARK-46644] 將 SQLMetric 中的新增和合併變更為使用 isZero。
    • [SPARK-46731] 依狀態資料來源管理狀態存放區提供者執行個體 - 讀取器。
    • [SPARK-46677] 修正 dataframe["*"] 解析度。
    • [SPARK-46610] 當選項中的索引鍵沒有對應值時,建立表應該擲回例外狀況。
    • [SPARK-46941] 如果包含 SizeBasedWindowFunction,則無法插入前 k 計算的視窗群組限制節點。
    • [SPARK-45433] 修正時間戳不符合指定 timestampFormat 時的 CSV/JSON 架構推斷。
    • [SPARK-46930] 新增對 Avro 中等位型別欄位的自訂前置詞支援。
    • [SPARK-46227] 向後移植至 14.3。
    • [SPARK-46822] 在 jdbc 中將 jdbc 類型轉型為催化劑類型時,尊重 spark.sql.legacy.charVarcharAsString。
    • 作業系統安全性更新。

Databricks Runtime 14.1

請參閱 Databricks Runtime 14.1

  • 2024 年 12 月 10 日
    • 作業系統安全性更新。
  • 2024 年 11 月 26 日
    • 作業系統安全性更新。
  • 2024 年 11 月 5 日
    • [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
    • [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
  • 2024年10月22日
    • [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
    • [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
  • 2024年10月10日
  • 2024年9月25日
    • [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
    • [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
    • [SPARK-48719][SQL]修正 'RegrS... 的計算錯誤...
    • [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
    • [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
    • 作業系統安全性更新。
  • 2024 年 9 月 17 日
    • [SPARK-49526][CONNECT]支援 ArtifactManager 中的 Windows 樣式路徑
    • 作業系統安全性更新。
  • 2024 年 8 月 29 日
    • [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
    • [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
  • 2024 年 8 月 14 日
    • [SPARK-48706][PYTHON] 高階函式的 Python UDF 不應擲回內部錯誤
    • [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
    • [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
    • [SPARK-48050][SS] 查詢開始時的記錄邏輯計劃
  • 2024 年 8 月 1 日
    • 此版本包含 Spark Java 介面中 ColumnVectorColumnarArray 類別的錯誤修正。 在此修正之前,當其中一個類別的實例包含 ArrayIndexOutOfBoundsException 值時,可能會擲回 null 或傳回不正確的數據。
    • SHOW CREATE TABLE 語句的輸出現在包含具體化檢視或串流數據表上定義的任何數據列篩選或數據行遮罩。 請參閱 SHOW CREATE TABLE。 若要了解數據列篩選和數據行遮罩,請參閱 使用數據列篩選和數據行遮罩篩選敏感數據。
    • [SPARK-48705][PYTHON] 以 pyspark 開頭時明確使用 worker_main
    • [SPARK-47202][PYTHON] 修正使用 tzinfo 的錯字中斷日期時間
    • 作業系統安全性更新。
  • 2024 年 7 月 11 日
    • 行為變更)如果覆寫源數據表,則針對 Delta 數據表來源快取的數據框架現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用 .checkpoint() 在 DataFrame 的存留期內保存數據表狀態。
    • 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
    • [SPARK-48475][PYTHON] 在 PySpark 中優化 _get_jvm_function。
    • [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
    • [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
    • [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
    • [SPARK-48503][SQL] 修正對非對等欄位的分組造成的無效純量子查詢允許問題
    • [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
    • [SPARK-48100][SQL] 修正略過架構中未選取的巢狀結構字段的問題
    • [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
    • 作業系統安全性更新。
  • 2024 年 6 月 17 日
    • 修正 Photon TopK 在排名窗口優化中錯誤處理含有結構體的分區的錯誤。
    • [SPARK-48276][PYTHON][CONNECT] 新增 __repr__ 的遺漏 SQLExpression 方法
    • [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
    • 作業系統安全性更新。
  • 2024 年 5 月 21 日
  • 2024 年 5 月 9 日
    • [SPARK-47371] [SQL] XML:忽略 CDATA 中找到的資料列標籤
    • [SPARK-47895][SQL] 依全部分組應該是等冪的
    • [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
    • [SPARK-48044][PYTHON][CONNECT] 緩存 DataFrame.isStreaming
    • [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
    • 作業系統安全性更新。
  • 2024 年 4 月 25 日
    • [SPARK-47704][SQL] 啟用 spark.sql.json.enablePartialResults 時,JSON 剖析會失敗並出現 “java.lang.ClassCastException”
    • [SPARK-47828][CONNECT][PYTHON] DataFrameWriterV2.overwrite 失敗且計畫無效
    • 作業系統安全性更新。
  • 2024 年 4 月 11 日
    • [SPARK-47638][PS][CONNECT] 略過 PS 中的欄位名稱驗證
    • [SPARK-38708][SQL] 針對 Hive 3.1,將 Hive 中繼存放區用戶端升級至 3.1.3
    • [SPARK-47309][SQL][XML] 新增架構推斷單元測試
    • [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
    • [SPARK-46990][SQL] 修正載入事件中樞發出的空白 Avro 檔案
    • 作業系統安全性更新。
  • 2024 年 4 月 1 日
    • [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 的 isStreaming 旗標
    • [SPARK-47218][SQL] XML:略過 XML 權杖化工具中已加上註解的資料列標記
    • [SPARK-47300][SQL] quoteIfNeeded 應引用以數字開頭的標識符
    • [SPARK-47368][SQL] 移除 ParquetRowConverter 中的 inferTimestampNTZ 設定檢查
    • [SPARK-47070] 修正子查詢重寫之後無效的彙總
    • [SPARK-47322][PYTHON][CONNECT] 使 withColumnsRenamed 數據行名稱重複處理與 withColumnRenamed 一致
    • [SPARK-47300] DecomposerSuite 的修正
    • [SPARK-47218] [SQL] XML:已將 SchemaOfXml 變更為在 DROPMALFORMED 模式下失敗
    • [SPARK-47385] 修正具有 Option 輸入的 Tuple 編碼器。
    • 作業系統安全性更新。
  • 2024 年 3 月 14 日
    • [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 協助程式函式
    • [SPARK-47145][SQL] 將數據表標識碼傳遞給 V2 策略的數據列數據源掃描執行程式。
    • [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
    • [SPARK-47129][CONNECT][SQL] 正確設定 ResolveRelations 快取連線計劃
    • 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
    • [SPARK-47044][SQL] 新增 JDBC 外部數據源的執行查詢,以說明輸出
    • 作業系統安全性更新。
  • 2024 年 2 月 29 日
    • 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作統計指標 numSourceRows 報告的資料列數量多出一倍。
    • 使用已定義的位置建立架構現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 許可權。
    • 您現在可以使用自動載入器、read_files、COPY INTO、DLT 和 DBSQL 來內嵌 XML 檔案。 XML 檔案支援可以自動推斷和演進架構、使用 XSD 來解救類型不符的數據、使用 XSD 驗證 XML、支援 sql 運算式,例如from_xml、schema_of_xml和to_xml。 如需詳細資訊,請參閱 XML 檔案支援。 如果您先前曾使用外部 spark-xml 套件,請參閱此處以取得移轉指引。
    • [SPARK-46248][SQL]XML:支援 ignoreCorruptFiles 和 ignoreMissingFiles 選項
    • [SPARK-47059][SQL] 為 ALTER COLUMN v1 命令附加錯誤上下文
    • [SPARK-46954][SQL] XML:使用 BufferedReader 包裝 InputStreamReader
    • [SPARK-46954][SQL] XML:優化架構索引查閱
    • [SPARK-46630][SQL]XML:在寫入時驗證 XML 元素名稱
    • 作業系統安全性更新。
  • 2024 年 2 月 8 日
    • 不支援在 Unity 目錄具象化檢視上執行變更資料饋送(CDF)查詢,並且嘗試使用 Unity 目錄具象化檢視執行 CDF 查詢會返回錯誤。 Unity Catalog 串流表在 Databricks Runtime 14.1 和更高版本中支持對非APPLY CHANGES 表的 CDF 查詢。 Databricks Runtime 14.0 和更早版本中的 Unity 目錄串流數據表不支援 CDF 查詢。
    • [SPARK-46952] XML:限制損毀記錄的大小。
    • [SPARK-45182] 在重試由總和檢查碼決定的父不確定階段之後,略過舊階段的工作完成。
    • [SPARK-46794] 從 LogicalRDD 條件約束中移除子查詢。
    • [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
    • [SPARK-46861] 避免 DAGScheduler 中的鎖死。
    • [SPARK-45582] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體。
    • [SPARK-46930] 新增對 Avro 中等位型別欄位的自訂前置詞支援。
    • [SPARK-46941] 如果包含 SizeBasedWindowFunction,則無法插入前 k 計算的視窗群組限制節點。
    • [SPARK-46396] 時間戳記推斷不應該擲回例外狀況。
    • [SPARK-46822] 在 jdbc 中將 jdbc 類型轉型為催化劑類型時,尊重 spark.sql.legacy.charVarcharAsString。
    • [SPARK-45957] 避免產生非可執行命令的執行計畫。
    • 作業系統安全性更新。
  • 2024 年 1 月 31 日
    • [SPARK-46684] 修正 CoGroup.applyInPandas/Arrow 以正確傳遞引數。
    • [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
    • [SPARK-45498] 後續操作:略過舊階段嘗試中的工作完成。
    • [SPARK-46382] XML:更新 ignoreSurroundingSpaces文件。
    • [SPARK-46383] 藉由減少 TaskInfo.accumulables() 的生命週期來減少驅動程式堆積使用量。
    • [SPARK-46382] XML:預設 ignoreSurroundingSpaces 為 true。
    • [SPARK-46677] 修正 dataframe["*"] 解析度。
    • [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計畫標準化時失敗。
    • [SPARK-46633] 修正 Avro 讀取器以處理長度為零的區塊。
    • [SPARK-45912] XSDToSchema API 的增強功能:變更為適用於雲端儲存體輔助功能的 HDFS API。
    • [SPARK-46599] XML:使用 TypeCoercion.findTightestCommonType 進行相容性檢查。
    • [SPARK-46382] XML:擷取穿插在元素之間的值。
    • [SPARK-46769] 精簡時間戳相關架構推斷。
    • [SPARK-46610] 當選項中的索引鍵沒有對應值時,建立表應該擲回例外狀況。
    • [SPARK-45964] 移除位於 Catalyst 套件下 XML 和 JSON 套件中的私有 SQL 存取器。
    • 還原 [SPARK-46769] 精簡時間戳相關的架構推斷。
    • [SPARK-45962] 移除 treatEmptyValuesAsNulls,並在 XML 中使用 nullValue 選項。
    • [SPARK-46541] 修正自我聯結中模棱兩可的欄位參考。
    • 作業系統安全性更新。
  • 2024 年 1 月 17 日
    • Photon 查詢所傳回之解釋計劃的 shuffle 節點會更新,以在廣播聯結的隨機顯示期間發生記憶體不足錯誤時,新增 causedBroadcastJoinBuildOOM=true 旗標。
    • 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
    • [SPARK-46538] 修正 ALSModel.transform中模稜兩可的欄位參考問題。
    • [SPARK-46417] 呼叫 hive.getTable 且 throwException 為 false 時,不返回失敗。
    • [SPARK-46484]resolveOperators 協助程式函式保留計畫識別碼。
    • [SPARK-46153] XML:新增 TimestampNTZType 支援。
    • [SPARK-46152] XML:在 XML 架構推斷中新增 DecimalType 支援。
    • [SPARK-46145] spark.catalog.listTables 在找不到數據表或檢視表時不會擲回例外狀況。
    • [SPARK-46478] 將 SPARK-43049 還原將 oracle varchar(255) 用於字串。
    • [SPARK-46394] 修正 spark.catalog.listDatabases() 在 spark.sql.legacy.keepCommandOutputSchema 設為 true 時,具有特殊字元的結構問題。
    • [SPARK-46337] 使 CTESubstitution 保留 PLAN_ID_TAG
    • [SPARK-46466] 向量化 parquet 讀取器不應對時間戳記 ntz 重訂基底。
    • [SPARK-46587] XML:修正 XSD 大整數轉換。
    • [SPARK-45814] 讓 ArrowConverters.createEmptyArrowBatch 呼叫 close() 以避免記憶體流失。
    • [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
    • 當視圖或資料表不存在時,[SPARK-46602] 在建立視圖時傳播 allowExisting
    • [SPARK-46173] 在日期剖析期間略過 trimAll 呼叫。
    • [SPARK-46355] XML:在讀取完成時關閉 InputStreamReader。
    • [SPARK-46600] 將 SqlConf 和 SqlApiConf 之間的共用程式碼移至 SqlApiConfHelper。
    • [SPARK-46261]DataFrame.withColumnsRenamed 應保留 dict/map 排序。
    • [SPARK-46056] 使用 byteArrayDecimalType 預設值來修正 Parquet 向量化讀取 NPE。
    • [SPARK-46260]DataFrame.withColumnsRenamed 應遵循 dict 排序。
    • [SPARK-46250] Deflake test_parity_listener。
    • [SPARK-46370] 在變更數據行預設值之後從數據表查詢時修正錯誤。
    • [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指數爆炸。
    • [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
  • 2023 年 12 月 14 日
    • 已修正了一個問題,即來自 JDBC 或 ODBC 用戶端的 getColumns 作業中的被特殊字符化的底線()被錯誤處理並被解譯為通配符。
    • [SPARK-45509] 修正 Spark Connect 的 df 列參考行為。
    • [SPARK-45844] 實作 XML 的不區分大小寫。
    • [SPARK-46141] 將 spark.sql.legacy.ctePrecedencePolicy 的預設值變更為 CORRECTED。
    • [SPARK-46028]Column.__getitem__ 接受輸入欄位。
    • [SPARK-46255] 支援複雜類型 - > 字串轉換。
    • [SPARK-45655] 允許 CollectMetrics 中 AggregateFunctions 內的不具決定性運算式。
    • [SPARK-45433] 修正時間戳不符合指定 timestampFormat 時的 CSV/JSON 架構推斷。
    • [SPARK-45316] 將新的參數 ignoreCorruptFiles/ignoreMissingFiles 新增至 HadoopRDDNewHadoopRDD
    • [SPARK-45852] 在記錄期間,妥善處理遞迴錯誤。
    • [SPARK-45920] 依序數分組應該是等冪的。
    • 作業系統安全性更新。
  • 2023 年 11 月 29 日
    • 已安裝了新的套件 pyarrow-hotfix,以補救 PyArrow RCE 弱點。
    • 已修正從 JDBC 或 ODBC 用戶端錯誤解譯為通配符之 getColumns 作業中逸出底線的問題。
    • 使用自動載入器或串流數據表擷取 CSV 數據時,大型 CSV 檔案現在可以分割,而且可以在架構推斷和數據處理期間平行處理。
    • [SPARK-45892] 重構最佳化器計畫驗證以分離 validateSchemaOutputvalidateExprIdUniqueness
    • [SPARK-45620] 與 Python UDF 相關的 API 現使用 camelCase。
    • [SPARK-44790] 新增了 Python、Spark、Connect 和 SQL 的 to_xml 實作和繫結。
    • [SPARK-45770]DataFrameDropColumnsDataframe.drop 固定數據行解析。
    • [SPARK-45859]ml.functions 中的 UDF 物件設為惰性。
    • [SPARK-45730] 改善了 ReloadingX509TrustManagerSuite 的時間條件約束。
    • [SPARK-44784] 使 SBT 測試具有密封性。
    • 作業系統安全性更新。
  • 2023 年 11 月 10 日
    • [SPARK-45545]SparkTransportConf 會在建立時繼承 SSLOptions
    • [SPARK-45250] 新增了在關閉動態配置時,針對 yarn 叢集的階段層級工作資源設定檔的支援。
    • [SPARK-44753] 新增了 PySpark SQL 的 XML DataFrame 讀取器和寫入器。
    • [SPARK-45396] 新增了 PySpark.ml.connect 模組的文件項目。
    • [SPARK-45584] 修正了 TakeOrderedAndProjectExec 的子查詢執行失敗的問題。
    • [SPARK-45541] 新增了 SSLFactory。
    • [SPARK-45577] 已修正 UserDefinedPythonTableFunctionAnalyzeRunner 能從具名參數傳遞折疊值。
    • [SPARK-45562] 將 ‘rowTag’ 設為必要選項。
    • [SPARK-45427] 將 RPC SSL 設定新增至 SSLOptionsSparkTransportConf
    • [SPARK-43380] 修正了 Avro 讀取中速度變慢的問題。
    • [SPARK-45430]FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount 不再失敗。
    • [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
    • [SPARK-45386] 修正了 StorageLevel.NONE 錯誤傳回 0 的問題。
    • [SPARK-44219] 新增了每規則驗證,以進行最佳化重寫。
    • [SPARK-45543] 修正了當其他視窗函式的視窗框架與類似排名函式不同時,InferWindowGroupLimit 會造成的問題。
    • 作業系統安全性更新。
  • 2023 年 9 月 27 日
    • [SPARK-44823]black 更新為 23.9.1 並修正了錯誤檢查。
    • [SPARK-45339] PySpark 現在會記錄重試錯誤。
    • 還原 [SPARK-42946] 在變數替代下巢狀的修訂敏感性資料。
    • [SPARK-44551] 編輯評論以與 OSS 同步。
    • [SPARK-45360] Spark 工作階段建立器支援從 SPARK_REMOTE 初始化。
    • [SPARK-45279]plan_id 連結至所有邏輯計畫。
    • [SPARK-45425]TINYINT 對應至 ShortTypeMsSqlServerDialect
    • [SPARK-45419] 已移除較大型版本的檔案版本對應項目,以避免重複使用 rocksdb sst 檔案識別碼。
    • [SPARK-45488] 新增了對 rowTag 元素中值的支援。
    • [SPARK-42205] 移除了 Accumulables 事件記錄檔中 Task/Stage 啟動事件的 JsonProtocol 記錄。
    • [SPARK-45426] 新增了對 ReloadingX509TrustManager 的支援。
    • [SPARK-45256]DurationWriter 寫入的值超過初始容量時失敗。
    • [SPARK-43380] 修正了 Avro 資料類型轉換問題,而不會造成效能迴歸。
    • [SPARK-45182] 新增了復原隨機對應階段的支援,因此當階段輸出不確定時,可以重試所有階段工作。
    • [SPARK-45399] 使用 newOption 新增了 XML 選項。
    • 作業系統安全性更新。

Databricks Runtime 13.3 LTS

請參閱 Databricks Runtime 13.3 LTS

  • 2024 年 12 月 10 日
    • 作業系統安全性更新。
  • 2024 年 11 月 26 日
    • [SPARK-49615] [ML] 讓所有 ML 功能轉換器數據集架構驗證都符合 “spark.sql.caseSensitive” 設定。
    • 作業系統安全性更新。
  • 2024 年 11 月 5 日
  • 2024年10月22日
  • 2024年10月10日
    • [SPARK-49743][SQL] OptimizeCsvJsonExpr 不應該在剪除 GetArrayStructFields 時變更架構字段
  • 2024年9月25日
    • [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
    • [SPARK-48719][SQL]修正第一個參數為 Null 時 RegrSlope 和 RegrIntercept 的計算錯誤
    • [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
    • [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
    • 作業系統安全性更新。
  • 2024 年 9 月 17 日
    • [SPARK-49526][CONNECT]支援 ArtifactManager 中的 Windows 樣式路徑
    • [SPARK-48463][ML] Make Binarizer, Bucketizer, Vector Assembler, FeatureHasher, QuantizeDiscretizer, OnehotEncoder, StopWordsRemover, Imputer, Interactor 支援巢状輸入數據行
    • 作業系統安全性更新。
  • 2024 年 8 月 29 日
  • 2024 年 8 月 14 日
    • [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
    • [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
    • [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
  • 2024 年 8 月 1 日
    • 此版本包含 Spark Java 介面中 ColumnVectorColumnarArray 類別的錯誤修正。 在此修正之前,當其中一個類別的實例包含 ArrayIndexOutOfBoundsException 值時,可能會擲回 null 或傳回不正確的數據。
    • [SPARK-47202][PYTHON] 修正使用 tzinfo 的錯字中斷日期時間
    • [SPARK-48896][SPARK-48909][SPARK-48883] Backport spark ML 寫入器修正
    • [SPARK-48463] 讓 StringIndexer 支援巢狀輸入數據行
    • 作業系統安全性更新。
  • 2024 年 7 月 11 日
    • 行為變更)如果覆寫源數據表,則針對 Delta 數據表來源快取的數據框架現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用 .checkpoint() 在 DataFrame 的存留期內保存數據表狀態。
    • 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
    • [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
    • [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
    • [SPARK-48503][SQL] 修正對非對等欄位的分組造成的無效純量子查詢允許問題
    • [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
    • [SPARK-48475][PYTHON] 在 PySpark 中優化 _get_jvm_function。
    • [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
    • [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
    • 作業系統安全性更新。
  • 2024 年 6 月 17 日
    • [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
    • 作業系統安全性更新。
  • 2024 年 5 月 21 日
  • 2024 年 5 月 9 日
    • [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
    • [SPARK-46822][SQL] 在 jdbc 中將 jdbc 類型轉型為催化劑類型時,尊重 spark.sql.legacy.charVarcharAsString
    • [SPARK-47895][SQL] 依全部分組應該是等冪的
    • [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
    • [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
    • 作業系統安全性更新。
  • 2024 年 4 月 25 日
    • [SPARK-44653][SQL] 非一般 DataFrame 聯合不應中斷快取
    • 其他錯誤修正。
  • 2024 年 4 月 11 日
    • [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
    • 作業系統安全性更新。
  • 2024 年 4 月 1 日
    • [SPARK-47385] 修正具有 Option 輸入的 Tuple 編碼器。
    • [SPARK-38708][SQL] 針對 Hive 3.1,將 Hive 中繼存放區用戶端升級至 3.1.3
    • [SPARK-47200][SS] Foreach 批次接收器使用者函式錯誤的錯誤類別
    • [SPARK-47368][SQL] 移除 ParquetRowConverter 中的 inferTimestampNTZ 設定檢查
    • [SPARK-44252][SS] 定義新的錯誤類別,並適用於從 DFS 載入狀態失敗的情況
    • [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
    • [SPARK-47300][SQL] quoteIfNeeded 應引用以數字開頭的標識符
    • [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 的 isStreaming 旗標
    • [SPARK-47070] 修正子查詢重寫之後無效的彙總
    • 作業系統安全性更新。
  • 2024 年 3 月 14 日
    • [SPARK-47145][SQL] 將數據表標識碼傳遞給 V2 策略的數據列數據源掃描執行程式。
    • [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
    • [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 協助程式函式
    • [SPARK-47044][SQL] 新增 JDBC 外部數據源的執行查詢,以說明輸出
    • [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
    • 作業系統安全性更新。
  • 2024 年 2 月 29 日
    • 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作統計指標 numSourceRows 報告的資料列數量多出一倍。
    • 使用已定義的位置建立架構現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 許可權。
    • 作業系統安全性更新。
  • 2024 年 2 月 8 日
    • 不支援在 Unity 目錄具象化檢視上執行變更資料饋送(CDF)查詢,並且嘗試使用 Unity 目錄具象化檢視執行 CDF 查詢會返回錯誤。 Unity Catalog 串流表在 Databricks Runtime 14.1 和更高版本中支持對非APPLY CHANGES 表的 CDF 查詢。 Databricks Runtime 14.0 和更早版本中的 Unity 目錄串流數據表不支援 CDF 查詢。
    • [SPARK-46794] 從 LogicalRDD 條件約束中移除子查詢。
    • [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
    • [SPARK-45582] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體。
    • [SPARK-46396] 時間戳記推斷不應該擲回例外狀況。
    • [SPARK-46861] 避免 DAGScheduler 中的鎖死。
    • [SPARK-46941] 如果包含 SizeBasedWindowFunction,則無法插入前 k 計算的視窗群組限制節點。
    • 作業系統安全性更新。
  • 2024 年 1 月 31 日
    • [SPARK-46610] 當選項中的索引鍵沒有對應值時,建立表應該擲回例外狀況。
    • [SPARK-46383] 藉由減少 TaskInfo.accumulables() 的生命週期來減少驅動程式堆積使用量。
    • [SPARK-46600] 將 SqlConf 和 SqlApiConf 之間的共用程式碼移至 SqlApiConfHelper。
    • [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計畫標準化時失敗。
    • [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
    • 作業系統安全性更新。
  • 2024 年 1 月 17 日
    • Photon 查詢所傳回之解釋計劃的 shuffle 節點會更新,以在廣播聯結的隨機顯示期間發生記憶體不足錯誤時,新增 causedBroadcastJoinBuildOOM=true 旗標。
    • 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
    • [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
    • [SPARK-46173] 在日期剖析期間略過 trimAll 呼叫。
    • [SPARK-46370] 在變更數據行預設值之後從數據表查詢時修正錯誤。
    • [SPARK-46370] 在變更數據行預設值之後從數據表查詢時修正錯誤。
    • [SPARK-46370] 在變更數據行預設值之後從數據表查詢時修正錯誤。
    • [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指數爆炸。
    • [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
    • 當視圖或資料表不存在時,[SPARK-46602] 在建立視圖時傳播 allowExisting
    • [SPARK-46249] 需要執行個體鎖定才能取得 RocksDB 計量,以防止與背景作業競爭。
    • [SPARK-46417] 呼叫 hive.getTable 且 throwException 為 false 時,不返回失敗。
    • [SPARK-46538] 修正 ALSModel.transform中模稜兩可的欄位參考問題。
    • [SPARK-46478] 將 SPARK-43049 還原將 oracle varchar(255) 用於字串。
    • [SPARK-46250] Deflake test_parity_listener。
    • [SPARK-46394] 修正 spark.catalog.listDatabases() 在 spark.sql.legacy.keepCommandOutputSchema 設為 true 時,具有特殊字元的結構問題。
    • [SPARK-46056] 使用 byteArrayDecimalType 預設值來修正 Parquet 向量化讀取 NPE。
    • [SPARK-46145] spark.catalog.listTables 在找不到數據表或檢視表時不會擲回例外狀況。
    • [SPARK-46466] 向量化 parquet 讀取器不應對時間戳記 ntz 重訂基底。
  • 2023 年 12 月 14 日
    • 已修正了一個問題,即來自 JDBC 或 ODBC 用戶端的 getColumns 作業中的被特殊字符化的底線()被錯誤處理並被解譯為通配符。
    • [SPARK-45920] 依序數分組應該是等冪的。
    • [SPARK-44582] 如果已清理,則略過 SMJ 上的迭代器。
    • [SPARK-45433] 修正時間戳不符合指定 timestampFormat 時的 CSV/JSON 架構推斷。
    • [SPARK-45655] 允許 CollectMetrics 中 AggregateFunctions 內的不具決定性運算式。
    • 作業系統安全性更新。
  • 2023 年 11 月 29 日
    • 已安裝了新的套件 pyarrow-hotfix,以補救 PyArrow RCE 弱點。
    • Spark-snowflake 連接器已升級至 2.12.0。
    • [SPARK-44846] 移除了 RemoveRedundantAggregates 之後的複雜群組運算式。
    • [SPARK-45544]TransportContext 中整合了 SSL 支援。
    • [SPARK-45892] 重構最佳化器計畫驗證以分離 validateSchemaOutputvalidateExprIdUniqueness
    • [SPARK-45730] 改善了 ReloadingX509TrustManagerSuite 的時間條件約束。
    • [SPARK-45859]ml.functions 中的 UDF 物件設為惰性。
    • 作業系統安全性更新。
  • 2023 年 11 月 10 日
    • 在 Delta Lake 串流查詢中,分割區篩選會先於速率限制下推,以達到更佳的使用效率。
    • 已變更 Unity Catalog 串流表和具現化檢視的數據提要查詢,以顯示錯誤訊息。
    • [SPARK-45545]SparkTransportConf 會在建立時繼承 SSLOptions
    • [SPARK-45584] 修正了 TakeOrderedAndProjectExec 的子查詢執行失敗的問題。
    • [SPARK-45427] 將 RPC SSL 設定新增至 SSLOptionsSparkTransportConf
    • [SPARK-45541] 新增了 SSLFactory
    • [SPARK-45430]FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount 不再失敗。
    • [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
    • [SPARK-44219] 新增了額外的每規則驗證,以進行最佳化重寫。
    • [SPARK-45543] 修正了當其他視窗函式的視窗框架與類似排名函式不同時,InferWindowGroupLimit 會造成的問題。
    • 作業系統安全性更新。
  • 2023 年 10 月 23 日
    • [SPARK-45256] 修正寫入超過初始容量的值時 DurationWriter 失敗的問題。
    • [SPARK-45419] 藉由移除較大版本的檔案版本對應項目,避免重複使用不同 rocksdb sst 執行個體中的 rocksdb 檔案。
    • [SPARK-45426] 新增了對 ReloadingX509TrustManager 的支援。
    • 其他修復。
  • 2023 年 10 月 13 日
    • Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
    • 針對正和負索引,array_insert 函式是以 1 為基底,而在之前針對負索引,它以 0 為基底。 它現在會在索引 -1 的輸入數位列結尾插入新元素。 若要還原先前的行為,請將 spark.sql.legacy.negativeIndexInArrayInsert 設定為 true
    • 修正了在進行 CSV 架構推斷時,啟用 ignoreCorruptFiles 的情況下,自動載入器未能忽略損毀檔案的問題。
    • 還原 [SPARK-42946]
    • [SPARK-42205] 更新 JSON 通訊協定,以移除任務或階段啟動事件中的 Accumulables 紀錄。
    • [SPARK-45178] 對於具有不支援的來源的 Trigger.AvailableNow,回退到執行單一批次,而不是使用包裝函式。
    • [SPARK-45316] 將新的參數 ignoreCorruptFilesignoreMissingFiles 新增至 HadoopRDDNewHadoopRDD
    • [SPARK-44740] 修正工件的元數據值。
    • [SPARK-45360]SPARK_REMOTE 初始化了 Spark 工作階段建立器設定。
    • [SPARK-44551] 編輯評論以與 OSS 同步。
    • [SPARK-45346] Parquet 結構推斷現在會遵守合併結構時區分大小寫的標誌。
    • [SPARK-44658]ShuffleStatus.getMapStatus 現在會傳回 None,而不是 Some(null)
    • [SPARK-44840] 針對負索引,使 array_insert() 以 1 為基底。
  • 2023 年 9 月 14 日
    • [SPARK-44873] 已新增對Hive用戶端中的巢狀欄位 alter view 的支援。
    • [SPARK-44878] 關閉 RocksDB 寫入管理員的嚴格限制,以避免快取完成時插入例外狀況。
  • 2023 年 8 月 30 日
    • dbutils cp 命令 (dbutils.fs.cp) 已針對更快速的複製進行最佳化。 透過這項改進,複製作業所需的時間最多可減少 100,視檔案大小而定。 此功能可在 Databricks 中存取的所有雲端和文件系統中使用,包括 Unity 目錄磁碟區和 DBFS 掛接。
    • [SPARK-44455]SHOW CREATE TABLE 結果中有反引號的引號識別項。
    • [SPARK-44763] 修正了在二進位運算中,字串顯示為雙精度浮點數的問題。
    • [SPARK-44871] 修正了 percentile_disc 行為。
    • [SPARK-44714] 簡化了有關查詢的 LCA 解析限制。
    • [SPARK-44818] 修正了在初始化 taskThread 之前,發出的擱置中工作中斷的競爭。
    • [SPARK-44505] 在 DSv2 掃描中新增了單欄式支援的覆寫。
    • [SPARK-44479] 修正了從空白結構類型進行的 protobuf 轉換。
    • [SPARK-44718]ColumnVector 記憶體模式組態預設值與 OffHeapMemoryMode 組態值比對。
    • [SPARK-42941] 新增了對 Python 中 StreamingQueryListener 的支援。
    • [SPARK-44558] 匯出 PySpark 的 Spark Connect 記錄層級。
    • [SPARK-44464] 已修正 applyInPandasWithStatePythonRunner 輸出第一個欄位值為 Null 的數據行。
    • [SPARK-44643] 修正了當欄位為空的資料列時的 Row.__repr__
    • 作業系統安全性更新。

Databricks Runtime 12.2 LTS

請參閱 Databricks Runtime 12.2 LTS

  • 2024 年 12 月 10 日
    • 作業系統安全性更新。
  • 2024 年 11 月 26 日
    • 其他錯誤修正。
  • 2024年10月10日
    • [SPARK-49743][SQL] OptimizeCsvJsonExpr 不應該在剪除 GetArrayStructFields 時變更架構字段
  • 2024年9月25日
    • [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
    • [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
    • 其他錯誤修正。
  • 2024 年 9 月 17 日
    • 作業系統安全性更新。
  • 2024 年 8 月 29 日
    • 其他錯誤修正。
  • 2024 年 8 月 14 日
    • [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
    • [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
    • [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
    • [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
    • [SPARK-48463][ML] 讓 StringIndexer 支援巢狀輸入數據行
    • 作業系統安全性更新。
  • 2024 年 8 月 1 日
  • 2024 年 8 月 1 日
    • 若要套用必要的安全性修補程式,Databricks Runtime 12.2 LTS 中的 Python 版本會從 3.9.5 升級至 3.9.19。
  • 2024 年 7 月 11 日
    • 行為變更)如果覆寫源數據表,則針對 Delta 數據表來源快取的數據框架現在會失效。 這項變更表示 Delta 數據表的所有狀態變更現在都會使快取的結果失效。 使用 .checkpoint() 在 DataFrame 的存留期內保存數據表狀態。
    • [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
    • [SPARK-47070] 修正子查詢重寫之後無效的彙總
    • [SPARK-42741][SQL] 當常值為 null 時,請勿在二進位比較中解除包裝轉換
    • [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
    • [SPARK-48503][SQL] 修正對非對等欄位的分組造成的無效純量子查詢允許問題
    • [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
    • 作業系統安全性更新。
  • 2024 年 6 月 17 日
    • [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
    • 其他錯誤修正。
  • 2024 年 5 月 21 日
    • [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
    • 作業系統安全性更新。
  • 2024 年 5 月 9 日
    • [SPARK-44251][SQL] 在全外部 USING 聯結中的聯結索引鍵上正確設定可為 Null
    • [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
    • [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
    • [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
    • 作業系統安全性更新。
  • 2024 年 4 月 25 日
    • 作業系統安全性更新。
  • 2024 年 4 月 11 日
    • 作業系統安全性更新。
  • 2024 年 4 月 1 日
    • [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 的 isStreaming 旗標
    • [SPARK-44252][SS] 定義新的錯誤類別,並適用於從 DFS 載入狀態失敗的情況
    • [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
    • [SPARK-47200][SS] Foreach 批次接收器使用者函式錯誤的錯誤類別
    • 作業系統安全性更新。
  • 2024 年 3 月 14 日
    • [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 協助程式函式
    • 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
    • [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
    • [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
    • 作業系統安全性更新。
  • 2024 年 2 月 29 日
    • 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作統計指標 numSourceRows 報告的資料列數量多出一倍。
    • 使用已定義的位置建立架構現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 許可權。
    • [SPARK-45582][SS] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體
    • 作業系統安全性更新。
  • 2024 年 2 月 13 日
    • [SPARK-46861] 避免 DAGScheduler 中的鎖死。
    • [SPARK-46794] 從 LogicalRDD 條件約束中移除子查詢。
    • 作業系統安全性更新。
  • 2024 年 1 月 31 日
    • [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
    • 作業系統安全性更新。
  • 2023 年 12 月 25 日
    • 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
    • [SPARK-39440] 新增組態以停用事件時間軸。
    • [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
    • [SPARK-46394] 修正 spark.catalog.listDatabases() 在 spark.sql.legacy.keepCommandOutputSchema 設為 true 時,具有特殊字元的結構問題。
    • [SPARK-46417] 呼叫 hive.getTable 且 throwException 為 false 時,不返回失敗。
    • [SPARK-43067] 更正 Kafka 連接器中錯誤類別資源檔案的位置。
    • [SPARK-46249] 需要執行個體鎖定才能取得 RocksDB 計量,以防止與背景作業競爭。
    • 當視圖或資料表不存在時,[SPARK-46602] 在建立視圖時傳播 allowExisting
    • [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
    • [SPARK-46145] spark.catalog.listTables 在找不到數據表或檢視表時不會擲回例外狀況。
    • [SPARK-46538] 修正 ALSModel.transform中模稜兩可的欄位參考問題。
    • [SPARK-42852] 從 EquivalentExpressions 還原 NamedLambdaVariable 相關的變更。
  • 2023 年 12 月 14 日
    • 已修正了一個問題,即來自 JDBC 或 ODBC 用戶端的 getColumns 作業中的被特殊字符化的底線()被錯誤處理並被解譯為通配符。
    • [SPARK-44582] 如果已清理,則略過 SMJ 上的迭代器。
    • [SPARK-45920] 依序數分組應該是等冪的。
    • [SPARK-45655] 允許 CollectMetrics 中 AggregateFunctions 內的不具決定性運算式。
    • 作業系統安全性更新。
  • 2023 年 11 月 29 日
    • 已安裝了新的套件 pyarrow-hotfix,以補救 PyArrow RCE 弱點。
    • 已修正從 JDBC 或 ODBC 用戶端錯誤解譯為通配符之 getColumns 作業中逸出底線的問題。
    • [SPARK-42205] 移除了 StageTask 啟動事件中的可累積記錄。
    • [SPARK-44846] 移除了 RemoveRedundantAggregates 之後的複雜群組運算式。
    • [SPARK-43718] 修正了 USING 聯結中索引鍵的可 NULL 性。
    • [SPARK-45544]TransportContext 中整合了 SSL 支援。
    • [SPARK-43973] 結構化串流 UI 現在顯示失敗的查詢。
    • [SPARK-45730] 改善了 ReloadingX509TrustManagerSuite 的時間條件約束。
    • [SPARK-45859]ml.functions 中的 UDF 物件設為惰性。
    • 作業系統安全性更新。
  • 2023 年 11 月 14 日
    • 在 Delta Lake 串流查詢中,分割區篩選會先於速率限制下推,以達到更佳的使用效率。
    • [SPARK-45545]SparkTransportConf 會在建立時繼承 SSLOptions
    • [SPARK-45427] 將 RPC SSL 設定新增至 SSLOptionsSparkTransportConf
    • [SPARK-45584] 修正了 TakeOrderedAndProjectExec 的子查詢執行失敗的問題。
    • [SPARK-45541] 新增了 SSLFactory
    • [SPARK-45430]FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount 不再失敗。
    • [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
    • 作業系統安全性更新。
  • 2023 年 10 月 24 日
    • [SPARK-45426] 新增了對 ReloadingX509TrustManager 的支援。
    • 其他修復。
  • 2023 年 10 月 13 日
    • Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
    • [SPARK-42553] 請確定間隔之後至少一個時間單位。
    • [SPARK-45346] Parquet 架構推斷在合併模式時會遵循大小寫敏感標誌。
    • [SPARK-45178] 對於具有不支援的來源的 Trigger.AvailableNow,回退到執行單一批次,而不是使用包裝函式。
    • [SPARK-45084]StateOperatorProgress 使用精確的適當隨機分割區編號。
  • 2023 年 9 月 12 日
    • [SPARK-44873] 已新增Hive用戶端對巢狀欄位的alter view 支援。
    • [SPARK-44718]ColumnVector 記憶體模式組態預設值與 OffHeapMemoryMode 組態值比對。
    • [SPARK-43799] 將描述項二進位選項新增至 PySpark Protobuf API。
    • 其他修復。
  • 2023 年 8 月 30 日
    • [SPARK-44485] 最佳化了 TreeNode.generateTreeString
    • [SPARK-44818] 修正了在初始化 taskThread 之前,發出的擱置中工作中斷的競爭。
    • [SPARK-44871][11.3-13.0] 修正了 percentile_disc 行為。
    • [SPARK-44714] 簡化了有關查詢的 LCA 解析限制。
    • 作業系統安全性更新。
  • 2023 年 8 月 15 日
    • [SPARK-44504] 維護工作會在當出現停止錯誤時清除已載入的提供者。
    • [SPARK-44464] 已修正 applyInPandasWithStatePythonRunner 以輸出將 Null 作為第一列值的列。
    • 作業系統安全性更新。
  • 2023 年 7 月 29 日
    • 修正當呼叫與其他外部或受控儲存位置衝突的儲存位置路徑時,dbutils.fs.ls() 傳回 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP 的問題。
    • [SPARK-44199]CacheManager 不再不必要地重新整理 fileIndex
    • 作業系統安全性更新。
  • 2023 年 7 月 24 日
    • [SPARK-44337] 修正了一個問題,即當任何欄位被設為 Any.getDefaultInstance 時會造成解析錯誤。
    • [SPARK-44136] 修正 StateManager 會在執行程式中具體化,而不是 FlatMapGroupsWithStateExec中的驅動程序的問題。
    • 作業系統安全性更新。
  • 2023 年 6 月 23 日
    • 作業系統安全性更新。
  • 2023 年 6 月 15 日
    • 光子化了 approx_count_distinct
    • Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
    • [SPARK-43779]ParseToDate 現在會在主執行緒中載入 EvalMode
    • [SPARK-43156][SPARK-43098] 擴充了關閉了 decorrelateInnerQuery 時的純量子查詢計數錯誤測試。
    • 作業系統安全性更新。
  • 2023 年 6 月 2 日
    • failOnUnknownFields 模式中的 JSON 剖析器會卸除 DROPMALFORMED 模式中的記錄,並在 FAILFAST 模式中直接失敗。
    • 透過 SHALLOW CLONE Iceberg 和 Parquet 改善累加式更新的效能。
    • 已修正 Auto Loader 中因提供的架構未包含推斷的分割而導致不同來源檔格式不一致的問題。 讀取推斷數據分割架構中遺漏數據行的檔案時,此問題可能會導致非預期的失敗。
    • [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
    • [SPARK-43413][11.3-13.0] 修正了 IN 子查詢 ListQuery 可 Null 性。
    • [SPARK-43522] 修正了建立具有陣列索引的結構欄位名稱的問題。
    • [SPARK-43541] 傳播所有 Project 標記,以解析表達式和遺漏數據行。
    • [SPARK-43527] 修正了 PySpark 中的 catalog.listCatalogs
    • [SPARK-43123] 內部欄位元數據不再外泄至目錄。
    • [SPARK-43340] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。
    • [SPARK-42444]DataFrame.drop 現在正確地處理重複的數據行。
    • [SPARK-42937]PlanSubqueries 現在會將 InSubqueryExec#shouldBroadcast 設定為 true。
    • [SPARK-43286] 更新 aes_encrypt CBC 模式以產生隨機 IV。
    • [SPARK-43378] 正確關閉 deserializeFromChunkedBuffer 中的串流物件。
  • 2023 年 5 月 17 日
    • 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
    • 如果 Avro 檔案只使用 failOnUnknownFields 選項或 failOnNewColumns 架構演進模式中的自動載入器讀取,則具有不同數據類型的數據行會讀取為 null,而不是擲回錯誤,指出無法讀取檔案。 這些讀取現在會失敗並建議使用者使用 rescuedDataColumn 選項。
    • 自動載入器現在會執行下列動作。
      • 如果提供其中一個資料類型,則正確讀取且不再修復 IntegerShortByte 類型,但 Avro 檔案建議其他兩種類型之一。
      • 防止將間隔類型讀取為日期或時間戳記類型,以避免取得損毀的日期。
      • 防止具有較低精確度的讀取 Decimal 類型。
    • [SPARK-43172] 從 Spark 連線用戶端公開主機和權杖。
    • [SPARK-43293]__qualified_access_only 會在一般欄中忽略。
    • [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤。
    • [SPARK-43085] 支援多部分表名稱中數據行 DEFAULT 的指派。
    • [SPARK-43190]ListQuery.childOutput 現在與次要輸出一致。
    • [SPARK-43192] 移除了使用者代理程式字元集驗證。
    • 作業系統安全性更新。
  • 2023 年 4 月 25 日
    • 如果只使用 failOnUnknownFields 選項或 failOnNewColumns 架構演進模式中的自動載入器讀取 Parquet 檔案,則具有不同數據類型的數據行會讀取為 null,而不是擲回錯誤,指出無法讀取檔案。 這些讀取現在會失敗並建議使用者使用 rescuedDataColumn 選項。
    • 如果提供下列其中一個資料類型,自動載入器現在會正確讀取,且不再修復 IntegerShortByte 類型。 Parquet 檔案建議其他兩個類型之一。 當先前啟用已獲救的資料行時,數據類型不符會導致資料行儲存,即便這些資料行是可讀的。
    • [SPARK-43009] 使用 sql() 常數參數化了 Any
    • [SPARK-42406] 卸除欄位以終止 Protobuf 遞迴欄位
    • [SPARK-43038] 透過 aes_encrypt()/aes_decrypt() 支援 CBC 模式
    • [SPARK-42971] 如果 workdir 在背景工作角色處理 appDirs 事件時為 Null,則變更為列印 WorkDirCleanup
    • [SPARK-43018] 修正含有時間戳常值的 INSERT 命令的錯誤
    • 作業系統安全性更新。
  • 2023 年 4 月 11 日
    • SYNC 命令中支援舊版資料來源格式。
    • 修正存放庫外部,筆記本中 %autoreload 行為的問題。
    • 已修正在巢狀 JSON 物件架構中偵測到新數據行時,自動載入器架構演進可能會進入無限失敗循環的問題。
    • [SPARK-42928] 同步處理 resolvePersistentFunction
    • [SPARK-42936] 修正子句可透過子彙總直接解析的 LCan 問題。
    • [SPARK-42967] 取消階段之後,修正在工作啟動時的 SparkListenerTaskStart.stageAttemptId
    • 作業系統安全性更新。
  • 2023 年 3 月 29 日
    • Databricks SQL 現在支援指定 Delta Lake 數據表數據行的預設值,不論是在數據表建立時間或之後。 後續 INSERTUPDATEDELETEMERGE 命令可以使用明確的 DEFAULT 關鍵詞來參考任何數據行的預設值。 此外,如果任何 INSERT 指派具有比目標數據表少之數據行的明確清單,則對應的數據行預設值會取代其餘數據行(如果沒有指定預設值則為 NULL)。

      例如:

      CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE());
      INSERT INTO t VALUES (0, DEFAULT);
      INSERT INTO t VALUES (1, DEFAULT);
      SELECT first, second FROM t;
      > 0, 2023-03-28
      1, 2023-03-28z
      
    • 自動載入器現在會為 Trigger.AvailableNow 數據流啟動至少一次同步的 RocksDB 日誌清理,以確保檢查點能夠定期清除,適用於快速運行的自動載入器數據流。 這可能會導致某些串流在關閉之前花費更長的時間,但它會節省儲存體成本,並改善未來執行的自動載入器體驗。

    • 您現在可以修改 Delta 資料表,使用 DeltaTable.addFeatureSupport(feature_name)為資料表功能新增支援。

    • [SPARK-42794] 將 lockAcquireTimeoutMs 增加到 2 分鐘,以取得結構串流中的 RocksDB 狀態存放區

    • [SPARK-42521] 為 INSERT 操作中使用者指定的資料行少於目標表的情況新增 NULL 值

    • [SPARK-42702][SPARK-42623] 支援子查詢與 CTE 中的參數化查詢

    • [SPARK-42668] 嘗試關閉 HDFSStateStoreProvider 中的壓縮串流時攔截例外狀況

    • [SPARK-42403] JsonProtocol 應處理 Null JSON 字串

  • 2023 年 3 月 8 日
    • 錯誤訊息「無法初始化組態」已得到改善,以提供更多內容給客戶。
    • 使用資料表屬性將功能特性新增至 Delta 表格時有術語變更。 慣用的語法現在是 'delta.feature.featureName'='supported',而不是 'delta.feature.featureName'='enabled'。 為了保持回溯相容性,使用 'delta.feature.featureName'='enabled' 仍可運作,並且會繼續運作。
    • zh-TW: 從這個版本開始,您可以在建立或取代數據表時,加入額外的屬性 delta.ignoreProtocolDefaults,以忽略與通訊協定相關的 Spark 組態,包括預設的讀取器和寫入器版本,以及預設支持的表格功能。
    • [SPARK-42070] 將 Mask 函式引數的預設值從 -1 變更為 NULL
    • [SPARK-41793] 有效小數上範圍子句所定義的視窗框架結果不正確
    • [SPARK-42484] UnsafeRowUtils 更好的錯誤訊息
    • [SPARK-42516] 在建立檢視時一律擷取會話時區設定
    • [SPARK-42635] 修正 TimestampAdd 運算式。
    • [SPARK-42622] 關閉值中的替換
    • [SPARK-42534] 修正 DB2Dialect Limit 子句
    • [SPARK-42121] 新增內建數據表值函式 posexplode、posexplode_outer、json_tuple 和堆棧
    • [SPARK-42045] ANSI SQL 模式:Round/Bround 應該在極小/小/有效整數溢位時傳回錯誤
    • 作業系統安全性更新。

Databricks Runtime 11.3 LTS

請參閱 Databricks Runtime 11.3 LTS

  • 2024 年 12 月 10 日
    • 作業系統安全性更新。
  • 2024 年 11 月 26 日
    • 其他錯誤修正。
  • 2024年10月10日
    • 其他錯誤修正。
  • 2024年9月25日
    • [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
    • [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
    • 其他錯誤修正。
  • 2024 年 9 月 17 日
    • 作業系統安全性更新。
  • 2024 年 8 月 29 日
  • 2024 年 8 月 14 日
    • [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
    • [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
    • [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
    • [SPARK-48463][ML] 讓 StringIndexer 支援巢狀輸入數據行
    • 作業系統安全性更新。
  • 2024 年 8 月 1 日
  • 2024 年 8 月 1 日
    • 若要套用必要的安全性修補程式,Databricks Runtime 11.3 LTS 中的 Python 版本會從 3.9.5 升級至 3.9.19。
  • 2024 年 7 月 11 日
    • [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
    • [SPARK-47070] 修正子查詢重寫之後無效的彙總
    • 作業系統安全性更新。
  • 2024 年 6 月 17 日
    • 作業系統安全性更新。
  • 2024 年 5 月 21 日
    • [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
    • 作業系統安全性更新。
  • 2024 年 5 月 9 日
    • [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
    • [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
    • [SPARK-44251][SQL] 在全外部 USING 聯結中的聯結索引鍵上正確設定可為 Null
    • 作業系統安全性更新。
  • 2024 年 4 月 25 日
    • 作業系統安全性更新。
  • 2024 年 4 月 11 日
    • 作業系統安全性更新。
  • 2024 年 4 月 1 日
    • [SPARK-44252][SS] 定義新的錯誤類別,並適用於從 DFS 載入狀態失敗的情況
    • [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
    • 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
    • [SPARK-47200][SS] Foreach 批次接收器使用者函式錯誤的錯誤類別
    • 作業系統安全性更新。
  • 2024 年 3 月 14 日
    • [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
    • [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
    • 作業系統安全性更新。
  • 2024 年 2 月 29 日
    • 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作統計指標 numSourceRows 報告的資料列數量多出一倍。
    • [SPARK-45582][SS] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體
  • 2024 年 2 月 13 日
    • [SPARK-46794] 從 LogicalRDD 條件約束中移除子查詢。
    • [SPARK-46861] 避免 DAGScheduler 中的鎖死。
    • 作業系統安全性更新。
  • 2024 年 1 月 31 日
    • 作業系統安全性更新。
  • 2023 年 12 月 25 日
    • 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
    • [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
    • 當視圖或資料表不存在時,[SPARK-46602] 在建立視圖時傳播 allowExisting
    • [SPARK-46394] 修正 spark.catalog.listDatabases() 在 spark.sql.legacy.keepCommandOutputSchema 設為 true 時,具有特殊字元的結構問題。
    • [SPARK-46538] 修正 ALSModel.transform中模稜兩可的欄位參考問題。
    • [SPARK-39440] 新增組態以停用事件時間軸。
    • [SPARK-46249] 需要執行個體鎖定才能取得 RocksDB 計量,以防止與背景作業競爭。
    • [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
  • 2023 年 12 月 14 日
    • 已修正了一個問題,即來自 JDBC 或 ODBC 用戶端的 getColumns 作業中的被特殊字符化的底線()被錯誤處理並被解譯為通配符。
    • 作業系統安全性更新。
  • 2023 年 11 月 29 日
    • 已安裝了新的套件 pyarrow-hotfix,以補救 PyArrow RCE 弱點。
    • 已修正從 JDBC 或 ODBC 用戶端錯誤解譯為通配符之 getColumns 作業中逸出底線的問題。
    • [SPARK-43973] 結構化串流 UI 現在顯示失敗的查詢。
    • [SPARK-45730] 改善了 ReloadingX509TrustManagerSuite 的時間條件約束。
    • [SPARK-45544]TransportContext 中整合了 SSL 支援。
    • [SPARK-45859]ml.functions 中的 UDF 物件設為惰性。
    • [SPARK-43718] 修正了 USING 聯結中索引鍵的可 NULL 性。
    • [SPARK-44846] 移除了 RemoveRedundantAggregates 之後的複雜群組運算式。
    • 作業系統安全性更新。
  • 2023 年 11 月 14 日
    • 在 Delta Lake 串流查詢中,分割區篩選會先於速率限制下推,以達到更佳的使用效率。
    • [SPARK-42205] 移除了階段和工作啟動事件中的可累積記錄。
    • [SPARK-45545]SparkTransportConf 會在建立時繼承 SSLOptions
    • 還原 [SPARK-33861]
    • [SPARK-45541] 新增了 SSLFactory
    • [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
    • [SPARK-45584] 修正了 TakeOrderedAndProjectExec 的子查詢執行失敗的問題。
    • [SPARK-45430]FramelessOffsetWindowFunctionIGNORE NULLSoffset > rowCount 不再失敗。
    • [SPARK-45427] 將 RPC SSL 設定新增至 SSLOptionsSparkTransportConf
    • 作業系統安全性更新。
  • 2023 年 10 月 24 日
    • [SPARK-45426] 新增了對 ReloadingX509TrustManager 的支援。
    • 其他修復。
  • 2023 年 10 月 13 日
    • Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
    • [SPARK-45178] 對於具有不支援的來源的 Trigger.AvailableNow,回退到執行單一批次,而不是使用包裝函式。
    • [SPARK-45084]StateOperatorProgress 使用精確的適當隨機分割區編號。
    • [SPARK-45346] Parquet 結構推斷現在會遵守合併結構時區分大小寫的標誌。
    • 作業系統安全性更新。
  • 2023 年 9 月 10 日
    • 其他修復。
  • 2023 年 8 月 30 日
    • [SPARK-44818] 修正了在初始化 taskThread 之前,發出的擱置中工作中斷的競爭。
    • [SPARK-44871][11.3-13.0] 修正了 percentile_disc 行為。
    • 作業系統安全性更新。
  • 2023 年 8 月 15 日
    • [SPARK-44485] 最佳化了 TreeNode.generateTreeString
    • [SPARK-44504] 維護工作會在當出現停止錯誤時清除已載入的提供者。
    • [SPARK-44464] 已修正 applyInPandasWithStatePythonRunner 以輸出將 Null 作為第一列值的列。
    • 作業系統安全性更新。
  • 2023 年 7 月 27 日
    • 修正當呼叫與其他外部或受控儲存位置衝突的儲存位置路徑時,dbutils.fs.ls() 傳回 INVALID_PARAMETER_VALUE.LOCATION_OVERLAP 的問題。
    • [SPARK-44199]CacheManager 不再不必要地重新整理 fileIndex
    • 作業系統安全性更新。
  • 2023 年 7 月 24 日
    • [SPARK-44136] 修正一個問題,即在 FlatMapGroupsWithStateExec 中,StateManager 可以在執行緒而非驅動程序中被具象化。
    • 作業系統安全性更新。
  • 2023 年 6 月 23 日
    • 作業系統安全性更新。
  • 2023 年 6 月 15 日
    • 光子化了 approx_count_distinct
    • Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
    • [SPARK-43779]ParseToDate 現在會在主執行緒中載入 EvalMode
    • [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢
    • [SPARK-43156][SPARK-43098] 擴充了關閉了 decorrelateInnerQuery 時的純量子查詢計數錯誤測試。
    • [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤
    • 作業系統安全性更新。
  • 2023 年 6 月 2 日
    • failOnUnknownFields 模式中的 JSON 剖析器會卸除 DROPMALFORMED 模式中的記錄,並在 FAILFAST 模式中直接失敗。
    • 透過 SHALLOW CLONE Iceberg 和 Parquet 改善累加式更新的效能。
    • 已修正 Auto Loader 中因提供的架構未包含推斷的分割而導致不同來源檔格式不一致的問題。 讀取推斷數據分割架構中遺漏數據行的檔案時,此問題可能會導致非預期的失敗。
    • [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
    • [SPARK-43527] 修正了 PySpark 中的 catalog.listCatalogs
    • [SPARK-43413][11.3-13.0] 修正了 IN 子查詢 ListQuery 可 Null 性。
    • [SPARK-43340] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。

Databricks Runtime 10.4 LTS

請參閱 Databricks Runtime 10.4 LTS

  • 2024 年 12 月 10 日
    • 作業系統安全性更新。
  • 2024 年 11 月 26 日
    • 作業系統安全性更新。
  • 2024 年 11 月 5 日
    • 作業系統安全性更新。
  • 2024年10月22日
    • 作業系統安全性更新。
  • 2024年10月10日
    • 作業系統安全性更新。
  • 2024年9月25日
    • [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
    • [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
    • 作業系統安全性更新。
  • 2024 年 9 月 17 日
    • 作業系統安全性更新。
  • 2024 年 8 月 29 日
    • [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
  • 2024 年 8 月 14 日
  • 2024 年 8 月 1 日
  • 2024 年 7 月 11 日
    • [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
    • 作業系統安全性更新。
  • 2024 年 6 月 17 日
    • 作業系統安全性更新。
  • 2024 年 5 月 21 日
    • [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
    • 作業系統安全性更新。
  • 2024 年 5 月 9 日
    • [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
    • [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
    • [SPARK-44251][SQL] 在全外部 USING 聯結中的聯結索引鍵上正確設定可為 Null
    • 作業系統安全性更新。
  • 2024 年 4 月 25 日
    • 作業系統安全性更新。
  • 2024 年 4 月 11 日
    • 作業系統安全性更新。
  • 2024 年 4 月 1 日
    • [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
    • [SPARK-44252][SS] 定義新的錯誤類別,並適用於從 DFS 載入狀態失敗的情況
    • [SPARK-47200][SS] Foreach 批次接收器使用者函式錯誤的錯誤類別
    • 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
    • 作業系統安全性更新。
  • 2024 年 3 月 14 日
    • [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
    • 作業系統安全性更新。
  • 2024 年 2 月 29 日
    • 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作統計指標 numSourceRows 報告的資料列數量多出一倍。
    • [SPARK-45582][SS] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體
    • 作業系統安全性更新。
  • 2024 年 2 月 13 日
    • [SPARK-46861] 避免 DAGScheduler 中的鎖死。
    • 作業系統安全性更新。
  • 2024 年 1 月 31 日
    • 作業系統安全性更新。
  • 2023 年 12 月 25 日
    • 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
    • [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
    • [SPARK-46538] 修正 ALSModel.transform中模稜兩可的欄位參考問題。
    • [SPARK-39440] 新增組態以停用事件時間軸。
    • [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
  • 2023 年 12 月 14 日
    • 作業系統安全性更新。
  • 2023 年 11 月 29 日
    • 已安裝了新的套件 pyarrow-hotfix,以補救 PyArrow RCE 弱點。
    • [SPARK-45544]TransportContext 中整合了 SSL 支援。
    • [SPARK-45859]ml.functions 中的 UDF 物件設為惰性。
    • [SPARK-43718] 修正了 USING 聯結中索引鍵的可 NULL 性。
    • [SPARK-45730] 改善了 ReloadingX509TrustManagerSuite 的時間條件約束。
    • [SPARK-42205] 移除了階段和工作啟動事件中的可累積記錄。
    • [SPARK-44846] 移除了 RemoveRedundantAggregates 之後的複雜群組運算式。
    • 作業系統安全性更新。
  • 2023 年 11 月 14 日
    • [SPARK-45541] 新增了 SSLFactory
    • [SPARK-45545]SparkTransportConf 會在建立時繼承 SSLOptions
    • [SPARK-45427] 將 RPC SSL 設定新增至 SSLOptionsSparkTransportConf
    • [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
    • [SPARK-45584] 修正了 TakeOrderedAndProjectExec 的子查詢執行失敗的問題。
    • 還原 [SPARK-33861]
    • 作業系統安全性更新。
  • 2023 年 10 月 24 日
    • [SPARK-45426] 新增了對 ReloadingX509TrustManager 的支援。
    • 作業系統安全性更新。
  • 2023 年 10 月 13 日
    • [SPARK-45084]StateOperatorProgress 使用精確的適當隨機分割區編號。
    • [SPARK-45178] 對於具有不支援的來源的 Trigger.AvailableNow,回退到執行單一批次,而不是使用包裝函式。
    • 作業系統安全性更新。
  • 2023 年 9 月 10 日
    • 其他修復。
  • 2023 年 8 月 30 日
    • [SPARK-44818] 修正了在初始化 taskThread 之前,發出的擱置中工作中斷的競爭。
    • 作業系統安全性更新。
  • 2023 年 8 月 15 日
    • [SPARK-44504] 維護工作會在當出現停止錯誤時清除已載入的提供者。
    • [SPARK-43973] 結構化串流 UI 現在顯示失敗的查詢。
    • 作業系統安全性更新。
  • 2023 年 6 月 23 日
    • 作業系統安全性更新。
  • 2023 年 6 月 15 日
    • Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
    • [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤
    • [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢
    • [SPARK-43156][SPARK-43098] 擴充了關閉了 decorrelateInnerQuery 時的純量子查詢計數測試。
    • 作業系統安全性更新。
  • 2023 年 6 月 2 日
    • failOnUnknownFields 模式中的 JSON 剖析器會卸除 DROPMALFORMED 模式中的記錄,並在 FAILFAST 模式中直接失敗。
    • 修正了 JSON 修復資料剖析中的問題,以防止 UnknownFieldException
    • 已修正 Auto Loader 中因提供的架構未包含推斷的分割而導致不同來源檔格式不一致的問題。 讀取推斷數據分割架構中遺漏數據行的檔案時,此問題可能會導致非預期的失敗。
    • [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
    • [SPARK-43413] 修正了 IN 子查詢 ListQuery 可 Null 性。
    • 作業系統安全性更新。
  • 2023 年 5 月 17 日
    • 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
    • [SPARK-41520] 分割 AND_OR 樹狀結構模式以分隔 ANDOR
    • [SPARK-43190]ListQuery.childOutput 現在與次要輸出一致。
    • 作業系統安全性更新。
  • 2023 年 4 月 25 日
    • [SPARK-42928] 同步處理 resolvePersistentFunction
    • 作業系統安全性更新。
  • 2023 年 4 月 11 日
    • 已修正在巢狀 JSON 物件架構中偵測到新數據行時,自動載入器架構演進可能會進入無限失敗循環的問題。
    • [SPARK-42937]PlanSubqueries 現在會將 InSubqueryExec#shouldBroadcast 設定為 true。
    • [SPARK-42967] 在取消階段之後啟動工作時修正 SparkListenerTaskStart.stageAttemptId。
  • 2023 年 3 月 29 日
    • [SPARK-42668] 嘗試關閉 HDFSStateStoreProvider 中的壓縮串流時攔截例外狀況
    • [SPARK-42635] 修正 ...
    • 作業系統安全性更新。
  • 2023 年 3 月 14 日
    • [SPARK-41162] 解決問題:使用聚合進行自我連接的反連接和半連接
    • [SPARK-33206] 修正小型索引檔案的隨機索引快取權數計算
    • [SPARK-42484] 改善了 UnsafeRowUtils 錯誤訊息
    • 其他修復。
  • 2023 年 2 月 28 日
    • 支援 yyyy-MM-dd 日期格式的產生列。 這項變更支援將 yyyy-MM-dd 作為生成欄位中的日期格式來進行分割區域修剪。
    • 用戶現在可以使用 Databricks Runtime 9.1 LTS 或更新版本,讀取和寫入需要閱讀器版本 3 和寫入器版本 7 的特定 Delta 表格。 若要成功,數據表通訊協定中列出的數據表功能必須由目前版本的 Databricks Runtime 支援。
    • 支援 yyyy-MM-dd 日期格式的產生列。 這項變更支援將 yyyy-MM-dd 作為生成欄位中的日期格式來進行分割區域修剪。
    • 作業系統安全性更新。
  • 2023 年 2 月 16 日
    • [SPARK-30220] 使用篩選節點外部的 Exists/In 子查詢來啟用
    • 作業系統安全性更新。
  • 2023 年 1 月 31 日
    • JDBC 數據表的數據表類型現在預設為 EXTERNAL。
  • 2023 年 1 月 18 日
    • 當數據行名稱包含無效字元,例如空格符或分號時,Azure Synapse 連接器會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
    • [SPARK-38277] 在 RocksDB 狀態存放區認可之後,清除寫入批次
    • [SPARK-41199] 修正 DSv1 串流來源與 DSv2 串流來源共同使用時的計量問題
    • [SPARK-41198] 修正串流查詢中具有 CTE 和 DSv1 串流來源的指標。
    • [SPARK-41339] 關閉並重新建立 RocksDB 寫入批次,不只是清除。
    • [SPARK-41732] 為規則 SessionWindowing 套用樹狀模式型剪除。
    • 作業系統安全性更新。
  • 2022 年 11 月 29 日
    • 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
      • csvignoreleadingwhitespace設定為 truetempformat 設定為 CSVCSV GZIP時,寫入過程中會移除數值前的空白。 當組態設定為 false時,會保留空格符。 根據預設,此值是 true
      • csvignoretrailingwhitespace設定為 true時,如果 tempformat 設定為 CSVCSV GZIP,則在寫入時移除值的尾端空格符。 當組態設定為 false時,會保留空格符。 根據預設,此值是 true
    • 已修正當所有欄位都保留為字串時,自動載入器中的 JSON 剖析問題(cloudFiles.inferColumnTypes 未設定或設定為 false),而 JSON 包含巢狀物件的問題。
    • 作業系統安全性更新。
  • 2022 年 11 月 15 日
    • 將 Apache commons-text 升級至 1.10.0。
    • [SPARK-40646] 結構、對應和陣列的 JSON 剖析已修正,因此當記錄中有部分不符合結構時,仍然可以正確剖析其餘的記錄,而不是回傳 null 值。 若要選擇加入改進功能,請將 spark.sql.json.enablePartialResults 設定為 true。 旗標預設為關閉,以保留原始行為。
    • [SPARK-40292] 修正從巢狀結構中參考陣列時 arrays_zip 函式中的欄位名稱
    • 作業系統安全性更新。
  • 2022 年 11 月 1 日
    • 已修正一個問題,當 Delta 數據表中有一個使用者定義的數據行名為 _change_type,並且在該數據表上未啟用 變更數據摘要 時,當執行 MERGE時,該數據行中的數據會錯誤地被填入 NULL 值。
    • 已修正自動載入器的問題,啟用 allowOverwrites 時,檔案可能會在相同的微批次中被重複複製。
    • [SPARK-40697] 新增讀取端字元填補,以涵蓋外部資料檔案
    • [SPARK-40596] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
    • 作業系統安全性更新。
  • 2022 年 10 月 18 日
    • 作業系統安全性更新。
  • 2022 年 10 月 5 日
    • [SPARK-40468] 選取 _corrupt_record 時修正 CSV 中的欄位剪除。
    • 作業系統安全性更新。
  • 2022 年 9 月 22 日
    • 用戶可以設定spark.conf.set(spark.databricks.io.listKeysWithPrefix.azure.enabledtrue)以重新啟用ADLS Gen2上自動載入器內建清單。 內建清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。
    • [SPARK-40315] 為 ArrayBasedMapData 的常值新增 hashCode()
    • [SPARK-40213] 支援 Latin-1 字元的 ASCII 值轉換
    • [SPARK-40380] 修正 InvokeLike 的常數折疊,以避免在方案中內嵌的非串行化常值
    • [SPARK-38404] 改善巢狀 CTE 參考外部 CTE 時的 CTE 解析
    • [SPARK-40089] 修正一些小數類型的排序
    • [SPARK-39887] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
  • 2022 年 9 月 6 日
    • [SPARK-40235] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理。
    • [SPARK-40218] GROUPING SETS 應該保留分組欄位。
    • [SPARK-39976] ArrayIntersect 應正確處理左則運算式中的 Null。
    • [SPARK-40053]assume 新增至需要 Python 執行階段環境的動態取消案例。
    • [SPARK-35542] 修正:針對具有 splitsArray、inputCols 和 outputCols 參數的多個數據列所建立的 Bucketizer 無法在儲存之後載入。
    • [SPARK-40079] 新增空白輸入案例的 Imputer inputCols 驗證。
  • 2022 年 8 月 24 日
    • [SPARK-39983] 請勿在驅動程式上快取未序列化的廣播關係。
    • [SPARK-39775] 解析 Avro 架構時停用驗證預設值的功能。
    • [SPARK-39962] 當群組屬性為空時套用投影
    • [SPARK-37643] 當 charVarcharAsString 為 true 時,字元資料類型述詞查詢應該略過 rpadding 規則。
    • 作業系統安全性更新。
  • 2022 年 8 月 9 日
    • [SPARK-39847] 如果呼叫端執行緒中斷,請修正 RocksDBLoader.loadLibrary() 中的競爭條件
    • [SPARK-39731] 使用 CORRECTED 時間剖析器原則剖析「yyyyMMdd」格式的日期時,修正 CSV 和 JSON 資料來源的問題
    • 作業系統安全性更新。
  • 2022 年 7 月 27 日
    • [SPARK-39625] 新增 Dataset.as(StructType)。
    • [SPARK-39689] 在 CSV 資料來源中支援 2-字元 lineSep
    • [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded 應是安全執行緒。
    • [SPARK-39570] 內嵌數據表應該允許具有別名的表達式。
    • [SPARK-39702] 使用共用的 byteRawChannel 減少 TransportCipher$EncryptedMessage 的記憶體額外負荷。
    • [SPARK-39575] 在 AvroDeserializer 中於 ByteBuffer#get 之後新增 ByteBuffer#rewind。
    • [SPARK-39476] 從 Long 轉換為 Float/ Double 或從 Integer 轉換成 Float 時停用解除包裝轉換優化。
    • [SPARK-38868] 最佳化外部聯結時,請勿從篩選述詞傳播例外狀況。
    • 作業系統安全性更新。
  • 2022 年 7 月 20 日
    • 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
    • [SPARK-39355] 單一欄位以引號構建 UnresolvedAttribute。
    • [SPARK-39548] 具有 window 子句查詢的 CreateView 命令按下錯誤視窗定義找不到問題。
    • [SPARK-39419] 修正 ArraySort,以在比較子傳回 Null 時擲回例外狀況。
    • 已停止自動載入器針對 Azure 上的目錄清單使用內建雲端 API。
    • 作業系統安全性更新。
  • 2022 年 7 月 5 日
    • [SPARK-39376] 隱藏子查詢別名從 NATURAL/USING JOIN 星號展開中的重複欄
    • 作業系統安全性更新。
  • 2022 年 6 月 15 日
    • [SPARK-39283] 修正 TaskMemoryManager 與 UnsafeExternalSorter.SpillableIterator 之間的鎖死。
    • [SPARK-39285] 讀取檔案時,Spark 不應檢查功能變數名稱。
    • [SPARK-34096] 改善nth_value在位移視窗上忽略 Null 的效能。
    • [SPARK-36718] 修正 CollapseProject 中的 isExtractOnly 檢查。
  • 2022 年 6 月 2 日
    • [SPARK-39093] 避免將年-月間隔或日-時間間隔除以整數時發生 codegen 編譯錯誤。
    • [SPARK-38990] 在評估 date_trunc/截斷格式作為參考參考時,避免 NullPointerException。
    • 作業系統安全性更新。
  • 2022 年 5 月 18 日
    • 修正自動載入器中,潛在的內建記憶體流失。
    • [SPARK-38918] 巢狀欄位剪除應該去除不屬於目前關聯的屬性。
    • [SPARK-37593] 如果使用 G1GC 和 ON_HEAP,請減少預設頁面大小 LONG_ARRAY_OFFSET。
    • [SPARK-39084] 修正 df.rdd.isEmpty() 使用 TaskContext 停止工作完成的迭代器。
    • [SPARK-32268] 在 injectBloomFilter 中新增 ColumnPruning。
    • [SPARK-38974] 在清單函式中使用指定資料庫名稱篩選已註冊的函式。
    • [SPARK-38931] 為 RocksDBFileManager 建立根 dfs 目錄,並且在第 1 個檢查點上具有未知數目的索引鍵。
    • 作業系統安全性更新。
  • 2022 年 4 月 19 日
    • 將 Java AWS SDK 從 1.11.655 版升級為 1.12.1899。
    • 修正了筆記本範圍程式庫無法在批次串流作業中運作的問題。
    • [SPARK-38616] 追蹤 Catalyst TreeNode 中的 SQL 查詢文字
    • 作業系統安全性更新。
  • 2022 年 4 月 6 日
    • 本版本現在提供下列 Spark SQL 函式:
      • timestampadd()dateadd():將指定單元中的持續時間新增至時間戳記運算式。
      • timestampdiff()datediff():計算指定單位中兩個時間戳記運算式之間的時間差異。
    • Parquet-MR 已升級至 1.12.2
    • 改善了 parquet 檔案中完整結構描述的支援
    • [SPARK-38631] 使用 Java 型實作在 Utils.unpack 解除壓縮。
    • [SPARK-38509][SPARK-38481] 揀選三個 timestmapadd/diff 變更。
    • [SPARK-38523] 修正引用 CSV 中的損壞記錄欄。
    • [SPARK-38237] 允許 ClusteredDistribution 要求完整叢集索引鍵。
    • [SPARK-38437] 資料來源中日期時間的 Lenient 序列化。
    • [SPARK-38180] 允許相互關聯的相等述詞中的安全向上轉換運算式。
    • [SPARK-38155] 不允許具有不支援述詞之橫向子查詢中的相異彙總。
    • 作業系統安全性更新。

Databricks Runtime 9.1 LTS

請參閱 Databricks Runtime 9.1 LTS

  • 2024 年 12 月 10 日
    • 作業系統安全性更新。
  • 2024 年 11 月 26 日
    • 作業系統安全性更新。
  • 2024 年 11 月 5 日
    • 作業系統安全性更新。
  • 2024年10月22日
    • 作業系統安全性更新。
  • 2024年10月10日
    • 作業系統安全性更新。
  • 2024年9月25日
    • [SPARK-49000][SQL] 藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空的數據表
    • 作業系統安全性更新。
  • 2024年9月6日
    • 作業系統安全性更新。
  • 2024 年 8 月 29 日
    • [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
  • 2024 年 8 月 14 日
  • 2024 年 8 月 1 日
    • 作業系統安全性更新。
  • 2024 年 7 月 11 日
    • 作業系統安全性更新。
  • 2024 年 6 月 17 日
    • 作業系統安全性更新。
  • 2024 年 5 月 21 日
    • [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
    • 作業系統安全性更新。
  • 2024 年 5 月 9 日
    • [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
    • [SPARK-44251][SQL] 在全外部 USING 聯結中的聯結索引鍵上正確設定可為 Null
    • 作業系統安全性更新。
  • 2024 年 4 月 25 日
    • 其他錯誤修正。
  • 2024 年 4 月 11 日
    • 作業系統安全性更新。
  • 2024 年 4 月 1 日
    • 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
    • 作業系統安全性更新。
  • 2024 年 3 月 14 日
    • 作業系統安全性更新。
  • 2024 年 2 月 29 日
    • 已修正了一個問題,即在 MERGE 命令中使用本機集合作為來源時,可能會導致操作統計指標 numSourceRows 報告的資料列數量多出一倍。
    • 作業系統安全性更新。
  • 2024 年 2 月 13 日
    • [SPARK-46861] 避免 DAGScheduler 中的鎖死。
    • 作業系統安全性更新。
  • 2024 年 1 月 31 日
    • 作業系統安全性更新。
  • 2023 年 12 月 25 日
    • 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
    • [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
    • [SPARK-39440] 新增組態以停用事件時間軸。
    • [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
  • 2023 年 12 月 14 日
    • 作業系統安全性更新。
  • 2023 年 11 月 29 日
    • 已安裝了新的套件 pyarrow-hotfix,以補救 PyArrow RCE 弱點。
    • [SPARK-45859]ml.functions 中的 UDF 物件設為惰性。
    • [SPARK-45544]TransportContext 中整合了 SSL 支援。
    • [SPARK-45730] 改善了 ReloadingX509TrustManagerSuite 的時間條件約束。
    • 作業系統安全性更新。
  • 2023 年 11 月 14 日
    • [SPARK-45545]SparkTransportConf 會在建立時繼承 SSLOptions
    • [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
    • [SPARK-45427] 將 RPC SSL 設定新增至 SSLOptionsSparkTransportConf
    • [SPARK-45584] 修正了 TakeOrderedAndProjectExec 的子查詢執行失敗的問題。
    • [SPARK-45541] 新增了 SSLFactory
    • [SPARK-42205] 移除了階段和工作啟動事件中的可累積記錄。
    • 作業系統安全性更新。
  • 2023 年 10 月 24 日
    • [SPARK-45426] 新增了對 ReloadingX509TrustManager 的支援。
    • 作業系統安全性更新。
  • 2023 年 10 月 13 日
    • 作業系統安全性更新。
  • 2023 年 9 月 10 日
    • 其他修復。
  • 2023 年 8 月 30 日
    • 作業系統安全性更新。
  • 2023 年 8 月 15 日
    • 作業系統安全性更新。
  • 2023 年 6 月 23 日
    • Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
    • 作業系統安全性更新。
  • 2023 年 6 月 15 日
    • [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤。
    • [SPARK-43156][SPARK-43098] 擴充了關閉了 decorrelateInnerQuery 時的純量子查詢計數錯誤測試。
    • [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢。
    • 作業系統安全性更新。
  • 2023 年 6 月 2 日
    • failOnUnknownFields 模式中的 JSON 剖析器會卸除 DROPMALFORMED 模式中的記錄,並在 FAILFAST 模式中直接失敗。
    • 修正了 JSON 修復資料剖析中的問題,以防止 UnknownFieldException
    • 已修正 Auto Loader 中因提供的架構未包含推斷的分割而導致不同來源檔格式不一致的問題。 讀取推斷數據分割架構中遺漏數據行的檔案時,此問題可能會導致非預期的失敗。
    • [SPARK-37520] 新增 startswith()endswith() 字串函式
    • [SPARK-43413] 修正了 IN 子查詢 ListQuery 可 Null 性。
    • 作業系統安全性更新。
  • 2023 年 5 月 17 日
    • 作業系統安全性更新。
  • 2023 年 4 月 25 日
    • 作業系統安全性更新。
  • 2023 年 4 月 11 日
    • 已修正在巢狀 JSON 物件架構中偵測到新數據行時,自動載入器架構演進可能會進入無限失敗循環的問題。
    • [SPARK-42967] 在取消階段之後啟動工作時修正 SparkListenerTaskStart.stageAttemptId。
  • 2023 年 3 月 29 日
    • 作業系統安全性更新。
  • 2023 年 3 月 14 日
    • [SPARK-42484] 改善了 UnsafeRowUtils 的錯誤訊息。
    • 其他修復。
  • 2023 年 2 月 28 日
    • 用戶現在可以使用 Databricks Runtime 9.1 LTS 或更新版本,讀取和寫入需要閱讀器版本 3 和寫入器版本 7 的特定 Delta 表格。 若要成功,數據表通訊協定中列出的數據表功能必須由目前版本的 Databricks Runtime 支援。
    • 作業系統安全性更新。
  • 2023 年 2 月 16 日
    • 作業系統安全性更新。
  • 2023 年 1 月 31 日
    • JDBC 數據表的數據表類型現在預設為 EXTERNAL。
  • 2023 年 1 月 18 日
    • 作業系統安全性更新。
  • 2022 年 11 月 29 日
    • 已修正當所有欄位都保留為字串時,自動載入器中的 JSON 剖析問題(cloudFiles.inferColumnTypes 未設定或設定為 false),而 JSON 包含巢狀物件的問題。
    • 作業系統安全性更新。
  • 2022 年 11 月 15 日
    • 將 Apache commons-text 升級至 1.10.0。
    • 作業系統安全性更新。
    • 其他修復。
  • 2022 年 11 月 1 日
    • 已修正一個問題,當 Delta 數據表中有一個使用者定義的數據行名為 _change_type,並且在該數據表上未啟用 變更數據摘要 時,當執行 MERGE時,該數據行中的數據會錯誤地被填入 NULL 值。
    • 已修正自動載入器的問題,啟用 allowOverwrites 時,檔案可能會在相同的微批次中被重複複製。
    • [SPARK-40596] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
    • 作業系統安全性更新。
  • 2022 年 10 月 18 日
    • 作業系統安全性更新。
  • 2022 年 10 月 5 日
    • 其他修復。
    • 作業系統安全性更新。
  • 2022 年 9 月 22 日
    • 用戶可以設定 spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) 以重新啟用 ADLS Gen2 上的自動載入器內建清單。 內建清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。
    • [SPARK-40315] 為 ArrayBasedMapData 的常值新增 hashCode()
    • [SPARK-40089] 修正一些小數類型的排序
    • [SPARK-39887] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
  • 2022 年 9 月 6 日
    • [SPARK-40235] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理
    • [SPARK-35542] 修正:以 splitsArray、inputCols 和 outputCols 參數建立的多列資料欄位的分箱器,在儲存後無法被載入
    • [SPARK-40079] 新增空白輸入案例的 Imputer inputCols 驗證
  • 2022 年 8 月 24 日
    • [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以關聯 spark.sql.codegen.factoryMode
    • [SPARK-39962] 當群組屬性為空時套用投影
    • 作業系統安全性更新。
  • 2022 年 8 月 9 日
    • 作業系統安全性更新。
  • 2022 年 7 月 27 日
    • 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
    • [SPARK-39689] 在 CSV 資料來源中支援 2-字元lineSep
    • [SPARK-39575]ByteBuffer#rewindByteBuffer#get 之後新增 AvroDeserializer
    • [SPARK-37392] 修正了催化劑最佳化工具的效能錯誤。
    • 作業系統安全性更新。
  • 2022 年 7 月 13 日
    • [SPARK-39419] 當比較子傳回 Null 時,ArraySort 會擲回例外狀況。
    • 已停止自動載入器針對 Azure 上的目錄清單使用內建雲端 API。
    • 作業系統安全性更新。
  • 2022 年 7 月 5 日
    • 作業系統安全性更新。
    • 其他修復。
  • 2022 年 6 月 15 日
    • [SPARK-39283] 修正 TaskMemoryManagerUnsafeExternalSorter.SpillableIterator 之間的鎖死。
  • 2022 年 6 月 2 日
    • [SPARK-34554]copy() 中實作 ColumnarMap 方法。
    • 作業系統安全性更新。
  • 2022 年 5 月 18 日
    • 修正了自動載入器中,潛在的內建記憶體流失。
    • 將 AWS SDK 從 1.11.655 版升級為 1.11.678。
    • [SPARK-38918] 巢狀列修剪應該過濾掉不屬於當前關係的屬性。
    • [SPARK-39084] 使用 df.rdd.isEmpty() 在工作完成時停止迭代器來修正 TaskContext
    • 作業系統安全性更新。
  • 2022 年 4 月 19 日
    • 作業系統安全性更新。
    • 其他修復。
  • 2022 年 4 月 6 日
    • [SPARK-38631] 使用 Java 型實作在 Utils.unpack 解除壓縮。
    • 作業系統安全性更新。
  • 2022 年 3 月 22 日
    • 已將高並行叢集上啟用了資料表存取控制或憑證傳遞的筆記本的目前工作目錄,變更為使用者的主目錄。 先前,Active Directory 為 /databricks/driver
    • [SPARK-38437] 資料來源中日期時間的 Lenient 序列化
    • [SPARK-38180] 允許相互關聯的相等述詞中的安全向上轉換運算式
    • [SPARK-38155] 不允許具有不支援述詞之橫向子查詢中的相異彙總
    • [SPARK-27442] 在 parquet 中讀取或寫入資料時,移除了複選欄位。
  • 2022 年 3 月 14 日
    • [SPARK-38236] 建立/改變數據表中指定的絕對檔案路徑會被視為相對
    • [SPARK-34069] 如果本機屬性 SPARK_JOB_INTERRUPT_ON_CANCEL 設為 true,則中斷任務執行緒。
  • 2022 年 2 月 23 日
    • [SPARK-37859] 使用 Spark 3.1 使用 JDBC 建立的 SQL 數據表無法使用 Spark 3.2 讀取。
  • 2022 年 2 月 8 日
    • [SPARK-27442] 在 parquet 中讀取或寫入資料時,移除了複選欄位。
    • 作業系統安全性更新。
  • 2022 年 2 月 1 日
    • 作業系統安全性更新。
  • 2022 年 1 月 26 日
    • 已修正一個問題:在某些罕見情況下,Delta 資料表上的並發交易可能會以非序列化的順序完成提交。
    • 已修正啟用 ANSI SQL 方言時,OPTIMIZE 命令可能會失敗的問題。
  • 2022 年 1 月 19 日
    • 次要修正與安全性增強功能。
    • 作業系統安全性更新。
  • 2021 年 11 月 4 日
    • 修正了可能導致結構化串流失敗的問題 ArrayIndexOutOfBoundsException
    • 修正了可能會造成 java.io.IOException: No FileSystem for scheme 等 IOException 的查詢失敗,或可能會導致對 sparkContext.hadoopConfiguration 的修改在查詢中不生效的競爭條件。
    • 適用於 Delta Sharing 的 Apache Spark 連接器已升級至 0.2.0。
  • 2021 年 10 月 20 日
    • 將 BigQuery 連接器從 0.18.1 升級至 0.22.2。 這會新增對 BigNumeric 類型的支援。