Databricks Runtime 維護更新
本文列出支援的 Databricks Runtime 版本的維護更新。 若要將維護更新新增至現有叢集,請重新啟動叢集。 如需未支援的 Databricks Runtime 版本的維護更新,請參閱 Databricks Runtime 維護更新。
注意
分階段發行。 您的 Azure Databricks 帳戶可能要到初始發行日期後幾天才會更新。
Databricks Runtime 版本
依版本的維護更新:
- Databricks Runtime 15.4
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 15.4
請參閱 Databricks Runtime 15.4 LTS。
- 2024 年 11 月 5 日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-49867][SQL]在呼叫 GetColumnByOrdinal 時,改善索引超出界限時的錯誤訊息
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49829] 修改在資料串流聯結中將輸入新增至狀態存放區的優化 (正確性修正)
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
- [SPARK-49443][SQL][PYTHON]實作to_variant_object表示式,並讓schema_of_variant表達式列印 Variant 物件的 OBJECT
- [SPARK-49615] Bugfix:讓 ML 資料行架構驗證符合 spark 組態
spark.sql.caseSensitive
。
- 2024年10月22日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-49867][SQL]在呼叫 GetColumnByOrdinal 時,改善索引超出界限時的錯誤訊息
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49829] 修改在資料串流聯結中將輸入新增至狀態存放區的優化 (正確性修正)
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
- [SPARK-49443][SQL][PYTHON]實作to_variant_object表示式,並讓schema_of_variant表達式列印 Variant 物件的 OBJECT
- [SPARK-49615] Bugfix:讓 ML 資料行架構驗證符合 spark 組態
spark.sql.caseSensitive
。
- 2024年10月10日
- [SPARK-49743][SQL]在剪除 GetArrayStructFields 時,OptimizeCsvJsonExpr 不應該變更架構字段
- [SPARK-49688][CONNECT]修正中斷與執行計劃之間的數據競爭
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474][SS]分類 FlatMapGroupsWithState 使用者函式錯誤的 Error 類別
- [SPARK-49460][SQL]待處理:修正潛在的 NPE 風險
- 2024年9月25日
- [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- [SPARK-49492][CONNECT]在非使用中ExecutionHolder上嘗試重新附加
- [SPARK-49458][CONNECT][PYTHON]透過 ReattachExecute 提供伺服器端會話標識碼
- [SPARK-49017][SQL]使用多個參數時,Insert 語句會失敗
- [SPARK-49451] 允許parse_json中的重複索引鍵。
- 其他錯誤修正。
- 2024 年 9 月 17 日
- [SPARK-48463][ML] 讓 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支援巢狀輸入數據行
- [SPARK-49409][CONNECT]調整預設值 CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49526][CONNECT][HOTFIX-15.4.2] 支援 ArtifactManager 中的 Windows 樣式路徑
- 還原 “[SPARK-48482][PYTHON] dropDuplicates 和 dropDuplicatesWIthinWatermark 應該接受可變長度自變數”
- [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
- [SPARK-49366][CONNECT]將 Union 節點視為數據框架數據行解析中的分葉
- [SPARK-49018][SQL]修正approx_count_distinct無法正確使用定序
- [SPARK-49460][SQL]從 EmptyRelationExec 移除
cleanupResource()
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
- [SPARK-49336][CONNECT]截斷 protobuf 訊息時限制巢狀層級
- 2024 年 8 月 29 日
SHOW CREATE TABLE
陳述式的輸出現在包含具體化檢視或串流資料表上定義的任何資料列篩選或資料行遮罩。 請參閱 SHOW CREATE TABLE。 如需有關資料列篩選和資料行遮罩的詳細資訊,請參閱使用資料列篩選和資料行遮罩篩選敏感資料表資料。- 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 Unity 目錄共用存取模式的串流限制和需求。
- [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
- [SPARK-49074][SQL]使用
df.cache()
修正變化 - [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
- [SPARK-48955][SQL] 在 15.4 中包含 ArrayCompact 變更
- [SPARK-48937][SQL] 新增 StringToMap 字串運算式的定序支援
- [SPARK-48929] 修正檢視內部錯誤並清除剖析器例外狀況內容
- [SPARK-49125][SQL] 允許 CSV 寫入重複的資料行名稱
- [SPARK-48934][SS] 在 applyInPandasWithState 中設定逾時,Python 日期時間類型轉換不正確
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [SPARK-48981] 修正 pyspark 中 StringType 的 simpleString 方法,以進行定序
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-48896][SPARK-48909] [SPARK-48883] Backport spark ML 寫入器修正
- [SPARK-48725][SQL] 將 CollationAwareUTF8String.lowerCaseCodePoints 整合到字串運算式中
- [SPARK-48978][SQL] 在定序支援中實作 ASCII 快速路徑,以支援 UTF8_LCASE
- [SPARK-49047][PYTHON][CONNECT] 截斷訊息以進行記錄
- [SPARK-49146][SS] 將與附加模式串流查詢中遺漏的浮水印相關的判斷提示錯誤移至錯誤架構
- [SPARK-48977][SQL] 在 UTF8_LCASE 定序下最佳化字串搜尋
- [SPARK-48889][SS] testStream 在完成之前卸載狀態存放區
- [SPARK-48463] 讓 StringIndexer 支援巢狀輸入資料行
- [SPARK-48954] try_mod() 取代 try_remainder()
- 作業系統安全性更新。
Databricks Runtime 15.3
- 2024 年 11 月 5 日
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- [SPARK-49867][SQL]在呼叫 GetColumnByOrdinal 時,改善索引超出界限時的錯誤訊息
- [SPARK-48843][15.3,15.2] 使用 BindParameters 防止無限迴圈
- [SPARK-49829] 修改在資料串流聯結中將輸入新增至狀態存放區的優化 (正確性修正)
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
- 作業系統安全性更新。
- 2024年10月22日
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- [SPARK-49867][SQL]在呼叫 GetColumnByOrdinal 時,改善索引超出界限時的錯誤訊息
- [SPARK-48843][15.3,15.2] 使用 BindParameters 防止無限迴圈
- [SPARK-49829] 修改在資料串流聯結中將輸入新增至狀態存放區的優化 (正確性修正)
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
- 作業系統安全性更新。
- 2024年10月10日
- [SPARK-49688][CONNECT]修正中斷與執行計劃之間的數據競爭
- [SPARK-49743][SQL]在剪除 GetArrayStructFields 時,OptimizeCsvJsonExpr 不應該變更架構字段
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474][SS]分類 FlatMapGroupsWithState 使用者函式錯誤的 Error 類別
- 作業系統安全性更新。
- 2024年9月25日
- [SPARK-49492][CONNECT]在非使用中ExecutionHolder上嘗試重新附加
- [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- [SPARK-49458][CONNECT][PYTHON]透過 ReattachExecute 提供伺服器端會話標識碼
- [SPARK-48719][SQL]修正 當第一個參數為 null 時 , 的
RegrIntercept
計算錯誤RegrSlope
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT]截斷 protobuf 訊息時限制巢狀層級
- [SPARK-49526][CONNECT][15.3.5] 支援 ArtifactManager 中的 Windows 樣式路徑
- [SPARK-49366][CONNECT]將 Union 節點視為數據框架數據行解析中的分葉
- [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
- [SPARK-49409][CONNECT]調整預設值 CONNECT_SESSION_PLAN_CACHE_SIZE
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
- [SPARK-48862][PYTHON][CONNECT] 避免在未啟用 INFO 層級時呼叫
_proto_to_string
- [SPARK-49146][SS] 將與附加模式串流查詢中遺漏的浮水印相關的判斷提示錯誤移至錯誤架構
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
- [SPARK-48706][PYTHON] 高階函式的 Python UDF 不應擲回內部錯誤
- [SPARK-48954] try_mod() 取代 try_remainder()
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-49047][PYTHON][CONNECT] 截斷訊息以進行記錄
- [SPARK-48740][SQL] 早期攔截遺漏的窗口規格錯誤
- 2024 年 8 月 1 日
- [重大變更] 在 Databricks Runtime 15.3 和更新版本中,呼叫任何 Python 使用者定義函式 (UDF)、使用者定義彙總函式 (UDAF),或使用者定義資料表函式 (UDTF),以使用
VARIANT
類型作為引數或傳回值,就會擲回例外狀況。 此變更是為了防止因為其中一個函式傳回的值無效而可能發生的問題。 若要深入了解VARIANT
類型,請參閱使用 VARIANT 來儲存半結構化資料。 - 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱支援的 Spark 組態參數。
- 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 Unity 目錄共用存取模式的串流限制和需求。
SHOW CREATE TABLE
陳述式的輸出現在包含具體化檢視或串流資料表上定義的任何資料列篩選或資料行遮罩。 請參閱 SHOW CREATE TABLE。 如需有關資料列篩選和資料行遮罩的詳細資訊,請參閱使用資料列篩選和資料行遮罩篩選敏感資料表資料。- [SPARK-46957][CORE] 解除委任已移轉的隨機檔案應該能夠從執行程式清除
- [SPARK-48648][PYTHON][CONNECT] 將 SparkConnectClient.tags 正確設定為 threadlocal
- [SPARK-48896][SPARK-48909] [SPARK-48883] Backport spark ML 寫入器修正
- [SPARK-48713][SQL] 當 baseObject 是位元組陣列時,新增 UnsafeRow.pointTo 的索引範圍檢查
- [SPARK-48834][SQL] 在查詢編譯期間停用 Python 純量 UDF、UDDF、UDAF 的變數輸入/輸出
- [SPARK-48934][SS] 在 applyInPandasWithState 中設定逾時,Python 日期時間類型轉換不正確
- [SPARK-48705][PYTHON] 以 pyspark 開頭時明確使用 worker_main
- [SPARK-48544][SQL] 降低空白 TreeNode BitSets 的記憶體壓力
- [SPARK-48889][SS] testStream 在完成之前卸載狀態存放區
- [SPARK-49054][SQL] 資料行預設值應該支援 current_* 函式
- [SPARK-48653][PYTHON] 修正無效的 Python 資料源錯誤類別參考
- [SPARK-48463] 讓 StringIndexer 支援巢狀輸入資料行
- [SPARK-48810][CONNECT] 工作階段 API 現在為等冪,如果伺服器已經關閉工作階段,則不會失敗
- [SPARK-48873][SQL] 在 JSON 剖析器中使用 UnsafeRow。
- 作業系統安全性更新。
- [重大變更] 在 Databricks Runtime 15.3 和更新版本中,呼叫任何 Python 使用者定義函式 (UDF)、使用者定義彙總函式 (UDAF),或使用者定義資料表函式 (UDTF),以使用
- 2024 年 7 月 11 日
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()
在 DataFrame 的存留期儲存體保存資料表狀態。 - Snowflake JDBC 驅動程式已更新為 3.16.1 版。
- 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
- 若要在讀取資料時忽略無效的資料分割,檔案型資料來源,例如 Parquet、ORC、CSV 或 JSON,可以將 ignoreInvalidPartitionPaths 資料來源選項設定為 true。 例如:spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`。 您也可使用 SQL 組態 spark.sql.files.ignoreInvalidPartitionPaths。 不過,資料來源選項的優先順序高於 SQL 組態。 預設的設定為 false。
- [SPARK-48100][SQL] 修正略過結構描述中未選取的巢狀結構欄位的問題
- [SPARK-47463][SQL] 使用 V2Predicate 來包裝具有布林值傳回類型的運算式
- [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
- [SPARK-48475][PYTHON]在 PySpark 中最佳化 _get_jvm_function。
- [SPARK-48286] 修正具有存在預設運算式的資料行分析 - 新增使用者面臨錯誤
- [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- 還原「[SPARK-47406][SQL] 處理 MYSQLDialect 中的 TIMESTAMP 和 DATETIME」
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- [SPARK-48503][14.3-15.3][SQL] 修正在未正確允許的非對等資料行上使用 group-by 的無效純量子查詢
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- [SPARK-48252][SQL] 必要時更新 CommonExpressionRef
- [SPARK-48273][master][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- [SPARK-48566][PYTHON] 修正 UDTF analyze() 同時使用 select 和 partitionColumns 時,分割區索引不正確的錯誤
- [SPARK-48556][SQL] 修正指向 UNSUPPORTED_GROUPING_EXPRESSION 的錯誤訊息
- 作業系統安全性更新。
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
Databricks Runtime 15.2
- 2024 年 11 月 5 日
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- [SPARK-48843][15.3,15.2] 使用 BindParameters 防止無限迴圈
- [SPARK-49829] 修改在資料串流聯結中將輸入新增至狀態存放區的優化 (正確性修正)
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
- 作業系統安全性更新。
- 2024年10月22日
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- [SPARK-48843][15.3,15.2] 使用 BindParameters 防止無限迴圈
- [SPARK-49829] 修改在資料串流聯結中將輸入新增至狀態存放區的優化 (正確性修正)
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
- 作業系統安全性更新。
- 2024年10月10日
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474][SS]分類 FlatMapGroupsWithState 使用者函式錯誤的 Error 類別
- [SPARK-49743][SQL]在剪除 GetArrayStructFields 時,OptimizeCsvJsonExpr 不應該變更架構字段
- [SPARK-49688][CONNECT]修正中斷與執行計劃之間的數據競爭
- 作業系統安全性更新。
- 2024年9月25日
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- [SPARK-48719][SQL]修正第一個參數為 Null 時 RegrSlope 和 RegrIntercept 的計算錯誤
- [SPARK-49458][CONNECT][PYTHON]透過 ReattachExecute 提供伺服器端會話標識碼
- [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
- [SPARK-49492][CONNECT]在非使用中ExecutionHolder上嘗試重新附加
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT]截斷 protobuf 訊息時限制巢狀層級
- [SPARK-49526][CONNECT]支援 ArtifactManager 中的 Windows 樣式路徑
- [SPARK-49366][CONNECT]將 Union 節點視為數據框架數據行解析中的分葉
- [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
- [SPARK-49409][CONNECT]調整預設值 CONNECT_SESSION_PLAN_CACHE_SIZE
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- [SPARK-48862][PYTHON][CONNECT] 避免在未啟用 INFO 層級時呼叫
_proto_to_string
- [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
- [SPARK-49146][SS] 將與附加模式串流查詢中遺漏的浮水印相關的判斷提示錯誤移至錯誤架構
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
- [SPARK-48050][SS] 查詢開始時的記錄邏輯計劃
- [SPARK-48706][PYTHON] 高階函式的 Python UDF 不應擲回內部錯誤
- [SPARK-48740][SQL] 早期攔截遺漏的窗口規格錯誤
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-49047][PYTHON][CONNECT] 截斷訊息以進行記錄
- 2024 年 8 月 1 日
- 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱支援的 Spark 組態參數。
- 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 Unity 目錄共用存取模式的串流限制和需求。
SHOW CREATE TABLE
陳述式的輸出現在包含具體化檢視或串流資料表上定義的任何資料列篩選或資料行遮罩。 請參閱 SHOW CREATE TABLE。 如需有關資料列篩選和資料行遮罩的詳細資訊,請參閱使用資料列篩選和資料行遮罩篩選敏感資料表資料。- [SPARK-48705][PYTHON] 以 pyspark 開頭時明確使用 worker_main
- [SPARK-48047][SQL] 降低空白 TreeNode 標籤的記憶體壓力
- [SPARK-48810][CONNECT] 工作階段 API 現在為等冪,如果伺服器已經關閉工作階段,則不會失敗
- [SPARK-48873][SQL] 在 JSON 剖析器中使用 UnsafeRow。
- [SPARK-46957][CORE] 解除委任已移轉的隨機檔案應該能夠從執行程式清除
- [SPARK-48889][SS] testStream 在完成之前卸載狀態存放區
- [SPARK-48713][SQL] 當 baseObject 是位元組陣列時,新增 UnsafeRow.pointTo 的索引範圍檢查
- [SPARK-48896][SPARK-48909] [SPARK-48883] Backport spark ML 寫入器修正
- [SPARK-48544][SQL] 降低空白 TreeNode BitSets 的記憶體壓力
- [SPARK-48934][SS] 在 applyInPandasWithState 中設定逾時,Python 日期時間類型轉換不正確
- [SPARK-48463] 讓 StringIndexer 支援巢狀輸入資料行
- 作業系統安全性更新。
- 2024 年 7 月 11 日
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()
在 DataFrame 的存留期儲存體保存資料表狀態。 - Snowflake JDBC 驅動程式已更新為 3.16.1 版。
- 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
- 在無伺服器筆記本和作業上,預設會啟用 ANSI SQL 模式並支援簡短名稱
- 若要在讀取資料時忽略無效的資料分割,檔案型資料來源,例如 Parquet、ORC、CSV 或 JSON,可以將 ignoreInvalidPartitionPaths 資料來源選項設定為 true。 例如:spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`。 您也可使用 SQL 組態 spark.sql.files.ignoreInvalidPartitionPaths。 不過,資料來源選項的優先順序高於 SQL 組態。 預設的設定為 false。
- [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
- [SPARK-48100][SQL] 修正略過結構描述中未選取的巢狀結構欄位的問題
- [SPARK-48286] 修正具有存在預設運算式的資料行分析 - 新增使用者面臨錯誤
- [SPARK-48294][SQL] 處理 nestedTypeMissingElementTypeError 中的小寫
- [SPARK-48556][SQL] 修正指向 UNSUPPORTED_GROUPING_EXPRESSION 的錯誤訊息
- [SPARK-48648][PYTHON][CONNECT] 將 SparkConnectClient.tags 正確設定為 threadlocal
- [SPARK-48503][SQL] 修正在未正確允許的非對等資料行上使用 group-by 的無效純量子查詢
- [SPARK-48252][SQL] 必要時更新 CommonExpressionRef
- [SPARK-48475][PYTHON]在 PySpark 中最佳化 _get_jvm_function。
- [SPARK-48566][PYTHON] 修正 UDTF analyze() 同時使用 select 和 partitionColumns 時,分割區索引不正確的錯誤
- [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-47463][SQL] 使用 V2Predicate 來包裝具有布林值傳回類型的運算式
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- 作業系統安全性更新。
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
- 2024 年 6 月 17 日
applyInPandasWithState()
可在共用叢集上使用。- 修正了使用 Photon TopK 的排名視窗最佳化錯誤地處理結構分割區的錯誤。
- 修正了 try_divide() 函式中的錯誤,其中包含小數的輸入會導致非預期的例外狀況。
- [SPARK-48197][SQL] 避免無效匿名函式的判斷提示錯誤
- [SPARK-48276][PYTHON][CONNECT] 新增
SQLExpression
的遺漏__repr__
方法 - [SPARK-48014][SQL] 將 EvaluatePython 中的 makeFromJava 錯誤變更為面向使用者的錯誤
- [SPARK-48016][SQL] 修正使用小數時 try_divide 函式中的錯誤
- [SPARK-47986][CONNECT][PYTHON] 伺服器關閉預設工作階段時,無法建立新的工作階段
- [SPARK-48173][SQL] CheckAnalysis 應該會看到整個查詢計劃
- [SPARK-48056][CONNECT][PYTHON] 如果引發 SESSION_NOT_FOUND 錯誤且未收到任何部分回應,請重新執行計劃
- [SPARK-48172][SQL] 修正 JDBCDialects 向後移植至 15.2 中的逸出問題
- [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- [SPARK-48288] 為連接器轉換運算式新增來源資料類型
- [SPARK-48310][PYTHON][CONNECT] 快取的屬性必須傳回復本
- [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
- [SPARK-47986][CONNECT][PYTHON] 伺服器關閉預設工作階段時,無法建立新的工作階段
- 還原「[SPARK-47406][SQL] 處理 MYSQLDialect 中的 TIMESTAMP 和 DATETIME」
- [SPARK-47994][SQL] 修正 SQLServer 中 CASE WHEN 資料行篩選下推的錯誤
- [SPARK-47764][CORE][SQL] 根據 ShuffleCleanupMode 清除隨機顯示相依性
- [SPARK-47921][CONNECT] 修正 ExecuteHolder 中的 ExecuteJobTag 建立
- [SPARK-48010][SQL] 避免在 resolveExpression 中重複呼叫 conf.resolver
- [SPARK-48146][SQL] 修正 With 運算式子系判斷提示中的彙總函式
- [SPARK-48180][SQL] 改善在使用 TABLE arg 的 UDTF 呼叫忘記在多個 PARTITION/ORDER BY exprs 周圍加上括弧時出現的錯誤
- 作業系統安全性更新。
Databricks Runtime 14.3
請參閱 Databricks Runtime 14.3 LTS。
- 2024 年 11 月 5 日
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [SPARK-49829] 修改在資料串流聯結中將輸入新增至狀態存放區的優化 (正確性修正)
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326][SS]分類 Foreach 接收使用者函式錯誤的 Error 類別
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- 作業系統安全性更新。
- 2024年10月22日
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326][SS]分類 Foreach 接收使用者函式錯誤的 Error 類別
- [SPARK-49829] 修改在資料串流聯結中將輸入新增至狀態存放區的優化 (正確性修正)
- 作業系統安全性更新。
- 2024年10月10日
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474][SS]分類 FlatMapGroupsWithState 使用者函式錯誤的 Error 類別
- [SPARK-49743][SQL]在剪除 GetArrayStructFields 時,OptimizeCsvJsonExpr 不應該變更架構字段
- [SPARK-49688][CONNECT]修正中斷與執行計劃之間的數據競爭
- 2024年9月25日
- [SPARK-48810][CONNECT] 工作階段 API 現在為等冪,如果伺服器已經關閉工作階段,則不會失敗
- [SPARK-48719][SQL]修正 'RegrS... 的計算錯誤...
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
- [SPARK-49492][CONNECT]在非使用中ExecutionHolder上嘗試重新附加
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT]截斷 protobuf 訊息時限制巢狀層級
- [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
- [SPARK-48463][ML] 讓 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支援巢狀輸入數據行
- [SPARK-49526][CONNECT]支援 ArtifactManager 中的 Windows 樣式路徑
- [SPARK-49409][CONNECT]調整預設值 CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-49366][CONNECT]將 Union 節點視為數據框架數據行解析中的分葉
- 2024 年 8 月 29 日
- [SPARK-49146][SS] 將與附加模式串流查詢中遺漏的浮水印相關的判斷提示錯誤移至錯誤架構
- [SPARK-48862][PYTHON][CONNECT] 避免在未啟用 INFO 層級時呼叫
_proto_to_string
- [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
- [SPARK-48706][PYTHON] 高階函式的 Python UDF 不應擲回內部錯誤
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-48934][SS] 在 applyInPandasWithState 中設定逾時,Python 日期時間類型轉換不正確
- 2024 年 8 月 1 日
- 此版本包含 Spark Java 介面中
ColumnVector
和ColumnarArray
類別的錯誤修正。 在此修正之前,當其中一個類別的執行個體包含null
值時,ArrayIndexOutOfBoundsException
可能會擲回或傳回不正確的資料。 - 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱支援的 Spark 組態參數。
- 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 Unity 目錄共用存取模式的串流限制和需求。
SHOW CREATE TABLE
陳述式的輸出現在包含具體化檢視或串流資料表上定義的任何資料列篩選或資料行遮罩。 請參閱 SHOW CREATE TABLE。 如需有關資料列篩選和資料行遮罩的詳細資訊,請參閱使用資料列篩選和資料行遮罩篩選敏感資料表資料。- [SPARK-48896][SPARK-48909] [SPARK-48883] Backport spark ML 寫入器修正
- [SPARK-48889][SS] testStream 在完成之前卸載狀態存放區
- [SPARK-48705][PYTHON] 以 pyspark 開頭時明確使用 worker_main
- [SPARK-48047][SQL] 降低空白 TreeNode 標籤的記憶體壓力
- [SPARK-48544][SQL] 降低空白 TreeNode BitSets 的記憶體壓力
- [SPARK-46957][CORE] 解除委任已移轉的隨機檔案應該能夠從執行程式清除
- [SPARK-48463] 讓 StringIndexer 支援巢狀輸入資料行
- [SPARK-47202][PYTHON] 修正使用 tzinfo 的錯字中斷日期時間
- [SPARK-47713][SQL][CONNECT] 修正自我聯結失敗
- 作業系統安全性更新。
- 此版本包含 Spark Java 介面中
- 2024 年 7 月 11 日
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()
在 DataFrame 的存留期儲存體保存資料表狀態。 - Snowflake JDBC 驅動程式已更新為 3.16.1 版。
- 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
- 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱支援的 Spark 組態參數。
- 若要在讀取資料時忽略無效的資料分割,檔案型資料來源,例如 Parquet、ORC、CSV 或 JSON,可以將 ignoreInvalidPartitionPaths 資料來源選項設定為 true。 例如:spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)。 您也可使用 SQL 組態 spark.sql.files.ignoreInvalidPartitionPaths。 不過,資料來源選項的優先順序高於 SQL 組態。 預設的設定為 false。
- [SPARK-48648][PYTHON][CONNECT] 將 SparkConnectClient.tags 正確設定為 threadlocal
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- [SPARK-48503][SQL] 修正在未正確允許的非對等資料行上使用 group-by 的無效純量子查詢
- [SPARK-48100][SQL] 修正略過結構描述中未選取的巢狀結構欄位的問題
- [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- [SPARK-48252][SQL] 必要時更新 CommonExpressionRef
- [SPARK-48475][PYTHON]在 PySpark 中最佳化 _get_jvm_function。
- [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
- 作業系統安全性更新。
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
- 2024 年 6 月 17 日
applyInPandasWithState()
可在共用叢集上使用。- 修正了使用 Photon TopK 的排名視窗最佳化錯誤地處理結構分割區的錯誤。
- [SPARK-48310][PYTHON][CONNECT] 快取的屬性必須傳回復本
- [SPARK-48276][PYTHON][CONNECT] 新增
SQLExpression
的遺漏__repr__
方法 - [SPARK-48294][SQL] 處理 nestedTypeMissingElementTypeError 中的小寫
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- 現在支援 (行為變更)
dbutils.widgets.getAll()
以取得筆記本中的所有小工具值。 - 修正了 try_divide() 函式中的錯誤,其中包含小數的輸入會導致非預期的例外狀況。
- [SPARK-48056][CONNECT][PYTHON] 如果引發 SESSION_NOT_FOUND 錯誤且未收到任何部分回應,請重新執行計劃
- [SPARK-48146][SQL] 修正 With 運算式子系判斷提示中的彙總函式
- [SPARK-47986][CONNECT][PYTHON] 伺服器關閉預設工作階段時,無法建立新的工作階段
- [SPARK-48180][SQL] 改善在使用 TABLE arg 的 UDTF 呼叫忘記在多個 PARTITION/ORDER BY exprs 周圍加上括弧時出現的錯誤
- [SPARK-48016][SQL] 修正使用小數時 try_divide 函式中的錯誤
- [SPARK-48197][SQL] 避免無效匿名函式的判斷提示錯誤
- [SPARK-47994][SQL] 修正 SQLServer 中 CASE WHEN 資料行篩選下推的錯誤
- [SPARK-48173][SQL] CheckAnalysis 應該會看到整個查詢計劃
- [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- 作業系統安全性更新。
- 現在支援 (行為變更)
- 2024 年 5 月 9 日
- (行為變更)
applyInPandas
和mapInPandas
UDF 類型現在支援執行 Databricks Runtime 14.3 和更新版本的共用存取模式計算。 - [SPARK-47739][SQL] 註冊邏輯 avro 類型
- [SPARK-47941] [SS] [Connect] 將 ForeachBatch 背景工作角色初始化錯誤傳播給 PySpark 的使用者
- [SPARK-48010][SQL] 避免在 resolveExpression 中重複呼叫 conf.resolver
- [SPARK-48044][PYTHON][CONNECT] 緩存
DataFrame.isStreaming
- [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
- [SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷為 Mapype 的聽寫,以允許建立 DataFrame
- [SPARK-47819][CONNECT][Cherry-pick-14.3] 使用非同步回呼來執行清除
- [SPARK-47764][CORE][SQL] 根據 ShuffleCleanupMode 清除隨機顯示相依性
- [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
- [SPARK-47839][SQL] 修正 RewriteWithExpression 中的彙總錯誤
- [SPARK-47371] [SQL] XML:忽略 CDATA 中找到的資料列標籤
- [SPARK-47895][SQL] 依全部分組應該是等冪的
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- 作業系統安全性更新。
- (行為變更)
- 2024 年 4 月 25 日
- [SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷
dict
為MapType
,以允許建立 DataFrame - [SPARK-47694][CONNECT] 在用戶端上設定訊息大小上限
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] 使用快取的結構描述驗證資料行名稱
- [SPARK-47862][PYTHON][CONNECT] 修正 proto 檔案的產生
- 還原「[SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷
dict
為MapType
,以允許建立 DataFrame」 - [SPARK-47704][SQL] 啟用 spark.sql.json.enablePartialResults 時,JSON 剖析會失敗並出現 “java.lang.ClassCastException”
- [SPARK-47812][CONNECT] 支援 ForEachBatch 背景工作角色的 SparkSession 序列化
- [SPARK-47818][CONNECT][Cherry-pick-14.3] 在 SparkConnectPlanner 中引進計畫快取,以改善分析要求的效能
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
失敗且計畫無效 - 作業系統安全性更新。
- [SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷
- 2024 年 4 月 11 日
- (行為變更) 為了確保跨計算類型的行為一致,共用叢集上的 PySpark UDF 現在符合無隔離和指派叢集上的 UDF 行為。 此更新包含下列可能會中斷現有程式碼的變更:
- 具有
string
傳回型別的 UDF 不再隱含地將非string
值轉換成string
值。 先前,不論傳回值的實際資料類型為何,具有str
傳回型別的 UDF 都會使用str()
函式包裝傳回值。 - 具有
timestamp
傳回型別的 UDF 不再以隱含地將轉換套用至timezone
的timestamp
。 - Spark 叢集設定
spark.databricks.sql.externalUDF.*
不再套用至共用叢集上的 PySpark UDF。 - Spark 叢集設定
spark.databricks.safespark.externalUDF.plan.limit
不再影響 PySpark UDF,從而移除了 PySpark UDF 的每個查詢 5 個 UDF 的公開預覽限制。 - Spark 叢集設定
spark.databricks.safespark.sandbox.size.default.mib
不再套用至共用叢集上的 PySpark UDF。 相反地,將使用系統上的可用記憶體。 若要限制 PySpark UDF 的記憶體,請使用最小值為100m
的spark.databricks.pyspark.udf.isolation.memoryLimit
。
- 具有
- 現在支援將
TimestampNTZ
資料類型用作具有液態叢集的叢集資料行。 請參閱<針對差異資料表使用液態叢集>。 - [SPARK-47511][SQL] 透過重新指派識別碼來標準化 With 運算式
- [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
- [SPARK-46990][SQL] 修正載入事件中樞發出的空白 Avro 檔案
- [SPARK-47638][PS][CONNECT] 略過 PS 中的資料行名稱驗證
- 作業系統安全性更新。
- (行為變更) 為了確保跨計算類型的行為一致,共用叢集上的 PySpark UDF 現在符合無隔離和指派叢集上的 UDF 行為。 此更新包含下列可能會中斷現有程式碼的變更:
- 2024 年 3 月 14 日
- [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 協助程式函式
- [SPARK-47145][SQL] 將資料表識別碼傳遞給 V2 策略的資料列資料來源掃描執行程式。
- [SPARK-47044][SQL] 新增 JDBC 外部資料來源的已執行查詢,以說明輸出
- [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
- [SPARK-47070] 修正子查詢重寫之後無效的彙總
- [SPARK-47121][CORE] 避免在 StandaloneSchedulerBackend 關機期間發生 RejectedExecutionExceptions
- 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
- [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier 應該在運算式樹狀架構中包含其他運算式
- [SPARK-47129][CONNECT][SQL] 正確設定
ResolveRelations
快取連線計劃 - [SPARK-47241][SQL] 修正 ExtractGenerator 的規則順序問題
- [SPARK-47035][SS][CONNECT] 用戶端接聽程式的通訊協定
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 修正了以下問題:在 MERGE 命令中使用本地集合作為來源,可能會導致操作計量 numSourceRows 報告的正確行數加倍。
- 建立具有已定義位置的結構描述現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 權限。
- [SPARK-47071][SQL] 如果包含特殊運算式,則內嵌 With 運算式
- [SPARK-47059][SQL] 附加 ALTER COLUMN v1 命令的錯誤內容
- [SPARK-46993][SQL] 修正工作階段變數的常數折疊
- 作業系統安全性更新。
- 2024 年 1 月 3 日
- [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
- [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
- [SPARK-46954] XML:使用 BufferedReader 包裝 InputStreamReader。
- [SPARK-46655] 略過
DataFrame
方法中的查詢內容攔截。 - [SPARK-44815] 快取 df.schema 以避免額外的 RPC。
- [SPARK-46952] XML:限制損毀記錄的大小。
- [SPARK-46794] 從 LogicalRDD 條件約束移除子查詢。
- [SPARK-46736] 保留 protobuf 連接器中的空白訊息欄位。
- [SPARK-45182] 在重試由總和檢查碼決定的父不確定階段之後,略過舊階段的工作完成。
- [SPARK-46414] 使用 prependBaseUri 來轉譯 javascript 匯入。
- [SPARK-46383] 藉由減少
TaskInfo.accumulables()
的生命週期來減少驅動程式堆積使用量。 - [SPARK-46861] 避免 DAGScheduler 中的鎖死。
- [SPARK-46954] XML:最佳化結構描述索引查閱。
- [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計畫標準化時失敗。
- [SPARK-46644] 將 SQLMetric 中的新增和合併變更為使用 isZero。
- [SPARK-46731] 依狀態資料來源管理狀態存放區提供者執行個體 - 讀取器。
- [SPARK-46677] 修正
dataframe["*"]
解析度。 - [SPARK-46610] 當選項中沒有索引鍵的值時,建立資料表應該擲回例外狀況。
- [SPARK-46941] 若包含 SizeBasedWindowFunction,則無法針對 top-k 計算插入視窗群組限制節點。
- [SPARK-45433] 修正時間戳記與指定的 timestampFormat 不符時的 CSV/JSON 結構描述推斷。
- [SPARK-46930] 新增對 Avro 中等位型別欄位的自訂前置詞支援。
- [SPARK-46227] 向後移植至 14.3。
- [SPARK-46822] 在 jdbc 中將 jdbc 類型轉型為催化劑類型時,尊重 spark.sql.legacy.charVarcharAsString。
- 作業系統安全性更新。
Databricks Runtime 14.1
- 2024 年 11 月 5 日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- 2024年10月22日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- 2024年10月10日
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474][SS]分類 FlatMapGroupsWithState 使用者函式錯誤的 Error 類別
- [SPARK-49743][SQL]在剪除 GetArrayStructFields 時,OptimizeCsvJsonExpr 不應該變更架構字段
- 作業系統安全性更新。
- 2024年9月25日
- [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
- [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
- [SPARK-48719][SQL]修正 'RegrS... 的計算錯誤...
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT]支援 ArtifactManager 中的 Windows 樣式路徑
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
- 2024 年 8 月 14 日
- [SPARK-48706][PYTHON] 高階函式的 Python UDF 不應擲回內部錯誤
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-48050][SS] 查詢開始時的記錄邏輯計劃
- 2024 年 8 月 1 日
- 此版本包含 Spark Java 介面中
ColumnVector
和ColumnarArray
類別的錯誤修正。 在此修正之前,當其中一個類別的執行個體包含null
值時,ArrayIndexOutOfBoundsException
可能會擲回或傳回不正確的資料。 SHOW CREATE TABLE
陳述式的輸出現在包含具體化檢視或串流資料表上定義的任何資料列篩選或資料行遮罩。 請參閱 SHOW CREATE TABLE。 如需有關資料列篩選和資料行遮罩的詳細資訊,請參閱使用資料列篩選和資料行遮罩篩選敏感資料表資料。- [SPARK-48705][PYTHON] 以 pyspark 開頭時明確使用 worker_main
- [SPARK-47202][PYTHON] 修正使用 tzinfo 的錯字中斷日期時間
- 作業系統安全性更新。
- 此版本包含 Spark Java 介面中
- 2024 年 7 月 11 日
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()
在 DataFrame 的存留期儲存體保存資料表狀態。 - 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
- [SPARK-48475][PYTHON]在 PySpark 中最佳化 _get_jvm_function。
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
- [SPARK-48503][SQL] 修正在未正確允許的非對等資料行上使用 group-by 的無效純量子查詢
- [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- [SPARK-48100][SQL] 修正略過結構描述中未選取的巢狀結構欄位的問題
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- 作業系統安全性更新。
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
- 2024 年 6 月 17 日
- 修正了使用 Photon TopK 的排名視窗最佳化錯誤地處理結構分割區的錯誤。
- [SPARK-48276][PYTHON][CONNECT] 新增
SQLExpression
的遺漏__repr__
方法 - [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- 現在支援 (行為變更)
dbutils.widgets.getAll()
以取得筆記本中的所有小工具值。 - [SPARK-47994][SQL] 修正 SQLServer 中 CASE WHEN 資料行篩選下推的錯誤
- [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- [SPARK-48173][SQL] CheckAnalysis 應該會看到整個查詢計劃
- 作業系統安全性更新。
- 現在支援 (行為變更)
- 2024 年 5 月 9 日
- [SPARK-47371] [SQL] XML:忽略 CDATA 中找到的資料列標籤
- [SPARK-47895][SQL] 依全部分組應該是等冪的
- [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
- [SPARK-48044][PYTHON][CONNECT] 緩存
DataFrame.isStreaming
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- 作業系統安全性更新。
- 2024 年 4 月 25 日
- [SPARK-47704][SQL] 啟用 spark.sql.json.enablePartialResults 時,JSON 剖析會失敗並出現 “java.lang.ClassCastException”
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
失敗且計畫無效 - 作業系統安全性更新。
- 2024 年 4 月 11 日
- [SPARK-47638][PS][CONNECT] 略過 PS 中的資料行名稱驗證
- [SPARK-38708][SQL] 針對 Hive 3.1,將 Hive 中繼存放區用戶端升級至 3.1.3
- [SPARK-47309][SQL][XML] 新增結構描述推斷單元測試
- [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
- [SPARK-46990][SQL] 修正載入事件中樞發出的空白 Avro 檔案
- 作業系統安全性更新。
- 2024 年 4 月 1 日
- [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 的 isStreaming 旗標
- [SPARK-47218][SQL] XML:略過 XML 權杖化工具中已加上註解的資料列標記
- [SPARK-47300][SQL]
quoteIfNeeded
應引用以數位開頭的識別碼 - [SPARK-47368][SQL] 移除 ParquetRowConverter 中的 inferTimestampNTZ 設定檢查
- [SPARK-47070] 修正子查詢重寫之後無效的彙總
- [SPARK-47322][PYTHON][CONNECT] 讓
withColumnsRenamed
資料行名稱重複處理與withColumnRenamed
保持一致 - [SPARK-47300] DecomposerSuite 的修正
- [SPARK-47218] [SQL] XML:已將 SchemaOfXml 變更為在 DROPMALFORMED 模式下失敗
- [SPARK-47385] 修正具有 Option 輸入的 Tuple 編碼器。
- 作業系統安全性更新。
- 2024 年 3 月 14 日
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 協助程式函式
- [SPARK-47145][SQL] 將資料表識別碼傳遞給 V2 策略的資料列資料來源掃描執行程式。
- [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
- [SPARK-47129][CONNECT][SQL] 正確設定
ResolveRelations
快取連線計劃 - 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
- [SPARK-47044][SQL] 新增 JDBC 外部資料來源的已執行查詢,以說明輸出
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 修正了以下問題:在 MERGE 命令中使用本地集合作為來源,可能會導致操作計量 numSourceRows 報告的正確行數加倍。
- 建立具有已定義位置的結構描述現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 權限。
- 您現在可以使用自動換片器、read_files、COPY INTO、DLT 和 DBSQL 來內嵌 XML 檔案。 XML 檔案支援可自動推斷和演進結構描述、使用 XSD 來解救類型不符的資料、使用 XSD 驗證 XML、支援 sql 運算式,例如 from_xml、schema_of_xml 和 to_xml。 如需詳細資訊,請參閱 XML 檔案支援。 如果您先前曾使用外部 spark-xml 套件,請參閱此處以取得移轉指引。
- [SPARK-46248][SQL]XML:支援 ignoreCorruptFiles 和 ignoreMissingFiles 選項
- [SPARK-47059][SQL] 附加 ALTER COLUMN v1 命令的錯誤內容
- [SPARK-46954][SQL] XML:使用 BufferedReader 包裝 InputStreamReader
- [SPARK-46954][SQL] XML:最佳化結構描述索引查閱
- [SPARK-46630][SQL]XML:在寫入時驗證 XML 元素名稱
- 作業系統安全性更新。
- 2024 年 2 月 8 日
- 不支援 Unity 目錄具體化檢視上的變更資料摘要 (CDF) 查詢,並且嘗試使用 Unity 目錄具體化檢視執行 CDF 查詢會傳回錯誤。 Unity 目錄串流資料表支援 Databricks Runtime 14.1 和更新版本中非
APPLY CHANGES
資料表的 CDF 查詢。 Databricks Runtime 14.0 和更早版本中的 Unity 目錄串流資料表不支援 CDF 查詢。 - [SPARK-46952] XML:限制損毀記錄的大小。
- [SPARK-45182] 在重試由總和檢查碼決定的父不確定階段之後,略過舊階段的工作完成。
- [SPARK-46794] 從 LogicalRDD 條件約束移除子查詢。
- [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
- [SPARK-46861] 避免 DAGScheduler 中的鎖死。
- [SPARK-45582] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體。
- [SPARK-46930] 新增對 Avro 中等位型別欄位的自訂前置詞支援。
- [SPARK-46941] 若包含 SizeBasedWindowFunction,則無法針對 top-k 計算插入視窗群組限制節點。
- [SPARK-46396] 時間戳記推斷不應該擲回例外狀況。
- [SPARK-46822] 在 jdbc 中將 jdbc 類型轉型為催化劑類型時,尊重 spark.sql.legacy.charVarcharAsString。
- [SPARK-45957] 避免產生非可執行命令的執行計畫。
- 作業系統安全性更新。
- 不支援 Unity 目錄具體化檢視上的變更資料摘要 (CDF) 查詢,並且嘗試使用 Unity 目錄具體化檢視執行 CDF 查詢會傳回錯誤。 Unity 目錄串流資料表支援 Databricks Runtime 14.1 和更新版本中非
- 2024 年 1 月 31 日
- [SPARK-46684] 修正 CoGroup.applyInPandas/Arrow 以正確傳遞引數。
- [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
- [SPARK-45498] 後續操作:略過舊階段嘗試中的工作完成。
- [SPARK-46382] XML:更新
ignoreSurroundingSpaces
的文件。 - [SPARK-46383] 藉由減少
TaskInfo.accumulables()
的生命週期來減少驅動程式堆積使用量。 - [SPARK-46382] XML:預設 ignoreSurroundingSpaces 為 true。
- [SPARK-46677] 修正
dataframe["*"]
解析度。 - [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計畫標準化時失敗。
- [SPARK-46633] 修正 Avro 讀取器以處理長度為零的區塊。
- [SPARK-45912] XSDToSchema API 的增強功能:變更為適用於雲端儲存體輔助功能的 HDFS API。
- [SPARK-46599] XML:使用 TypeCoercion.findTightestCommonType 進行相容性檢查。
- [SPARK-46382] XML:擷取插入元素之間的值。
- [SPARK-46769] 精簡時間戳記相關的結構描述推斷。
- [SPARK-46610] 當選項中沒有索引鍵的值時,建立資料表應該擲回例外狀況。
- [SPARK-45964] 移除在催化劑套件下,XML 和 JSON 套件中的私人 SQL 存取子。
- 還原 [SPARK-46769] 精簡時間戳相關的結構描述推斷。
- [SPARK-45962] 在 XML 中移除
treatEmptyValuesAsNulls
,改用nullValue
選項。 - [SPARK-46541] 修正自我聯結中模稜兩可的資料行參考。
- 作業系統安全性更新。
- 2024 年 1 月 17 日
- Photon 查詢所傳回之說明計畫的
shuffle
節點會更新,以在廣播聯結的隨機顯示期間發生記憶體不足錯誤時新增causedBroadcastJoinBuildOOM=true
旗標。 - 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-46538] 修正
ALSModel.transform
中的模稜兩可的資料行參考問題。 - [SPARK-46417] 呼叫 hive.getTable 且 throwException 為 false 時,不返回失敗。
- [SPARK-46484] 讓
resolveOperators
協助程式函式保留計畫識別碼。 - [SPARK-46153] XML:新增 TimestampNTZType 支援。
- [SPARK-46152] XML:在 XML 結構描述推斷中新增 DecimalType 支援。
- [SPARK-46145] 找不到資料表或檢視表時,spark.catalog.listTables 不會擲回例外狀況。
- [SPARK-46478] 將 SPARK-43049 還原將 oracle varchar(255) 用於字串。
- [SPARK-46394] 修正
spark.sql.legacy.keepCommandOutputSchema
設定為 true 時 spark.catalog.listDatabases(),具有特殊字元的結構描述問題。 - [SPARK-46337] 使
CTESubstitution
保留PLAN_ID_TAG
。 - [SPARK-46466] 向量化 parquet 讀取器不應對時間戳記 ntz 重訂基底。
- [SPARK-46587] XML:修正 XSD 大整數轉換。
- [SPARK-45814] 讓 ArrowConverters.createEmptyArrowBatch 呼叫 close() 以避免記憶體流失。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- [SPARK-46602] 當檢視/資料表不存在時,在檢視中傳播
allowExisting
。 - [SPARK-46173] 在日期剖析期間略過 trimAll 呼叫。
- [SPARK-46355] XML:在讀取完成時關閉 InputStreamReader。
- [SPARK-46600] 將 SqlConf 和 SqlApiConf 之間的共用程式碼移至 SqlApiConfHelper。
- [SPARK-46261]
DataFrame.withColumnsRenamed
應保留 dict/map 排序。 - [SPARK-46056] 使用 byteArrayDecimalType 預設值來修正 Parquet 向量化讀取 NPE。
- [SPARK-46260]
DataFrame.withColumnsRenamed
應遵循 dict 排序。 - [SPARK-46250] Deflake test_parity_listener。
- [SPARK-46370] 修正在變更資料行預設值之後從資料表查詢時的錯誤。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指數爆炸。
- [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- Photon 查詢所傳回之說明計畫的
- 2023 年 12 月 14 日
- 修正了源自 JDBC 或 ODBC 用戶端的 getColumns 作業中逸出底線被錯誤地處理並解譯為萬用字元的問題。
- [SPARK-45509] 修正 Spark Connect 的 df 資料行參考行為。
- [SPARK-45844] 實作 XML 的不區分大小寫。
- [SPARK-46141] 將 spark.sql.legacy.ctePrecedencePolicy 的預設值變更為 CORRECTED。
- [SPARK-46028] 使
Column.__getitem__
接受輸入資料行。 - [SPARK-46255] 支援複雜類型 - > 字串轉換。
- [SPARK-45655] 允許 CollectMetrics 中 AggregateFunctions 內的不具決定性運算式。
- [SPARK-45433] 修正時間戳記與指定的 timestampFormat 不符時的 CSV/JSON 結構描述推斷。
- [SPARK-45316] 將新的參數
ignoreCorruptFiles
/ignoreMissingFiles
新增至HadoopRDD
和NewHadoopRDD
。 - [SPARK-45852] 在記錄期間,妥善處理遞迴錯誤。
- [SPARK-45920] 依序數分組應該是等冪的。
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix
,以補救 PyArrow RCE 弱點。 - 修正了源自 JDBC 或 ODBC 用戶端的
getColumns
作業中逸出底線被錯誤地解譯為萬用字元的問題。 - 使用自動載入器或串流數據表擷取 CSV 數據時,大型 CSV 檔案現在可以分割,而且可以在架構推斷和數據處理期間平行處理。
- [SPARK-45892] 重構最佳化器計畫驗證以分離
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45620] 與 Python UDF 相關的 API 現使用 camelCase。
- [SPARK-44790] 新增了 Python、Spark、Connect 和 SQL 的
to_xml
實作和繫結。 - [SPARK-45770] 修正了
Dataframe.drop
的DataFrameDropColumns
的資料行解析問題。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - [SPARK-44784] 使 SBT 測試具有密封性。
- 作業系統安全性更新。
- 已安裝了新的套件
- 2023 年 11 月 10 日
- [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - [SPARK-45250] 新增了在關閉動態配置時,針對 yarn 叢集的階段層級工作資源設定檔的支援。
- [SPARK-44753] 新增了 PySpark SQL 的 XML DataFrame 讀取器和寫入器。
- [SPARK-45396] 新增了
PySpark.ml.connect
模組的文件項目。 - [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45541] 新增了 SSLFactory。
- [SPARK-45577] 修正了
UserDefinedPythonTableFunctionAnalyzeRunner
以傳遞具名引數的折疊值。 - [SPARK-45562] 將 ‘rowTag’ 設為必要選項。
- [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - [SPARK-43380] 修正了 Avro 讀取中速度變慢的問題。
- [SPARK-45430] 在
IGNORE NULLS
和offset > rowCount
時FramelessOffsetWindowFunction
不再失敗。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-45386] 修正了
StorageLevel.NONE
錯誤傳回 0 的問題。 - [SPARK-44219] 新增了每規則驗證,以進行最佳化重寫。
- [SPARK-45543] 修正了如果其他視窗函式沒有與類似排名的函式相同的視窗框架,則
InferWindowGroupLimit
會導致錯誤的問題。 - 作業系統安全性更新。
- [SPARK-45545]
- 2023 年 9 月 27 日
- [SPARK-44823] 將
black
更新為 23.9.1 並修正了錯誤檢查。 - [SPARK-45339] PySpark 現在會記錄重試錯誤。
- 還原 [SPARK-42946] 在變數替代下巢狀的修訂敏感性資料。
- [SPARK-44551] 編輯了要與 OSS 同步的註解。
- [SPARK-45360] Spark 工作階段建立器支援從
SPARK_REMOTE
初始化。 - [SPARK-45279] 將
plan_id
連結至所有邏輯計畫。 - [SPARK-45425] 將
TINYINT
對應至MsSqlServerDialect
的ShortType
。 - [SPARK-45419] 已移除較大型版本的檔案版本對應項目,以避免重複使用
rocksdb
sst 檔案識別碼。 - [SPARK-45488] 新增了對
rowTag
元素中值的支援。 - [SPARK-42205] 移除了
JsonProtocol
事件記錄檔中Task/Stage
啟動事件的Accumulables
記錄。 - [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - [SPARK-45256]
DurationWriter
在寫入的值超過初始容量時會失敗。 - [SPARK-43380] 修正了
Avro
資料類型轉換問題,而不會造成效能迴歸。 - [SPARK-45182] 新增了復原隨機對應階段的支援,因此當階段輸出不確定時,可以重試所有階段工作。
- [SPARK-45399] 使用
newOption
新增了 XML 選項。 - 作業系統安全性更新。
- [SPARK-44823] 將
Databricks Runtime 13.3 LTS
請參閱 Databricks Runtime 13.3 LTS。
- 2024 年 11 月 5 日
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326][SS]分類 Foreach 接收使用者函式錯誤的 Error 類別
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- 作業系統安全性更新。
- 2024年10月22日
- [SPARK-48843] 使用 BindParameters 防止無限迴圈
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326][SS]分類 Foreach 接收使用者函式錯誤的 Error 類別
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- 作業系統安全性更新。
- 2024年10月10日
- [SPARK-49743][SQL]在剪除 GetArrayStructFields 時,OptimizeCsvJsonExpr 不應該變更架構字段
- 2024年9月25日
- [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
- [SPARK-48719][SQL]修正第一個參數為 Null 時 RegrSlope 和 RegrIntercept 的計算錯誤
- [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT]支援 ArtifactManager 中的 Windows 樣式路徑
- [SPARK-48463][ML] 讓 Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor 支援巢狀輸入數據行
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- 2024 年 8 月 14 日
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- 2024 年 8 月 1 日
- 此版本包含 Spark Java 介面中
ColumnVector
和ColumnarArray
類別的錯誤修正。 在此修正之前,當其中一個類別的執行個體包含null
值時,ArrayIndexOutOfBoundsException
可能會擲回或傳回不正確的資料。 - [SPARK-47202][PYTHON] 修正使用 tzinfo 的錯字中斷日期時間
- [SPARK-48896][SPARK-48909] [SPARK-48883] Backport spark ML 寫入器修正
- [SPARK-48463] 讓 StringIndexer 支援巢狀輸入資料行
- 作業系統安全性更新。
- 此版本包含 Spark Java 介面中
- 2024 年 7 月 11 日
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()
在 DataFrame 的存留期儲存體保存資料表狀態。 - 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
- [SPARK-48503][SQL] 修正在未正確允許的非對等資料行上使用 group-by 的無效純量子查詢
- [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-48475][PYTHON]在 PySpark 中最佳化 _get_jvm_function。
- [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- 作業系統安全性更新。
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
- 2024 年 6 月 17 日
- [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- 現在支援 (行為變更)
dbutils.widgets.getAll()
以取得筆記本中的所有小工具值。 - [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- [SPARK-47994][SQL] 修正 SQLServer 中 CASE WHEN 資料行篩選下推的錯誤
- 作業系統安全性更新。
- 現在支援 (行為變更)
- 2024 年 5 月 9 日
- [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
- [SPARK-46822][SQL] 在 jdbc 中將 jdbc 類型轉型為催化劑類型時,尊重 spark.sql.legacy.charVarcharAsString
- [SPARK-47895][SQL] 依全部分組應該是等冪的
- [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- 作業系統安全性更新。
- 2024 年 4 月 25 日
- [SPARK-44653][SQL] 非一般 DataFrame 聯合不應中斷快取
- 其他錯誤修正。
- 2024 年 4 月 11 日
- [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
- 作業系統安全性更新。
- 2024 年 4 月 1 日
- [SPARK-47385] 修正具有 Option 輸入的 Tuple 編碼器。
- [SPARK-38708][SQL] 針對 Hive 3.1,將 Hive 中繼存放區用戶端升級至 3.1.3
- [SPARK-47200][SS] Foreach 批次接收器使用者函式錯誤的錯誤類別
- [SPARK-47368][SQL] 移除 ParquetRowConverter 中的 inferTimestampNTZ 設定檢查
- [SPARK-44252][SS] 定義新的錯誤類別,並套用從 DFS 載入狀態失敗的情況
- [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
- [SPARK-47300][SQL]
quoteIfNeeded
應引用以數位開頭的識別碼 - [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 的 isStreaming 旗標
- [SPARK-47070] 修正子查詢重寫之後無效的彙總
- 作業系統安全性更新。
- 2024 年 3 月 14 日
- [SPARK-47145][SQL] 將資料表識別碼傳遞給 V2 策略的資料列資料來源掃描執行程式。
- [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 協助程式函式
- [SPARK-47044][SQL] 新增 JDBC 外部資料來源的已執行查詢,以說明輸出
- [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 修正了以下問題:在 MERGE 命令中使用本地集合作為來源,可能會導致操作計量 numSourceRows 報告的正確行數加倍。
- 建立具有已定義位置的結構描述現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 權限。
- 作業系統安全性更新。
- 2024 年 2 月 8 日
- 不支援 Unity 目錄具體化檢視上的變更資料摘要 (CDF) 查詢,並且嘗試使用 Unity 目錄具體化檢視執行 CDF 查詢會傳回錯誤。 Unity 目錄串流資料表支援 Databricks Runtime 14.1 和更新版本中非
APPLY CHANGES
資料表的 CDF 查詢。 Databricks Runtime 14.0 和更早版本中的 Unity 目錄串流資料表不支援 CDF 查詢。 - [SPARK-46794] 從 LogicalRDD 條件約束移除子查詢。
- [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
- [SPARK-45582] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體。
- [SPARK-46396] 時間戳記推斷不應該擲回例外狀況。
- [SPARK-46861] 避免 DAGScheduler 中的鎖死。
- [SPARK-46941] 若包含 SizeBasedWindowFunction,則無法針對 top-k 計算插入視窗群組限制節點。
- 作業系統安全性更新。
- 不支援 Unity 目錄具體化檢視上的變更資料摘要 (CDF) 查詢,並且嘗試使用 Unity 目錄具體化檢視執行 CDF 查詢會傳回錯誤。 Unity 目錄串流資料表支援 Databricks Runtime 14.1 和更新版本中非
- 2024 年 1 月 31 日
- [SPARK-46610] 當選項中沒有索引鍵的值時,建立資料表應該擲回例外狀況。
- [SPARK-46383] 藉由減少 TaskInfo.accumulables() 的生命週期來減少驅動程式堆積使用量。
- [SPARK-46600] 將 SqlConf 和 SqlApiConf 之間的共用程式碼移至 SqlApiConfHelper。
- [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計畫標準化時失敗。
- [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
- 作業系統安全性更新。
- 2024 年 1 月 17 日
- Photon 查詢所傳回之說明計畫的
shuffle
節點會更新,以在廣播聯結的隨機顯示期間發生記憶體不足錯誤時新增causedBroadcastJoinBuildOOM=true
旗標。 - 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-46173] 在日期剖析期間略過 trimAll 呼叫。
- [SPARK-46370] 修正在變更資料行預設值之後從資料表查詢時的錯誤。
- [SPARK-46370] 修正在變更資料行預設值之後從資料表查詢時的錯誤。
- [SPARK-46370] 修正在變更資料行預設值之後從資料表查詢時的錯誤。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指數爆炸。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- [SPARK-46602] 當檢視/資料表不存在時,在檢視中傳播
allowExisting
。 - [SPARK-46249] 需要執行個體鎖定才能取得 RocksDB 計量,以防止與背景作業競爭。
- [SPARK-46417] 呼叫 hive.getTable 且 throwException 為 false 時,不返回失敗。
- [SPARK-46538] 修正
ALSModel.transform
中的模稜兩可的資料行參考問題。 - [SPARK-46478] 將 SPARK-43049 還原將 oracle varchar(255) 用於字串。
- [SPARK-46250] Deflake test_parity_listener。
- [SPARK-46394] 修正
spark.sql.legacy.keepCommandOutputSchema
設定為 true 時 spark.catalog.listDatabases(),具有特殊字元的結構描述問題。 - [SPARK-46056] 使用 byteArrayDecimalType 預設值來修正 Parquet 向量化讀取 NPE。
- [SPARK-46145] 找不到資料表或檢視表時,spark.catalog.listTables 不會擲回例外狀況。
- [SPARK-46466] 向量化 parquet 讀取器不應對時間戳記 ntz 重訂基底。
- Photon 查詢所傳回之說明計畫的
- 2023 年 12 月 14 日
- 修正了源自 JDBC 或 ODBC 用戶端的 getColumns 作業中逸出底線被錯誤地處理並解譯為萬用字元的問題。
- [SPARK-45920] 依序數分組應該是等冪的。
- [SPARK-44582] 如果已清理,則略過 SMJ 上的迭代器。
- [SPARK-45433] 修正時間戳記與指定的 timestampFormat 不符時的 CSV/JSON 結構描述推斷。
- [SPARK-45655] 允許 CollectMetrics 中 AggregateFunctions 內的不具決定性運算式。
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix
,以補救 PyArrow RCE 弱點。 - Spark-snowflake 連接器已升級至 2.12.0。
- [SPARK-44846] 移除了
RemoveRedundantAggregates
之後的複雜群組運算式。 - [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-45892] 重構最佳化器計畫驗證以分離
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - 作業系統安全性更新。
- 已安裝了新的套件
- 2023 年 11 月 10 日
- Delta Lake 串流查詢上的分割區篩選會在速率限制之前先行下推,以達到更佳的使用率。
- 已變更 Unity 目錄串流數據表和具體化檢視的數據摘要查詢,以顯示錯誤訊息。
- [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-45430] 在
IGNORE NULLS
和offset > rowCount
時FramelessOffsetWindowFunction
不再失敗。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-44219] 新增了額外的每規則驗證,以進行最佳化重寫。
- [SPARK-45543] 修正了如果其他視窗函式沒有與類似排名的函式相同的視窗框架,則
InferWindowGroupLimit
會導致錯誤的問題。 - 作業系統安全性更新。
- 2023 年 10 月 23 日
- [SPARK-45256] 修正了寫入超過初始容量的值時
DurationWriter
失敗的問題。 - [SPARK-45419] 藉由移除較大版本的檔案版本對應項目,避免重複使用不同
rocksdb
執行個體中的rocksdb sst
檔案。 - [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - 其他修復。
- [SPARK-45256] 修正了寫入超過初始容量的值時
- 2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- 針對正和負索引,
array_insert
函式是以 1 為基底,而在之前針對負索引,它以 0 為基底。 它現在會在索引 -1 的輸入數位列結尾插入新元素。 若要還原為先前的行為,請將spark.sql.legacy.negativeIndexInArrayInsert
設定為true
。 - 修正了使用自動載入器在 CSV 結構描述推斷期間啟用
ignoreCorruptFiles
時,不再略過損毀的檔案的問題。 - 還原 [SPARK-42946]。
- [SPARK-42205] 更新了 JSON 通訊協定,以移除工作或階段啟動事件中的可存取記錄。
- [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - [SPARK-45316] 將新的參數
ignoreCorruptFiles
和ignoreMissingFiles
新增至HadoopRDD
和NewHadoopRDD
。 - [SPARK-44740] 修正了 Artifacts 的中繼資料值。
- [SPARK-45360] 從
SPARK_REMOTE
初始化了 Spark 工作階段建立器設定。 - [SPARK-44551] 編輯了要與 OSS 同步的註解。
- [SPARK-45346] 在合併結構描述時,Parquet 結構描述推斷現在會遵守區分大小寫的旗標。
- [SPARK-44658]
ShuffleStatus.getMapStatus
現在會傳回None
,而不是Some(null)
。 - [SPARK-44840] 針對負索引,使
array_insert()
以 1 為基底。
- 2023 年 9 月 14 日
- [SPARK-44873] 在 Hive 用戶端中新增了對帶有巢狀資料行的
alter view
的支援。 - [SPARK-44878] 關閉對
RocksDB
寫入管理器的嚴格限制,以避免快取完成時出現插入例外狀況。
- [SPARK-44873] 在 Hive 用戶端中新增了對帶有巢狀資料行的
- 2023 年 8 月 30 日
- dbutils
cp
命令 (dbutils.fs.cp
) 已針對更快速的複製進行最佳化。 透過這項改進,複製作業所需的時間最多可減少 100,視檔案大小而定。 此功能可在 Databricks 中存取的所有雲端和檔案系統中使用,包括 Unity 目錄磁碟區和 DBFS 掛接。 - [SPARK-44455]
SHOW CREATE TABLE
結果中有反引號的引號識別項。 - [SPARK-44763] 修正了在二進位運算中,字串顯示為雙精度浮點數的問題。
- [SPARK-44871] 修正了
percentile_disc
行為。 - [SPARK-44714] 簡化了有關查詢的 LCA 解析限制。
- [SPARK-44818] 修正了在初始化
taskThread
之前,發出的擱置中工作中斷的競爭。 - [SPARK-44505] 在 DSv2 掃描中新增了單欄式支援的覆寫。
- [SPARK-44479] 修正了從空白結構類型進行的 protobuf 轉換。
- [SPARK-44718] 將
ColumnVector
記憶體模式組態預設值與OffHeapMemoryMode
組態值比對。 - [SPARK-42941] 新增了對 Python 中
StreamingQueryListener
的支援。 - [SPARK-44558] 匯出 PySpark 的 Spark Connect 記錄層級。
- [SPARK-44464] 修正了
applyInPandasWithStatePythonRunner
以輸出 Null 作為第一資料行值的資料列。 - [SPARK-44643] 修正了當欄位為空的資料列時的
Row.__repr__
。 - 作業系統安全性更新。
- dbutils
Databricks Runtime 12.2 LTS
請參閱 Databricks Runtime 12.2 LTS。
- 2024年10月10日
- [SPARK-49743][SQL]在剪除 GetArrayStructFields 時,OptimizeCsvJsonExpr 不應該變更架構字段
- 2024年9月25日
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
- 其他錯誤修正。
- 2024 年 9 月 17 日
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- 其他錯誤修正。
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- [SPARK-48463][ML] 讓 StringIndexer 支援巢狀輸入資料行
- 作業系統安全性更新。
- 2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909] [SPARK-48883] Backport spark ML 寫入器修正
- 2024 年 8 月 1 日
- 若要套用必要的安全性修補程式,Databricks Runtime 12.2 LTS 中的 Python 版本會從 3.9.5 升級至 3.9.19。
- 2024 年 7 月 11 日
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()
在 DataFrame 的存留期儲存體保存資料表狀態。 - [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-47070] 修正子查詢重寫之後無效的彙總
- [SPARK-42741][SQL] 當常值為 null 時,請勿在二進位比較中解除包裝轉換
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- [SPARK-48503][SQL] 修正在未正確允許的非對等資料行上使用 group-by 的無效純量子查詢
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- 作業系統安全性更新。
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
- 2024 年 6 月 17 日
- [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
- 其他錯誤修正。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- 作業系統安全性更新。
- 2024 年 5 月 9 日
- [SPARK-44251][SQL] 在完整外部 USING 聯結的合併聯結索引鍵上正確設定可為 Null
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
- [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
- 作業系統安全性更新。
- 2024 年 4 月 25 日
- 作業系統安全性更新。
- 2024 年 4 月 11 日
- 作業系統安全性更新。
- 2024 年 4 月 1 日
- [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 的 isStreaming 旗標
- [SPARK-44252][SS] 定義新的錯誤類別,並套用從 DFS 載入狀態失敗的情況
- [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
- [SPARK-47200][SS] Foreach 批次接收器使用者函式錯誤的錯誤類別
- 作業系統安全性更新。
- 2024 年 3 月 14 日
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 協助程式函式
- 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
- [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
- [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 修正了以下問題:在 MERGE 命令中使用本地集合作為來源,可能會導致操作計量 numSourceRows 報告的正確行數加倍。
- 建立具有已定義位置的結構描述現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 權限。
- [SPARK-45582][SS] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體
- 作業系統安全性更新。
- 2024 年 2 月 13 日
- [SPARK-46861] 避免 DAGScheduler 中的鎖死。
- [SPARK-46794] 從 LogicalRDD 條件約束移除子查詢。
- 作業系統安全性更新。
- 2024 年 1 月 31 日
- [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
- 作業系統安全性更新。
- 2023 年 12 月 25 日
- 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-39440] 新增組態以停用事件時間軸。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- [SPARK-46394] 修正
spark.sql.legacy.keepCommandOutputSchema
設定為 true 時 spark.catalog.listDatabases(),具有特殊字元的結構描述問題。 - [SPARK-46417] 呼叫 hive.getTable 且 throwException 為 false 時,不返回失敗。
- [SPARK-43067] 更正 Kafka 連接器中錯誤類別資源檔案的位置。
- [SPARK-46249] 需要執行個體鎖定才能取得 RocksDB 計量,以防止與背景作業競爭。
- [SPARK-46602] 當檢視/資料表不存在時,在檢視中傳播
allowExisting
。 - [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-46145] 找不到資料表或檢視表時,spark.catalog.listTables 不會擲回例外狀況。
- [SPARK-46538] 修正
ALSModel.transform
中的模稜兩可的資料行參考問題。 - [SPARK-42852] 從 EquivalentExpressions 還原 NamedLambdaVariable 相關的變更。
- 2023 年 12 月 14 日
- 修正了源自 JDBC 或 ODBC 用戶端的 getColumns 作業中逸出底線被錯誤地處理並解譯為萬用字元的問題。
- [SPARK-44582] 如果已清理,則略過 SMJ 上的迭代器。
- [SPARK-45920] 依序數分組應該是等冪的。
- [SPARK-45655] 允許 CollectMetrics 中 AggregateFunctions 內的不具決定性運算式。
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix
,以補救 PyArrow RCE 弱點。 - 修正了源自 JDBC 或 ODBC 用戶端的
getColumns
作業中逸出底線被錯誤地解譯為萬用字元的問題。 - [SPARK-42205] 移除了
Stage
和Task
啟動事件中的可累積記錄。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之後的複雜群組運算式。 - [SPARK-43718] 修正了
USING
聯結中索引鍵的可 NULL 性。 - [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-43973] 結構化串流 UI 現在顯示失敗的查詢。
- [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - 作業系統安全性更新。
- 已安裝了新的套件
- 2023 年 11 月 14 日
- Delta Lake 串流查詢上的分割區篩選會在速率限制之前先行下推,以達到更佳的使用率。
- [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-45430] 在
IGNORE NULLS
和offset > rowCount
時FramelessOffsetWindowFunction
不再失敗。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- 作業系統安全性更新。
- 2023 年 10 月 24 日
- [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - 其他修復。
- [SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- [SPARK-42553] 請確定間隔之後至少一個時間單位。
- [SPARK-45346] 在合併結構描述時,Parquet 結構描述推斷會遵守區分大小寫的旗標。
- [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - [SPARK-45084]
StateOperatorProgress
表示使用正確且適當的隨機分割區編號。
- 2023 年 9 月 12 日
- [SPARK-44873] 在 Hive 用戶端中新增了對帶有巢狀資料行的
alter view
的支援。 - [SPARK-44718] 將
ColumnVector
記憶體模式組態預設值與OffHeapMemoryMode
組態值比對。 - [SPARK-43799] 將描述項二進位選項新增至 PySpark
Protobuf
API。 - 其他修復。
- [SPARK-44873] 在 Hive 用戶端中新增了對帶有巢狀資料行的
- 2023 年 8 月 30 日
- [SPARK-44485] 最佳化了
TreeNode.generateTreeString
。 - [SPARK-44818] 修正了在初始化
taskThread
之前,發出的擱置中工作中斷的競爭。 - [SPARK-44871][11.3-13.0] 修正了
percentile_disc
行為。 - [SPARK-44714] 簡化了有關查詢的 LCA 解析限制。
- 作業系統安全性更新。
- [SPARK-44485] 最佳化了
- 2023 年 8 月 15 日
- [SPARK-44504] 維護工作會在停止錯誤時,清除已載入的提供者。
- [SPARK-44464] 修正了
applyInPandasWithStatePythonRunner
以輸出Null
作為第一資料行值的資料列。 - 作業系統安全性更新。
- 2023 年 7 月 29 日
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的dbutils.fs.ls()
問題。 - [SPARK-44199]
CacheManager
不再不必要地重新整理fileIndex
。 - 作業系統安全性更新。
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
- 2023 年 7 月 24 日
- [SPARK-44337] 修正了將任何欄位設定為
Any.getDefaultInstance
會導致剖析錯誤的問題。 - [SPARK-44136] 修正了可能會在
StateManager
執行程式中,而不是FlatMapGroupsWithStateExec
中取得具體化的問題。 - 作業系統安全性更新。
- [SPARK-44337] 修正了將任何欄位設定為
- 2023 年 6 月 23 日
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- 光子化了
approx_count_distinct
。 - Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- [SPARK-43779]
ParseToDate
現在會在主執行緒中載入EvalMode
。 - [SPARK-43156][SPARK-43098] 擴充了關閉了
decorrelateInnerQuery
時的純量子查詢計數錯誤測試。 - 作業系統安全性更新。
- 光子化了
- 2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 透過
SHALLOW CLONE
Iceberg 和 Parquet 改善累加式更新的效能。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43413][11.3-13.0] 修正了
IN
子查詢ListQuery
可 Null 性。 - [SPARK-43522] 修正了使用陣列索引建立結構資料行名稱的問題。
- [SPARK-43541] 在解析運算式和遺漏資料行時傳播所有
Project
標記。 - [SPARK-43527] 修正了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43123] 內部欄位中繼資料不會再外洩至目錄。
- [SPARK-43340] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。
- [SPARK-42444]
DataFrame.drop
現在正確處理重複的資料行。 - [SPARK-42937]
PlanSubqueries
現在會將InSubqueryExec#shouldBroadcast
設定為 true。 - [SPARK-43286] 更新了
aes_encrypt
CBC 模式以產生隨機 IV。 - [SPARK-43378] 正確關閉
deserializeFromChunkedBuffer
中的串流物件。
- 2023 年 5 月 17 日
- 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
- 如果僅使用
failOnUnknownFields
選項或failOnNewColumns
結構描述演進模式中的自動載入器讀取 Avro 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn
選項。 - 自動載入器現在會執行下列動作。
-
- 如果提供其中一個資料類型,則正確讀取且不再修復
Integer
、Short
和Byte
類型,但 Avro 檔案建議其他兩種類型之一。
- 如果提供其中一個資料類型,則正確讀取且不再修復
-
- 防止將間隔類型讀取為日期或時間戳記類型,以避免取得損毀的日期。
-
- 防止具有較低精確度的讀取
Decimal
類型。
- 防止具有較低精確度的讀取
- [SPARK-43172] 從 Spark 連線用戶端公開主機和權杖。
- [SPARK-43293] 在一般資料行中會略過
__qualified_access_only
。 - [SPARK-43098] 修正純量子查詢依子句分組時的正確性
COUNT
錯誤。 - [SPARK-43085] 支援多部分資料表名稱的資料行
DEFAULT
指派。 - [SPARK-43190]
ListQuery.childOutput
現在與次要輸出一致。 - [SPARK-43192] 移除了使用者代理程式字元集驗證。
- 作業系統安全性更新。
- 2023 年 4 月 25 日
- 如果僅使用
failOnUnknownFields
選項或failOnNewColumns
結構描述演進模式中的自動載入器讀取 Parquet 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn
選項。 - 如果提供下列其中一個資料類型,自動載入器現在會正確讀取,且不再修復
Integer
、Short
和Byte
類型。 Parquet 檔案建議其他兩個類型之一。 先前啟用已修復的資料行時,資料類型不符會導致資料行儲存,即使資料行可讀取也一樣。 - [SPARK-43009] 使用
Any
常數參數化了sql()
- [SPARK-42406] 卸除欄位以終止 Protobuf 遞迴欄位
- [SPARK-43038] 透過
aes_encrypt()
/aes_decrypt()
支援 CBC 模式 - [SPARK-42971] 如果
appDirs
在背景工作角色處理WorkDirCleanup
事件時為 Null,則變更為列印workdir
- [SPARK-43018] 修正具有時間戳記常值之 INSERT 命令的錯誤
- 作業系統安全性更新。
- 如果僅使用
- 2023 年 4 月 11 日
- 在
SYNC
命令中支援舊版資料來源格式。 - 修正存放庫外部,筆記本中 %autoreload 行為的問題。
- 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的問題。
- [SPARK-42928] 同步處理
resolvePersistentFunction
。 - [SPARK-42936] 修正子句可透過子彙總直接解析的 LCan 問題。
- [SPARK-42967] 取消階段之後,修正在工作啟動時的
SparkListenerTaskStart.stageAttemptId
。 - 作業系統安全性更新。
- 在
- 2023 年 3 月 29 日
Databricks SQL 現在支援指定 Delta Lake 資料表資料行的預設值,不論是在資料表建立時還是之後。 後續
INSERT
、UPDATE
、DELETE
和MERGE
命令可以使用明確DEFAULT
關鍵字來參考任何資料行的預設值。 此外,如果任何INSERT
指派具有比目標資料表少之資料行的明確清單,則對應的資料行預設值會被取代為其餘資料行 (如果沒有指定預設值則為 NULL)。例如:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
自動載入器現在會為
Trigger.AvailableNow
串流起始至少一個同步的 RocksDB 記錄清理,以檢查檢查點是否可以定期清除快速執行的自動載入器串流。 這可能會導致某些串流在關閉之前花費更長的時間,但它會節省儲存體成本,並改善未來執行的自動載入器體驗。現在可以修改差異資料表,以使用
DeltaTable.addFeatureSupport(feature_name)
將支援新增至資料表功能。[SPARK-42794] 將 lockAcquireTimeoutMs 增加到 2 分鐘,以取得結構串流中的 RocksDB 狀態存放區
[SPARK-42521] 為 INSERT 新增 NUL,其中包含比目標資料表少的使用者指定資料行清單
[SPARK-42702][SPARK-42623] 支援子查詢與 CTE 中的參數化查詢
[SPARK-42668] 嘗試關閉 HDFSStateStoreProvider 中的壓縮串流時攔截例外狀況
[SPARK-42403] JsonProtocol 應處理 Null JSON 字串
- 2023 年 3 月 8 日
- 錯誤訊息「無法初始化組態」已得到改善,以提供更多內容給客戶。
- 使用資料表屬性將功能新增至差異資料表存在術語變更。 慣用的語法現在是
'delta.feature.featureName'='supported'
,而不是'delta.feature.featureName'='enabled'
。 為了保持回溯相容性,使用'delta.feature.featureName'='enabled'
仍可運作,並且會繼續運作。 - 從這個版本開始,可以將資料表建立/取代為其他資料表屬性
delta.ignoreProtocolDefaults
,以略過通訊協定相關的 Spark 組態,其中包括預設支援的讀取器和寫入器版本和資料表功能。 - [SPARK-42070] 將 Mask 函式引數的預設值從 -1 變更為 NULL
- [SPARK-41793] 由有效小數範圍子句定義的視窗框架結果不正確
- [SPARK-42484] UnsafeRowUtils 更好的錯誤訊息
- [SPARK-42516] 建立檢視時一律擷取工作階段時區設定
- [SPARK-42635] 修正 TimestampAdd 運算式。
- [SPARK-42622] 已關閉值中的替代
- [SPARK-42534] 修正 DB2Dialect Limit 子句
- [SPARK-42121] 新增內建資料表值函式 posexplode、posexplode_outer、json_tuple 和堆疊
- [SPARK-42045] ANSI SQL 模式:Round/Bround 應該在極小/小/有效整數溢位時傳回錯誤
- 作業系統安全性更新。
Databricks Runtime 11.3 LTS
請參閱 Databricks Runtime 11.3 LTS。
- 2024年10月10日
- 其他錯誤修正。
- 2024年9月25日
- [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- 其他錯誤修正。
- 2024 年 9 月 17 日
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- [SPARK-48463][ML] 讓 StringIndexer 支援巢狀輸入資料行
- 作業系統安全性更新。
- 2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909] [SPARK-48883] Backport spark ML 寫入器修正
- 2024 年 8 月 1 日
- 若要套用必要的安全性修補程式,Databricks Runtime 11.3 LTS 中的 Python 版本會從 3.9.5 升級至 3.9.19。
- 2024 年 7 月 11 日
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- [SPARK-47070] 修正子查詢重寫之後無效的彙總
- 作業系統安全性更新。
- 2024 年 6 月 17 日
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- 作業系統安全性更新。
- 2024 年 5 月 9 日
- [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- [SPARK-44251][SQL] 在完整外部 USING 聯結的合併聯結索引鍵上正確設定可為 Null
- 作業系統安全性更新。
- 2024 年 4 月 25 日
- 作業系統安全性更新。
- 2024 年 4 月 11 日
- 作業系統安全性更新。
- 2024 年 4 月 1 日
- [SPARK-44252][SS] 定義新的錯誤類別,並套用從 DFS 載入狀態失敗的情況
- [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
- 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
- [SPARK-47200][SS] Foreach 批次接收器使用者函式錯誤的錯誤類別
- 作業系統安全性更新。
- 2024 年 3 月 14 日
- [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
- [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 修正了以下問題:在 MERGE 命令中使用本地集合作為來源,可能會導致操作計量 numSourceRows 報告的正確行數加倍。
- [SPARK-45582][SS] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體
- 2024 年 2 月 13 日
- [SPARK-46794] 從 LogicalRDD 條件約束移除子查詢。
- [SPARK-46861] 避免 DAGScheduler 中的鎖死。
- 作業系統安全性更新。
- 2024 年 1 月 31 日
- 作業系統安全性更新。
- 2023 年 12 月 25 日
- 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-46602] 當檢視/資料表不存在時,在檢視中傳播
allowExisting
。 - [SPARK-46394] 修正
spark.sql.legacy.keepCommandOutputSchema
設定為 true 時 spark.catalog.listDatabases(),具有特殊字元的結構描述問題。 - [SPARK-46538] 修正
ALSModel.transform
中的模稜兩可的資料行參考問題。 - [SPARK-39440] 新增組態以停用事件時間軸。
- [SPARK-46249] 需要執行個體鎖定才能取得 RocksDB 計量,以防止與背景作業競爭。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- 2023 年 12 月 14 日
- 修正了源自 JDBC 或 ODBC 用戶端的 getColumns 作業中逸出底線被錯誤地處理並解譯為萬用字元的問題。
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix
,以補救 PyArrow RCE 弱點。 - 修正了源自 JDBC 或 ODBC 用戶端的
getColumns
作業中逸出底線被錯誤地解譯為萬用字元的問題。 - [SPARK-43973] 結構化串流 UI 現在顯示失敗的查詢。
- [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - [SPARK-43718] 修正了
USING
聯結中索引鍵的可 NULL 性。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之後的複雜群組運算式。 - 作業系統安全性更新。
- 已安裝了新的套件
- 2023 年 11 月 14 日
- Delta Lake 串流查詢上的分割區篩選會在速率限制之前先行下推,以達到更佳的使用率。
- [SPARK-42205] 移除了階段和工作啟動事件中的可累積記錄。
- [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - 還原 [SPARK-33861]。
- [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45430] 在
IGNORE NULLS
和offset > rowCount
時FramelessOffsetWindowFunction
不再失敗。 - [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - 作業系統安全性更新。
- 2023 年 10 月 24 日
- [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - 其他修復。
- [SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - [SPARK-45084]
StateOperatorProgress
表示使用正確且適當的隨機分割區編號。 - [SPARK-45346] 在合併結構描述時,Parquet 結構描述推斷現在會遵守區分大小寫的旗標。
- 作業系統安全性更新。
- 2023 年 9 月 10 日
- 其他修復。
- 2023 年 8 月 30 日
- [SPARK-44818] 修正了在初始化
taskThread
之前,發出的擱置中工作中斷的競爭。 - [SPARK-44871][11.3-13.0] 修正了
percentile_disc
行為。 - 作業系統安全性更新。
- [SPARK-44818] 修正了在初始化
- 2023 年 8 月 15 日
- [SPARK-44485] 最佳化了
TreeNode.generateTreeString
。 - [SPARK-44504] 維護工作會在停止錯誤時,清除已載入的提供者。
- [SPARK-44464] 修正了
applyInPandasWithStatePythonRunner
以輸出Null
作為第一資料行值的資料列。 - 作業系統安全性更新。
- [SPARK-44485] 最佳化了
- 2023 年 7 月 27 日
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的dbutils.fs.ls()
問題。 - [SPARK-44199]
CacheManager
不再不必要地重新整理fileIndex
。 - 作業系統安全性更新。
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
- 2023 年 7 月 24 日
- [SPARK-44136] 修正了 StateManager 可以在執行程式中具體化,而不是在 FlatMapGroupsWithStateExec 中取得驅動程式的問題。
- 作業系統安全性更新。
- 2023 年 6 月 23 日
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- 光子化了
approx_count_distinct
。 - Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- [SPARK-43779]
ParseToDate
現在會在主執行緒中載入EvalMode
。 - [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢
- [SPARK-43156][SPARK-43098] 擴充了關閉了
decorrelateInnerQuery
時的純量子查詢計數錯誤測試。 - [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤
- 作業系統安全性更新。
- 光子化了
- 2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 透過
SHALLOW CLONE
Iceberg 和 Parquet 改善累加式更新的效能。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43527] 修正了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43413][11.3-13.0] 修正了
IN
子查詢ListQuery
可 Null 性。 - [SPARK-43340] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。
Databricks Runtime 10.4 LTS
請參閱 Databricks Runtime 10.4 LTS。
- 2024 年 11 月 5 日
- 作業系統安全性更新。
- 2024年10月22日
- 作業系統安全性更新。
- 2024年10月10日
- 作業系統安全性更新。
- 2024年9月25日
- [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- 2024 年 8 月 14 日
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
- [SPARK-48463][ML] 讓 StringIndexer 支援巢狀輸入資料行
- 2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909] [SPARK-48883] Backport spark ML 寫入器修正
- 作業系統安全性更新。
- 2024 年 7 月 11 日
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- 作業系統安全性更新。
- 2024 年 6 月 17 日
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- 作業系統安全性更新。
- 2024 年 5 月 9 日
- [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- [SPARK-44251][SQL] 在完整外部 USING 聯結的合併聯結索引鍵上正確設定可為 Null
- 作業系統安全性更新。
- 2024 年 4 月 25 日
- 作業系統安全性更新。
- 2024 年 4 月 11 日
- 作業系統安全性更新。
- 2024 年 4 月 1 日
- [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
- [SPARK-44252][SS] 定義新的錯誤類別,並套用從 DFS 載入狀態失敗的情況
- [SPARK-47200][SS] Foreach 批次接收器使用者函式錯誤的錯誤類別
- 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
- 作業系統安全性更新。
- 2024 年 3 月 14 日
- [SPARK-47125][SQL] 如果 Univocity 永遠不會觸發剖析,則傳回 null
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 修正了以下問題:在 MERGE 命令中使用本地集合作為來源,可能會導致操作計量 numSourceRows 報告的正確行數加倍。
- [SPARK-45582][SS] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體
- 作業系統安全性更新。
- 2024 年 2 月 13 日
- [SPARK-46861] 避免 DAGScheduler 中的鎖死。
- 作業系統安全性更新。
- 2024 年 1 月 31 日
- 作業系統安全性更新。
- 2023 年 12 月 25 日
- 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-46538] 修正
ALSModel.transform
中的模稜兩可的資料行參考問題。 - [SPARK-39440] 新增組態以停用事件時間軸。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- 2023 年 12 月 14 日
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix
,以補救 PyArrow RCE 弱點。 - [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - [SPARK-43718] 修正了
USING
聯結中索引鍵的可 NULL 性。 - [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - [SPARK-42205] 移除了階段和工作啟動事件中的可累積記錄。
- [SPARK-44846] 移除了
RemoveRedundantAggregates
之後的複雜群組運算式。 - 作業系統安全性更新。
- 已安裝了新的套件
- 2023 年 11 月 14 日
- [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - 還原 [SPARK-33861]。
- 作業系統安全性更新。
- [SPARK-45541] 新增了
- 2023 年 10 月 24 日
- [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - 作業系統安全性更新。
- [SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- [SPARK-45084]
StateOperatorProgress
表示使用正確且適當的隨機分割區編號。 - [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - 作業系統安全性更新。
- [SPARK-45084]
- 2023 年 9 月 10 日
- 其他修復。
- 2023 年 8 月 30 日
- [SPARK-44818] 修正了在初始化
taskThread
之前,發出的擱置中工作中斷的競爭。 - 作業系統安全性更新。
- [SPARK-44818] 修正了在初始化
- 2023 年 8 月 15 日
- [SPARK-44504] 維護工作會在停止錯誤時,清除已載入的提供者。
- [SPARK-43973] 結構化串流 UI 現在顯示失敗的查詢。
- 作業系統安全性更新。
- 2023 年 6 月 23 日
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤
- [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢
- [SPARK-43156][SPARK-43098] 擴充了關閉了
decorrelateInnerQuery
時的純量子查詢計數測試。 - 作業系統安全性更新。
- 2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 修正了 JSON 修復資料剖析中的問題,以防止
UnknownFieldException
。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43413] 修正了
IN
子查詢ListQuery
可 Null 性。 - 作業系統安全性更新。
- 2023 年 5 月 17 日
- 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
- [SPARK-41520] 分割
AND_OR
樹狀結構模式以分隔AND
與OR
。 - [SPARK-43190]
ListQuery.childOutput
現在與次要輸出一致。 - 作業系統安全性更新。
- 2023 年 4 月 25 日
- [SPARK-42928] 同步處理
resolvePersistentFunction
。 - 作業系統安全性更新。
- [SPARK-42928] 同步處理
- 2023 年 4 月 11 日
- 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的問題。
- [SPARK-42937]
PlanSubqueries
現在會將InSubqueryExec#shouldBroadcast
設定為 true。 - [SPARK-42967] 在取消階段之後啟動工作時修正 SparkListenerTaskStart.stageAttemptId。
- 2023 年 3 月 29 日
- [SPARK-42668] 嘗試關閉 HDFSStateStoreProvider 中的壓縮串流時攔截例外狀況
- [SPARK-42635] 修正 ...
- 作業系統安全性更新。
- 2023 年 3 月 14 日
- [SPARK-41162] 使用彙總,修正自我聯結的反聯結和半聯結
- [SPARK-33206] 修正小型索引檔案的隨機索引快取權數計算
- [SPARK-42484] 改善了
UnsafeRowUtils
錯誤訊息 - 其他修復。
- 2023 年 2 月 28 日
- 支援 yyyy-MM-dd date_format 所產生的資料行。 這項變更支援 yyyy-MM-dd 的資料分割剪除,作為所產生資料行中的 date_format。
- 使用者現在可以使用 Databricks Runtime 9.1 LTS 或更新版本,讀取和寫入需要讀取器第 3 版和寫入器第 7 版的特定差異資料表。 若要取得成功,資料表通訊協定中列出的資料表功能必須由目前的版本的 Databricks Runtime 支援。
- 支援 yyyy-MM-dd date_format 所產生的資料行。 這項變更支援 yyyy-MM-dd 的資料分割剪除,作為所產生資料行中的 date_format。
- 作業系統安全性更新。
- 2023 年 2 月 16 日
- [SPARK-30220] 使用篩選節點外部的 Exists/In 子查詢來啟用
- 作業系統安全性更新。
- 2023 年 1 月 31 日
- JDBC 資料表的資料表類型現在預設為 EXTERNAL。
- 2023 年 1 月 18 日
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
。 - [SPARK-38277] 在 RocksDB 狀態存放區認可之後,清除寫入批次
- [SPARK-41199] 修正 DSv1 串流來源與 DSv2 串流來源共同使用時的計量問題
- [SPARK-41198] 修正串流查詢中具有 CTE 與 DSv1 串流來源的計量。
- [SPARK-41339] 關閉並重新建立 RocksDB 寫入批次,不只是清除。
- [SPARK-41732] 為規則 SessionWindowing 套用樹狀模式型剪除。
- 作業系統安全性更新。
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
- 2022 年 11 月 29 日
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 當
csvignoreleadingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除前置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。 - 當
csvignoretrailingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除後置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。
- 當
- 修正了當所有資料行都保留為字串 (
cloudFiles.inferColumnTypes
未設定或設定為false
) 和 JSON 包含巢狀物件時,自動載入器中 JSON 剖析的問題。 - 作業系統安全性更新。
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 2022 年 11 月 15 日
- 將 Apache commons-text 升級至 1.10.0。
- [SPARK-40646] 修正了結構、對應和陳列的 JSON 剖析,因此當記錄的一部分不符合結構描述時,仍可以正確剖析其餘記錄,而不是傳回 Null。 若要加入改善的行為,請將
spark.sql.json.enablePartialResults
設定為true
。 旗標預設為關閉,以保留原始行為。 - [SPARK-40292] 修正從巢狀結構參考陳列時
arrays_zip
函式中的資料行名稱 - 作業系統安全性更新。
- 2022 年 11 月 1 日
- 修正了如果差異資料表具有名為
_change_type
的使用者定義資料行,但該資料表上已關閉變更資料摘要,導致該資料行中的資料在執行MERGE
時,會錯誤地填入 NULL 值的問題。 - 修正了啟用時
allowOverwrites
,自動載入器中檔案可在相同的微批次中複製的問題 - [SPARK-40697] 新增讀取端字元填補,以涵蓋外部資料檔案
- [SPARK-40596] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
- 作業系統安全性更新。
- 修正了如果差異資料表具有名為
- 2022 年 10 月 18 日
- 作業系統安全性更新。
- 2022 年 10 月 5 日
- [SPARK-40468] 修正在選取
_corrupt_record
時 CSV 中的資料行剪除。 - 作業系統安全性更新。
- [SPARK-40468] 修正在選取
- 2022 年 9 月 22 日
- 使用者可以設定 spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
、true
),以在 ADLS Gen2 上重新啟用自動載入器內建清單。 內建清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。 - [SPARK-40315] 為 ArrayBasedMapData 的常值新增 hashCode()
- [SPARK-40213] 支援 Latin-1 字元的 ASCII 值轉換
- [SPARK-40380] 修正 InvokeLike 的常數折疊,以避免在方案中內嵌的非串行化常值
- [SPARK-38404] 改善巢狀 CTE 參考外部 CTE 時的 CTE 解析
- [SPARK-40089] 修正一些小數類型的排序
- [SPARK-39887] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
- 使用者可以設定 spark.conf.set(
- 2022 年 9 月 6 日
- [SPARK-40235] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理。
- [SPARK-40218] GROUPING SETS 應保留群組資料行。
- [SPARK-39976] ArrayIntersect 應正確處理左則運算式中的 Null。
- [SPARK-40053] 將
assume
新增至需要 Python 執行階段環境的動態取消案例。 - [SPARK-35542] 修正:為具有參數 splitsArray、inputCols 和 outputCols 的多個資料行建立的貯體化程式在儲存之後無法載入。
- [SPARK-40079] 新增空白輸入案例的 Imputer inputCols 驗證。
- 2022 年 8 月 24 日
- [SPARK-39983] 請勿在驅動程式上快取未序列化的廣播關係。
- [SPARK-39775] 剖析 Avro 結構描述時停用驗證預設值。
- [SPARK-39962] 當群組屬性為空時套用投影
- [SPARK-37643] 當 charVarcharAsString 為 true 時,字元資料類型述詞查詢應該略過 rpadding 規則。
- 作業系統安全性更新。
- 2022 年 8 月 9 日
- [SPARK-39847] 如果呼叫端執行緒中斷,請修正 RocksDBLoader.loadLibrary() 中的競爭條件
- [SPARK-39731] 使用 CORRECTED 時間剖析器原則剖析「yyyyMMdd」格式的日期時,修正 CSV 和 JSON 資料來源的問題
- 作業系統安全性更新。
- 2022 年 7 月 27 日
- [SPARK-39625] 新增 Dataset.as(StructType)。
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
lineSep
。 - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded 應是安全執行緒。
- [SPARK-39570] 內嵌資料表應允許具有別名的運算式。
- [SPARK-39702] 使用共用的 byteRawChannel 減少 TransportCipher$EncryptedMessage 的記憶體額外負荷。
- [SPARK-39575] 在 AvroDeserializer 中新增 ByteBuffer#get 後 ByteBuffer#rewind。
- [SPARK-39476] 從 Long 轉換為 Float/Double 或從 Integer 轉換成 Float 時,停用解除包裝轉換最佳化。
- [SPARK-38868] 最佳化外部聯結時,請勿從篩選述詞傳播例外狀況。
- 作業系統安全性更新。
- 2022 年 7 月 20 日
- 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
- [SPARK-39355] 單一資料行使用引號來建構 UnresolvedAttribute。
- [SPARK-39548] 使用 window 子句查詢的 CreateView 命令會產生找不到錯誤視窗定義的問題。
- [SPARK-39419] 修正 ArraySort,以在比較子傳回 Null 時擲回例外狀況。
- 已停止自動載入器針對 Azure 上的目錄清單使用內建雲端 API。
- 作業系統安全性更新。
- 2022 年 7 月 5 日
- [SPARK-39376] 從 NATURAL/USING JOIN 隱藏子查詢別名星形展開中的重複資料行
- 作業系統安全性更新。
- 2022 年 6 月 15 日
- [SPARK-39283] 修正 TaskMemoryManager 與 UnsafeExternalSorter.SpillableIterator 之間的鎖死。
- [SPARK-39285] 讀取檔案時,Spark 不應檢查功能變數名稱。
- [SPARK-34096] 改善偏移視窗上 nth_value 略過 null 的效能。
- [SPARK-36718] 修正 CollapseProject 中的
isExtractOnly
檢查。
- 2022 年 6 月 2 日
- [SPARK-39093] 避免將年-月間隔或日-時間間隔除以整數時發生 codegen 編譯錯誤。
- [SPARK-38990] 在評估 date_trunc/截斷格式作為參考參考時,避免 NullPointerException。
- 作業系統安全性更新。
- 2022 年 5 月 18 日
- 修正自動載入器中,潛在的內建記憶體流失。
- [SPARK-38918] 巢狀資料行剪除應篩選出不屬於目前關聯的屬性。
- [SPARK-37593] 如果使用 G1GC 和 ON_HEAP,請減少預設頁面大小 LONG_ARRAY_OFFSET。
- [SPARK-39084] 修正 df.rdd.isEmpty() 使用 TaskContext 停止工作完成的迭代器。
- [SPARK-32268] 在 injectBloomFilter 中新增 ColumnPruning。
- [SPARK-38974] 在清單函式中篩選具有指定資料庫名稱的註冊函式。
- [SPARK-38931] 為 RocksDBFileManager 建立根 dfs 目錄,並且在第 1 個檢查點上具有未知數目的索引鍵。
- 作業系統安全性更新。
- 2022 年 4 月 19 日
- 將 Java AWS SDK 從 1.11.655 版升級為 1.12.1899。
- 修正了筆記本範圍程式庫無法在批次串流作業中運作的問題。
- [SPARK-38616] 追蹤 Catalyst TreeNode 中的 SQL 查詢文字
- 作業系統安全性更新。
- 2022 年 4 月 6 日
- 本版本現在提供下列 Spark SQL 函式:
timestampadd()
和dateadd()
:將指定單元中的持續時間新增至時間戳記運算式。timestampdiff()
和datediff()
:計算指定單位中兩個時間戳記運算式之間的時間差異。
- Parquet-MR 已升級至 1.12.2
- 改善了 parquet 檔案中完整結構描述的支援
- [SPARK-38631] 使用 Java 型實作在 Utils.unpack 解除壓縮。
- [SPARK-38509][SPARK-38481] 揀選三個
timestmapadd/diff
變更。 - [SPARK-38523] 修正從 CSV 參考損毀的記錄資料行。
- [SPARK-38237] 允許
ClusteredDistribution
要求完整叢集索引鍵。 - [SPARK-38437] 資料來源中日期時間的 Lenient 序列化。
- [SPARK-38180] 允許相互關聯的相等述詞中的安全向上轉換運算式。
- [SPARK-38155] 不允許具有不支援述詞之橫向子查詢中的相異彙總。
- 作業系統安全性更新。
- 本版本現在提供下列 Spark SQL 函式:
Databricks Runtime 9.1 LTS
請參閱 Databricks Runtime 9.1 LTS。
- 2024 年 11 月 5 日
- 作業系統安全性更新。
- 2024年10月22日
- 作業系統安全性更新。
- 2024年10月10日
- 作業系統安全性更新。
- 2024年9月25日
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- 作業系統安全性更新。
- 2024年9月6日
- 作業系統安全性更新。
- 2024 年 8 月 29 日
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- 2024 年 8 月 14 日
- 2024 年 8 月 1 日
- 作業系統安全性更新。
- 2024 年 7 月 11 日
- 作業系統安全性更新。
- 2024 年 6 月 17 日
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- 作業系統安全性更新。
- 2024 年 5 月 9 日
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- [SPARK-44251][SQL] 在完整外部 USING 聯結的合併聯結索引鍵上正確設定可為 Null
- 作業系統安全性更新。
- 2024 年 4 月 25 日
- 其他錯誤修正。
- 2024 年 4 月 11 日
- 作業系統安全性更新。
- 2024 年 4 月 1 日
- 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
- 作業系統安全性更新。
- 2024 年 3 月 14 日
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 修正了以下問題:在 MERGE 命令中使用本地集合作為來源,可能會導致操作計量 numSourceRows 報告的正確行數加倍。
- 作業系統安全性更新。
- 2024 年 2 月 13 日
- [SPARK-46861] 避免 DAGScheduler 中的鎖死。
- 作業系統安全性更新。
- 2024 年 1 月 31 日
- 作業系統安全性更新。
- 2023 年 12 月 25 日
- 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-39440] 新增組態以停用事件時間軸。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- 2023 年 12 月 14 日
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix
,以補救 PyArrow RCE 弱點。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - 作業系統安全性更新。
- 已安裝了新的套件
- 2023 年 11 月 14 日
- [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-42205] 移除了階段和工作啟動事件中的可累積記錄。
- 作業系統安全性更新。
- [SPARK-45545]
- 2023 年 10 月 24 日
- [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - 作業系統安全性更新。
- [SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- 作業系統安全性更新。
- 2023 年 9 月 10 日
- 其他修復。
- 2023 年 8 月 30 日
- 作業系統安全性更新。
- 2023 年 8 月 15 日
- 作業系統安全性更新。
- 2023 年 6 月 23 日
- Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤。
- [SPARK-43156][SPARK-43098] 擴充了關閉了
decorrelateInnerQuery
時的純量子查詢計數錯誤測試。 - [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢。
- 作業系統安全性更新。
- 2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 修正了 JSON 修復資料剖析中的問題,以防止
UnknownFieldException
。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-37520] 新增
startswith()
和endswith()
字串函式 - [SPARK-43413] 修正了
IN
子查詢ListQuery
可 Null 性。 - 作業系統安全性更新。
- 2023 年 5 月 17 日
- 作業系統安全性更新。
- 2023 年 4 月 25 日
- 作業系統安全性更新。
- 2023 年 4 月 11 日
- 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的問題。
- [SPARK-42967] 在取消階段之後啟動工作時修正 SparkListenerTaskStart.stageAttemptId。
- 2023 年 3 月 29 日
- 作業系統安全性更新。
- 2023 年 3 月 14 日
- [SPARK-42484] 改善了
UnsafeRowUtils
的錯誤訊息。 - 其他修復。
- [SPARK-42484] 改善了
- 2023 年 2 月 28 日
- 使用者現在可以使用 Databricks Runtime 9.1 LTS 或更新版本,讀取和寫入需要讀取器第 3 版和寫入器第 7 版的特定差異資料表。 若要取得成功,資料表通訊協定中列出的資料表功能必須由目前的版本的 Databricks Runtime 支援。
- 作業系統安全性更新。
- 2023 年 2 月 16 日
- 作業系統安全性更新。
- 2023 年 1 月 31 日
- JDBC 資料表的資料表類型現在預設為 EXTERNAL。
- 2023 年 1 月 18 日
- 作業系統安全性更新。
- 2022 年 11 月 29 日
- 修正了當所有資料行都保留為字串 (
cloudFiles.inferColumnTypes
未設定或設定為false
) 和 JSON 包含巢狀物件時,自動載入器中 JSON 剖析的問題。 - 作業系統安全性更新。
- 修正了當所有資料行都保留為字串 (
- 2022 年 11 月 15 日
- 將 Apache commons-text 升級至 1.10.0。
- 作業系統安全性更新。
- 其他修復。
- 2022 年 11 月 1 日
- 修正了如果差異資料表具有名為
_change_type
的使用者定義資料行,但該資料表上已關閉變更資料摘要,導致該資料行中的資料在執行MERGE
時,會錯誤地填入 NULL 值的問題。 - 修正了啟用時
allowOverwrites
,自動載入器中檔案可在相同的微批次中複製的問題 - [SPARK-40596] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
- 作業系統安全性更新。
- 修正了如果差異資料表具有名為
- 2022 年 10 月 18 日
- 作業系統安全性更新。
- 2022 年 10 月 5 日
- 其他修復。
- 作業系統安全性更新。
- 2022 年 9 月 22 日
- 使用者可以設定 spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) 以重新啟用 ADLS Gen2 上的自動載入器內建清單。 內建清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。
- [SPARK-40315] 為 ArrayBasedMapData 的常值新增 hashCode()
- [SPARK-40089] 修正一些小數類型的排序
- [SPARK-39887] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
- 2022 年 9 月 6 日
- [SPARK-40235] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理
- [SPARK-35542] 修正:為具有參數 splitsArray、inputCols 和 outputCols 的多個資料行建立的貯體化程式在儲存之後無法載入
- [SPARK-40079] 新增空白輸入案例的 Imputer inputCols 驗證
- 2022 年 8 月 24 日
- [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以關聯
spark.sql.codegen.factoryMode
- [SPARK-39962] 當群組屬性為空時套用投影
- 作業系統安全性更新。
- [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以關聯
- 2022 年 8 月 9 日
- 作業系統安全性更新。
- 2022 年 7 月 27 日
- 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
lineSep
- [SPARK-39575] 在
AvroDeserializer
中ByteBuffer#rewind
之後新增ByteBuffer#get
。 - [SPARK-37392] 修正了催化劑最佳化工具的效能錯誤。
- 作業系統安全性更新。
- 2022 年 7 月 13 日
- [SPARK-39419] 當比較子傳回 Null 時,
ArraySort
會擲回例外狀況。 - 已停止自動載入器針對 Azure 上的目錄清單使用內建雲端 API。
- 作業系統安全性更新。
- [SPARK-39419] 當比較子傳回 Null 時,
- 2022 年 7 月 5 日
- 作業系統安全性更新。
- 其他修復。
- 2022 年 6 月 15 日
- [SPARK-39283] 修正
TaskMemoryManager
和UnsafeExternalSorter.SpillableIterator
之間的鎖死。
- [SPARK-39283] 修正
- 2022 年 6 月 2 日
- [SPARK-34554] 在
ColumnarMap
中實作copy()
方法。 - 作業系統安全性更新。
- [SPARK-34554] 在
- 2022 年 5 月 18 日
- 修正了自動載入器中,潛在的內建記憶體流失。
- 將 AWS SDK 從 1.11.655 版升級為 1.11.678。
- [SPARK-38918] 巢狀資料行剪除應篩選出不屬於目前關聯的屬性
- [SPARK-39084] 使用
TaskContext
在工作完成時停止迭代器來修正df.rdd.isEmpty()
- 作業系統安全性更新。
- 2022 年 4 月 19 日
- 作業系統安全性更新。
- 其他修復。
- 2022 年 4 月 6 日
- [SPARK-38631] 使用 Java 型實作在 Utils.unpack 解除壓縮。
- 作業系統安全性更新。
- 2022 年 3 月 22 日
- 在啟用資料表存取控制或憑證傳遞的高並行叢集上,將筆記本的目前工作目錄變更為使用者的主目錄。 先前,Active Directory 為
/databricks/driver
。 - [SPARK-38437] 資料來源中日期時間的 Lenient 序列化
- [SPARK-38180] 允許相互關聯的相等述詞中的安全向上轉換運算式
- [SPARK-38155] 不允許具有不支援述詞之橫向子查詢中的相異彙總
- [SPARK-27442] 在 parquet 中讀取或寫入資料時,移除了複選欄位。
- 在啟用資料表存取控制或憑證傳遞的高並行叢集上,將筆記本的目前工作目錄變更為使用者的主目錄。 先前,Active Directory 為
- 2022 年 3 月 14 日
- [SPARK-38236] 在建立/改變資料表中指定的絕對檔案路徑會被視為相對
- [SPARK-34069] 如果區域屬性
SPARK_JOB_INTERRUPT_ON_CANCEL
設定為 true,則中斷‘工作執行緒。
- 2022 年 2 月 23 日
- [SPARK-37859] Spark 3.1 使用 JDBC 建立的 SQL 資料表,Spark 3.2 無法讀取。
- 2022 年 2 月 8 日
- [SPARK-27442] 在 parquet 中讀取或寫入資料時,移除了複選欄位。
- 作業系統安全性更新。
- 2022 年 2 月 1 日
- 作業系統安全性更新。
- 2022 年 1 月 26 日
- 修正了在特定罕見情況下,差異資料表上的並行交易可用不可序列化的順序認可的問題。
- 修正了當 ANSI SQL 方言啟用時,命令可能會失敗的問題
OPTIMIZE
。
- 2022 年 1 月 19 日
- 次要修正與安全性增強功能。
- 作業系統安全性更新。
- 2021 年 11 月 4 日
- 修正了可能導致結構化串流失敗的問題
ArrayIndexOutOfBoundsException
。 - 修正了可能會造成
java.io.IOException: No FileSystem for scheme
等 IOException 的查詢失敗,或可能會導致對sparkContext.hadoopConfiguration
的修改在查詢中不生效的競爭條件。 - 適用於 Delta Sharing 的 Apache Spark 連接器已升級至 0.2.0。
- 修正了可能導致結構化串流失敗的問題
- 2021 年 10 月 20 日
- 將 BigQuery 連接器從 0.18.1 升級至 0.22.2。 這會新增對 BigNumeric 類型的支援。