Databricks Runtime 版本的維護更新 (已封存)
該封存頁面會列出不再支援 Databricks Runtime 版本的維護更新。 若要將維護更新新增至現有叢集,請重新啟動叢集。
重要
此文件已淘汰,且可能未更新。 本內容提及的產品、服務或技術已終止支援。 請參閱 Databricks Runtime 版本資訊版本和相容性。
注意
本文包含對白名單術語的引用,Azure Databricks 不使用此術語。 從軟體中移除該字詞時,我們也會將其從本文中移除。
Databricks Runtime 版本
依版本的維護更新:
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Databricks Runtime 6.4 延伸支援 (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Databricks Light 2.4 延伸支援
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
如需支援的 Databricks Runtime 版本的維護更新,請參閱 Databricks Runtime 維護更新。
Databricks Runtime 15.1
請參閱 Databricks Runtime 15.1 (EoS)。
- 2024年10月22日
- [SPARK-49863][SQL]修正 NormalizeFloatingNumbers 以保留巢狀結構的 Null 性
- [SPARK-46632][SQL]修正當對等三元表達式具有不同子系時,修正子表達式消除
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- [SPARK-49829] 修改在資料串流聯結中將輸入新增至狀態存放區的優化 (正確性修正)
- 作業系統安全性更新。
- 2024年10月10日
- [SPARK-49688][CONNECT]修正中斷與執行計劃之間的數據競爭
- [SPARK-49743][SQL]在剪除 GetArrayStructFields 時,OptimizeCsvJsonExpr 不應該變更架構字段
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474][SS]分類 FlatMapGroupsWithState 使用者函式錯誤的 Error 類別
- 作業系統安全性更新。
- 2024年9月25日
- [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
- [SPARK-48719][SQL]修正第一個參數為 Null 時 RegrSlope 和 RegrIntercept 的計算錯誤
- [SPARK-49492][CONNECT]在非使用中ExecutionHolder上嘗試重新附加
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- [SPARK-49458][CONNECT][PYTHON]透過 ReattachExecute 提供伺服器端會話標識碼
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT]截斷 protobuf 訊息時限制巢狀層級
- [SPARK-49526][CONNECT]支援 ArtifactManager 中的 Windows 樣式路徑
- [SPARK-49409][CONNECT]調整預設值 CONNECT_SESSION_PLAN_CACHE_SIZE
- [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
- [SPARK-49366][CONNECT]將 Union 節點視為數據框架數據行解析中的分葉
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
- [SPARK-48862][PYTHON][CONNECT] 避免在未啟用 INFO 層級時呼叫
_proto_to_string
- [SPARK-49146][SS] 將與附加模式串流查詢中遺漏的浮水印相關的判斷提示錯誤移至錯誤架構
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] 後移植 ML 寫入器/讀取器修正
- [SPARK-48050][SS] 查詢開始時的記錄邏輯計劃
- [SPARK-48706][PYTHON] 高階函式的 Python UDF 不應擲回內部錯誤
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-49047][PYTHON][CONNECT] 截斷訊息以進行記錄
- [SPARK-48740][SQL] 早期攔截遺漏的窗口規格錯誤
- 2024 年 8 月 1 日
- 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱支援的 Spark 組態參數。
- 在以共用存取模式設定的計算上,Kafka 批次讀取和寫入現在有與結構化串流所記載相同的限制。 請參閱 Unity 目錄共用存取模式的串流限制和需求。
SHOW CREATE TABLE
陳述式的輸出現在包含具體化檢視或串流資料表上定義的任何資料列篩選或資料行遮罩。 請參閱 SHOW CREATE TABLE。 如需有關資料列篩選和資料行遮罩的詳細資訊,請參閱使用資料列篩選和資料行遮罩篩選敏感資料表資料。- [SPARK-48544][SQL] 降低空白 TreeNode BitSets 的記憶體壓力
- [SPARK-46957][CORE] 解除委任已移轉的隨機檔案應該能夠從執行程式清除
- [SPARK-47202][PYTHON] 修正使用 tzinfo 的錯字中斷日期時間
- [SPARK-48713][SQL] 當 baseObject 是位元組陣列時,新增 UnsafeRow.pointTo 的索引範圍檢查
- [SPARK-48896][SPARK-48909] [SPARK-48883] Backport spark ML 寫入器修正
- [SPARK-48810][CONNECT] 工作階段 API 現在為等冪,如果伺服器已經關閉工作階段,則不會失敗
- [SPARK-48873][SQL] 在 JSON 剖析器中使用 UnsafeRow。
- [SPARK-48934][SS] 在 applyInPandasWithState 中設定逾時,Python 日期時間類型轉換不正確
- [SPARK-48705][PYTHON] 以 pyspark 開頭時明確使用 worker_main
- [SPARK-48889][SS] testStream 在完成之前卸載狀態存放區
- [SPARK-48047][SQL] 降低空白 TreeNode 標籤的記憶體壓力
- [SPARK-48463] 讓 StringIndexer 支援巢狀輸入資料行
- 作業系統安全性更新。
- 2024 年 7 月 11 日
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()
在 DataFrame 的存留期儲存體保存資料表狀態。 - Snowflake JDBC 驅動程式已更新為 3.16.1 版。
- 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
- 在筆記本和作業的無伺服器計算上,預設啟用 ANSI SQL 模式。 請參閱支援的 Spark 組態參數。
- 若要在讀取資料時忽略無效的資料分割,檔案型資料來源,例如 Parquet、ORC、CSV 或 JSON,可以將 ignoreInvalidPartitionPaths 資料來源選項設定為 true。 例如:spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)`。 您也可使用 SQL 組態 spark.sql.files.ignoreInvalidPartitionPaths。 不過,資料來源選項的優先順序高於 SQL 組態。 預設的設定為 false。
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-48100][SQL] 修正略過結構描述中未選取的巢狀結構欄位的問題
- [SPARK-47463][SQL] 使用 V2Predicate 來包裝具有布林值傳回類型的運算式
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
- [SPARK-48566][PYTHON] 修正 UDTF analyze() 同時使用 select 和 partitionColumns 時,分割區索引不正確的錯誤
- [SPARK-48648][PYTHON][CONNECT] 將 SparkConnectClient.tags 正確設定為 threadlocal
- [SPARK-48503][SQL] 修正在未正確允許的非對等資料行上使用 group-by 的無效純量子查詢
- [SPARK-48252][SQL] 必要時更新 CommonExpressionRef
- [SPARK-48475][PYTHON]在 PySpark 中最佳化 _get_jvm_function。
- [SPARK-48294][SQL] 處理 nestedTypeMissingElementTypeError 中的小寫
- [SPARK-48286] 修正具有存在預設運算式的資料行分析 - 新增使用者面臨錯誤
- [SPARK-47309][SQL]XML:新增值標記的結構描述推斷測試
- [SPARK-47309][SQL][XML] 新增結構描述推斷單元測試
- [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- 作業系統安全性更新。
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
- 2024 年 6 月 17 日
applyInPandasWithState()
可在共用叢集上使用。- 修正了使用 Photon TopK 的排名視窗最佳化錯誤地處理結構分割區的錯誤。
- [SPARK-48310][PYTHON][CONNECT] 快取的屬性必須傳回復本
- [SPARK-48276][PYTHON][CONNECT] 新增
SQLExpression
的遺漏__repr__
方法 - [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
- [SPARK-47764][CORE][SQL] 根據 ShuffleCleanupMode 清除隨機顯示相依性
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- 修正了 try_divide() 函式中的錯誤,其中包含小數的輸入會導致非預期的例外狀況。
- [SPARK-48173][SQL] CheckAnalysis 應該會看到整個查詢計劃
- [SPARK-48016][SQL] 修正使用小數時 try_divide 函式中的錯誤
- [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- [SPARK-48197][SQL] 避免無效匿名函式的判斷提示錯誤
- [SPARK-48180][SQL] 改善在使用 TABLE arg 的 UDTF 呼叫忘記在多個 PARTITION/ORDER BY exprs 周圍加上括弧時出現的錯誤
- [SPARK-48014][SQL] 將 EvaluatePython 中的 makeFromJava 錯誤變更為面向使用者的錯誤
- [SPARK-48056][CONNECT][PYTHON] 如果引發 SESSION_NOT_FOUND 錯誤且未收到任何部分回應,請重新執行計劃
- [SPARK-48146][SQL] 修正 With 運算式子系判斷提示中的彙總函式
- [SPARK-47994][SQL] 修正 SQLServer 中 CASE WHEN 資料行篩選下推的錯誤
- 作業系統安全性更新。
- 2024 年 5 月 9 日
- [SPARK-47543][CONNECT][PYTHON] 從 Pandas DataFrame 推斷為 MapType 的聽寫,以允許建立 DataFrame
- [SPARK-47739][SQL] 註冊邏輯 avro 類型
- [SPARK-48044][PYTHON][CONNECT] 緩存
DataFrame.isStreaming
- [SPARK-47855][CONNECT] 在不支援的清單中新增
spark.sql.execution.arrow.pyspark.fallback.enabled
- [SPARK-48010][SQL] 避免在 resolveExpression 中重複呼叫 conf.resolver
- [SPARK-47941] [SS] [Connect] 將 ForeachBatch 背景工作角色初始化錯誤傳播給 PySpark 的使用者
- [SPARK-47819][CONNECT][Cherry-pick-15.0] 使用非同步回呼來執行清除
- [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
- [SPARK-47839][SQL] 修正 RewriteWithExpression 中的彙總錯誤
- [SPARK-48018][SS] 修正擲回 KafkaException.couldNotReadOffsetRange 時造成遺漏參數錯誤的 null groupId
- [SPARK-47371] [SQL] XML:忽略 CDATA 中找到的資料列標籤
- [SPARK-47907][SQL] 將 bang 放在配置下
- [SPARK-47895][SQL] 依全部分組應該是等冪的
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- [SPARK-47986][CONNECT][PYTHON] 伺服器關閉預設工作階段時,無法建立新的工作階段
- 作業系統安全性更新。
Databricks Runtime 15.0
請參閱 Databricks Runtime 15.0 (EoS)。
- 2024 年 5 月 30 日
- 現在支援 (行為變更)
dbutils.widgets.getAll()
以取得筆記本中的所有小工具值。
- 現在支援 (行為變更)
- 2024 年 4 月 25 日
- [SPARK-47786] SELECT DISTINCT () 不應該變成 SELECT DISTINCT 結構 () (還原為先前的行為)
- [SPARK-47802][SQL] 將 () 從意義結構 () 還原回意義 *
- [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
- [SPARK-47722] 等到 RocksDB 背景工作完成,再關閉
- [SPARK-47081][CONNECT][FOLLOW] 改善進度處理常式的可用性
- [SPARK-47694][CONNECT] 在用戶端上設定訊息大小上限
- [SPARK-47669][SQL][CONNECT][PYTHON] 新增
Column.try_cast
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] 使用快取的結構描述驗證資料行名稱
- [SPARK-47818][CONNECT][Cherry-pick-15.0] 在 SparkConnectPlanner 中引進計畫快取,以改善分析要求的效能
- [SPARK-47704][SQL] 啟用 spark.sql.json.enablePartialResults 時,JSON 剖析會失敗並出現 “java.lang.ClassCastException”
- [SPARK-47755][CONNECT] 當相異值數目太大時,樞紐應該會失敗
- [SPARK-47713][SQL][CONNECT] 修正自我聯結失敗
- [SPARK-47812][CONNECT] 支援 ForEachBatch 背景工作角色的 SparkSession 序列化
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
失敗且計畫無效 - [SPARK-47862][PYTHON][CONNECT] 修正 proto 檔案的產生
- [SPARK-47800][SQL] 為 tableIdentifier 轉換建立識別碼的新方法
- 作業系統安全性更新。
- 2024 年 4 月 3 日
- (行為變更) 為了確保跨計算類型的行為一致,共用叢集上的 PySpark UDF 現在符合無隔離和指派叢集上的 UDF 行為。 此更新包含下列可能會中斷現有程式碼的變更:
- 具有
string
傳回型別的 UDF 不再隱含地將非string
值轉換成string
值。 先前,不論傳回值的實際資料類型為何,具有str
傳回型別的 UDF 都會使用str()
函式包裝傳回值。 - 具有
timestamp
傳回型別的 UDF 不再以隱含地將轉換套用至timezone
的timestamp
。 - Spark 叢集設定
spark.databricks.sql.externalUDF.*
不再套用至共用叢集上的 PySpark UDF。 - Spark 叢集設定
spark.databricks.safespark.externalUDF.plan.limit
不再影響 PySpark UDF,從而移除了 PySpark UDF 的每個查詢 5 個 UDF 的公開預覽限制。 - Spark 叢集設定
spark.databricks.safespark.sandbox.size.default.mib
不再套用至共用叢集上的 PySpark UDF。 相反地,將使用系統上的可用記憶體。 若要限制 PySpark UDF 的記憶體,請使用最小值為100m
的spark.databricks.pyspark.udf.isolation.memoryLimit
。
- 具有
- 現在支援將
TimestampNTZ
資料類型用作具有液態叢集的叢集資料行。 請參閱<針對差異資料表使用液態叢集>。 - [SPARK-47218][SQL] XML:略過 XML 權杖化工具中已加上註解的資料列標記
- [SPARK-46990][SQL] 修正載入事件中樞發出的空白 Avro 檔案
- [SPARK-47033][SQL] 修正 EXECUTE IMMEDIATE USING 無法識別工作階段變數名稱
- [SPARK-47368][SQL] 移除 ParquetRowConverter 中的 inferTimestampNTZ 設定檢查
- [SPARK-47561][SQL] 修正有關別名的分析器規則順序問題
- [SPARK-47638][PS][CONNECT] 略過 PS 中的資料行名稱驗證
- [SPARK-46906][BACKPORT][SS] 新增串流之具狀態運算子變更的檢查
- [SPARK-47569][SQL] 不允許比較變化。
- [SPARK-47241][SQL] 修正 ExtractGenerator 的規則順序問題
- [SPARK-47218] [SQL] XML:已將 SchemaOfXml 變更為在 DROPMALFORMED 模式下失敗
- [SPARK-47300][SQL]
quoteIfNeeded
應引用以數位開頭的識別碼 - [SPARK-47009][SQL][定序] 啟用對定序的建立資料表支援
- [SPARK-47322][PYTHON][CONNECT] 讓
withColumnsRenamed
資料行名稱重複處理與withColumnRenamed
保持一致 - [SPARK-47544][PYTHON] SparkSession 建立器方法與 Visual Studio Code 不相容
- [SPARK-47511][SQL] 透過重新指派識別碼來標準化 With 運算式
- [SPARK-47385] 修正具有 Option 輸入的 Tuple 編碼器。
- [SPARK-47200][SS] Foreach 批次接收器使用者函式錯誤的錯誤類別
- [SPARK-47135][SS] 實作 Kafka 資料遺失例外狀況的錯誤類別
- [SPARK-38708][SQL] 針對 Hive 3.1,將 Hive 中繼存放區用戶端升級至 3.1.3
- [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 的 isStreaming 旗標
- [SPARK-47380][CONNECT] 確定伺服器端上的 SparkSession 相同
- 作業系統安全性更新。
- (行為變更) 為了確保跨計算類型的行為一致,共用叢集上的 PySpark UDF 現在符合無隔離和指派叢集上的 UDF 行為。 此更新包含下列可能會中斷現有程式碼的變更:
Databricks Runtime 14.2
請參閱 Databricks Runtime 14.2 (EoS)。
- 2024年10月22日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns 規則會使用子輸出解析 UnresolvedAttribute
- [SPARK-49905] 使用專用 ShuffleOrigin 作為具狀態運算符,以防止從 AQE 修改隨機顯示
- 作業系統安全性更新。
- 2024年10月10日
- [SPARK-49743][SQL]在剪除 GetArrayStructFields 時,OptimizeCsvJsonExpr 不應該變更架構字段
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474][SS]分類 FlatMapGroupsWithState 使用者函式錯誤的 Error 類別
- 2024年9月25日
- [SPARK-48719][SQL]修正 'RegrS... 的計算錯誤...
- [SPARK-49628][SQL]ConstantFolding 應該先複製具狀態表示式,再評估
- [SPARK-49000][SQL]藉由展開 RewriteDistinctAggregates 來修正 “select count(distinct 1) from t” ,其中 t 是空白數據表
- [SPARK-43242][CORE]修正在隨機偵測損毀診斷中擲回「非預期的 BlockId 類型」
- [SPARK-46601] [CORE]修正 handleStatusMessage 中的記錄錯誤
- 作業系統安全性更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT]支援 ArtifactManager 中的 Windows 樣式路徑
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect Python 用戶端:一致地處理布林值 DataFrame 讀取器選項
- [SPARK-49146][SS] 將與附加模式串流查詢中遺漏的浮水印相關的判斷提示錯誤移至錯誤架構
- [SPARK-49056][SQL] ErrorClassesJsonReader 無法正確處理 Null
- 2024 年 8 月 14 日
- [SPARK-48050][SS] 查詢開始時的記錄邏輯計劃
- [SPARK-48597][SQL] 在邏輯計劃的文字表示法中引進 isStreaming 屬性的標記
- [SPARK-49065][SQL] 以舊版格式器/剖析器重訂基底必須支援非 JVM 預設時區
- [SPARK-48706][PYTHON] 高階函式的 Python UDF 不應擲回內部錯誤
- 2024 年 8 月 1 日
- 此版本包含 Spark Java 介面中
ColumnVector
和ColumnarArray
類別的錯誤修正。 在此修正之前,當其中一個類別的執行個體包含null
值時,ArrayIndexOutOfBoundsException
可能會擲回或傳回不正確的資料。 SHOW CREATE TABLE
陳述式的輸出現在包含具體化檢視或串流資料表上定義的任何資料列篩選或資料行遮罩。 請參閱 SHOW CREATE TABLE。 如需有關資料列篩選和資料行遮罩的詳細資訊,請參閱使用資料列篩選和資料行遮罩篩選敏感資料表資料。- [SPARK-47202][PYTHON] 修正使用 tzinfo 的錯字中斷日期時間
- [SPARK-48705][PYTHON] 以 pyspark 開頭時明確使用 worker_main
- 作業系統安全性更新。
- 此版本包含 Spark Java 介面中
- 2024 年 7 月 11 日
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
.checkpoint()
在 DataFrame 的存留期儲存體保存資料表狀態。 - Snowflake JDBC 驅動程式已更新為 3.16.1 版
- 此版本包含修正在 Databricks 容器服務中執行時,Spark UI 環境索引標籤無法正確顯示的問題。
- [SPARK-48292][CORE] 還原 [SPARK-39195][SQL] Spark OutputCommitCoordinator 在認可檔案與工作狀態不一致時,應該中止階段
- [SPARK-48273][SQL] 修正 PlanWithUnresolvedIdentifier 的延遲重寫
- [SPARK-48503][SQL] 修正在未正確允許的非對等資料行上使用 group-by 的無效純量子查詢
- [SPARK-48481][SQL][SS] 請勿對串流資料集套用 OptimizeOneRowPlan
- [SPARK-48475][PYTHON]在 PySpark 中最佳化 _get_jvm_function。
- [SPARK-48100][SQL] 修正略過結構描述中未選取的巢狀結構欄位的問題
- [SPARK-48445][SQL] 不要內嵌具有昂貴子系的 UDF
- [SPARK-48383][SS] 在 Kafka 的 startOffset 選項中針對不相符的資料分割擲回更好的錯誤
- 作業系統安全性更新。
- (行為變更) 如果覆寫源資料表,針對 Delta 資料表來源快取的資料框架現在會失效。 這項變更表示 Delta 資料表的所有狀態變更現在都會使快取的結果失效。 使用
- 2024 年 6 月 17 日
- 修正了使用 Photon TopK 的排名視窗最佳化錯誤地處理結構分割區的錯誤。
- [SPARK-48276][PYTHON][CONNECT] 新增
SQLExpression
的遺漏__repr__
方法 - [SPARK-48277] 改善 ErrorClassesJsonReader.getErrorMessage 的錯誤訊息
- 作業系統安全性更新。
- 2024 年 5 月 21 日
- 現在支援 (行為變更)
dbutils.widgets.getAll()
以取得筆記本中的所有小工具值。 - [SPARK-48173][SQL] CheckAnalysis 應該會看到整個查詢計劃
- [SPARK-48197][SQL] 避免無效匿名函式的判斷提示錯誤
- [SPARK-47994][SQL] 修正 SQLServer 中 CASE WHEN 資料行篩選下推的錯誤
- [SPARK-48105][SS] 修正狀態存放區卸載和快照集之間的競爭條件
- 作業系統安全性更新。
- 現在支援 (行為變更)
- 2024 年 5 月 9 日
- [SPARK-48044][PYTHON][CONNECT] 緩存
DataFrame.isStreaming
- [SPARK-47956][SQL] 未解決 LCA 參考的 Sanity 檢查
- [SPARK-47371] [SQL] XML:忽略 CDATA 中找到的資料列標籤
- [SPARK-47812][CONNECT] 支援 ForEachBatch 背景工作角色的 SparkSession 序列化
- [SPARK-47895][SQL] 依全部分組應該是等冪的
- [SPARK-47973][CORE] 在 SparkContext.stop() 和之後的 SparkContext.assertNotStopped() 中記錄呼叫站點
- 作業系統安全性更新。
- [SPARK-48044][PYTHON][CONNECT] 緩存
- 2024 年 4 月 25 日
- [SPARK-47704][SQL] 啟用 spark.sql.json.enablePartialResults 時,JSON 剖析會失敗並出現 “java.lang.ClassCastException”
- [SPARK-47828][CONNECT][PYTHON]
DataFrameWriterV2.overwrite
失敗且計畫無效 - 作業系統安全性更新。
- 2024 年 4 月 11 日
- [SPARK-47309][SQL][XML] 新增結構描述推斷單元測試
- [SPARK-46990][SQL] 修正載入事件中樞發出的空白 Avro 檔案
- [SPARK-47638][PS][CONNECT] 略過 PS 中的資料行名稱驗證
- [SPARK-47509][SQL] 封鎖 Lambda 和高階函式中的子查詢運算式
- [SPARK-38708][SQL] 針對 Hive 3.1,將 Hive 中繼存放區用戶端升級至 3.1.3
- 作業系統安全性更新。
- 2024 年 4 月 1 日
- [SPARK-47322][PYTHON][CONNECT] 讓
withColumnsRenamed
資料行名稱重複處理與withColumnRenamed
保持一致 - [SPARK-47385] 修正具有 Option 輸入的 Tuple 編碼器。
- [SPARK-47070] 修正子查詢重寫之後無效的彙總
- [SPARK-47218] [SQL] XML:已將 SchemaOfXml 變更為在 DROPMALFORMED 模式下失敗
- [SPARK-47305][SQL] 修正 PruneFilters,以在計劃同時具有批次和串流時,正確標記 LocalRelation 的 isStreaming 旗標
- [SPARK-47218][SQL] XML:略過 XML 權杖化工具中已加上註解的資料列標記
- 還原「[SPARK-46861][CORE] 避免 DAGScheduler 中的鎖死」
- [SPARK-47300][SQL]
quoteIfNeeded
應引用以數位開頭的識別碼 - [SPARK-47368][SQL] 移除 ParquetRowConverter 中的 inferTimestampNTZ 設定檢查
- 作業系統安全性更新。
- [SPARK-47322][PYTHON][CONNECT] 讓
- 2024 年 3 月 14 日
- [SPARK-47035][SS][CONNECT] 用戶端接聽程式的通訊協定
- [SPARK-47121][CORE] 避免在 StandaloneSchedulerBackend 關機期間發生 RejectedExecutionExceptions
- [SPARK-47145][SQL] 將資料表識別碼傳遞給 V2 策略的資料列資料來源掃描執行程式。
- [SPARK-47176][SQL] 具有 ResolveAllExpressionsUpWithPruning 協助程式函式
- [SPARK-47167][SQL] 為 JDBC 匿名關聯新增實體類別
- [SPARK-47129][CONNECT][SQL] 正確設定
ResolveRelations
快取連線計劃 - [SPARK-47044][SQL] 新增 JDBC 外部資料來源的已執行查詢,以說明輸出
- 作業系統安全性更新。
- 2024 年 2 月 29 日
- 修正了以下問題:在 MERGE 命令中使用本地集合作為來源,可能會導致操作計量 numSourceRows 報告的正確行數加倍。
- 建立具有已定義位置的結構描述現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 權限。
- 您現在可以使用自動換片器、read_files、COPY INTO、DLT 和 DBSQL 來內嵌 XML 檔案。 XML 檔案支援可自動推斷和演進結構描述、使用 XSD 來解救類型不符的資料、使用 XSD 驗證 XML、支援 sql 運算式,例如 from_xml、schema_of_xml 和 to_xml。 如需詳細資訊,請參閱 XML 檔案支援。 如果您先前曾使用外部 spark-xml 套件,請參閱此處以取得移轉指引。
- [SPARK-46954][SQL] XML:使用 BufferedReader 包裝 InputStreamReader
- [SPARK-46630][SQL]XML:在寫入時驗證 XML 元素名稱
- [SPARK-46248][SQL]XML:支援 ignoreCorruptFiles 和 ignoreMissingFiles 選項
- [SPARK-46954][SQL] XML:最佳化結構描述索引查閱
- [SPARK-47059][SQL] 附加 ALTER COLUMN v1 命令的錯誤內容
- [SPARK-46993][SQL] 修正工作階段變數的常數折疊
- 2024 年 2 月 8 日
- 不支援 Unity 目錄具體化檢視上的變更資料摘要 (CDF) 查詢,並且嘗試使用 Unity 目錄具體化檢視執行 CDF 查詢會傳回錯誤。 Unity 目錄串流數據表支援 Databricks Runtime 14.1 和更新版本中非
APPLY CHANGES
數據表的 CDF 查詢。 Databricks Runtime 14.0 和更早版本中的 Unity 目錄串流數據表不支援 CDF 查詢。 - [SPARK-46930] 新增對 Avro 中等位型別欄位的自訂前置詞支援。
- [SPARK-46822] 在 jdbc 中將 jdbc 類型轉型為催化劑類型時,尊重 spark.sql.legacy.charVarcharAsString。
- [SPARK-46952] XML:限制損毀記錄的大小。
- [SPARK-46644] 將 SQLMetric 中的新增和合併變更為使用 isZero。
- [SPARK-46861] 避免 DAGScheduler 中的鎖死。
- [SPARK-46794] 從 LogicalRDD 條件約束移除子查詢。
- [SPARK-46941] 若包含 SizeBasedWindowFunction,則無法針對 top-k 計算插入視窗群組限制節點。
- [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
- 作業系統安全性更新。
- 不支援 Unity 目錄具體化檢視上的變更資料摘要 (CDF) 查詢,並且嘗試使用 Unity 目錄具體化檢視執行 CDF 查詢會傳回錯誤。 Unity 目錄串流數據表支援 Databricks Runtime 14.1 和更新版本中非
- 2024 年 1 月 31 日
- [SPARK-46382] XML:更新
ignoreSurroundingSpaces
的文件。 - [SPARK-46382] XML:擷取插入元素之間的值。
- [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
- 還原 [SPARK-46769] 精簡時間戳相關的結構描述推斷。
- [SPARK-46677] 修正
dataframe["*"]
解析度。 - [SPARK-46382] XML:預設 ignoreSurroundingSpaces 為 true。
- [SPARK-46633] 修正 Avro 讀取器以處理長度為零的區塊。
- [SPARK-45964] 移除在催化劑套件下,XML 和 JSON 套件中的私人 SQL 存取子。
- [SPARK-46581] 更新 AccumulatorV2 中 isZero 的註解。
- [SPARK-45912] XSDToSchema API 的增強功能:變更為適用於雲端儲存體輔助功能的 HDFS API。
- [SPARK-45182] 在重試由總和檢查碼決定的父不確定階段之後,略過舊階段的工作完成。
- [SPARK-46660] ReattachExecute 要求更新 SessionHolder 的活動性。
- [SPARK-46610] 當選項中沒有索引鍵的值時,建立資料表應該擲回例外狀況。
- [SPARK-46383] 藉由減少
TaskInfo.accumulables()
的生命週期來減少驅動程式堆積使用量。 - [SPARK-46769] 精簡時間戳記相關的結構描述推斷。
- [SPARK-46684] 修正 CoGroup.applyInPandas/Arrow 以正確傳遞引數。
- [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計畫標準化時失敗。
- [SPARK-45962] 在 XML 中移除
treatEmptyValuesAsNulls
,改用nullValue
選項。 - [SPARK-46541] 修正自我聯結中模稜兩可的資料行參考。
- [SPARK-46599] XML:使用 TypeCoercion.findTightestCommonType 進行相容性檢查。
- 作業系統安全性更新。
- [SPARK-46382] XML:更新
- 2024 年 1 月 17 日
- Photon 查詢所傳回之說明計畫的
shuffle
節點會更新,以在廣播聯結的隨機顯示期間發生記憶體不足錯誤時新增causedBroadcastJoinBuildOOM=true
旗標。 - 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-46261]
DataFrame.withColumnsRenamed
應保留 dict/map 排序。 - [SPARK-46538] 修正
ALSModel.transform
中的模稜兩可的資料行參考問題。 - [SPARK-46145] 找不到資料表或檢視表時,spark.catalog.listTables 不會擲回例外狀況。
- [SPARK-46484] 讓
resolveOperators
協助程式函式保留計畫識別碼。 - [SPARK-46394] 修正
spark.sql.legacy.keepCommandOutputSchema
設定為 true 時 spark.catalog.listDatabases(),具有特殊字元的結構描述問題。 - [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指數爆炸。
- [SPARK-46446] 停用具有相互關聯 OFFSET 的子查詢,以修正正確性錯誤。
- [SPARK-46152] XML:在 XML 結構描述推斷中新增 DecimalType 支援。
- [SPARK-46602] 當檢視/資料表不存在時,在檢視中傳播
allowExisting
。 - [SPARK-45814] 讓 ArrowConverters.createEmptyArrowBatch 呼叫 close() 以避免記憶體流失。
- [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- [SPARK-46600] 將 SqlConf 和 SqlApiConf 之間的共用程式碼移至 SqlApiConfHelper。
- [SPARK-46478] 將 SPARK-43049 還原將 oracle varchar(255) 用於字串。
- [SPARK-46417] 呼叫 hive.getTable 且 throwException 為 false 時,不返回失敗。
- [SPARK-46153] XML:新增 TimestampNTZType 支援。
- [SPARK-46056][BACKPORT] 使用 byteArrayDecimalType 預設值來修正 Parquet 向量化讀取 NPE。
- [SPARK-46466] 向量化 parquet 讀取器不應對時間戳記 ntz 重訂基底。
- [SPARK-46260]
DataFrame.withColumnsRenamed
應遵循 dict 排序。 - [SPARK-46036] 從 raise_error 函式移除錯誤類別。
- [SPARK-46294] 清除 init 與零值的語意。
- [SPARK-46173] 在日期剖析期間略過 trimAll 呼叫。
- [SPARK-46250] Deflake test_parity_listener。
- [SPARK-46587] XML:修正 XSD 大整數轉換。
- [SPARK-46396] 時間戳記推斷不應該擲回例外狀況。
- [SPARK-46241] 修正錯誤處理例程,使其不會陷入無限遞迴。
- [SPARK-46355] XML:在讀取完成時關閉 InputStreamReader。
- [SPARK-46370] 修正在變更資料行預設值之後從資料表查詢時的錯誤。
- [SPARK-46265] AddArtifact RPC 中的判斷提示會使連線用戶端與較舊的叢集不相容。
- [SPARK-46308] 禁止遞迴錯誤處理。
- [SPARK-46337] 使
CTESubstitution
保留PLAN_ID_TAG
。
- Photon 查詢所傳回之說明計畫的
- 2023 年 12 月 14 日
- [SPARK-46141] 將 spark.sql.legacy.ctePrecedencePolicy 的預設值變更為 CORRECTED。
- [SPARK-45730] 降低 ReloadingX509TrustManagerSuite 的穩定性。
- [SPARK-45852] 在記錄期間,妥善處理遞迴錯誤。
- [SPARK-45808] 更好的 SQL 例外狀況錯誤處理。
- [SPARK-45920] 依序數分組應該是等冪的。
- 還原「[SPARK-45649] 將準備架構統一為
OffsetWindowFunctionFrame
」。 - [SPARK-45733] 支援多個重試原則。
- [SPARK-45509] 修正 Spark Connect 的 df 資料行參考行為。
- [SPARK-45655] 允許 CollectMetrics 中 AggregateFunctions 內的不具決定性運算式。
- [SPARK-45905] 小數類型之間的最不常見類型應該先保留整數數位。
- [SPARK-45136] 透過 Ammonite 支援增強 ClosureCleaner。
- [SPARK-46255] 支援複雜類型 - > 字串轉換。
- [SPARK-45859] 讓 ml.functions 中的 UDF 物件變得延遲。
- [SPARK-46028] 使
Column.__getitem__
接受輸入資料行。 - [SPARK-45798] 判斷提示伺服器端工作階段識別碼。
- [SPARK-45892] 重構最佳化器計畫驗證以分離
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45844] 實作 XML 的不區分大小寫。
- [SPARK-45770] 介紹
Dataframe.drop
的計劃DataFrameDropColumns
。 - [SPARK-44790] XML:python、connect 和 SQL 的 to_xml 實作和繫結。
- [SPARK-45851] 支援 Scala 用戶端中的多個原則。
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix
,以補救 PyArrow RCE 弱點。 - 修正了源自 JDBC 或 ODBC 用戶端的
getColumns
作業中逸出底線被錯誤地解譯為萬用字元的問題。 - [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - [SPARK-45852] 適用於 Spark Connect 的 Python 用戶端現在會在文字轉換期間攔截遞迴錯誤。
- [SPARK-45808] 改善了 SQL 例外狀況的錯誤處理。
- [SPARK-45920]
GROUP BY
序數不會取代該序數。 - 還原 [SPARK-45649]。
- [SPARK-45733] 新增了對多個重試原則的支援。
- [SPARK-45509] 修正了 Spark Connect 的
df
資料行參考行為。 - [SPARK-45655] 允許
CollectMetrics
中AggregateFunctions
內的非決定性運算式。 - [SPARK-45905] 小數類型之間的最不常見類型現在先保留整數數位。
- [SPARK-45136] 透過 Ammonite 支援增強
ClosureCleaner
。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - [SPARK-46028]
Column.__getitem__
接受輸入資料行。 - [SPARK-45798] 判斷提示伺服器端工作階段識別碼。
- [SPARK-45892] 重構最佳化器計畫驗證以分離
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45844] 實作 XML 的不區分大小寫。
- [SPARK-45770] 修正了
Dataframe.drop
的DataFrameDropColumns
的資料行解析問題。 - [SPARK-44790] 新增了 Python、Spark、Connect 和 SQL 的
to_xml
實作和繫結。 - [SPARK-45851] 新增了對 Scala 用戶端中多個原則的支援。
- 作業系統安全性更新。
- 已安裝了新的套件
Databricks Runtime 14.0
請參閱 Databricks Runtime 14.0 (EoS)。
- 2024 年 2 月 8 日
- [SPARK-46396] 時間戳記推斷不應該擲回例外狀況。
- [SPARK-46794] 從 LogicalRDD 條件約束移除子查詢。
- [SPARK-45182] 在重試由總和檢查碼決定的父不確定階段之後,略過舊階段的工作完成。
- [SPARK-46933] 將查詢執行時間計量新增至使用 JDBCRDD 的連接器。
- [SPARK-45957] 避免產生非可執行命令的執行計畫。
- [SPARK-46861] 避免 DAGScheduler 中的鎖死。
- [SPARK-46930] 新增對 Avro 中等位型別欄位的自訂前置詞支援。
- [SPARK-46941] 若包含 SizeBasedWindowFunction,則無法針對 top-k 計算插入視窗群組限制節點。
- [SPARK-45582] 確定在輸出模式串流彙總內呼叫認可之後,不會使用存放區執行個體。
- 作業系統安全性更新。
- 2024 年 1 月 31 日
- [SPARK-46541] 修正自我聯結中模稜兩可的資料行參考。
- [SPARK-46676] dropDuplicatesWithinWatermark 不應該在計畫標準化時失敗。
- [SPARK-46769] 精簡時間戳記相關的結構描述推斷。
- [SPARK-45498] 後續操作:略過舊階段嘗試中的工作完成。
- 還原 [SPARK-46769] 精簡時間戳相關的結構描述推斷。
- [SPARK-46383] 藉由減少
TaskInfo.accumulables()
的生命週期來減少驅動程式堆積使用量。 - [SPARK-46633] 修正 Avro 讀取器以處理長度為零的區塊。
- [SPARK-46677] 修正
dataframe["*"]
解析度。 - [SPARK-46684] 修正 CoGroup.applyInPandas/Arrow 以正確傳遞引數。
- [SPARK-46763] 修正重複屬性的 ReplaceDeduplicateWithAggregate 中宣告失敗。
- [SPARK-46610] 當選項中沒有索引鍵的值時,建立資料表應該擲回例外狀況。
- 作業系統安全性更新。
- 2024 年 1 月 17 日
- Photon 查詢所傳回之說明計畫的
shuffle
節點會更新,以在廣播聯結的隨機顯示期間發生記憶體不足錯誤時新增causedBroadcastJoinBuildOOM=true
旗標。 - 為避免在透過 TLSv1.3 通訊時增加延遲,此維護版本包含 JDK 8 安裝的修補程式,以修正 JDK 錯誤 JDK-8293562。
- [SPARK-46394] 修正
spark.sql.legacy.keepCommandOutputSchema
設定為 true 時 spark.catalog.listDatabases(),具有特殊字元的結構描述問題。 - [SPARK-46250] Deflake test_parity_listener。
- [SPARK-45814] 讓 ArrowConverters.createEmptyArrowBatch 呼叫 close() 以避免記憶體流失。
- [SPARK-46173] 在日期剖析期間略過 trimAll 呼叫。
- [SPARK-46484] 讓
resolveOperators
協助程式函式保留計畫識別碼。 - [SPARK-46466] 向量化 parquet 讀取器不應對時間戳記 ntz 重訂基底。
- [SPARK-46056] 使用 byteArrayDecimalType 預設值來修正 Parquet 向量化讀取 NPE。
- [SPARK-46058] 為 privateKeyPassword 新增單獨的旗標。
- [SPARK-46478] 將 SPARK-43049 還原將 oracle varchar(255) 用於字串。
- [SPARK-46132] 支援用於 RPC SSL 的 JKS 金鑰密碼。
- [SPARK-46417] 呼叫 hive.getTable 且 throwException 為 false 時,不返回失敗。
- [SPARK-46261]
DataFrame.withColumnsRenamed
應保留 dict/map 排序。 - [SPARK-46370] 修正在變更資料行預設值之後從資料表查詢時的錯誤。
- [SPARK-46609] 避免 PartitioningPreservingUnaryExecNode 中的指數爆炸。
- [SPARK-46600] 將 SqlConf 和 SqlApiConf 之間的共用程式碼移至 SqlApiConfHelper。
- [SPARK-46538] 修正
ALSModel.transform
中的模稜兩可的資料行參考問題。 - [SPARK-46337] 使
CTESubstitution
保留PLAN_ID_TAG
。 - [SPARK-46602] 當檢視/資料表不存在時,在檢視中傳播
allowExisting
。 - [SPARK-46260]
DataFrame.withColumnsRenamed
應遵循 dict 排序。 - [SPARK-46145] 找不到資料表或檢視表時,spark.catalog.listTables 不會擲回例外狀況。
- Photon 查詢所傳回之說明計畫的
- 2023 年 12 月 14 日
- 修正了源自 JDBC 或 ODBC 用戶端的 getColumns 作業中逸出底線被錯誤地處理並解譯為萬用字元的問題。
- [SPARK-46255] 支援複雜類型 - > 字串轉換。
- [SPARK-46028] 使
Column.__getitem__
接受輸入資料行。 - [SPARK-45920] 依序數分組應該是等冪的。
- [SPARK-45433] 修正時間戳記與指定的 timestampFormat 不符時的 CSV/JSON 結構描述推斷。
- [SPARK-45509] 修正 Spark Connect 的 df 資料行參考行為。
- 作業系統安全性更新。
- 2023 年 11 月 29 日
- 已安裝了新的套件
pyarrow-hotfix
,以補救 PyArrow RCE 弱點。 - 修正了源自 JDBC 或 ODBC 用戶端的
getColumns
作業中逸出底線被錯誤地解譯為萬用字元的問題。 - 使用自動載入器或串流數據表擷取 CSV 數據時,大型 CSV 檔案現在可以分割,而且可以在架構推斷和數據處理期間平行處理。
- Spark-snowflake 連接器已升級至 2.12.0。
- [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - 還原 [SPARK-45592]。
- [SPARK-45892] 重構最佳化器計畫驗證以分離
validateSchemaOutput
和validateExprIdUniqueness
。 - [SPARK-45592] 修正了 AQE 中
InMemoryTableScanExec
的正確性問題。 - [SPARK-45620] 與 Python UDF 相關的 API 現使用 camelCase。
- [SPARK-44784] 使 SBT 測試具有密封性。
- [SPARK-45770] 修正了
Dataframe.drop
的DataFrameDropColumns
的資料行解析問題。 - [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - 作業系統安全性更新。
- 已安裝了新的套件
- 2023 年 11 月 10 日
- 已變更 Unity 目錄串流數據表和具體化檢視的數據摘要查詢,以顯示錯誤訊息。
- [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-45430] 在
IGNORE NULLS
和offset > rowCount
時FramelessOffsetWindowFunction
不再失敗。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-44219] 新增了額外的每規則驗證,以進行最佳化重寫。
- [SPARK-45543] 修正了如果其他視窗函式沒有與類似排名的函式相同的視窗框架,則
InferWindowGroupLimit
會產生錯誤的問題。 - 作業系統安全性更新。
- 2023 年 10 月 23 日
- [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - [SPARK-45396] 新增了
PySpark.ml.connect
模組的檔案項目,並將Evaluator
新增至ml.connect
的__all__
。 - [SPARK-45256] 修正了寫入超過初始容量的值時
DurationWriter
失敗的問題。 - [SPARK-45279] 將
plan_id
連結至所有邏輯計畫。 - [SPARK-45250] 新增了在關閉動態配置時,針對 yarn 叢集的階段層級工作資源設定檔的支援。
- [SPARK-45182] 新增了復原隨機對應階段的支援,因此當階段輸出不確定時,可以重試所有階段工作。
- [SPARK-45419] 藉由移除較大版本的檔案版本對應項目,避免重複使用不同
rocksdb
執行個體中的rocksdb sst
檔案。 - [SPARK-45386] 修正了
StorageLevel.NONE
錯誤傳回 0 的問題。 - 作業系統安全性更新。
- [SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- 針對正和負索引,
array_insert
函式是以 1 為基底,而在之前針對負索引,它以 0 為基底。 它現在會在索引 -1 的輸入數位列結尾插入新元素。 若要還原為先前的行為,請將spark.sql.legacy.negativeIndexInArrayInsert
設定為true
。 - 當具有自動載入器的 CSV 結構描述推斷已啟用
ignoreCorruptFiles
時,Azure Databricks 不再略過損毀的檔案。 - [SPARK-45227] 修正了
CoarseGrainedExecutorBackend
的細微執行緒安全性問題。 - [SPARK-44658]
ShuffleStatus.getMapStatus
應該傳回None
而不是Some(null)
。 - [SPARK-44910]
Encoders.bean
不支援具有泛型型別引數的超級類別。 - [SPARK-45346] 在合併結構描述時,Parquet 結構描述推斷會遵守區分大小寫的旗標。
- 還原 [SPARK-42946]。
- [SPARK-42205] 更新了 JSON 通訊協定,以移除工作或階段啟動事件中的可存取記錄。
- [SPARK-45360] Spark 工作階段建立器支援從
SPARK_REMOTE
初始化。 - [SPARK-45316] 將新的參數
ignoreCorruptFiles
/ignoreMissingFiles
新增至HadoopRDD
和NewHadoopRDD
。 - [SPARK-44909] 當 Torch Distributor 記錄串流伺服器無法使用時,略過執行。
- [SPARK-45084]
StateOperatorProgress
現在會使用精確的隨機分割區編號。 - [SPARK-45371] 修正了 Spark Connect Scala 用戶端中的陰影問題。
- [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - [SPARK-44840] 針對負索引,使
array_insert()
以 1 為基底。 - [SPARK-44551] 編輯了要與 OSS 同步的註解。
- [SPARK-45078] 當元素類型不等於衍生元件類型時,
ArrayInsert
函式現在會進行明確轉換。 - [SPARK-45339] PySpark 現在會記錄重試錯誤。
- [SPARK-45057] 當
keepReadLock
為 false 時,請避免取得讀取鎖定。 - [SPARK-44908] 修正了交叉驗證
foldCol
參數功能。 - 作業系統安全性更新。
Databricks Runtime 13.1
請參閱 Databricks Runtime 13.1 (EoS)。
- 2023 年 11 月 29 日
- 修正了源自 JDBC 或 ODBC 用戶端的
getColumns
作業中逸出底線被錯誤地解譯為萬用字元的問題。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之後的複雜群組運算式。 - [SPARK-43802] 修正了 unhex 和 unbase64 運算式的 codegen 會失敗的問題。
- [SPARK-43718] 修正了
USING
聯結中索引鍵的可 NULL 性。 - 作業系統安全性更新。
- 修正了源自 JDBC 或 ODBC 用戶端的
- 2023 年 11 月 14 日
- Delta Lake 串流查詢上的分割區篩選會在速率限制之前先行下推,以達到更佳的使用率。
- 已變更 Unity 目錄串流數據表和具體化檢視的數據摘要查詢,以顯示錯誤訊息。
- [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45430] 在
IGNORE NULLS
和offset > rowCount
時FramelessOffsetWindowFunction
不再失敗。 - [SPARK-45543] 修正了如果其他視窗函式沒有與類似排名的函式相同的視窗框架,則
InferWindowGroupLimit
會導致錯誤的問題。 - 作業系統安全性更新。
- 2023 年 10 月 24 日
- [SPARK-43799] 將描述項二進位選項新增至 PySpark
Protobuf
API。 - 還原 [SPARK-42946]。
- [SPARK-45346] 在合併結構描述時,Parquet 結構描述推斷現在會遵守區分大小寫的旗標。
- 作業系統安全性更新。
- [SPARK-43799] 將描述項二進位選項新增至 PySpark
- 2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- 使用自動載入器在 CSV 結構描述推斷期間啟用
ignoreCorruptFiles
時,不再略過損毀的檔案。 - [SPARK-44658]
ShuffleStatus.getMapStatus
會傳回None
而不是Some(null)
。 - [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - [SPARK-42205] 更新了 JSON 通訊協定,以移除工作或階段啟動事件中的可存取記錄。
- 作業系統安全性更新。
- 2023 年 9 月 12 日
- [SPARK-44718] 將
ColumnVector
記憶體模式組態預設值與OffHeapMemoryMode
組態值比對。 - SPARK-44878 關閉對
RocksDB
寫入管理器的嚴格限制,以避免快取完成時出現插入例外狀況。 - 其他修復。
- [SPARK-44718] 將
- 2023 年 8 月 30 日
- [SPARK-44871] 修正了 `percentile_disc 行為。
- [SPARK-44714] 簡化了有關查詢的 LCA 解析限制。
- [SPARK-44245]
PySpark.sql.dataframe sample()
文件測試現在僅供說明之用。 - [SPARK-44818] 修正了在初始化
taskThread
之前,發出的擱置中工作中斷的競爭。 - 作業系統安全性更新。
- 2023 年 8 月 15 日
- [SPARK-44485] 最佳化了
TreeNode.generateTreeString
。 - [SPARK-44643] 修正了當資料列為空時的
Row.__repr__
。 - [SPARK-44504] 維護工作現在會在停止錯誤時,清除已載入的提供者。
- [SPARK-44479] 修正了從空白結構類型進行的
protobuf
轉換。 - [SPARK-44464] 修正了
applyInPandasWithStatePythonRunner
以輸出Null
作為第一資料行值的資料列。 - 其他修復。
- [SPARK-44485] 最佳化了
- 2023 年 7 月 27 日
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的dbutils.fs.ls()
問題。 - [SPARK-44199]
CacheManager
不再不必要地重新整理fileIndex
。 - [SPARK-44448] 修正了來自
DenseRankLimitIterator
和InferWindowGroupLimit
的錯誤結果錯誤。 - 作業系統安全性更新。
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
- 2023 年 7 月 24 日
- 還原 [SPARK-42323]。
- [SPARK-41848] 修正了
TaskResourceProfile
的工作過度排程的問題。 - [SPARK-44136] 修正了可能會在
StateManager
執行程式中,而不是FlatMapGroupsWithStateExec
中取得具體化的問題。 - [SPARK-44337] 修正了將任何欄位設定為
Any.getDefaultInstance
會導致剖析錯誤的問題。 - 作業系統安全性更新。
- 2023 年 6 月 27 日
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- 光子化了
approx_count_distinct
。 failOnUnknownFields
模式中的 JSON 剖析器現在會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
PubSubRecord
屬性欄位會儲存為 JSON,而不是 Scala 對應中的字串,以便進行更直接的序列化和還原序列化。EXPLAIN EXTENDED
命令現在會傳回查詢的結果快取資格。- 透過
SHALLOW CLONE
Iceberg 和 Parquet 改善累加式更新的效能。 - [SPARK-43032] Python SQM 錯誤修復。
- [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43340] 處理事件記錄中遺漏的堆疊追蹤欄位。
- [SPARK-43527] 修正了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43541] 在解析運算式和遺漏資料行時傳播所有
Project
標記。 - [SPARK-43300]
NonFateSharingCache
Guava Cache 的包裝函式。 - [SPARK-43378] 正確關閉
deserializeFromChunkedBuffer
中的串流物件。 - [SPARK-42852] 從
EquivalentExpressions
還原NamedLambdaVariable
相關的變更。 - [SPARK-43779]
ParseToDate
現在會在主執行緒中載入EvalMode
。 - [SPARK-43413] 修正
IN
子查詢ListQuery
可 NULL 性。 - [SPARK-43889] 新增
__dir__()
的資料行名稱檢查,以篩選出容易出錯的資料行名稱。 - [SPARK-43043] 改善
MapOutputTracker
.updateMapOutput 的效能 - [SPARK-43522] 修正了使用陣列索引建立結構資料行名稱的問題。
- [SPARK-43457] 使用 OS、Python 和 Spark 版本增強使用者代理程式。
- [SPARK-43286] 更新了
aes_encrypt
CBC 模式以產生隨機 IV。 - [SPARK-42851] 使用
supportedExpression()
保護EquivalentExpressions.addExpr()
。 - 還原 [SPARK-43183]。
- 作業系統安全性更新。
- 光子化了
Databricks Runtime 12.2 LTS
請參閱 Databricks Runtime 12.2 LTS。
- 2023 年 11 月 29 日
- 修正了源自 JDBC 或 ODBC 用戶端的
getColumns
作業中逸出底線被錯誤地解譯為萬用字元的問題。 - [SPARK-42205] 移除了
Stage
和Task
啟動事件中的可累積記錄。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之後的複雜群組運算式。 - [SPARK-43718] 修正了
USING
聯結中索引鍵的可 NULL 性。 - [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-43973] 結構化串流 UI 現在顯示失敗的查詢。
- [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - 作業系統安全性更新。
- 修正了源自 JDBC 或 ODBC 用戶端的
- 2023 年 11 月 14 日
- Delta Lake 串流查詢上的分割區篩選會在速率限制之前先行下推,以達到更佳的使用率。
- [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-45430] 在
IGNORE NULLS
和offset > rowCount
時FramelessOffsetWindowFunction
不再失敗。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- 作業系統安全性更新。
- 2023 年 10 月 24 日
- [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - 其他修復。
- [SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- [SPARK-42553] 請確定間隔之後至少一個時間單位。
- [SPARK-45346] 在合併結構描述時,Parquet 結構描述推斷會遵守區分大小寫的旗標。
- [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - [SPARK-45084]
StateOperatorProgress
表示使用正確且適當的隨機分割區編號。
- 2023 年 9 月 12 日
- [SPARK-44873] 在 Hive 用戶端中新增了對帶有巢狀資料行的
alter view
的支援。 - [SPARK-44718] 將
ColumnVector
記憶體模式組態預設值與OffHeapMemoryMode
組態值比對。 - [SPARK-43799] 將描述項二進位選項新增至 PySpark
Protobuf
API。 - 其他修復。
- [SPARK-44873] 在 Hive 用戶端中新增了對帶有巢狀資料行的
- 2023 年 8 月 30 日
- [SPARK-44485] 最佳化了
TreeNode.generateTreeString
。 - [SPARK-44818] 修正了在初始化
taskThread
之前,發出的擱置中工作中斷的競爭。 - [SPARK-44871][11.3-13.0] 修正了
percentile_disc
行為。 - [SPARK-44714] 簡化了有關查詢的 LCA 解析限制。
- 作業系統安全性更新。
- [SPARK-44485] 最佳化了
- 2023 年 8 月 15 日
- [SPARK-44504] 維護工作會在停止錯誤時,清除已載入的提供者。
- [SPARK-44464] 修正了
applyInPandasWithStatePythonRunner
以輸出Null
作為第一資料行值的資料列。 - 作業系統安全性更新。
- 2023 年 7 月 29 日
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的dbutils.fs.ls()
問題。 - [SPARK-44199]
CacheManager
不再不必要地重新整理fileIndex
。 - 作業系統安全性更新。
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
- 2023 年 7 月 24 日
- [SPARK-44337] 修正了將任何欄位設定為
Any.getDefaultInstance
會導致剖析錯誤的問題。 - [SPARK-44136] 修正了可能會在
StateManager
執行程式中,而不是FlatMapGroupsWithStateExec
中取得具體化的問題。 - 作業系統安全性更新。
- [SPARK-44337] 修正了將任何欄位設定為
- 2023 年 6 月 23 日
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- 光子化了
approx_count_distinct
。 - Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- [SPARK-43779]
ParseToDate
現在會在主執行緒中載入EvalMode
。 - [SPARK-43156][SPARK-43098] 擴充了關閉了
decorrelateInnerQuery
時的純量子查詢計數錯誤測試。 - 作業系統安全性更新。
- 光子化了
- 2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 透過
SHALLOW CLONE
Iceberg 和 Parquet 改善累加式更新的效能。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43413][11.3-13.0] 修正了
IN
子查詢ListQuery
可 Null 性。 - [SPARK-43522] 修正了使用陣列索引建立結構資料行名稱的問題。
- [SPARK-43541] 在解析運算式和遺漏資料行時傳播所有
Project
標記。 - [SPARK-43527] 修正了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43123] 內部欄位中繼資料不會再外洩至目錄。
- [SPARK-43340] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。
- [SPARK-42444]
DataFrame.drop
現在正確處理重複的資料行。 - [SPARK-42937]
PlanSubqueries
現在會將InSubqueryExec#shouldBroadcast
設定為 true。 - [SPARK-43286] 更新了
aes_encrypt
CBC 模式以產生隨機 IV。 - [SPARK-43378] 正確關閉
deserializeFromChunkedBuffer
中的串流物件。
- 2023 年 5 月 17 日
- 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
- 如果僅使用
failOnUnknownFields\
選項或failOnNewColumns\
結構描述演進模式中的自動載入器讀取 Avro 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null\
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn\
選項。 - 自動載入器現在會執行下列動作。
-
- 如果提供其中一個資料類型,則正確讀取且不再修復
Integer
、Short
和Byte
類型,但 Avro 檔案建議其他兩種類型之一。
- 如果提供其中一個資料類型,則正確讀取且不再修復
-
- 防止將間隔類型讀取為日期或時間戳記類型,以避免取得損毀的日期。
-
- 防止具有較低精確度的讀取
Decimal
類型。
- 防止具有較低精確度的讀取
- [SPARK-43172] 從 Spark 連線用戶端公開主機和權杖。
- [SPARK-43293] 在一般資料行中會略過
__qualified_access_only
。 - [SPARK-43098] 修正純量子查詢依子句分組時的正確性
COUNT
錯誤。 - [SPARK-43085] 支援多部分資料表名稱的資料行
DEFAULT
指派。 - [SPARK-43190]
ListQuery.childOutput
現在與次要輸出一致。 - [SPARK-43192] 移除了使用者代理程式字元集驗證。
- 作業系統安全性更新。
- 2023 年 4 月 25 日
- 如果僅使用
failOnUnknownFields
選項或failOnNewColumns
結構描述演進模式中的自動載入器讀取 Parquet 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn
選項。 - 如果提供下列其中一個資料類型,自動載入器現在會正確讀取,且不再修復
Integer
、Short
和Byte
類型。 Parquet 檔案建議其他兩個類型之一。 先前啟用已修復的資料行時,資料類型不符會導致資料行儲存,即使資料行可讀取也一樣。 - [SPARK-43009] 使用
Any
常數參數化了sql()
- [SPARK-42406] 卸除欄位以終止 Protobuf 遞迴欄位
- [SPARK-43038] 透過
aes_encrypt()
/aes_decrypt()
支援 CBC 模式 - [SPARK-42971] 如果
appDirs
在背景工作角色處理WorkDirCleanup
事件時為 Null,則變更為列印workdir
- [SPARK-43018] 修正具有時間戳記常值之 INSERT 命令的錯誤
- 作業系統安全性更新。
- 如果僅使用
- 2023 年 4 月 11 日
- 在
SYNC
命令中支援舊版資料來源格式。 - 修正存放庫外部,筆記本中 %autoreload 行為的問題。
- 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的問題。
- [SPARK-42928] 同步處理
resolvePersistentFunction
。 - [SPARK-42936] 修正子句可透過子彙總直接解析的 LCan 問題。
- [SPARK-42967] 取消階段之後,修正在工作啟動時的
SparkListenerTaskStart.stageAttemptId
。 - 作業系統安全性更新。
- 在
- 2023 年 3 月 29 日
Databricks SQL 現在支援指定 Delta Lake 資料表資料行的預設值,不論是在資料表建立時還是之後。 後續
INSERT
、UPDATE
、DELETE
和MERGE
命令可以使用明確DEFAULT
關鍵字來參考任何資料行的預設值。 此外,如果任何INSERT
指派具有比目標資料表少之資料行的明確清單,則對應的資料行預設值會被取代為其餘資料行 (如果沒有指定預設值則為 NULL)。例如:
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
自動載入器現在會為
Trigger.AvailableNow
串流起始至少一個同步的 RocksDB 記錄清理,以檢查檢查點是否可以定期清除快速執行的自動載入器串流。 這可能會導致某些串流在關閉之前花費更長的時間,但它會節省儲存體成本,並改善未來執行的自動載入器體驗。現在可以修改差異資料表,以使用
DeltaTable.addFeatureSupport(feature_name)
將支援新增至資料表功能。[SPARK-42794] 將 lockAcquireTimeoutMs 增加到 2 分鐘,以取得結構串流中的 RocksDB 狀態存放區
[SPARK-42521] 為 INSERT 新增 NUL,其中包含比目標資料表少的使用者指定資料行清單
[SPARK-42702][SPARK-42623] 支援子查詢與 CTE 中的參數化查詢
[SPARK-42668] 嘗試關閉 HDFSStateStoreProvider 中的壓縮串流時攔截例外狀況
[SPARK-42403] JsonProtocol 應處理 Null JSON 字串
- 2023 年 3 月 8 日
- 錯誤訊息「無法初始化組態」已得到改善,以提供更多內容給客戶。
- 使用資料表屬性將功能新增至差異資料表存在術語變更。 慣用的語法現在是
'delta.feature.featureName'='supported'
,而不是'delta.feature.featureName'='enabled'
。 為了保持回溯相容性,使用'delta.feature.featureName'='enabled'
仍可運作,並且會繼續運作。 - 從這個版本開始,可以將資料表建立/取代為其他資料表屬性
delta.ignoreProtocolDefaults
,以略過通訊協定相關的 Spark 組態,其中包括預設支援的讀取器和寫入器版本和資料表功能。 - [SPARK-42070] 將 Mask 函式引數的預設值從 -1 變更為 NULL
- [SPARK-41793] 由有效小數範圍子句定義的視窗框架結果不正確
- [SPARK-42484] UnsafeRowUtils 更好的錯誤訊息
- [SPARK-42516] 建立檢視時一律擷取工作階段時區設定
- [SPARK-42635] 修正 TimestampAdd 運算式。
- [SPARK-42622] 已關閉值中的替代
- [SPARK-42534] 修正 DB2Dialect Limit 子句
- [SPARK-42121] 新增內建資料表值函式 posexplode、posexplode_outer、json_tuple 和堆疊
- [SPARK-42045] ANSI SQL 模式:Round/Bround 應該在極小/小/有效整數溢位時傳回錯誤
- 作業系統安全性更新。
Databricks Runtime 11.3 LTS
請參閱 Databricks Runtime 11.3 LTS。
- 2023 年 11 月 29 日
- 修正了源自 JDBC 或 ODBC 用戶端的
getColumns
作業中逸出底線被錯誤地解譯為萬用字元的問題。 - [SPARK-43973] 結構化串流 UI 現在顯示失敗的查詢。
- [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - [SPARK-43718] 修正了
USING
聯結中索引鍵的可 NULL 性。 - [SPARK-44846] 移除了
RemoveRedundantAggregates
之後的複雜群組運算式。 - 作業系統安全性更新。
- 修正了源自 JDBC 或 ODBC 用戶端的
- 2023 年 11 月 14 日
- Delta Lake 串流查詢上的分割區篩選會在速率限制之前先行下推,以達到更佳的使用率。
- [SPARK-42205] 移除了階段和工作啟動事件中的可累積記錄。
- [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - 還原 [SPARK-33861]。
- [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45430] 在
IGNORE NULLS
和offset > rowCount
時FramelessOffsetWindowFunction
不再失敗。 - [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - 作業系統安全性更新。
- 2023 年 10 月 24 日
- [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - 其他修復。
- [SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - [SPARK-45084]
StateOperatorProgress
表示使用正確且適當的隨機分割區編號。 - [SPARK-45346] 在合併結構描述時,Parquet 結構描述推斷現在會遵守區分大小寫的旗標。
- 作業系統安全性更新。
- 2023 年 9 月 10 日
- 其他修復。
- 2023 年 8 月 30 日
- [SPARK-44818] 修正了在初始化
taskThread
之前,發出的擱置中工作中斷的競爭。 - [SPARK-44871][11.3-13.0] 修正了
percentile_disc
行為。 - 作業系統安全性更新。
- [SPARK-44818] 修正了在初始化
- 2023 年 8 月 15 日
- [SPARK-44485] 最佳化了
TreeNode.generateTreeString
。 - [SPARK-44504] 維護工作會在停止錯誤時,清除已載入的提供者。
- [SPARK-44464] 修正了
applyInPandasWithStatePythonRunner
以輸出Null
作為第一資料行值的資料列。 - 作業系統安全性更新。
- [SPARK-44485] 最佳化了
- 2023 年 7 月 27 日
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的dbutils.fs.ls()
問題。 - [SPARK-44199]
CacheManager
不再不必要地重新整理fileIndex
。 - 作業系統安全性更新。
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
- 2023 年 7 月 24 日
- [SPARK-44136] 修正了 StateManager 可以在執行程式中具體化,而不是在 FlatMapGroupsWithStateExec 中取得驅動程式的問題。
- 作業系統安全性更新。
- 2023 年 6 月 23 日
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- 光子化了
approx_count_distinct
。 - Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- [SPARK-43779]
ParseToDate
現在會在主執行緒中載入EvalMode
。 - [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢
- [SPARK-43156][SPARK-43098] 擴充了關閉了
decorrelateInnerQuery
時的純量子查詢計數錯誤測試。 - [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤
- 作業系統安全性更新。
- 光子化了
- 2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 透過
SHALLOW CLONE
Iceberg 和 Parquet 改善累加式更新的效能。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43527] 修正了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43413][11.3-13.0] 修正了
IN
子查詢ListQuery
可 Null 性。 - [SPARK-43340] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。
Databricks Runtime 10.4 LTS
請參閱 Databricks Runtime 10.4 LTS。
- 2023 年 11 月 29 日
- [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - [SPARK-43718] 修正了
USING
聯結中索引鍵的可 NULL 性。 - [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - [SPARK-42205] 移除了階段和工作啟動事件中的可累積記錄。
- [SPARK-44846] 移除了
RemoveRedundantAggregates
之後的複雜群組運算式。 - 作業系統安全性更新。
- [SPARK-45544] 向
- 2023 年 11 月 14 日
- [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - 還原 [SPARK-33861]。
- 作業系統安全性更新。
- [SPARK-45541] 新增了
- 2023 年 10 月 24 日
- [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - 作業系統安全性更新。
- [SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- [SPARK-45084]
StateOperatorProgress
表示使用正確且適當的隨機分割區編號。 - [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - 作業系統安全性更新。
- [SPARK-45084]
- 2023 年 9 月 10 日
- 其他修復。
- 2023 年 8 月 30 日
- [SPARK-44818] 修正了在初始化
taskThread
之前,發出的擱置中工作中斷的競爭。 - 作業系統安全性更新。
- [SPARK-44818] 修正了在初始化
- 2023 年 8 月 15 日
- [SPARK-44504] 維護工作會在停止錯誤時,清除已載入的提供者。
- [SPARK-43973] 結構化串流 UI 現在顯示失敗的查詢。
- 作業系統安全性更新。
- 2023 年 6 月 23 日
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤
- [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢
- [SPARK-43156][SPARK-43098] 擴充了關閉了
decorrelateInnerQuery
時的純量子查詢計數測試。 - 作業系統安全性更新。
- 2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 修正了 JSON 修復資料剖析中的問題,以防止
UnknownFieldException
。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-43404] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43413] 修正了
IN
子查詢ListQuery
可 Null 性。 - 作業系統安全性更新。
- 2023 年 5 月 17 日
- 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
- [SPARK-41520] 分割
AND_OR
樹狀結構模式以分隔AND
與OR
。 - [SPARK-43190]
ListQuery.childOutput
現在與次要輸出一致。 - 作業系統安全性更新。
- 2023 年 4 月 25 日
- [SPARK-42928] 同步處理
resolvePersistentFunction
。 - 作業系統安全性更新。
- [SPARK-42928] 同步處理
- 2023 年 4 月 11 日
- 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的問題。
- [SPARK-42937]
PlanSubqueries
現在會將InSubqueryExec#shouldBroadcast
設定為 true。 - [SPARK-42967] 在取消階段之後啟動工作時修正 SparkListenerTaskStart.stageAttemptId。
- 2023 年 3 月 29 日
- [SPARK-42668] 嘗試關閉 HDFSStateStoreProvider 中的壓縮串流時攔截例外狀況
- [SPARK-42635] 修正 ...
- 作業系統安全性更新。
- 2023 年 3 月 14 日
- [SPARK-41162] 使用彙總,修正自我聯結的反聯結和半聯結
- [SPARK-33206] 修正小型索引檔案的隨機索引快取權數計算
- [SPARK-42484] 改善了
UnsafeRowUtils
錯誤訊息 - 其他修復。
- 2023 年 2 月 28 日
- 支援 yyyy-MM-dd date_format 所產生的資料行。 這項變更支援 yyyy-MM-dd 的資料分割剪除,作為所產生資料行中的 date_format。
- 使用者現在可以使用 Databricks Runtime 9.1 LTS 或更新版本,讀取和寫入需要讀取器第 3 版和寫入器第 7 版的特定差異資料表。 若要取得成功,資料表通訊協定中列出的資料表功能必須由目前的版本的 Databricks Runtime 支援。
- 支援 yyyy-MM-dd date_format 所產生的資料行。 這項變更支援 yyyy-MM-dd 的資料分割剪除,作為所產生資料行中的 date_format。
- 作業系統安全性更新。
- 2023 年 2 月 16 日
- [SPARK-30220] 使用篩選節點外部的 Exists/In 子查詢來啟用
- 作業系統安全性更新。
- 2023 年 1 月 31 日
- JDBC 資料表的資料表類型現在預設為 EXTERNAL。
- 2023 年 1 月 18 日
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
。 - [SPARK-38277] 在 RocksDB 狀態存放區認可之後,清除寫入批次
- [SPARK-41199] 修正 DSv1 串流來源與 DSv2 串流來源共同使用時的計量問題
- [SPARK-41198] 修正串流查詢中具有 CTE 與 DSv1 串流來源的計量
- [SPARK-41339] 關閉並重新建立 RocksDB 寫入批次,不只是清除
- [SPARK-41732] 為規則 SessionWindowing 套用樹狀模式型剪除
- 作業系統安全性更新。
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
- 2022 年 11 月 29 日
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 當
csvignoreleadingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除前置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。 - 當
csvignoretrailingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除後置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。
- 當
- 修正了當所有資料行都保留為字串 (
cloudFiles.inferColumnTypes
未設定或設定為false
) 和 JSON 包含巢狀物件時,自動載入器中 JSON 剖析的問題。 - 作業系統安全性更新。
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 2022 年 11 月 15 日
- 將 Apache commons-text 升級至 1.10.0。
- [SPARK-40646] 修正了結構、對應和陳列的 JSON 剖析,因此當記錄的一部分不符合結構描述時,仍可以正確剖析其餘記錄,而不是傳回 Null。 若要加入改善的行為,請將
spark.sql.json.enablePartialResults
設定為true
。 旗標預設為關閉,以保留原始行為。 - [SPARK-40292] 修正從巢狀結構參考陳列時
arrays_zip
函式中的資料行名稱 - 作業系統安全性更新。
- 2022 年 11 月 1 日
- 修正了如果差異資料表具有名為
_change_type
的使用者定義資料行,但該資料表上已關閉變更資料摘要,導致該資料行中的資料在執行MERGE
時,會錯誤地填入 NULL 值的問題。 - 修正了啟用時
allowOverwrites
,自動載入器中檔案可在相同的微批次中複製的問題 - [SPARK-40697] 新增讀取端字元填補,以涵蓋外部資料檔案
- [SPARK-40596] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
- 作業系統安全性更新。
- 修正了如果差異資料表具有名為
- 2022 年 10 月 18 日
- 作業系統安全性更新。
- 2022 年 10 月 5 日
- [SPARK-40468] 修正在選取
_corrupt_record
時 CSV 中的資料行剪除。 - 作業系統安全性更新。
- [SPARK-40468] 修正在選取
- 2022 年 9 月 22 日
- 使用者可以設定 spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
、true
),以在 ADLS Gen2 上重新啟用自動載入器內建清單。 內建清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。 - [SPARK-40315] 為 ArrayBasedMapData 的常值新增 hashCode()
- [SPARK-40213] 支援 Latin-1 字元的 ASCII 值轉換
- [SPARK-40380] 修正 InvokeLike 的常數折疊,以避免在方案中內嵌的非串行化常值
- [SPARK-38404] 改善巢狀 CTE 參考外部 CTE 時的 CTE 解析
- [SPARK-40089] 修正一些小數類型的排序
- [SPARK-39887] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
- 使用者可以設定 spark.conf.set(
- 2022 年 9 月 6 日
- [SPARK-40235] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理
- [SPARK-40218] GROUPING SETS 應保留群組資料行
- [SPARK-39976] ArrayIntersect 應正確處理左則運算式中的 Null
- [SPARK-40053] 將
assume
新增至需要 Python 執行階段環境的動態取消案例 - [SPARK-35542] 修正:為具有參數 splitsArray、inputCols 和 outputCols 的多個資料行建立的貯體化程式在儲存之後無法載入
- [SPARK-40079] 新增空白輸入案例的 Imputer inputCols 驗證
- 2022 年 8 月 24 日
- [SPARK-39983] 請勿在驅動程式上快取未序列化的廣播關係
- [SPARK-39775] 剖析 Avro 結構描述時停用驗證預設值
- [SPARK-39962] 當群組屬性為空時套用投影
- [SPARK-37643] 當 charVarcharAsString 為 true 時,字元資料類型述詞查詢應該略過 rpadding 規則
- 作業系統安全性更新。
- 2022 年 8 月 9 日
- [SPARK-39847] 如果呼叫端執行緒中斷,請修正 RocksDBLoader.loadLibrary() 中的競爭條件
- [SPARK-39731] 使用 CORRECTED 時間剖析器原則剖析「yyyyMMdd」格式的日期時,修正 CSV 和 JSON 資料來源的問題
- 作業系統安全性更新。
- 2022 年 7 月 27 日
- [SPARK-39625] 新增 Dataset.as(StructType)
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
lineSep
- [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded 應是安全執行緒
- [SPARK-39570] 內嵌資料表應允許具有別名的運算式
- [SPARK-39702] 使用共用的 byteRawChannel 減少 TransportCipher$EncryptedMessage 的記憶體額外負荷
- [SPARK-39575] 在 AvroDeserializer 中新增 ByteBuffer#get 後 ByteBuffer#rewind
- [SPARK-39476] 從 Long 轉換為 Float/Double 或從 Integer 轉換成 Float 時,停用解除包裝轉換最佳化
- [SPARK-38868] 最佳化外部聯結時,請勿從篩選述詞傳播例外狀況
- 作業系統安全性更新。
- 2022 年 7 月 20 日
- 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
- [SPARK-39355] 單一資料行使用引號來建構 UnresolvedAttribute
- [SPARK-39548] 使用 window 子句查詢的 CreateView 命令會產生找不到錯誤視窗定義的問題
- [SPARK-39419] 修正 ArraySort,以在比較子傳回 Null 時擲回例外狀況
- 已停止自動載入器針對 Azure 上的目錄清單使用內建雲端 API。
- 作業系統安全性更新。
- 2022 年 7 月 5 日
- [SPARK-39376] 從 NATURAL/USING JOIN 隱藏子查詢別名星形展開中的重複資料行
- 作業系統安全性更新。
- 2022 年 6 月 15 日
- [SPARK-39283] 修正 TaskMemoryManager 與 UnsafeExternalSorter.SpillableIterator 之間的鎖死
- [SPARK-39285] 讀取檔案時,Spark 不應檢查功能變數名稱
- [SPARK-34096] 改善偏移視窗上 nth_value 略過 null 的效能
- [SPARK-36718] 修正 CollapseProject 中的
isExtractOnly
檢查
- 2022 年 6 月 2 日
- [SPARK-39093] 避免將年-月間隔或日-時間間隔除以整數時發生 codegen 編譯錯誤
- [SPARK-38990] 在評估 date_trunc/截斷格式作為參考參考時,避免 NullPointerException
- 作業系統安全性更新。
- 2022 年 5 月 18 日
- 修正自動載入器中,潛在的內建記憶體流失。
- [SPARK-38918] 巢狀資料行剪除應篩選出不屬於目前關聯的屬性
- [SPARK-37593] 如果使用 G1GC 和 ON_HEAP,請減少預設頁面大小 LONG_ARRAY_OFFSET
- [SPARK-39084] 修正 df.rdd.isEmpty() 使用 TaskContext 停止工作完成的迭代器
- [SPARK-32268] 在 injectBloomFilter 中新增 ColumnPruning
- [SPARK-38974] 在清單函式中篩選具有指定資料庫名稱的註冊函式
- [SPARK-38931] 為 RocksDBFileManager 建立根 dfs 目錄,並且在第 1 個檢查點上具有未知數目的索引鍵
- 作業系統安全性更新。
- 2022 年 4 月 19 日
- 將 Java AWS SDK 從 1.11.655 版升級為 1.12.1899。
- 修正了筆記本範圍程式庫無法在批次串流作業中運作的問題。
- [SPARK-38616] 追蹤 Catalyst TreeNode 中的 SQL 查詢文字
- 作業系統安全性更新。
- 2022 年 4 月 6 日
- 本版本現在提供下列 Spark SQL 函式:
timestampadd()
和dateadd()
:將指定單元中的持續時間新增至時間戳記運算式。timestampdiff()
和datediff()
:計算指定單位中兩個時間戳記運算式之間的時間差異。
- Parquet-MR 已升級至 1.12.2
- 改善了 parquet 檔案中完整結構描述的支援
- [SPARK-38631] 使用 Java 型實作在 Utils.unpack 解除壓縮
- [SPARK-38509][SPARK-38481] 揀選三個
timestmapadd/diff
變更。 - [SPARK-38523] 修正從 CSV 參考損毀的記錄資料行
- [SPARK-38237] 允許
ClusteredDistribution
要求完整叢集索引鍵 - [SPARK-38437] 資料來源中日期時間的 Lenient 序列化
- [SPARK-38180] 允許相互關聯的相等述詞中的安全向上轉換運算式
- [SPARK-38155] 不允許具有不支援述詞之橫向子查詢中的相異彙總
- 作業系統安全性更新。
- 本版本現在提供下列 Spark SQL 函式:
Databricks Runtime 9.1 LTS
請參閱 Databricks Runtime 9.1 LTS。
- 2023 年 11 月 29 日
- [SPARK-45859] 將
ml.functions
中的 UDF 物件設為惰性。 - [SPARK-45544] 向
TransportContext
中整合了 SSL 支援。 - [SPARK-45730] 改善了
ReloadingX509TrustManagerSuite
的時間條件約束。 - 作業系統安全性更新。
- [SPARK-45859] 將
- 2023 年 11 月 14 日
- [SPARK-45545]
SparkTransportConf
會在建立時繼承SSLOptions
。 - [SPARK-45429] 為 SSL RPC 通訊新增了協助程式類別。
- [SPARK-45427] 將 RPC SSL 設定新增至
SSLOptions
和SparkTransportConf
。 - [SPARK-45584] 修正了
TakeOrderedAndProjectExec
的子查詢執行失敗的問題。 - [SPARK-45541] 新增了
SSLFactory
。 - [SPARK-42205] 移除了階段和工作啟動事件中的可累積記錄。
- 作業系統安全性更新。
- [SPARK-45545]
- 2023 年 10 月 24 日
- [SPARK-45426] 新增了對
ReloadingX509TrustManager
的支援。 - 作業系統安全性更新。
- [SPARK-45426] 新增了對
- 2023 年 10 月 13 日
- 作業系統安全性更新。
- 2023 年 9 月 10 日
- 其他修復。
- 2023 年 8 月 30 日
- 作業系統安全性更新。
- 2023 年 8 月 15 日
- 作業系統安全性更新。
- 2023 年 6 月 23 日
- Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- 作業系統安全性更新。
- 2023 年 6 月 15 日
- [SPARK-43098] 修正純量子查詢依子句分組時的正確性 COUNT 錯誤
- [SPARK-43156][SPARK-43098] 擴充了關閉了
decorrelateInnerQuery
時的純量子查詢計數錯誤測試。 - [SPARK-40862] 支援 RewriteCorrelatedScalarSubquery 中的非彙總子查詢
- 作業系統安全性更新。
- 2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 修正了 JSON 修復資料剖析中的問題,以防止
UnknownFieldException
。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-37520] 新增
startswith()
和endswith()
字串函式 - [SPARK-43413] 修正了
IN
子查詢ListQuery
可 Null 性。 - 作業系統安全性更新。
- 2023 年 5 月 17 日
- 作業系統安全性更新。
- 2023 年 4 月 25 日
- 作業系統安全性更新。
- 2023 年 4 月 11 日
- 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的問題。
- [SPARK-42967] 在取消階段之後啟動工作時修正 SparkListenerTaskStart.stageAttemptId。
- 2023 年 3 月 29 日
- 作業系統安全性更新。
- 2023 年 3 月 14 日
- [SPARK-42484] 改善了
UnsafeRowUtils
的錯誤訊息。 - 其他修復。
- [SPARK-42484] 改善了
- 2023 年 2 月 28 日
- 使用者現在可以使用 Databricks Runtime 9.1 LTS 或更新版本,讀取和寫入需要讀取器第 3 版和寫入器第 7 版的特定差異資料表。 若要取得成功,資料表通訊協定中列出的資料表功能必須由目前的版本的 Databricks Runtime 支援。
- 作業系統安全性更新。
- 2023 年 2 月 16 日
- 作業系統安全性更新。
- 2023 年 1 月 31 日
- JDBC 資料表的資料表類型現在預設為 EXTERNAL。
- 2023 年 1 月 18 日
- 作業系統安全性更新。
- 2022 年 11 月 29 日
- 修正了當所有資料行都保留為字串 (
cloudFiles.inferColumnTypes
未設定或設定為false
) 和 JSON 包含巢狀物件時,自動載入器中 JSON 剖析的問題。 - 作業系統安全性更新。
- 修正了當所有資料行都保留為字串 (
- 2022 年 11 月 15 日
- 將 Apache commons-text 升級至 1.10.0。
- 作業系統安全性更新。
- 其他修復。
- 2022 年 11 月 1 日
- 修正了如果差異資料表具有名為
_change_type
的使用者定義資料行,但該資料表上已關閉變更資料摘要,導致該資料行中的資料在執行MERGE
時,會錯誤地填入 NULL 值的問題。 - 修正了啟用時
allowOverwrites
,自動載入器中檔案可在相同的微批次中複製的問題 - [SPARK-40596] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
- 作業系統安全性更新。
- 修正了如果差異資料表具有名為
- 2022 年 10 月 18 日
- 作業系統安全性更新。
- 2022 年 10 月 5 日
- 其他修復。
- 作業系統安全性更新。
- 2022 年 9 月 22 日
- 使用者可以設定 spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) 以重新啟用 ADLS Gen2 上的自動載入器內建清單。 內建清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。
- [SPARK-40315] 為 ArrayBasedMapData 的常值新增 hashCode()
- [SPARK-40089] 修正一些小數類型的排序
- [SPARK-39887] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
- 2022 年 9 月 6 日
- [SPARK-40235] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理
- [SPARK-35542] 修正:為具有參數 splitsArray、inputCols 和 outputCols 的多個資料行建立的貯體化程式在儲存之後無法載入
- [SPARK-40079] 新增空白輸入案例的 Imputer inputCols 驗證
- 2022 年 8 月 24 日
- [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以關聯
spark.sql.codegen.factoryMode
- [SPARK-39962] 當群組屬性為空時套用投影
- 作業系統安全性更新。
- [SPARK-39666] 在 ExpressionEncoder 中使用 UnsafeProjection.create 以關聯
- 2022 年 8 月 9 日
- 作業系統安全性更新。
- 2022 年 7 月 27 日
- 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
lineSep
- [SPARK-39575] 在
AvroDeserializer
中ByteBuffer#rewind
之後新增ByteBuffer#get
。 - [SPARK-37392] 修正了催化劑最佳化工具的效能錯誤。
- 作業系統安全性更新。
- 2022 年 7 月 13 日
- [SPARK-39419] 當比較子傳回 Null 時,
ArraySort
會擲回例外狀況。 - 已停止自動載入器針對 Azure 上的目錄清單使用內建雲端 API。
- 作業系統安全性更新。
- [SPARK-39419] 當比較子傳回 Null 時,
- 2022 年 7 月 5 日
- 作業系統安全性更新。
- 其他修復。
- 2022 年 6 月 15 日
- [SPARK-39283] 修正
TaskMemoryManager
和UnsafeExternalSorter.SpillableIterator
之間的鎖死。
- [SPARK-39283] 修正
- 2022 年 6 月 2 日
- [SPARK-34554] 在
ColumnarMap
中實作copy()
方法。 - 作業系統安全性更新。
- [SPARK-34554] 在
- 2022 年 5 月 18 日
- 修正了自動載入器中,潛在的內建記憶體流失。
- 將 AWS SDK 從 1.11.655 版升級為 1.11.678。
- [SPARK-38918] 巢狀資料行剪除應篩選出不屬於目前關聯的屬性
- [SPARK-39084] 使用
TaskContext
在工作完成時停止迭代器來修正df.rdd.isEmpty()
- 作業系統安全性更新。
- 2022 年 4 月 19 日
- 作業系統安全性更新。
- 其他修復。
- 2022 年 4 月 6 日
- [SPARK-38631] 使用 Java 型實作在 Utils.unpack 解除壓縮
- 作業系統安全性更新。
- 2022 年 3 月 22 日
- 在啟用資料表存取控制或憑證傳遞的高並行叢集上,將筆記本的目前工作目錄變更為使用者的主目錄。 先前,Active Directory 為
/databricks/driver
。 - [SPARK-38437] 資料來源中日期時間的 Lenient 序列化
- [SPARK-38180] 允許相互關聯的相等述詞中的安全向上轉換運算式
- [SPARK-38155] 不允許具有不支援述詞之橫向子查詢中的相異彙總
- [SPARK-27442] 在 parquet 中讀取或寫入資料時,移除了複選欄位。
- 在啟用資料表存取控制或憑證傳遞的高並行叢集上,將筆記本的目前工作目錄變更為使用者的主目錄。 先前,Active Directory 為
- 2022 年 3 月 14 日
- [SPARK-38236] 在建立/改變資料表中指定的絕對檔案路徑會被視為相對
- [SPARK-34069] 如果區域屬性
SPARK_JOB_INTERRUPT_ON_CANCEL
設定為 true,則中斷‘工作執行緒。
- 2022 年 2 月 23 日
- [SPARK-37859] Spark 3.1 使用 JDBC 建立的 SQL 資料表,Spark 3.2 無法讀取。
- 2022 年 2 月 8 日
- [SPARK-27442] 在 parquet 中讀取或寫入資料時,移除了複選欄位。
- 作業系統安全性更新。
- 2022 年 2 月 1 日
- 作業系統安全性更新。
- 2022 年 1 月 26 日
- 修正了在特定罕見情況下,差異資料表上的並行交易可用不可序列化的順序認可的問題。
- 修正了當 ANSI SQL 方言啟用時,命令可能會失敗的問題
OPTIMIZE
。
- 2022 年 1 月 19 日
- 次要修正與安全性增強功能。
- 作業系統安全性更新。
- 2021 年 11 月 4 日
- 修正了可能導致結構化串流失敗的問題
ArrayIndexOutOfBoundsException
。 - 修正了可能會造成
java.io.IOException: No FileSystem for scheme
等 IOException 的查詢失敗,或可能會導致對sparkContext.hadoopConfiguration
的修改在查詢中不生效的競爭條件。 - 適用於 Delta Sharing 的 Apache Spark 連接器已升級至 0.2.0。
- 修正了可能導致結構化串流失敗的問題
- 2021 年 10 月 20 日
- 將 BigQuery 連接器從 0.18.1 升級至 0.22.2。 這會新增對 BigNumeric 類型的支援。
Databricks Runtime 13.0 (EoS)
請參閱Databricks Runtime 13.0 (EoS)。
2023 年 10 月 13 日
- Snowflake-jdbc 相依性已從 3.13.29 升級至 3.13.33。
- [SPARK-42553][SQL] 請確定間隔之後至少一個時間單位。
- [SPARK-45178] 對於具有不支援的來源的
Trigger.AvailableNow
,回退到執行單一批次,而不是使用包裝函式。 - [SPARK-44658][CORE]
ShuffleStatus.getMapStatus
會傳回None
而不是Some(null)
。 - [SPARK-42205][CORE] 移除
JsonProtocol
中工作/階段啟動事件中的可累積記錄。 - 作業系統安全性更新。
2023 年 9 月 12 日
- [SPARK-44485][SQL] 最佳化
TreeNode.generateTreeString
。 - [SPARK-44718][SQL] 將
ColumnVector
記憶體模式組態預設值與OffHeapMemoryMode
組態值比對。 - 其他錯誤修正。
- [SPARK-44485][SQL] 最佳化
2023 年 8 月 30 日
- [SPARK-44818][向後移植] 修正了在初始化之前
taskThread
發出之擱置中工作中斷的競爭。 - [SPARK-44714] 簡化了有關查詢的 LCA 解析限制。
- [SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
文件測試現在僅供說明之用。 - [SPARK-44871][11.3-13.0][SQL] 修正了
percentile_disc
行為。 - 作業系統安全性更新。
- [SPARK-44818][向後移植] 修正了在初始化之前
2023 年 8 月 15 日
- [SPARK-44643][SQL][PYTHON] 當資料列為空時修正
Row.__repr__
。 - [SPARK-44504][向後移植] 維護工作會在停止錯誤時,清除已載入的提供者。
- [SPARK-44479][CONNECT][PYTHON] 修正了從空白結構類型進行的
protobuf
轉換。 - [SPARK-44464][SS] 修正了
applyInPandasWithStatePythonRunner
以輸出Null
作為第一資料行值的資料列。 - 其他錯誤修正。
- [SPARK-44643][SQL][PYTHON] 當資料列為空時修正
2023 年 7 月 29 日
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
INVALID_PARAMETER_VALUE.LOCATION_OVERLAP
的dbutils.fs.ls()
錯誤。 - [SPARK-44199]
CacheManager
不再不必要地重新整理fileIndex
。 - 作業系統安全性更新。
- 修正了在呼叫與其他外部或受控儲存位置發生衝突的儲存位置路徑時,傳回
2023 年 7 月 24 日
- [SPARK-44337][PROTOBUF] 修正了將任何欄位設定為
Any.getDefaultInstance
會導致剖析錯誤的問題。 - [SPARK-44136] [SS] 修正了可能會在
StateManager
執行程式中,而不是FlatMapGroupsWithStateExec
中取得具體化的問題。 - 還原 [SPARK-42323][SQL] 將名稱指派給
_LEGACY_ERROR_TEMP_2332
。 - 作業系統安全性更新。
- [SPARK-44337][PROTOBUF] 修正了將任何欄位設定為
2023 年 6 月 23 日
- 作業系統安全性更新。
2023 年 6 月 15 日
- 光子化了
approx_count_distinct
。 - Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- [SPARK-43156][SPARK-43098][SQL] 透過停用的 decorrelateInnerQuery 來擴充純量子查詢計數錯誤測試
- [SPARK-43779][SQL]
ParseToDate
現在會在主執行緒中載入EvalMode
。 - [SPARK-42937][SQL]
PlanSubqueries
應將InSubqueryExec#shouldBroadcast
設定為 true - 作業系統安全性更新。
- 光子化了
2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 透過
SHALLOW CLONE
Iceberg 和 Parquet 改善累加式更新的效能。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-43404][向後移植] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43340][CORE] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。
- [SPARK-43300][CORE]
NonFateSharingCache
Guava Cache 的包裝函式。 - [SPARK-43378][CORE] 正確關閉
deserializeFromChunkedBuffer
中的串流物件。 - [SPARK-16484][SQL] 使用 8 位元暫存器來代表 DataSketches。
- [SPARK-43522][SQL] 修正了使用陣列索引建立結構資料行名稱的問題。
- [SPARK-43413][11.3-13.0][SQL] 修正了
IN
子查詢ListQuery
可 Null 性。 - [SPARK-43043][CORE] 改善了
MapOutputTracker.updateMapOutput
效能。 - [SPARK-16484][SQL] 新增了 DataSketches HllSketch 的支援。
- [SPARK-43123][SQL] 內部欄位中繼資料不會再外洩至目錄。
- [SPARK-42851][SQL] 使用
supportedExpression()
保護EquivalentExpressions.addExpr()
。 - [SPARK-43336][SQL]
Timestamp
和TimestampNTZ
之間的轉換需要時區。 - [SPARK-43286][SQL] 更新了
aes_encrypt
CBC 模式以產生隨機 IV。 - [SPARK-42852][SQL] 從
EquivalentExpressions
還原NamedLambdaVariable
相關的變更。 - [SPARK-43541][SQL] 在解析運算式和遺漏資料行時傳播所有
Project
標記。 - [SPARK-43527][PYTHON] 修正了 PySpark 中的
catalog.listCatalogs
。 - 作業系統安全性更新。
2023 年 5 月 31 日
- 針對在 Unity 目錄中註冊的差異資料表的預設最佳化寫入支援已展開,以包含資料分割資料表的
CTAS
陳述式和INSERT
作業。 此行為與 SQL 倉儲上的預設值保持一致。 請參閱 Azure Databricks 上 Delta Lake 的最佳化寫入。
- 針對在 Unity 目錄中註冊的差異資料表的預設最佳化寫入支援已展開,以包含資料分割資料表的
2023 年 5 月 17 日
- 修正迴歸,其中
_metadata.file_path
和_metadata.file_name
會傳回格式不正確的字串。 例如,現在含有空格的路徑會以s3://test-bucket/some%20directory/some%20data.csv
表示,而不是s3://test-bucket/some directory/some data.csv
。 - 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
-
- 如果僅使用
failOnUnknownFields\
選項或failOnNewColumns\
結構描述演進模式中的自動載入器讀取 Avro 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null\
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn\
選項。
- 如果僅使用
- 自動載入器現在會執行下列動作。
-
- 如果提供其中一個資料類型,則正確讀取且不再修復
Integer
、Short
、Byte
類型,但 Avro 檔案建議其他兩種類型之一。
- 如果提供其中一個資料類型,則正確讀取且不再修復
-
- 防止將間隔類型讀取為日期或時間戳記類型,以避免取得損毀的日期。
-
- 防止具有較低精確度的讀取
Decimal
類型。
- 防止具有較低精確度的讀取
- [SPARK-43172] [CONNECT] 從 Spark 連線用戶端公開主機和權杖。
- [SPARK-43293][SQL] 在一般資料行中會略過
__qualified_access_only
。 - [SPARK-43098][SQL] 修正純量子查詢依子句分組時的正確性
COUNT
錯誤。 - [SPARK-43085][SQL] 支援多部分資料表名稱的資料行
DEFAULT
指派。 - [SPARK-43190][SQL]
ListQuery.childOutput
現在與次要輸出一致。 - [SPARK-43192] [CONNECT] 移除了使用者代理程式字元集驗證。
- 修正迴歸,其中
2023 年 4 月 25 日
- 可以修改差異資料表,以使用
DeltaTable.addFeatureSupport(feature_name)
將支援新增至差異資料表功能。 SYNC
命令現在支援舊版資料來源格式。- 修正了在 Python 筆記本中執行任何其他命令之前,使用 Python 格式器可能會導致來自
sys.path.
的筆記本路徑遺失的錯誤 - Azure Databricks 現在支援指定差異資料表資料行的預設值。
INSERT
、UPDATE
、DELETE
和MERGE
命令可以使用明確DEFAULT
關鍵字來參考資料行的預設值。 對於具有比目標資料表少之資料行的明確清單的NULL
命令,則對應的資料行預設值會被取代為其餘資料行 (如果沒有指定預設值則為INSERT
)。
- 可以修改差異資料表,以使用
修正某些使用者無法使用網路終端機存取
/Workspace
中檔案的錯誤。- 如果僅使用
failOnUnknownFields
選項或failOnNewColumns
結構描述演進模式中的自動載入器讀取 Parquet 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn
選項。 - 如果提供下列其中一個資料類型,自動載入器現在會正確讀取,且不再救援
Integer
、Short
、Byte
類型。 Parquet 檔案建議其他兩個類型之一。 先前啟用已修復的資料行時,資料類型不符會導致資料行修復,即使資料行可讀取也一樣。 - 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的錯誤。
- [SPARK-42794][SS] 將 lockAcquireTimeoutMs 增加到 2 分鐘,以取得結構串流中的 RocksDB 狀態存放區。
- [SPARK-39221][SQL] 針對 Thrift 伺服器作業/階段索引標籤,請正確編輯敏感性資訊。
- [SPARK-42971][CORE] 如果
appDirs
在背景工作角色處理WorkDirCleanup
事件時為 Null,則變更為列印workdir
。 - [SPARK-42936][SQL] 修正子句可透過子彙總直接解析的 LCan 錯誤。
- [SPARK-43018][SQL] 修正具有時間戳記常值之
INSERT
命令的錯誤。 - 還原 [SPARK-42754][SQL][UI] 修正巢狀 SQL 執行中的回溯相容性問題。
- 還原 [SPARK-41498] 透過聯合傳播中繼資料。
- [SPARK-43038][SQL] 透過
aes_encrypt()
/aes_decrypt()
支援 CBC 模式。 - [SPARK-42928][SQL] 同步處理
resolvePersistentFunction
。 - [SPARK-42521][SQL] 已為
INSERT
新增具有使用者指定之資料欄清單的NULL
值,且比目標資料表少。 - [SPARK-41391][SQL]的
groupBy.agg(count_distinct)
輸出資料行名稱不正確。 - [SPARK-42548][SQL] 新增
ReferenceAllColumns
以略過重寫屬性。 - [SPARK-42423][SQL] 新增中繼資料資料行檔案封鎖開始和長度。
- [SPARK-42796][SQL] 支援在
CachedBatch
中存取TimestampNTZ
資料行。 - [SPARK-42266][PYTHON] 使用 IPython 時,請移除 shell.py 執行的父目錄。
- [SPARK-43011][SQL]
array_insert
應該失敗,並且索引為 0。 - [SPARK-41874][CONNECT][PYTHON] 在 Spark Connect 中支援
SameSemantics
。 - [SPARK-42702][SPARK-42623][SQL] 支援子查詢與 CTE 中的參數化查詢。
- [SPARK-42967][CORE] 取消階段之後,修正在工作啟動時的
SparkListenerTaskStart.stageAttemptId
。 - 作業系統安全性更新。
- 如果僅使用
Databricks Runtime 12.1 (EoS)
請參閱 Databricks Runtime 12.1 (EoS)。
2023 年 6 月 23 日
- 作業系統安全性更新。
2023 年 6 月 15 日
- 光子化了
approx_count_distinct
。 - Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- [SPARK-43779][SQL]
ParseToDate
現在會在主執行緒中載入EvalMode
。 - [SPARK-43156][SPARK-43098][SQL] 透過停用的 decorrelateInnerQuery 來擴充純量子查詢計數錯誤測試
- 作業系統安全性更新。
- 光子化了
2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 透過
SHALLOW CLONE
Iceberg 和 Parquet 改善累加式更新的效能。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-43404][向後移植] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43413][11.3-13.0][SQL] 修正了
IN
子查詢ListQuery
可 Null 性。 - [SPARK-43522][SQL] 修正了使用陣列索引建立結構資料行名稱的問題。
- [SPARK-42444][PYTHON]
DataFrame.drop
現在會正確地處理重複的資料行。 - [SPARK-43541][SQL] 在解析運算式和遺漏資料行時傳播所有
Project
標記。 - [SPARK-43340][CORE] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。
- [SPARK-42937][SQL]
PlanSubqueries
現在會將InSubqueryExec#shouldBroadcast
設定為 true。 - [SPARK-43527][PYTHON] 修正了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43378][CORE] 正確關閉
deserializeFromChunkedBuffer
中的串流物件。
2023 年 5 月 17 日
- 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
- 如果僅使用
failOnUnknownFields\
選項或failOnNewColumns\
結構描述演進模式中的自動載入器讀取 Avro 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null\
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn\
選項。 - 自動載入器現在會執行下列動作。
-
- 如果提供其中一個資料類型,則正確讀取且不再修復
Integer
、Short
、Byte
類型,但 Avro 檔案建議其他兩種類型之一。
- 如果提供其中一個資料類型,則正確讀取且不再修復
-
- 防止將間隔類型讀取為日期或時間戳記類型,以避免取得損毀的日期。
-
- 防止具有較低精確度的讀取
Decimal
類型。
- 防止具有較低精確度的讀取
- [SPARK-43098][SQL] 修正純量子查詢依子句分組時的正確性
COUNT
錯誤。 - [SPARK-43190][SQL]
ListQuery.childOutput
現在與次要輸出一致。 - 作業系統安全性更新。
2023 年 4 月 25 日
- 如果僅使用
failOnUnknownFields
選項或failOnNewColumns
結構描述演進模式中的自動載入器讀取 Parquet 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn
選項。 - 如果提供下列其中一個資料類型,自動載入器現在會正確讀取,且不再救援
Integer
、Short
、Byte
類型。 Parquet 檔案建議其他兩個類型之一。 先前啟用已修復的資料行時,資料類型不符會導致資料行修復,即使資料行可讀取也一樣。 - [SPARK-43009][SQL] 使用
Any
常數參數化了sql()
。 - [SPARK-42971][CORE] 如果
appDirs
在背景工作角色處理WorkDirCleanup
事件時為 Null,則變更為列印workdir
。 - 作業系統安全性更新。
- 如果僅使用
2023 年 4 月 11 日
- 在 SYNC 命令中支援舊版資料來源格式。
- 修正存放庫外部,筆記本中 %autoreload 行為的錯誤。
- 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的錯誤。
- [SPARK-42928][SQL] 同步處理
resolvePersistentFunction
。 - [SPARK-42967][CORE] 取消階段之後,修正在工作啟動時的
SparkListenerTaskStart.stageAttemptId
。 - 作業系統安全性更新。
2023 年 3 月 29 日
- 自動載入器現在會為
Trigger.AvailableNow
串流觸發至少一個同步的 RocksDB 記錄清理,以確保檢查點是否可以定期清除快速執行的自動載入器串流。 這可能會導致某些串流在關閉之前花費更長的時間,但它會節省儲存體成本,並改善未來執行的自動載入器體驗。 - 現在可以修改差異資料表,以使用
DeltaTable.addFeatureSupport(feature_name)
將支援新增至資料表功能。 - [SPARK-42702][SPARK-42623][SQL] 支援子查詢與 CTE 中的參數化查詢
- [SPARK-41162][SQL] 使用彙總,修正自我聯結的反聯結和半聯結
- [SPARK-42403][CORE] JsonProtocol 應處理 Null JSON 字串
- [SPARK-42668][SS] 嘗試關閉 HDFSStateStoreProvider 中的壓縮串流時攔截例外狀況
- [SPARK-42794][SS] 將 lockAcquireTimeoutMs 增加到 2 分鐘,以取得結構串流中的 RocksDB 狀態存放區
- 自動載入器現在會為
2023 年 3 月 14 日
- 使用資料表屬性將功能新增至差異資料表存在術語變更。 慣用的語法現在是
'delta.feature.featureName'='supported'
,而不是'delta.feature.featureName'='enabled'
。 為了保持回溯相容性,使用'delta.feature.featureName'='enabled'
仍可運作,並且會繼續運作。 - [SPARK-42622][CORE] 停用值中的替代項目
- [SPARK-42534][SQL] 修正 DB2Dialect Limit 子句
- [SPARK-42635][SQL] 修正 TimestampAdd 運算式。
- [SPARK-42516][SQL] 建立檢視時一律擷取工作階段時區設定
- [SPARK-42484] [SQL] UnsafeRowUtils 更好的錯誤訊息
- [SPARK-41793][SQL] 由大小數範圍子句定義的視窗框架結果不正確
- 作業系統安全性更新。
- 使用資料表屬性將功能新增至差異資料表存在術語變更。 慣用的語法現在是
2023 年 2 月 24 日
- 您現在可以使用一組統一的選項 (
host
、port
、database
、user
、password
) 連線到查詢同盟中支持的資料來源 (PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server)。 請注意,port
是選擇性的,如果未提供,則會針對每個資料來源使用預設連接埠號碼。
PostgreSQL 連線組態的範例
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Snowflake 連線設定的範例
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] 避免從 pyspark.pandas 中斷記錄設定
- [SPARK-42346][SQL] 在子查詢合併之後重寫相異彙總
- [SPARK-41990][SQL] 在 V1 到 V2 篩選轉換中使用
FieldReference.column
而不是apply
- 還原 [SPARK-41848][CORE] 使用 TaskResourceProfile 修正過度排程的工作
- [SPARK-42162] 引進 MultiCommutativeOp 運算式作為記憶體最佳化,標準化大型換向運算式樹狀架構
- 作業系統安全性更新。
- 您現在可以使用一組統一的選項 (
2023 年 2 月 16 日
- SYNC 命令支援同步處理重新建立的 Hive 中繼存放區資料表。 如果 HMS 資料表先前已同步至 Unity 目錄,但隨後卸除並重新建立,後續的重新同步作業將會運作,而不是擲回 TABLE_ALREADY_EXISTS 狀態代碼。
- [SPARK-41219][SQL]IntegralDivide 使用 decimal(1, 0) 來表示 0
- [SPARK-36173][CORE] 支援在 TaskContext 中取得 CPU 號碼
- [SPARK-41848][CORE] 使用 TaskResourceProfile 修正過度排程的工作
- [SPARK-42286][SQL] 對於使用 CAST 的複雜運算式,回退到先前的 codegen 程式碼路徑
2023 年 1 月 31 日
- 建立具有已定義位置的結構描述現在需要使用者具有 ANY FILE 的 SELECT 和 MODIFY 權限。
- [SPARK-41581][SQL] 將名稱指派給 _LEGACY_ERROR_TEMP_1230
- [SPARK-41996][SQL][SS] 修正 kafka 測試以驗證遺失的分割區,以考慮 Kafka 作業緩慢的問題
- [SPARK-41580][SQL] 將名稱指派給 _LEGACY_ERROR_TEMP_2137
- [SPARK-41666][PYTHON] 支援透過
sql()
的參數化的 SQL - [SPARK-41579][SQL] 將名稱指派給 _LEGACY_ERROR_TEMP_1249
- [SPARK-41573][SQL] 將名稱指派給 _LEGACY_ERROR_TEMP_2136
- [SPARK-41574][SQL] 將名稱指派給 _LEGACY_ERROR_TEMP_2009
- [SPARK-41049][Followup] 修正 ConvertToLocalRelation 的程式碼同步迴歸
- [SPARK-41576][SQL] 將名稱指派給 _LEGACY_ERROR_TEMP_2051
- [SPARK-41572][SQL] 將名稱指派給 _LEGACY_ERROR_TEMP_2149
- [SPARK-41575][SQL] 將名稱指派給 _LEGACY_ERROR_TEMP_2054
- 作業系統安全性更新。
Databricks Runtime 12.0 (EoS)
請參閱 Databricks Runtime 12.0 (EoS)。
2023 年 6 月 15 日
- 光子化了
approx_count_distinct
。 - Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- [SPARK-43156][SPARK-43098][SQL] 透過停用的 decorrelateInnerQuery 來擴充純量子查詢計數錯誤測試
- [SPARK-43779][SQL]
ParseToDate
現在會在主執行緒中載入EvalMode
。 - 作業系統安全性更新。
- 光子化了
2023 年 6 月 2 日
failOnUnknownFields
模式中的 JSON 剖析器會卸除DROPMALFORMED
模式中的記錄,並在FAILFAST
模式中直接失敗。- 透過
SHALLOW CLONE
Iceberg 和 Parquet 改善累加式更新的效能。 - 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
- [SPARK-42444][PYTHON]
DataFrame.drop
現在會正確地處理重複的資料行。 - [SPARK-43404][向後移植] 略過針對相同版本 RocksDB 狀態存放區重複使用 sst 檔案,以避免識別碼不符錯誤。
- [SPARK-43413][11.3-13.0][SQL] 修正了
IN
子查詢ListQuery
可 Null 性。 - [SPARK-43527][PYTHON] 修正了 PySpark 中的
catalog.listCatalogs
。 - [SPARK-43522][SQL] 修正了使用陣列索引建立結構資料行名稱的問題。
- [SPARK-43541][SQL] 在解析運算式和遺漏資料行時傳播所有
Project
標記。 - [SPARK-43340][CORE] 修正了事件記錄檔中遺漏的堆疊追蹤欄位。
- [SPARK-42937][SQL]
PlanSubqueries
將InSubqueryExec#shouldBroadcast
設定為 true。
2023 年 5 月 17 日
- 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
- 如果僅使用
failOnUnknownFields\
選項或failOnNewColumns\
結構描述演進模式中的自動載入器讀取 Avro 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null\
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn\
選項。 - 自動載入器現在會執行下列動作。
-
- 如果提供其中一個資料類型,則正確讀取且不再修復
Integer
、Short
、Byte
類型,但 Avro 檔案建議其他兩種類型之一。
- 如果提供其中一個資料類型,則正確讀取且不再修復
-
- 防止將間隔類型讀取為日期或時間戳記類型,以避免取得損毀的日期。
-
- 防止具有較低精確度的讀取
Decimal
類型。
- 防止具有較低精確度的讀取
- [SPARK-43172] [CONNECT] 從 Spark 連線用戶端公開主機和權杖。
- [SPARK-41520][SQL] 分割
AND_OR
樹狀結構模式以分隔AND
與OR
。 - [SPARK-43098][SQL] 修正純量子查詢依子句分組時的正確性
COUNT
錯誤。 - [SPARK-43190][SQL]
ListQuery.childOutput
現在與次要輸出一致。 - 作業系統安全性更新。
2023 年 4 月 25 日
- 如果僅使用
failOnUnknownFields
選項或failOnNewColumns
結構描述演進模式中的自動載入器讀取 Parquet 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn
選項。 - 如果提供下列其中一個資料類型,自動載入器現在會正確讀取,且不再救援
Integer
、Short
、Byte
類型。 Parquet 檔案建議其他兩個類型之一。 先前啟用已修復的資料行時,資料類型不符會導致資料行修復,即使資料行可讀取也一樣。 - [SPARK-42971][CORE] 如果
appDirs
在背景工作角色處理WorkDirCleanup
事件時為 Null,則變更為列印workdir
- 作業系統安全性更新。
- 如果僅使用
2023 年 4 月 11 日
- 在
SYNC
命令中支援舊版資料來源格式。 - 修正存放庫外部,筆記本中 %autoreload 行為的錯誤。
- 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的錯誤。
- [SPARK-42928][SQL] 同步處理
resolvePersistentFunction
。 - [SPARK-42967][CORE] 取消階段之後,修正在工作啟動時的
SparkListenerTaskStart.stageAttemptId
。 - 作業系統安全性更新。
- 在
2023 年 3 月 29 日
- [SPARK-42794][SS] 將 lockAcquireTimeoutMs 增加到 2 分鐘,以取得結構串流中的 RocksDB 狀態存放區
- [SPARK-41162][SQL] 使用彙總,修正自我聯結的反聯結和半聯結
- [SPARK-42403][CORE] JsonProtocol 應處理 Null JSON 字串
- [SPARK-42668][SS] 嘗試關閉 HDFSStateStoreProvider 中的壓縮串流時攔截例外狀況
- 其他錯誤修正。
2023 年 3 月 14 日
- [SPARK-42534][SQL] 修正 DB2Dialect Limit 子句
- [SPARK-42622][CORE] 停用值中的替代項目
- [SPARK-41793][SQL] 由大小數範圍子句定義的視窗框架結果不正確
- [SPARK-42484] [SQL] UnsafeRowUtils 更好的錯誤訊息
- [SPARK-42635][SQL] 修正 TimestampAdd 運算式。
- [SPARK-42516][SQL] 建立檢視時一律擷取工作階段時區設定
- 作業系統安全性更新。
2023 年 2 月 24 日
查詢同盟的標準化連線選項
您現在可以使用一組統一的選項 (
host
、port
、database
、user
、password
) 連線到查詢同盟中支持的資料來源 (PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server)。 請注意,port
是選擇性的,如果未提供,則會針對每個資料來源使用預設連接埠號碼。PostgreSQL 連線組態的範例
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Snowflake 連線設定的範例
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
還原 [SPARK-41848][CORE] 使用 TaskResourceProfile 修正過度排程的工作
[SPARK-42162] 引進 MultiCommutativeOp 運算式作為記憶體最佳化,標準化大型換向運算式樹狀架構
[SPARK-41990][SQL] 在 V1 到 V2 篩選轉換中使用
FieldReference.column
而不是apply
[SPARK-42346][SQL] 在子查詢合併之後重寫相異彙總
作業系統安全性更新。
2023 年 2 月 16 日
- 使用者現在可以使用 Databricks Runtime 9.1 或更新版本,讀取和寫入需要讀取器第 3 版和寫入器第 7 版的特定差異資料表。 若要取得成功,資料表通訊協定中列出的資料表功能必須由目前的版本的 Databricks Runtime 支援。
- SYNC 命令支援同步處理重新建立的 Hive 中繼存放區資料表。 如果 HMS 資料表先前已同步至 Unity 目錄,但隨後卸除並重新建立,後續的重新同步作業將會運作,而不是擲回 TABLE_ALREADY_EXISTS 狀態代碼。
- [SPARK-36173][CORE] 支援在 TaskContext 中取得 CPU 號碼
- [SPARK-42286][SQL] 對於使用 CAST 的複雜運算式,回退到先前的 codegen 程式碼路徑
- [SPARK-41848][CORE] 使用 TaskResourceProfile 修正過度排程的工作
- [SPARK-41219][SQL]IntegralDivide 使用 decimal(1, 0) 來表示 0
2023 年 1 月 25 日
- [SPARK-41660][SQL] 只有在使用中繼資料行時才會傳播中繼資料行
- [SPARK-41379][SS][PYTHON] 在適用於 PySpark 中 foreachBatch 接收器的使用者函式中,在 DataFrame 中提供複製的 Spark 工作階段
- [SPARK-41669][SQL] canCollapseExpressions 中的早期剪除
- 作業系統安全性更新。
2023 年 1 月 18 日
REFRESH FUNCTION
SQL 命令現在支援 SQL 函式和 SQL 資料表函式。 例如,命令可以用來重新整理在另一個 SQL 工作階段中更新的持續性 SQL 函式。- Java 資料庫連線 (JDBC) 資料來源 v1 現在支援 LIMIT 子句下推,以改善查詢中的效能。 此功能預設為啟用,並可在
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
設定為false
時停用。 - 在舊版資料表 ACL 叢集中,建立參考 JVM 類別的函式現在需要
MODIFY_CLASSPATH
權限。 - Java 資料庫連線 (JDBC) 資料來源 v1 現在支援 LIMIT 子句下推,以改善查詢中的效能。 此功能預設為啟用,而且可以透過將 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled 設定為 false 來停用。
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器現在會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
。 - Spark 結構化串流現在可在 Delta Sharing 資料表上使用 format(“deltasharing”) 作為來源。
- [SPARK-38277][SS] 在 RocksDB 狀態存放區認可之後,清除寫入批次
- [SPARK-41733][SQL][SS] 為規則 ResolveWindowTime 套用樹狀模式型剪除
- [SPARK-39591][SS] 異步進度追蹤
- [SPARK-41339][SQL] 關閉並重新建立 RocksDB 寫入批次,不只是清除
- [SPARK-41198][SS] 修正串流查詢中具有 CTE 與 DSv1 串流來源的計量
- [SPARK-41539][SQL] 針對 LogicalRDD 邏輯計畫中輸出的統計資料和條件約束重新對應
- [SPARK-41732][SQL][SS] 為規則 SessionWindowing 套用樹狀模式型剪除
- [SPARK-41862][SQL] 修正 Orc 讀取器中與預設值相關的正確性錯誤
- [SPARK-41199][SS] 修正 DSv1 串流來源與 DSv2 串流來源共同使用時的計量問題
- [SPARK-41261][PYTHON][SS] 修正當群組索引鍵的資料行未依最早順序排列時,applyInPandasWithState 的問題
- 作業系統安全性更新。
2023 年 5 月 17 日
- 當透過動態調整批次大小,掃描異常結構化的檔案時,Parquet 掃描現在對 OOM 具有強大性能。 分析檔案中繼資料,以搶先降低批次大小,並在工作重試時再次降低,作為最終的安全網。
- 修正在叢集初始化期間無法連線到中繼存放區之後,導致 Azure Databricks 作業持續存在的迴歸。
- [SPARK-41520][SQL] 分割
AND_OR
樹狀結構模式以分隔AND
與OR
。 - [SPARK-43190][SQL]
ListQuery.childOutput
現在與次要輸出一致。 - 作業系統安全性更新。
2023 年 4 月 25 日
- 如果僅使用
failOnUnknownFields
選項或failOnNewColumns
結構描述演進模式中的自動載入器讀取 Parquet 檔案,則會讀取具有不同資料類型的資料行,而不是擲回錯誤,指出無法讀取null
檔案。 這些讀取現在會失敗並建議使用者使用rescuedDataColumn
選項。 - 如果提供下列其中一個資料類型,自動載入器現在會正確讀取,且不再救援
Integer
、Short
、Byte
類型。 Parquet 檔案建議其他兩個類型之一。 先前啟用已修復的資料行時,資料類型不符會導致資料行修復,即使資料行可讀取也一樣。 - [SPARK-42937][SQL]
PlanSubqueries
現在會將InSubqueryExec#shouldBroadcast
設定為 true。 - 作業系統安全性更新。
- 如果僅使用
2023 年 4 月 11 日
- 在 SYNC 命令中支援舊版資料來源格式。
- 修正存放庫外部,筆記本中 %autoreload 行為的錯誤。
- 修正了在巢狀 JSON 物件結構描述中偵測到新資料行時,自動載入器結構描述演進可能會進入無限失敗循環的錯誤。
- [SPARK-42928][SQL] 同步處理 resolvePersistentFunction。
- [SPARK-42967][CORE] 在取消階段之後啟動工作時修正 SparkListenerTaskStart.stageAttemptId。
2023 年 3 月 29 日
- [SPARK-42794][SS] 將 lockAcquireTimeoutMs 增加到 2 分鐘,以取得結構串流中的 RocksDB 狀態存放區
- [SPARK-42403][CORE] JsonProtocol 應處理 Null JSON 字串
- [SPARK-42668][SS] 嘗試關閉 HDFSStateStoreProvider 中的壓縮串流時攔截例外狀況
- 作業系統安全性更新。
2023 年 3 月 14 日
- [SPARK-42635][SQL] 修正 TimestampAdd 運算式。
- [SPARK-41793][SQL] 由大小數範圍子句定義的視窗框架結果不正確
- [SPARK-42484] [SQL] UnsafeRowUtils 更好的錯誤訊息
- [SPARK-42534][SQL] 修正 DB2Dialect Limit 子句
- [SPARK-41162][SQL] 使用彙總,修正自我聯結的反聯結和半聯結
- [SPARK-42516][SQL] 建立檢視時一律擷取工作階段時區設定
- 其他錯誤修正。
2023 年 2 月 28 日
查詢同盟的標準化連線選項
您現在可以使用一組統一的選項 (
host
、port
、database
、user
、password
) 連線到查詢同盟中支持的資料來源 (PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server)。 請注意,port
是選擇性的,如果未提供,則會針對每個資料來源使用預設連接埠號碼。PostgreSQL 連線組態的範例
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Snowflake 連線設定的範例
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] 對於使用 CAST 的複雜運算式,回退到先前的 codegen 程式碼路徑
[SPARK-41989][PYTHON] 避免從 pyspark.pandas 中斷記錄設定
[SPARK-42346][SQL] 在子查詢合併之後重寫相異彙總
[SPARK-41360][CORE] 如果執行程式遺失,避免 BlockManager 重新註冊
[SPARK-42162] 引進 MultiCommutativeOp 運算式作為記憶體最佳化,標準化大型換向運算式樹狀架構
[SPARK-41990][SQL] 在 V1 到 V2 篩選轉換中使用
FieldReference.column
而不是apply
作業系統安全性更新。
2023 年 2 月 16 日
- 使用者現在可以使用 Databricks Runtime 9.1 或更新版本,讀取和寫入需要讀取器第 3 版和寫入器第 7 版的特定差異資料表。 若要取得成功,資料表通訊協定中列出的資料表功能必須由目前的版本的 Databricks Runtime 支援。
- SYNC 命令支援同步處理重新建立的 Hive 中繼存放區資料表。 如果 HMS 資料表先前已同步至 Unity 目錄,但隨後卸除並重新建立,後續的重新同步作業將會運作,而不是擲回 TABLE_ALREADY_EXISTS 狀態代碼。
- [SPARK-41219][SQL]IntegralDivide 使用 decimal(1, 0) 來表示 0
- [SPARK-40382][SQL] 在
RewriteDistinctAggregates
中依語意對等子系將相異彙總運算式分組 - 作業系統安全性更新。
2023 年 1 月 25 日
- [SPARK-41379][SS][PYTHON] 在適用於 PySpark 中 foreachBatch 接收器的使用者函式中,在 DataFrame 中提供複製的 Spark 工作階段
- [SPARK-41660][SQL] 只有在使用中繼資料行時才會傳播中繼資料行
- [SPARK-41669][SQL] canCollapseExpressions 中的早期剪除
- 其他錯誤修正。
2023 年 1 月 18 日
REFRESH FUNCTION
SQL 命令現在支援 SQL 函式和 SQL 資料表函式。 例如,命令可以用來重新整理在另一個 SQL 工作階段中更新的持續性 SQL 函式。- Java 資料庫連線 (JDBC) 資料來源 v1 現在支援 LIMIT 子句下推,以改善查詢中的效能。 此功能預設為啟用,並可在
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
設定為false
時停用。 - Java 資料庫連線 (JDBC) 資料來源 v1 現在支援 LIMIT 子句下推,以改善查詢中的效能。 此功能預設為啟用,而且可以透過將 spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled 設定為 false 來停用。
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器現在會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
。 - [SPARK-41198][SS] 修正串流查詢中具有 CTE 與 DSv1 串流來源的計量
- [SPARK-41862][SQL] 修正 Orc 讀取器中與預設值相關的正確性錯誤
- [SPARK-41539][SQL] 針對 LogicalRDD 邏輯計畫中輸出的統計資料和條件約束重新對應
- [SPARK-39591][SS] 異步進度追蹤
- [SPARK-41199][SS] 修正 DSv1 串流來源與 DSv2 串流來源共同使用時的計量問題
- [SPARK-41261][PYTHON][SS] 修正當群組索引鍵的資料行未依最早順序排列時,applyInPandasWithState 的問題
- [SPARK-41339][SQL] 關閉並重新建立 RocksDB 寫入批次,不只是清除
- [SPARK-41732][SQL][SS] 為規則 SessionWindowing 套用樹狀模式型剪除
- [SPARK-38277][SS] 在 RocksDB 狀態存放區認可之後,清除寫入批次
- 作業系統安全性更新。
2022 年 11 月 29 日
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 當
csvignoreleadingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除前置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。 - 當
csvignoretrailingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除後置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。
- 當
- 修正了當所有資料行都保留為字串 (
cloudFiles.inferColumnTypes
未設定或設定為false
) 和 JSON 包含巢狀物件時,自動載入器中 JSON 剖析的錯誤。 - 將
snowflake-jdbc
相依性升級至 3.13.22 版。 - JDBC 資料表的資料表類型現在預設為 EXTERNAL。
- [SPARK-40906][SQL]
Mode
應該先複製索引鍵再插入對應 - 作業系統安全性更新。
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
2022 年 11 月 15 日
- 資料表 ACL 和 UC 共用叢集現在允許來自 python 的 Dataset.toJSON 方法。
- [SPARK-40646] 修正了結構、對應和陳列的 JSON 剖析,因此當記錄的一部分不符合結構描述時,仍可以正確剖析其餘記錄,而不是傳回 Null。 若要加入改善的行為,將
spark.sql.json.enablePartialResults
設定為true
。 預設會停用旗標,以保留原始行為 - [SPARK-40903][SQL] 避免重新排序小數。如果資料類型已變更,新增以進行標準化
- [SPARK-40618][SQL] 修正使用參考追蹤的巢狀子查詢的 MergeScalarSubqueries 規則中的錯誤
- [SPARK-40697][SQL] 新增讀取端字元填補,以涵蓋外部資料檔案
- 作業系統安全性更新。
2022 年 11 月 1 日
- Unity 目錄中的結構化串流現在支援重新整理暫時存取權杖。 使用 Unity 目錄執行的所有用途或作業叢集的串流工作負載,在初始權杖到期後不再失敗。
- 修正了如果差異資料表具有名為
_change_type
的使用者定義資料行,但該資料表上已停用變更資料摘要,導致該資料行中的資料在執行MERGE
時,會錯誤地填入 NULL 值的問題。 - 修正了在條件中執行
MERGE
和使用來自來源的 99 個資料行可能會導致java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
的問題。 - 修正了啟用時
allowOverwrites
,自動載入器中檔案可在相同的微批次中複製的問題。 - 將 Apache commons-text 升級至 1.10.0。
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] 新增了 CloudWatch MetricsLevel Config 的支援
- [SPARK-40596][CORE] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
- [SPARK-40670][SS][PYTHON] 修正輸入結構描述具有「不可為 Null」資料行時 applyInPandasWithState 中的 NPE
- 作業系統安全性更新。
Databricks Runtime 11.2 (EoS)
請參閱 Databricks Runtime 11.2 (EoS)。
- 2023 年 2 月 28 日
- [SPARK-42286][SQL] 對於使用 CAST 的複雜運算式,回退到先前的 codegen 程式碼路徑
- [SPARK-42346][SQL] 在子查詢合併之後重寫相異彙總
- 作業系統安全性更新。
- 2023 年 2 月 16 日
- 使用者現在可以使用 Databricks Runtime 9.1 或更新版本,讀取和寫入需要讀取器第 3 版和寫入器第 7 版的特定差異資料表。 若要取得成功,資料表通訊協定中列出的資料表功能必須由目前的版本的 Databricks Runtime 支援。
- SYNC 命令支援同步處理重新建立的 Hive 中繼存放區資料表。 如果 HMS 資料表先前已同步至 Unity 目錄,但隨後卸除並重新建立,後續的重新同步作業將會運作,而不是擲回 TABLE_ALREADY_EXISTS 狀態代碼。
- [SPARK-41219][SQL]IntegralDivide 使用 decimal(1, 0) 來表示 0
- 作業系統安全性更新。
- 2023 年 1 月 31 日
- JDBC 資料表的資料表類型現在預設為 EXTERNAL。
- [SPARK-41379][SS][PYTHON] 在適用於 PySpark 中 foreachBatch 接收器的使用者函式中,在 DataFrame 中提供複製的 Spark 工作階段
- 2023 年 1 月 18 日
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器現在會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
。 - [SPARK-41198][SS] 修正串流查詢中具有 CTE 與 DSv1 串流來源的計量
- [SPARK-41862][SQL] 修正 Orc 讀取器中與預設值相關的正確性錯誤
- [SPARK-41539][SQL] 針對 LogicalRDD 邏輯計畫中輸出的統計資料和條件約束重新對應
- [SPARK-41199][SS] 修正 DSv1 串流來源與 DSv2 串流來源共同使用時的計量問題
- [SPARK-41339][SQL] 關閉並重新建立 RocksDB 寫入批次,不只是清除
- [SPARK-41732][SQL][SS] 為規則 SessionWindowing 套用樹狀模式型剪除
- [SPARK-38277][SS] 在 RocksDB 狀態存放區認可之後,清除寫入批次
- 作業系統安全性更新。
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器現在會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
- 2022 年 11 月 29 日
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 當
csvignoreleadingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除前置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。 - 當
csvignoretrailingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除後置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。
- 當
- 修正了當所有資料行都保留為字串 (
cloudFiles.inferColumnTypes
未設定或設定為false
) 和 JSON 包含巢狀物件時,自動載入器中 JSON 剖析的錯誤。 - [SPARK-40906][SQL]
Mode
應該先複製索引鍵再插入對應 - 作業系統安全性更新。
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 2022 年 11 月 15 日
- [SPARK-40646] 修正了結構、對應和陳列的 JSON 剖析,因此當記錄的一部分不符合結構描述時,仍可以正確剖析其餘記錄,而不是傳回 Null。 若要加入改善的行為,請將
spark.sql.json.enablePartialResults
設定為true
。 預設會停用旗標,以保留原始行為 - [SPARK-40618][SQL] 修正使用參考追蹤的巢狀子查詢的 MergeScalarSubqueries 規則中的錯誤
- [SPARK-40697][SQL] 新增讀取端字元填補,以涵蓋外部資料檔案
- 作業系統安全性更新。
- [SPARK-40646] 修正了結構、對應和陳列的 JSON 剖析,因此當記錄的一部分不符合結構描述時,仍可以正確剖析其餘記錄,而不是傳回 Null。 若要加入改善的行為,請將
- 2022 年 11 月 1 日
- 將 Apache commons-text 升級至 1.10.0。
- 修正了如果差異資料表具有名為
_change_type
的使用者定義資料行,但該資料表上已停用變更資料摘要,導致該資料行中的資料在執行MERGE
時,會錯誤地填入 NULL 值的問題。 - 修正了在條件中執行
MERGE
和使用來自來源的 99 個資料行可能會導致java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
的問題。 - 修正了啟用時
allowOverwrites
,自動載入器中檔案可在相同的微批次中複製的問題 - [SPARK-40596][CORE] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
- 作業系統安全性更新。
- 2022 年 10 月 19 日
- 修正了在已啟用 Unity 目錄的叢集/倉儲上使用暫存認證的 COPY INTO 使用量問題。
- [SPARK-40213][SQL] 支援 Latin-1 字元的 ASCII 值轉換
- 作業系統安全性更新。
- 2022 年 10 月 5 日
- 使用者可以設定 spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) 以重新啟用 ADLS Gen2 上的自動載入器原生清單。 原生清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。 此變更已在先前的維護更新中推出至 DBR 10.4 和 9.1。
- [SPARK-40315][SQL] 支援 URL 編碼/解碼為內建函式,並整理 URL 相關函式
- [SPARK-40156][SQL]
url_decode()
應該傳回錯誤類別 - [SPARK-40169] 不要下推沒有參考資料結構描述的 Parquet 篩選條件
- [SPARK-40460][SS] 修正選取
_metadata
時的串流計量 - [SPARK-40468][SQL] 在選取 _corrupt_record 時修正 CSV 中的資料行剪除
- [SPARK-40055][SQL] listCatalogs 也應傳回 spark_catalog,即使 spark_catalog 實作為 defaultSessionCatalog
- 作業系統安全性更新。
- 2022 年 9 月 22 日
- [SPARK-40315][SQL] 為 ArrayBasedMapData 的常值新增 hashCode()
- [SPARK-40389][SQL] 如果轉換可能溢位,小數無法向上轉型為整數類型
- [SPARK-40380][SQL] 修正 InvokeLike 的常數折疊,以避免在方案中內嵌的非串行化常值
- [SPARK-40066][SQL][FOLLOW-UP] 在取得 ElementType 之前,請先檢查 ElementAt 是否已解析
- [SPARK-40109][SQL] 新的 SQL 函式:get()
- [SPARK-40066][SQL]ANSI 模式:對於對應資料行的無效存取一律傳回 Null
- [SPARK-40089][SQL] 修正一些小數類型的排序
- [SPARK-39887][SQL] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
- [SPARK-40152][SQL] 修正 split_part codegen 編譯問題
- [SPARK-40235][CORE] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理
- [SPARK-40212][SQL] SparkSQL castPartValue 無法正確處理位元組、short 或 float
- [SPARK-40218][SQL] GROUPING SETS 應保留群組資料行
- [SPARK-35542][ML] 修正:針對具有參數的多個資料行建立的貯體化程式
- [SPARK-40079] 新增空白輸入案例的 Imputer inputCols 驗證
- [SPARK-39912]SPARK-39828[SQL] 精簡 CatalogImpl
Databricks Runtime 11.1 (EoS)
請參閱 Databricks Runtime 11.1 (EoS)。
2023 年 1 月 31 日
- [SPARK-41379][SS][PYTHON] 在適用於 PySpark 中 foreachBatch 接收器的使用者函式中,在 DataFrame 中提供複製的 Spark 工作階段
- 其他錯誤修正。
2023 年 1 月 18 日
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器現在會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
。 - [SPARK-41198][SS] 修正串流查詢中具有 CTE 與 DSv1 串流來源的計量
- [SPARK-41862][SQL] 修正 Orc 讀取器中與預設值相關的正確性錯誤
- [SPARK-41199][SS] 修正 DSv1 串流來源與 DSv2 串流來源共同使用時的計量問題
- [SPARK-41339][SQL] 關閉並重新建立 RocksDB 寫入批次,不只是清除
- [SPARK-41732][SQL][SS] 為規則 SessionWindowing 套用樹狀模式型剪除
- [SPARK-38277][SS] 在 RocksDB 狀態存放區認可之後,清除寫入批次
- 作業系統安全性更新。
- 當資料行名稱包含無效字元,例如空白字元或分號時,Azure Synapse 連接器現在會傳回更具描述性的錯誤訊息。 在此類案例中,系統將傳回下列訊息:
2022 年 11 月 29 日
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 當
csvignoreleadingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除前置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。 - 當
csvignoretrailingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除後置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。
- 當
- 修正了當所有資料行都保留為字串 (
cloudFiles.inferColumnTypes
未設定或設定為false
) 和 JSON 包含巢狀物件時,自動載入器中 JSON 剖析的錯誤。 - [SPARK-39650][SS] 修正回溯相容性的串流重複資料刪除中不正確的值結構描述
- 作業系統安全性更新。
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
2022 年 11 月 15 日
- [SPARK-40646] 修正了結構、對應和陳列的 JSON 剖析,因此當記錄的一部分不符合結構描述時,仍可以正確剖析其餘記錄,而不是傳回 Null。若要加入改善的行為,請將
spark.sql.json.enablePartialResults
設定為true
。 預設會停用旗標,以保留原始行為 - 作業系統安全性更新。
- [SPARK-40646] 修正了結構、對應和陳列的 JSON 剖析,因此當記錄的一部分不符合結構描述時,仍可以正確剖析其餘記錄,而不是傳回 Null。若要加入改善的行為,請將
2022 年 11 月 1 日
- 將 Apache commons-text 升級至 1.10.0。
- 修正了如果差異資料表具有名為
_change_type
的使用者定義資料行,但該資料表上已停用變更資料摘要,導致該資料行中的資料在執行MERGE
時,會錯誤地填入 NULL 值的問題。 - 修正了在條件中執行
MERGE
和使用來自來源的 99 個資料行可能會導致java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
的問題。 - 修正了啟用時
allowOverwrites
,自動載入器中檔案可在相同的微批次中複製的問題 - [SPARK-40697][SQL] 新增讀取端字元填補,以涵蓋外部資料檔案
- [SPARK-40596][CORE] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
- 作業系統安全性更新。
2022 年 10 月 18 日
- 修正了在已啟用 Unity 目錄的叢集/倉儲上使用暫存認證的 COPY INTO 使用量問題。
- [SPARK-40213][SQL] 支援 Latin-1 字元的 ASCII 值轉換
- 作業系統安全性更新。
2022 年 10 月 5 日
- 使用者可以設定 spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) 以重新啟用 ADLS Gen2 上的自動載入器原生清單。 原生清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。 此變更已在先前的維護更新中推出至 DBR 10.4 和 9.1。
- [SPARK-40169] 不要下推沒有參考資料結構描述的 Parquet 篩選條件
- [SPARK-40460][SS] 修正選取
_metadata
時的串流計量 - [SPARK-40468][SQL] 在選取 _corrupt_record 時修正 CSV 中的資料行剪除
- [SPARK-40055][SQL] listCatalogs 也應傳回 spark_catalog,即使 spark_catalog 實作為 defaultSessionCatalog
- 作業系統安全性更新。
2022 年 9 月 22 日
- [SPARK-40315][SQL] 為 ArrayBasedMapData 的常值新增 hashCode()
- [SPARK-40380][SQL] 修正 InvokeLike 的常數折疊,以避免在方案中內嵌的非串行化常值
- [SPARK-40089][SQL] 修正一些小數類型的排序
- [SPARK-39887][SQL] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
- [SPARK-40152][SQL] 修正 split_part codegen 編譯問題
2022 年 9 月 6 日
- 我們更新了資料表存取控制 (Table ACL) 中的權限模型,因此使用 ALTER TABLE 變更資料表的結構描述或資料表的屬性時,只需要 MODIFY 權限。 先前,這些作業需要使用者擁有資料表。 仍然需要所有權,才能授與資料表的權限、變更其擁有者、變更其位置,或重新命名。 這項變更可讓資料表 ACL 的權限模型與 Unity 目錄更加一致。
- [SPARK-40235][CORE] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理
- [SPARK-40212][SQL] SparkSQL castPartValue 無法正確處理位元組、short 或 float
- [SPARK-40218][SQL] GROUPING SETS 應保留群組資料行
- [SPARK-39976][SQL] ArrayIntersect 應正確處理左則運算式中的 Null
- [SPARK-40053][CORE][SQL][TESTS] 將
assume
新增至需要 Python 執行階段環境的動態取消案例 - [SPARK-35542][CORE][ML] 修正:為具有參數 splitsArray、inputCols 和 outputCols 的多個資料行建立的貯體化程式在儲存之後無法載入
- [SPARK-40079][CORE] 新增空白輸入案例的 Imputer inputCols 驗證
2022 年 8 月 24 日
- 共用、提供者和收件者現在支援 SQL 命令來變更擁有者、註解、重新命名
- [SPARK-39983][CORE][SQL] 請勿在驅動程式上快取未序列化的廣播關係
- [SPARK-39912][SPARK-39828][SQL] 精簡 CatalogImpl
- [SPARK-39775][CORE][AVRO] 剖析 Avro 結構描述時停用驗證預設值
- [SPARK-39806] 修正了資料分割資料表上中繼資料結構損毀的查詢問題
- [SPARK-39867][SQL] 全域限制不應繼承 OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] 當群組屬性為空時套用投影
- [SPARK-39839][SQL] 在 UnsafeRow 結構完整性檢查中處理具有非零 offsetAndSize 的可變長度小數為空的特殊情況
- [SPARK-39713][SQL] ANSI 模式:新增針對 INVALID_ARRAY_INDEX 錯誤使用 try_element_at 的建議
- [SPARK-39847][SS] 如果呼叫端執行緒中斷,請修正 RocksDBLoader.loadLibrary() 中的競爭條件
- [SPARK-39731][SQL] 使用 CORRECTED 時間剖析器原則剖析「yyyyMMdd」格式的日期時,修正 CSV 和 JSON 資料來源的問題
- 作業系統安全性更新。
2022 年 8 月 10 日
- 對於具有資料表存取控制的差異資料表,現在可以透過 DML 語句 (例如
INSERT
和MERGE
) 來自動演進模式,所有對這些資料表有MODIFY
權限的使用者都可以使用。 此外,為了與其他指令保持一致,使用COPY INTO
執行模式演進所需的權限現在從OWNER
降為MODIFY
。 這些變更會使資料表 ACL 資訊安全模型與 Unity 目錄資訊安全模型以及取代資料表等其他作業更一致。 - [SPARK-39889] 強化除以 0 的錯誤訊息
- [SPARK-39795] [SQL] 新的 SQL 函式:try_to_timestamp
- [SPARK-39749] 始終在 ANSI 模式下將小數轉換為字串時使用純字串表示法
- [SPARK-39625] 將 df.as 重新命名為 df.to
- [SPARK-39787] [SQL] 在函式剖析錯誤 to_timestamp 中使用錯誤類別
- [SPARK-39625] [SQL] 新增 Dataset.as(StructType)
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
lineSep
- [SPARK-39579] [SQL][PYTHON][R] 讓 ListFunctions/getFunction/functionExists 與 3 層命名空間相容
- [SPARK-39702][CORE] 使用共用的 byteRawChannel 減少 TransportCipher$EncryptedMessage 的記憶體額外負荷
- [SPARK-39575] [AVRO] 在 AvroDeserializer 中新增 ByteBuffer#get 後 ByteBuffer#rewind
- [SPARK-39265] [SQL] 修正啟用 SPARK_ANSI_SQL_MODE 時的測試失敗
- [SPARK-39441] [SQL] 加速 DeduplicateRelations
- [SPARK-39497] [SQL] 改善遺漏對應索引鍵資料行的分析例外狀況
- [SPARK-39476] [SQL] 從 Long 轉換為 Float/Double 或從 Integer 轉換成 Float 時,停用解除包裝轉換最佳化
- [SPARK-39434] [SQL] 當陣列索引超出界限時,提供執行階段錯誤查詢內容
- 對於具有資料表存取控制的差異資料表,現在可以透過 DML 語句 (例如
Databricks Runtime 11.0 (EoS)
請參閱 Databricks Runtime 11.0 (EoS)。
- 2022 年 11 月 29 日
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 當
csvignoreleadingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除前置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。 - 當
csvignoretrailingwhitespace
設定為true
時,會在tempformat
設定為CSV
或CSV GZIP
時,從值中移除後置空白字元。 當組態設定為false
時,會保留空白字元。 根據預設,此值是true
。
- 當
- 修正了當所有資料行都保留為字串 (
cloudFiles.inferColumnTypes
未設定或設定為false
) 和 JSON 包含巢狀物件時,自動載入器中 JSON 剖析的錯誤。 - [SPARK-39650][SS] 修正回溯相容性的串流重複資料刪除中不正確的值結構描述
- 作業系統安全性更新。
- 使用者可使用 Redshift 連接器來撰寫資料時,設定前置和後置空白字元的行為。 新增了下列選項來控制空白字元處理:
- 2022 年 11 月 15 日
- [SPARK-40646] 修正了結構、對應和陳列的 JSON 剖析,因此當記錄的一部分不符合結構描述時,仍可以正確剖析其餘記錄,而不是傳回 Null。 若要加入改善的行為,請將
spark.sql.json.enablePartialResults
設定為true
。 預設會停用旗標,以保留原始行為。
- [SPARK-40646] 修正了結構、對應和陳列的 JSON 剖析,因此當記錄的一部分不符合結構描述時,仍可以正確剖析其餘記錄,而不是傳回 Null。 若要加入改善的行為,請將
- 2022 年 11 月 1 日
- 將 Apache commons-text 升級至 1.10.0。
- 修正了如果差異資料表具有名為
_change_type
的使用者定義資料行,但該資料表上已停用變更資料摘要,導致該資料行中的資料在執行MERGE
時,會錯誤地填入 NULL 值的問題。 - 修正了啟用時
allowOverwrites
,自動載入器中檔案可在相同的微批次中複製的問題 - [SPARK-40697][SQL] 新增讀取端字元填補,以涵蓋外部資料檔案
- [SPARK-40596][CORE] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
- 作業系統安全性更新。
- 2022 年 10 月 18 日
- [SPARK-40213][SQL] 支援 Latin-1 字元的 ASCII 值轉換
- 作業系統安全性更新。
- 2022 年 10 月 5 日
- 使用者可以設定 spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) 以重新啟用 ADLS Gen2 上的自動載入器原生清單。 原生清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。 此變更已在先前的維護更新中推出至 DBR 10.4 和 9.1。
- [SPARK-40169] 不要下推沒有參考資料結構描述的 Parquet 篩選條件
- [SPARK-40460][SS] 修正選取
_metadata
時的串流計量 - [SPARK-40468][SQL] 在選取 _corrupt_record 時修正 CSV 中的資料行剪除
- 作業系統安全性更新。
- 2022 年 9 月 22 日
- [SPARK-40315][SQL] 為 ArrayBasedMapData 的常值新增 hashCode()
- [SPARK-40380][SQL] 修正 InvokeLike 的常數折疊,以避免在方案中內嵌的非串行化常值
- [SPARK-40089][SQL] 修正一些小數類型的排序
- [SPARK-39887][SQL] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
- [SPARK-40152][SQL] 修正 split_part codegen 編譯問題
- 2022 年 9 月 6 日
- [SPARK-40235][CORE] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理
- [SPARK-40212][SQL] SparkSQL castPartValue 無法正確處理位元組、short 或 float
- [SPARK-40218][SQL] GROUPING SETS 應保留群組資料行
- [SPARK-39976][SQL] ArrayIntersect 應正確處理左則運算式中的 Null
- [SPARK-40053][CORE][SQL][TESTS] 將
assume
新增至需要 Python 執行階段環境的動態取消案例 - [SPARK-35542][CORE][ML] 修正:為具有參數 splitsArray、inputCols 和 outputCols 的多個資料行建立的貯體化程式在儲存之後無法載入
- [SPARK-40079][CORE] 新增空白輸入案例的 Imputer inputCols 驗證
- 2022 年 8 月 24 日
- [SPARK-39983][CORE][SQL] 請勿在驅動程式上快取未序列化的廣播關係
- [SPARK-39775][CORE][AVRO] 剖析 Avro 結構描述時停用驗證預設值
- [SPARK-39806] 修正了資料分割資料表上中繼資料結構損毀的查詢問題
- [SPARK-39867][SQL] 全域限制不應繼承 OrderPreservingUnaryNode
- [SPARK-39962][PYTHON][SQL] 當群組屬性為空時套用投影
- 作業系統安全性更新。
- 2022 年 8 月 9 日
- [SPARK-39713][SQL] ANSI 模式:新增針對 INVALID_ARRAY_INDEX 錯誤使用 try_element_at 的建議
- [SPARK-39847] 如果呼叫端執行緒中斷,請修正 RocksDBLoader.loadLibrary() 中的競爭條件
- [SPARK-39731][SQL] 使用 CORRECTED 時間剖析器原則剖析「yyyyMMdd」格式的日期時,修正 CSV 和 JSON 資料來源的問題
- [SPARK-39889] 強化除以 0 的錯誤訊息
- [SPARK-39795] [SQL] 新的 SQL 函式:try_to_timestamp
- [SPARK-39749] 始終在 ANSI 模式下將小數轉換為字串時使用純字串表示法
- [SPARK-39625][SQL] 新增 Dataset.to(StructType)
- [SPARK-39787] [SQL] 在函式剖析錯誤 to_timestamp 中使用錯誤類別
- 作業系統安全性更新。
- 2022 年 7 月 27 日
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
lineSep
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded 應是安全執行緒
- [SPARK-39702][CORE] 使用共用的 byteRawChannel 減少 TransportCipher$EncryptedMessage 的記憶體額外負荷
- [SPARK-39575][AVRO] 在 AvroDeserializer 中新增 ByteBuffer#get 後 ByteBuffer#rewind
- [SPARK-39497][SQL] 改善遺漏對應索引鍵資料行的分析例外狀況
- [SPARK-39441][SQL] 加速 DeduplicateRelations
- [SPARK-39476][SQL] 從 Long 轉換為 Float/Double 或從 Integer 轉換成 Float 時,停用解除包裝轉換最佳化
- [SPARK-39434][SQL] 當陣列索引超出界限時,提供執行階段錯誤查詢內容
- [SPARK-39570][SQL] 內嵌資料表應允許具有別名的運算式
- 作業系統安全性更新。
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
- 2022 年 7 月 13 日
- 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
- 修正了在非 DBFS 路徑上執行 cloud_files_state TVF 時的問題。
- 已停用自動載入器針對 Azure 上的目錄清單使用原生雲端 API。
- [SPARK-38796][SQL] 更新 to_number 和 try_to_number 函式,以允許具有正數的 PR
- [SPARK-39272][SQL] 將查詢內容的開始位置增加 1
- [SPARK-39419][SQL] 修正 ArraySort,以在比較子傳回 Null 時擲回例外狀況
- 作業系統安全性更新。
- 2022 年 7 月 5 日
- 改善錯誤類別範圍的錯誤訊息。
- [SPARK-39451][SQL] 支援將間隔轉換成 ANSI 模式中的積分
- [SPARK-39361] 請勿在預設記錄組態中使用 Log4J2 的擴充可擲回轉換模式
- [SPARK-39354][SQL] 確保即使同時有與
Filter
相關的dataTypeMismatchError
,也一樣顯示Table or view not found
- [SPARK-38675][CORE] 修正 BlockInfoManager 中解除鎖定期間的競爭
- [SPARK-39392][SQL] 精簡 try_* 函式提示的 ANSI 錯誤訊息
- [SPARK-39214][SQL][3.3] 改善與 CAST 相關的錯誤
- [SPARK-37939][SQL] 在剖析屬性的錯誤中使用錯誤類別
- [SPARK-39085][SQL] 將
INCONSISTENT_BEHAVIOR_CROSS_VERSION
的錯誤訊息移至 error-classes.json - [SPARK-39376][SQL] 從 NATURAL/USING JOIN 隱藏子查詢別名星形展開中的重複資料行
- [SPARK-39283][CORE] 修正 TaskMemoryManager 與 UnsafeExternalSorter.SpillableIterator 之間的鎖死
- [SPARK-39285][SQL] 讀取檔案時,Spark 不應檢查功能變數名稱
- 作業系統安全性更新。
Databricks Runtime 10.5 (EoS)
請參閱 Databricks Runtime 10.5 (EoS)。
- 2022 年 11 月 1 日
- 修正了如果差異資料表具有名為
_change_type
的使用者定義資料行,但該資料表上已停用變更資料摘要,導致該資料行中的資料在執行MERGE
時,會錯誤地填入 NULL 值的問題。 - [SPARK-40697][SQL] 新增讀取端字元填補,以涵蓋外部資料檔案
- [SPARK-40596][CORE] 在 ExecutorDecommissionInfo 中,填入 ExecutorDecommissionInfo 中的訊息
- 作業系統安全性更新。
- 修正了如果差異資料表具有名為
- 2022 年 10 月 18 日
- 作業系統安全性更新。
- 2022 年 10 月 5 日
- 使用者可以設定 spark.conf.set(“spark.databricks.io.listKeysWithPrefix.azure.enabled”, “true”) 以重新啟用 ADLS Gen2 上的自動載入器原生清單。 原生清單先前因效能問題而關閉,但可能會導致客戶的儲存體成本增加。 此變更已在先前的維護更新中推出至 DBR 10.4 和 9.1。
- reload4j 已升級至 1.2.19,修正了弱點。
- [SPARK-40460][SS] 修正選取
_metadata
時的串流計量 - [SPARK-40468][SQL] 在選取 _corrupt_record 時修正 CSV 中的資料行剪除
- 作業系統安全性更新。
- 2022 年 9 月 22 日
- [SPARK-40315][SQL] 為 ArrayBasedMapData 的常值新增 hashCode()
- [SPARK-40213][SQL] 支援 Latin-1 字元的 ASCII 值轉換
- [SPARK-40380][SQL] 修正 InvokeLike 的常數折疊,以避免在方案中內嵌的非串行化常值
- [SPARK-38404][SQL] 改善巢狀 CTE 參考外部 CTE 時的 CTE 解析
- [SPARK-40089][SQL] 修正一些小數類型的排序
- [SPARK-39887][SQL] RemoveRedundantAliases 應保留讓投影節點的輸出是唯一的別名
- 作業系統安全性更新。
- 2022 年 9 月 6 日
- [SPARK-40235][CORE] 使用可中斷鎖定,而不是在 Executor.updateDependencies 中同步處理
- [SPARK-39976][SQL] ArrayIntersect 應正確處理左則運算式中的 Null
- [SPARK-40053][CORE][SQL][TESTS] 將
assume
新增至需要 Python 執行階段環境的動態取消案例 - [SPARK-35542][CORE][ML] 修正:為具有參數 splitsArray、inputCols 和 outputCols 的多個資料行建立的貯體化程式在儲存之後無法載入
- [SPARK-40079][CORE] 新增空白輸入案例的 Imputer inputCols 驗證
- 2022 年 8 月 24 日
- [SPARK-39983][CORE][SQL] 請勿在驅動程式上快取未序列化的廣播關係
- [SPARK-39775][CORE][AVRO] 剖析 Avro 結構描述時停用驗證預設值
- [SPARK-39806] 修正了資料分割資料表上中繼資料結構損毀的查詢問題
- [SPARK-39962][PYTHON][SQL] 當群組屬性為空時套用投影
- [SPARK-37643][SQL] 當 charVarcharAsString 為 true 時,char 資料類型述詞查詢應該略過 rpadding 規則
- 作業系統安全性更新。
- 2022 年 8 月 9 日
- [SPARK-39847] 如果呼叫端執行緒中斷,請修正 RocksDBLoader.loadLibrary() 中的競爭條件
- [SPARK-39731][SQL] 使用 CORRECTED 時間剖析器原則剖析「yyyyMMdd」格式的日期時,修正 CSV 和 JSON 資料來源的問題
- 作業系統安全性更新。
- 2022 年 7 月 27 日
- [SPARK-39625][SQL] 新增 Dataset.as(StructType)
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
lineSep
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded 應是安全執行緒
- [SPARK-39570][SQL] 內嵌資料表應允許具有別名的運算式
- [SPARK-39702][CORE] 使用共用的 byteRawChannel 減少 TransportCipher$EncryptedMessage 的記憶體額外負荷
- [SPARK-39575][AVRO] 在 AvroDeserializer 中新增 ByteBuffer#get 後 ByteBuffer#rewind
- [SPARK-39476][SQL] 從 Long 轉換為 Float/Double 或從 Integer 轉換成 Float 時,停用解除包裝轉換最佳化
- 作業系統安全性更新。
- 2022 年 7 月 13 日
- 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
- [SPARK-39355][SQL] 單一資料行使用引號來建構 UnresolvedAttribute
- [SPARK-39548][SQL] 使用 window 子句查詢的 CreateView 命令會產生找不到錯誤視窗定義的問題
- [SPARK-39419][SQL] 修正 ArraySort,以在比較子傳回 Null 時擲回例外狀況
- 已停用自動載入器針對 Azure 上的目錄清單使用原生雲端 API。
- 作業系統安全性更新。
- 2022 年 7 月 5 日
- [SPARK-39376][SQL] 從 NATURAL/USING JOIN 隱藏子查詢別名星形展開中的重複資料行
- 作業系統安全性更新。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] 修正 TaskMemoryManager 與 UnsafeExternalSorter.SpillableIterator 之間的鎖死
- [SPARK-39285][SQL] 讀取檔案時,Spark 不應檢查功能變數名稱
- [SPARK-34096][SQL] 改善偏移視窗上 nth_value 略過 null 的效能
- [SPARK-36718][SQL][FOLLOWUP] 修正 CollapseProject 中的
isExtractOnly
檢查
- 2022 年 6 月 2 日
- [SPARK-39166][SQL] 當 WSCG 關閉時,為二進位算術提供執行階段錯誤查詢內容
- [SPARK-39093][SQL] 避免將年-月間隔或日-時間間隔除以整數時發生 codegen 編譯錯誤
- [SPARK-38990][SQL] 在評估 date_trunc/截斷格式作為參考參考時,避免 NullPointerException
- 作業系統安全性更新。
- 2022 年 5 月 18 日
- 修正自動載入器中,潛在的原生記憶體流失。
- [SPARK-38868][SQL] 最佳化外部聯結時,請勿從篩選述詞傳播例外狀況
- [SPARK-38796][SQL] 根據新的規格實作 to_number 和 try_to_number SQL 函式
- [SPARK-38918][SQL] 巢狀資料行剪除應篩選出不屬於目前關聯的屬性
- [SPARK-38929][SQL] 改善 ANSI 中轉換失敗的錯誤訊息
- [SPARK-38926][SQL] SQL 樣式中錯誤訊息中的輸出類型
- [SPARK-39084][PYSPARK] 修正 df.rdd.isEmpty() 使用 TaskContext 停止工作完成的迭代器
- [SPARK-32268][SQL] 在 injectBloomFilter 中新增 ColumnPruning
- [SPARK-38908][SQL] 在從字串轉換成數字/日期/時間戳記/布林值的執行階段錯誤中提供查詢內容
- [SPARK-39046][SQL] 如果 TreeNode.origin 設定錯誤,則傳回空的內容字串
- [SPARK-38974][SQL] 在清單函式中篩選具有指定資料庫名稱的註冊函式
- [SPARK-38762][SQL] 在小數溢位錯誤中提供查詢內容
- [SPARK-38931][SS] 為 RocksDBFileManager 建立根 dfs 目錄,並且在第 1 個檢查點上具有未知數目的索引鍵
- [SPARK-38992][CORE] 避免在 ShellBasedGroupsMappingProvider 中使用 bash -c
- [SPARK-38716][SQL] 在對應索引鍵中提供查詢內容不存在錯誤
- [SPARK-38889][SQL] 編譯布林值資料行篩選,以使用 MSSQL 資料來源的位元類型
- [SPARK-38698][SQL] 在 Divide/Div/Reminder/Pmod 的執行階段錯誤中提供查詢內容
- [SPARK-38823][SQL] 使
NewInstance
無法折疊以修正彙總緩衝損毀問題 - [SPARK-38809][SS] 在串流-串流聯結的對稱雜湊實作中略過 Null 值的實作選項
- [SPARK-38676][SQL] 在加法/減法/乘法的執行階段錯誤訊息中提供 SQL 查詢內容
- [SPARK-38677][PYSPARK] 由於封鎖 I/O,Python MonitorThread 應該偵測鎖死
- 作業系統安全性更新。
Databricks Runtime 10.3 (EoS)
請參閱 Databricks Runtime 10.3 (EoS)。
- 2022 年 7 月 27 日
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
lineSep
- [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded 應是安全執行緒
- [SPARK-39702][CORE] 使用共用的 byteRawChannel 減少 TransportCipher$EncryptedMessage 的記憶體額外負荷
- 作業系統安全性更新。
- [SPARK-39689] 在 CSV 資料來源中支援 2-字元
- 2022 年 7 月 20 日
- 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
- [SPARK-39476][SQL] 從 Long 轉換為 Float/Double 或從 Integer 轉換成 Float 時,停用解除包裝轉換最佳化
- [SPARK-39548][SQL] 使用 window 子句查詢的 CreateView 命令會產生找不到錯誤視窗定義的問題
- [SPARK-39419][SQL] 修正 ArraySort,以在比較子傳回 Null 時擲回例外狀況
- 作業系統安全性更新。
- 2022 年 7 月 5 日
- [SPARK-39376][SQL] 從 NATURAL/USING JOIN 隱藏子查詢別名星形展開中的重複資料行
- 作業系統安全性更新。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] 修正 TaskMemoryManager 與 UnsafeExternalSorter.SpillableIterator 之間的鎖死
- [SPARK-39285][SQL] 讀取檔案時,Spark 不應檢查功能變數名稱
- [SPARK-34096][SQL] 改善偏移視窗上 nth_value 略過 null 的效能
- [SPARK-36718][SQL][FOLLOWUP] 修正 CollapseProject 中的
isExtractOnly
檢查
- 2022 年 6 月 2 日
- [SPARK-38990][SQL] 在評估 date_trunc/截斷格式作為參考參考時,避免 NullPointerException
- 作業系統安全性更新。
- 2022 年 5 月 18 日
- 修正自動載入器中,潛在的原生記憶體流失。
- [SPARK-38918][SQL] 巢狀資料行剪除應篩選出不屬於目前關聯的屬性
- [SPARK-37593][CORE] 如果使用 G1GC 和 ON_HEAP,請減少預設頁面大小 LONG_ARRAY_OFFSET
- [SPARK-39084][PYSPARK] 修正 df.rdd.isEmpty() 使用 TaskContext 停止工作完成的迭代器
- [SPARK-32268][SQL] 在 injectBloomFilter 中新增 ColumnPruning
- [SPARK-38974][SQL] 在清單函式中篩選具有指定資料庫名稱的註冊函式
- [SPARK-38889][SQL] 編譯布林值資料行篩選,以使用 MSSQL 資料來源的位元類型
- 作業系統安全性更新。
- 2022 年 5 月 4 日
- 將 Java AWS SDK 從 1.11.655 版升級為 1.12.1899。
- 2022 年 4 月 19 日
- [SPARK-38616][SQL] 追蹤 Catalyst TreeNode 中的 SQL 查詢文字
- 作業系統安全性更新。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] 使用 Java 型實作在 Utils.unpack 解除壓縮
- 作業系統安全性更新。
- 2022 年 3 月 22 日
- 在啟用資料表存取控制或憑證傳遞的高並行叢集上,將筆記本的目前工作目錄變更為使用者的主目錄。 先前的工作目錄為
/databricks/driver
。 - [SPARK-38437][SQL] 資料來源中日期時間的 Lenient 序列化
- [SPARK-38180][SQL] 允許相互關聯的相等述詞中的安全向上轉換運算式
- [SPARK-38155][SQL] 不允許具有不支援述詞之橫向子查詢中的相異彙總
- [SPARK-38325][SQL] ANSI 模式:避免 HashJoin.extractKeyExprAt() 中可能發生的執行階段錯誤
- 在啟用資料表存取控制或憑證傳遞的高並行叢集上,將筆記本的目前工作目錄變更為使用者的主目錄。 先前的工作目錄為
- 2022 年 3 月 14 日
- 改善了 Delta Lake 中空交易的交易衝突偵測。
- [SPARK-38185][SQL] 修正如果彙總函式是空的,則修正資料不正確
- [SPARK-38318][SQL] 取代資料集檢視時的 [SQL] 迴歸
- [SPARK-38236][SQL] 在建立/改變資料表中指定的絕對檔案路徑會被視為相對
- [SPARK-35937][SQL] 從時間戳記擷取日期欄位應該在 ANSI 模式中運作
- [SPARK-34069][SQL] 終止屏障工作應遵守
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允許在 TimestampNTZ 與日期/時間戳記之間儲存指派
- 2022 年 2 月 23 日
- [SPARK-27442][SQL] 在 parquet 中讀取/寫入資料時移除檢查欄位名稱
Databricks Runtime 10.2 (EoS)
請參閱 Databricks Runtime 10.2 (EoS)。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] 修正 TaskMemoryManager 與 UnsafeExternalSorter.SpillableIterator 之間的鎖死
- [SPARK-39285][SQL] 讀取檔案時,Spark 不應檢查功能變數名稱
- [SPARK-34096][SQL] 改善偏移視窗上 nth_value 略過 null 的效能
- 2022 年 6 月 2 日
- [SPARK-38918][SQL] 巢狀資料行剪除應篩選出不屬於目前關聯的屬性
- [SPARK-38990][SQL] 在評估 date_trunc/截斷格式作為參考參考時,避免 NullPointerException
- 作業系統安全性更新。
- 2022 年 5 月 18 日
- 修正自動載入器中,潛在的原生記憶體流失。
- [SPARK-39084][PYSPARK] 修正 df.rdd.isEmpty() 使用 TaskContext 停止工作完成的迭代器
- [SPARK-38889][SQL] 編譯布林值資料行篩選,以使用 MSSQL 資料來源的位元類型
- [SPARK-38931][SS] 為 RocksDBFileManager 建立根 dfs 目錄,並且在第 1 個檢查點上具有未知數目的索引鍵
- 作業系統安全性更新。
- 2022 年 5 月 4 日
- 將 Java AWS SDK 從 1.11.655 版升級為 1.12.1899。
- 2022 年 4 月 19 日
- 作業系統安全性更新。
- 其他錯誤修正。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] 使用 Java 型實作在 Utils.unpack 解除壓縮
- 作業系統安全性更新。
- 2022 年 3 月 22 日
- 在啟用資料表存取控制或憑證傳遞的高並行叢集上,將筆記本的目前工作目錄變更為使用者的主目錄。 先前的工作目錄為
/databricks/driver
。 - [SPARK-38437][SQL] 資料來源中日期時間的 Lenient 序列化
- [SPARK-38180][SQL] 允許相互關聯的相等述詞中的安全向上轉換運算式
- [SPARK-38155][SQL] 不允許具有不支援述詞之橫向子查詢中的相異彙總
- [SPARK-38325][SQL] ANSI 模式:避免 HashJoin.extractKeyExprAt() 中可能發生的執行階段錯誤
- 在啟用資料表存取控制或憑證傳遞的高並行叢集上,將筆記本的目前工作目錄變更為使用者的主目錄。 先前的工作目錄為
- 2022 年 3 月 14 日
- 改善了 Delta Lake 中空交易的交易衝突偵測。
- [SPARK-38185][SQL] 修正如果彙總函式是空的,則修正資料不正確
- [SPARK-38318][SQL] 取代資料集檢視時的 [SQL] 迴歸
- [SPARK-38236][SQL] 在建立/改變資料表中指定的絕對檔案路徑會被視為相對
- [SPARK-35937][SQL] 從時間戳記擷取日期欄位應該在 ANSI 模式中運作
- [SPARK-34069][SQL] 終止屏障工作應遵守
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允許在 TimestampNTZ 與日期/時間戳記之間儲存指派
- 2022 年 2 月 23 日
- [SPARK-37577][SQL] 修正 tioClassCastExcepn:ArrayType 無法轉換成產生剪除的 StructType
- 2022 年 2 月 8 日
- [SPARK-27442][SQL] 在 parquet 中讀取/寫入資料時移除檢查欄位名稱。
- 作業系統安全性更新。
- 2022 年 2 月 1 日
- 作業系統安全性更新。
- 2022 年 1 月 26 日
- 修正了在特定罕見情況下,差異資料表上的並行交易可用不可序列化的順序認可的 bug。
- 修正了當 ANSI SQL 方言啟用時,OPTIMIZE 命令可能會失敗的問題 bug。
- 2022 年 1 月 19 日
- 引進了將暫存認證內嵌至 COPY INTO 的支援,以載入來源資料,而不需要 SQL ANY_FILE 權限
- 錯誤修復與安全性增強功能。
- 2021 年 12 月 20 日
- 修正了 Parquet 資料行索引型篩選的罕見錯誤。
Databricks Runtime 10.1 (EoS)
請參閱 Databricks Runtime 10.1 (EoS)。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] 修正 TaskMemoryManager 與 UnsafeExternalSorter.SpillableIterator 之間的鎖死
- [SPARK-39285][SQL] 讀取檔案時,Spark 不應檢查功能變數名稱
- [SPARK-34096][SQL] 改善偏移視窗上 nth_value 略過 null 的效能
- 2022 年 6 月 2 日
- 作業系統安全性更新。
- 2022 年 5 月 18 日
- 修正自動載入器中,潛在的原生記憶體流失。
- [SPARK-39084][PYSPARK] 修正 df.rdd.isEmpty() 使用 TaskContext 停止工作完成的迭代器
- [SPARK-38889][SQL] 編譯布林值資料行篩選,以使用 MSSQL 資料來源的位元類型
- 作業系統安全性更新。
- 2022 年 4 月 19 日
- [SPARK-37270][SQL] 如果 elseValue 是空的,修正可折疊至 CaseWhen 分支的推送
- 作業系統安全性更新。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] 使用 Java 型實作在 Utils.unpack 解除壓縮
- 作業系統安全性更新。
- 2022 年 3 月 22 日
- [SPARK-38437][SQL] 資料來源中日期時間的 Lenient 序列化
- [SPARK-38180][SQL] 允許相互關聯的相等述詞中的安全向上轉換運算式
- [SPARK-38155][SQL] 不允許具有不支援述詞之橫向子查詢中的相異彙總
- [SPARK-38325][SQL] ANSI 模式:避免 HashJoin.extractKeyExprAt() 中可能發生的執行階段錯誤
- 2022 年 3 月 14 日
- 改善了 Delta Lake 中空交易的交易衝突偵測。
- [SPARK-38185][SQL] 修正如果彙總函式是空的,則修正資料不正確
- [SPARK-38318][SQL] 取代資料集檢視時的 [SQL] 迴歸
- [SPARK-38236][SQL] 在建立/改變資料表中指定的絕對檔案路徑會被視為相對
- [SPARK-35937][SQL] 從時間戳記擷取日期欄位應該在 ANSI 模式中運作
- [SPARK-34069][SQL] 終止屏障工作應遵守
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允許在 TimestampNTZ 與日期/時間戳記之間儲存指派
- 2022 年 2 月 23 日
- [SPARK-37577][SQL] 修正 tioClassCastExcepn:ArrayType 無法轉換成產生剪除的 StructType
- 2022 年 2 月 8 日
- [SPARK-27442][SQL] 在 parquet 中讀取/寫入資料時移除檢查欄位名稱。
- 作業系統安全性更新。
- 2022 年 2 月 1 日
- 作業系統安全性更新。
- 2022 年 1 月 26 日
- 修正了在特定罕見情況下,差異資料表上的並行交易可用不可序列化的順序認可的 bug。
- 修正了當 ANSI SQL 方言啟用時,OPTIMIZE 命令可能會失敗的問題 bug。
- 2022 年 1 月 19 日
- 引進了將暫存認證內嵌至 COPY INTO 的支援,以載入來源資料,而不需要 SQL ANY_FILE 權限
- 修正了特定情況下查詢結果快取的記憶體不足問題。
- 修正了使用者將目前目錄切換至非預設目錄時的問題
USE DATABASE
。 - 錯誤修復與安全性增強功能。
- 作業系統安全性更新。
- 2021 年 12 月 20 日
- 修正了 Parquet 資料行索引型篩選的罕見錯誤。
Databricks Runtime 10.0 (EoS)
請參閱 Databricks Runtime 10.0 (EoS)。
- 2022 年 4 月 19 日
- [SPARK-37270][SQL] 如果 elseValue 是空的,修正可折疊至 CaseWhen 分支的推送
- 作業系統安全性更新。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] 使用 Java 型實作在 Utils.unpack 解除壓縮
- 作業系統安全性更新。
- 2022 年 3 月 22 日
- [SPARK-38437][SQL] 資料來源中日期時間的 Lenient 序列化
- [SPARK-38180][SQL] 允許相互關聯的相等述詞中的安全向上轉換運算式
- [SPARK-38155][SQL] 不允許具有不支援述詞之橫向子查詢中的相異彙總
- [SPARK-38325][SQL] ANSI 模式:避免 HashJoin.extractKeyExprAt() 中可能發生的執行階段錯誤
- 2022 年 3 月 14 日
- 改善了 Delta Lake 中空交易的交易衝突偵測。
- [SPARK-38185][SQL] 修正如果彙總函式是空的,則修正資料不正確
- [SPARK-38318][SQL] 取代資料集檢視時的 [SQL] 迴歸
- [SPARK-38236][SQL] 在建立/改變資料表中指定的絕對檔案路徑會被視為相對
- [SPARK-35937][SQL] 從時間戳記擷取日期欄位應該在 ANSI 模式中運作
- [SPARK-34069][SQL] 終止屏障工作應遵守
SPARK_JOB_INTERRUPT_ON_CANCEL
- [SPARK-37707][SQL] 允許在 TimestampNTZ 與日期/時間戳記之間儲存指派
- 2022 年 2 月 23 日
- [SPARK-37577][SQL] 修正 tioClassCastExcepn:ArrayType 無法轉換成產生剪除的 StructType
- 2022 年 2 月 8 日
- [SPARK-27442][SQL] 在 parquet 中讀取/寫入資料時移除檢查欄位名稱。
- [SPARK-36905][SQL] 修正讀取沒有明確資料行名稱的 Hive 檢視
- [SPARK-37859][SQL] 修正 Spark 3.1 使用 JDBC 建立的 SQL 資料表,Spark 3.2 無法讀取的問題
- 作業系統安全性更新。
- 2022 年 2 月 1 日
- 作業系統安全性更新。
- 2022 年 1 月 26 日
- 修正了在特定罕見情況下,差異資料表上的並行交易可用不可序列化的順序認可的 bug。
- 修正了當 ANSI SQL 方言啟用時,OPTIMIZE 命令可能會失敗的問題 bug。
- 2022 年 1 月 19 日
- 錯誤修復與安全性增強功能。
- 作業系統安全性更新。
- 2021 年 12 月 20 日
- 修正了 Parquet 資料行索引型篩選的罕見錯誤。
- 2021 年 11 月 9 日
- 引進了其他組態旗標,以啟用對 ANSI 行為的精細控制。
- 2021 年 11 月 4 日
- 修正了可能導致結構化串流失敗並出現 ArrayIndexOutOfBoundsException 的錯誤
- 修正了可能會造成
java.io.IOException: No FileSystem for scheme
等 IOException 的查詢失敗,或可能會導致對sparkContext.hadoopConfiguration
的修改在查詢中不生效的競爭條件。 - 適用於 Delta Sharing 的 Apache Spark 連接器已升級至 0.2.0。
- 2021 年 11 月 30 日
- 修正了時間戳記剖析的問題,其中沒有冒號的時區字串被視為無效。
- 修正了特定情況下查詢結果快取的記憶體不足問題。
- 修正了使用者將目前目錄切換至非預設目錄時的問題
USE DATABASE
。
Databricks Runtime 9.0 (EoS)
請參閱 Databricks Runtime 9.0 (EoS)。
- 2022 年 2 月 8 日
- 作業系統安全性更新。
- 2022 年 2 月 1 日
- 作業系統安全性更新。
- 2022 年 1 月 26 日
- 修正了當 ANSI SQL 方言啟用時,OPTIMIZE 命令可能會失敗的問題 bug。
- 2022 年 1 月 19 日
- 錯誤修復與安全性增強功能。
- 作業系統安全性更新。
- 2021 年 11 月 4 日
- 修正了可能導致結構化串流失敗並出現 ArrayIndexOutOfBoundsException 的錯誤
- 修正了可能會造成
java.io.IOException: No FileSystem for scheme
等 IOException 的查詢失敗,或可能會導致對sparkContext.hadoopConfiguration
的修改在查詢中不生效的競爭條件。 - 適用於 Delta Sharing 的 Apache Spark 連接器已升級至 0.2.0。
- 2021 年 9 月 22 日
- 修正了將 Spark 數位轉換成 null 的錯誤
- 2021 年 9 月 15 日
- 修正了可能導致查詢失敗並出現 IOException (如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
) 的競爭條件。
- 修正了可能導致查詢失敗並出現 IOException (如
- 2021 年 9 月 8 日
- 新增了結構描述名稱 (
databaseName.schemaName.tableName
格式) 的支援,作為 Azure Synapse Connector 的目標資料表名稱。 - 新增了 Spark SQL 的幾何和地理位置 JDBC 類型支援。
- [SPARK-33527][SQL] 擴充解碼功能,以與主流資料庫保持一致。
- [SPARK-36532][CORE][3.1] 修正了
CoarseGrainedExecutorBackend.onDisconnected
中的鎖死,以避免executorsconnected
執行程式關機懸置。
- 新增了結構描述名稱 (
- 2021 年 8 月 25 日
- SQL Server 驅動程式程式庫已升級至 9.2.1.jre8。
- Snowflake 連接器已升級至 2.9.0。
- 修正了 AutoML 實驗頁面上最佳試用筆記本中斷的連結。
Databricks Runtime 8.4 (EoS)
請參閱 Databricks Runtime 8.4 (EoS)。
- 2022 年 1 月 19 日
- 作業系統安全性更新。
- 2021 年 11 月 4 日
- 修正了可能導致結構化串流失敗並出現 ArrayIndexOutOfBoundsException 的錯誤
- 修正了可能會造成
java.io.IOException: No FileSystem for scheme
等 IOException 的查詢失敗,或可能會導致對sparkContext.hadoopConfiguration
的修改在查詢中不生效的競爭條件。 - 適用於 Delta Sharing 的 Apache Spark 連接器已升級至 0.2.0。
- 2021 年 9 月 22 日
- Spark JDBC 驅動程式升級至 2.6.19.1030
- [SPARK-36734][SQL] 將 ORC 升級至 1.5.1
- 2021 年 9 月 15 日
- 修正了可能導致查詢失敗並出現 IOException (如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
) 的競爭條件。 - 作業系統安全性更新。
- 修正了可能導致查詢失敗並出現 IOException (如
- 2021 年 9 月 8 日
- [SPARK-36532][CORE][3.1] 修正了
CoarseGrainedExecutorBackend.onDisconnected
中的鎖死,以避免executorsconnected
執行程式關機懸置。
- [SPARK-36532][CORE][3.1] 修正了
- 2021 年 8 月 25 日
- SQL Server 驅動程式程式庫已升級至 9.2.1.jre8。
- Snowflake 連接器已升級至 2.9.0。
- 修正由新的 Parquet 預先擷取最佳化所造成的認證傳遞錯誤,其中在檔案存取期間找不到使用者的傳遞認證。
- 2021 年 8 月 11 日
- 修正導致舊版 Databricks Runtime 8.4 的 RocksDB 不相容問題。 這會修正自動載入器、
COPY INTO
和具狀態串流應用程式的轉送相容性。 - 修正使用自動載入器讀取 CSV 檔案與標頭檔不符時的錯誤。 如果資料行名稱不相符,資料行會以 Null 填入。 現在,如果提供結構描述,它會假設結構描述相同,而且只有在已啟用已修復的資料行時,才會儲存資料行不符。
- 將稱為
externalDataSource
的新選項新增至 Azure Synapse 連接器,以移除CONTROL
資料庫讀取 PolyBase 的權限需求。
- 修正導致舊版 Databricks Runtime 8.4 的 RocksDB 不相容問題。 這會修正自動載入器、
- 2021 年 7 月 29 日
- [SPARK-36034][BUILD] 將向下推入篩選條件中的日期時間重訂基底為 Parquet
- [SPARK-36163][BUILD] 在 JDBC 連接器提供者中傳播正確的 JDBC 屬性並新增
connectionProvider
選項
Databricks Runtime 8.3 (EoS)
請參閱 Databricks Runtime 8.3 (EoS)。
- 2022 年 1 月 19 日
- 作業系統安全性更新。
- 2021 年 11 月 4 日
- 修正了可能導致結構化串流失敗並出現 ArrayIndexOutOfBoundsException 的錯誤
- 修正了可能會造成
java.io.IOException: No FileSystem for scheme
等 IOException 的查詢失敗,或可能會導致對sparkContext.hadoopConfiguration
的修改在查詢中不生效的競爭條件。
- 2021 年 9 月 22 日
- Spark JDBC 驅動程式升級至 2.6.19.1030
- 2021 年 9 月 15 日
- 修正了可能導致查詢失敗並出現 IOException (如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
) 的競爭條件。 - 作業系統安全性更新。
- 修正了可能導致查詢失敗並出現 IOException (如
- 2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 在外部系統建立和寫入時,讀取 char/varchar orc 資料表。
- [SPARK-36532][CORE][3.1] 修正了
CoarseGrainedExecutorBackend.onDisconnected
中的鎖死,以避免executorsconnected
執行程式關機懸置。
- 2021 年 8 月 25 日
- SQL Server 驅動程式程式庫已升級至 9.2.1.jre8。
- Snowflake 連接器已升級至 2.9.0。
- 修正由新的 Parquet 預先擷取最佳化所造成的認證傳遞錯誤,其中在檔案存取期間找不到使用者的傳遞認證。
- 2021 年 8 月 11 日
- 修正使用自動載入器讀取 CSV 檔案與標頭檔不符時的錯誤。 如果資料行名稱不相符,資料行會以 Null 填入。 現在,如果提供結構描述,它會假設結構描述相同,而且只有在已啟用已修復的資料行時,才會儲存資料行不符。
- 2021 年 7 月 29 日
- 將 Databricks Snowflake Spark 連接器升級至 2.9.0-spark-3.1
- [SPARK-36034][BUILD] 將向下推入篩選條件中的日期時間重訂基底為 Parquet
- [SPARK-36163][BUILD] 在 JDBC 連接器提供者中傳播正確的 JDBC 屬性並新增
connectionProvider
選項
- 2021 年 7 月 14 日
- 修正了在 Azure Synapse 連接器中搭配點使用資料行名稱時的問題。
- 引進了 Synapse Connector 的
database.schema.table
格式。 - 新增了支援,以提供
databaseName.schemaName.tableName
格式作為目標資料表,而不只是schemaName.tableName
或tableName
。
- 2021 年 6 月 15 日
- 修正了 Delta Lake 最佳化寫入中的
NoSuchElementException
錯誤,在寫入大量資料並遇到執行程式損失時可能發生 - 新增 SQL
CREATE GROUP
、DROP GROUP
、ALTER GROUP
、SHOW GROUPS
和SHOW USERS
命令。 如需詳細資訊,請參閱 Security 陳述式和 Show 陳述式。
- 修正了 Delta Lake 最佳化寫入中的
Databricks Runtime 8.2 (EoS)
請參閱 Databricks Runtime 8.2 (EoS)。
2021 年 9 月 22 日
- 作業系統安全性更新。
2021 年 9 月 15 日
- 修正了可能導致查詢失敗並出現 IOException (如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
) 的競爭條件。
- 修正了可能導致查詢失敗並出現 IOException (如
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 在外部系統建立和寫入時,讀取 char/varchar orc 資料表。
- [SPARK-36532][CORE][3.1] 修正了
CoarseGrainedExecutorBackend.onDisconnected
中的鎖死,以避免executorsconnected
執行程式關機懸置。
2021 年 8 月 25 日
- Snowflake 連接器已升級至 2.9.0。
2021 年 8 月 11 日
- [SPARK-36034][SQL] 將向下推入篩選條件中的日期時間重訂基底為 Parquet。
2021 年 7 月 29 日
- 將 Databricks Snowflake Spark 連接器升級至 2.9.0-spark-3.1
- [SPARK-36163][BUILD] 在 JDBC 連接器提供者中傳播正確的 JDBC 屬性並新增
connectionProvider
選項
2021 年 7 月 14 日
- 修正了在 Azure Synapse 連接器中搭配點使用資料行名稱時的問題。
- 引進了 Synapse Connector 的
database.schema.table
格式。 - 新增了支援,以提供
databaseName.schemaName.tableName
格式作為目標資料表,而不只是schemaName.tableName
或tableName
。 - 修正了使用者無法透過差異資料表前往可用舊版的錯誤。
2021 年 6 月 15 日
- 修正 Delta Lake 最佳化寫入中的
NoSuchElementException
錯誤,在寫入大量資料並遇到執行程式損失時可能發生
- 修正 Delta Lake 最佳化寫入中的
2021 年 5 月 26 日
- 使用安全性修補程式更新了 Python,以修正 Python 安全性弱點 (CVE-2021-3177)。
2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
- [SPARK-34245][CORE] 確定 Master 會移除無法傳送完成狀態的執行程式
- 修正了自動載入器回報結構化串流進度計量時的 OOM 問題。
Databricks Runtime 8.1 (EoS)
請參閱 Databricks Runtime 8.1 (EoS)。
2021 年 9 月 22 日
- 作業系統安全性更新。
2021 年 9 月 15 日
- 修正了可能導致查詢失敗並出現 IOException (如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
) 的競爭條件。
- 修正了可能導致查詢失敗並出現 IOException (如
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 在外部系統建立和寫入時,讀取 char/varchar orc 資料表。
- [SPARK-36532][CORE][3.1] 修正了
CoarseGrainedExecutorBackend.onDisconnected
中的鎖死,以避免executorsconnected
執行程式關機懸置。
2021 年 8 月 25 日
- Snowflake 連接器已升級至 2.9.0。
2021 年 8 月 11 日
- [SPARK-36034][SQL] 將向下推入篩選條件中的日期時間重訂基底為 Parquet。
2021 年 7 月 29 日
- 將 Databricks Snowflake Spark 連接器升級至 2.9.0-spark-3.1
- [SPARK-36163][BUILD] 在 JDBC 連接器提供者中傳播正確的 JDBC 屬性並新增
connectionProvider
選項
2021 年 7 月 14 日
- 修正了在 Azure Synapse 連接器中搭配點使用資料行名稱時的問題。
- 修正了使用者無法透過差異資料表前往可用舊版的錯誤。
2021 年 6 月 15 日
- 修正 Delta Lake 最佳化寫入中的
NoSuchElementException
錯誤,在寫入大量資料並遇到執行程式損失時可能發生
- 修正 Delta Lake 最佳化寫入中的
2021 年 5 月 26 日
- 使用安全性修補程式更新了 Python,以修正 Python 安全性弱點 (CVE-2021-3177)。
2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
- 修正了自動載入器回報結構化串流進度計量時的 OOM 問題。
2021 年 4 月 27 日
- [SPARK-34245][CORE] 確定 Master 會移除無法傳送完成狀態的執行程式
- [SPARK-34856][SQL] ANSI 模式:允許將複雜類型轉型為字串類型
- [SPARK-35014] 修正 PhysicalAggregation 模式,以不重寫可折疊運算式
- [SPARK-34769][SQL] AnsiTypeCoercion:在 TypeCollection 中傳回最窄的可轉換類型
- [SPARK-34614][SQL]ANSI 模式:將字串轉換成布林值會在剖析錯誤時擲回例外狀況
- [SPARK-33794][SQL] ANSI 模式:修正 NextDay 運算式在收到無效輸入時擲回執行階段 IllegalArgumentException
Databricks Runtime 8.0 (EoS)
請參閱 Databricks Runtime 8.0 (EoS)。
2021 年 9 月 15 日
- 修正了可能導致查詢失敗並出現 IOException (如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
) 的競爭條件。
- 修正了可能導致查詢失敗並出現 IOException (如
2021 年 8 月 25 日
- Snowflake 連接器已升級至 2.9.0。
2021 年 8 月 11 日
- [SPARK-36034][SQL] 將向下推入篩選條件中的日期時間重訂基底為 Parquet。
2021 年 7 月 29 日
- [SPARK-36163][BUILD] 在 JDBC 連接器提供者中傳播正確的 JDBC 屬性並新增
connectionProvider
選項
- [SPARK-36163][BUILD] 在 JDBC 連接器提供者中傳播正確的 JDBC 屬性並新增
2021 年 7 月 14 日
- 修正了在 Azure Synapse 連接器中搭配點使用資料行名稱時的問題。
- 修正了使用者無法透過差異資料表前往可用舊版的錯誤。
2021 年 5 月 26 日
- 使用安全性修補程式更新了 Python,以修正 Python 安全性弱點 (CVE-2021-3177)。
2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
- [SPARK-34245][CORE] 確定 Master 會移除無法傳送完成狀態的執行程式
2021 年 3 月 24 日
- [SPARK-34681][SQL] 修正在建置具有不相等條件的左側時,完整外部隨機雜湊聯結的錯誤
- [SPARK-34534] 修正使用 FetchShuffleBlocks 擷取區塊時出現的 blockIds 順序問題
- [SPARK-34613][SQL] 修正檢視不會擷取停用提示設定的問題
2021 年 3 月 9 日
- [SPARK-34543][SQL] 在解析 v1
SET LOCATION
中的資料分割規格時遵守spark.sql.caseSensitive
設定 - [SPARK-34392][SQL] 支援 DateTimeUtils 中的 ZoneOffset +h:mm。 getZoneId
- [UI] 修正 Spark DAG 視覺效果的 href 連結
- [SPARK-34436][SQL] DPP 支援 LIKE ANY/ALL 運算式
- [SPARK-34543][SQL] 在解析 v1
Databricks Runtime 7.6 (EoS)
請參閱 Databricks Runtime 7.6 (EoS)。
- 2021 年 8 月 11 日
- [SPARK-36034][SQL] 將向下推入篩選條件中的日期時間重訂基底為 Parquet。
- 2021 年 7 月 29 日
- [SPARK-32998][BUILD] 新增僅使用內部存放庫覆寫預設遠端存放庫的功能
- 2021 年 7 月 14 日
- 修正了使用者無法透過差異資料表前往可用舊版的錯誤。
- 2021 年 5 月 26 日
- 使用安全性修補程式更新了 Python,以修正 Python 安全性弱點 (CVE-2021-3177)。
- 2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
- [SPARK-34245][CORE] 確定 Master 會移除無法傳送完成狀態的執行程式
- 2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵守 Univocity 中的預設輸入緩衝區大小
- [SPARK-34534] 修正使用 FetchShuffleBlocks 擷取區塊時出現的 blockIds 順序問題
- 2021 年 3 月 9 日
- (僅限 Azure) 修正了使用 Databricks Runtime 7.6 執行在 Databricks Runtime 7.2 中建立的舊自動載入器串流時,出現可能導致 NullPointerException 的自動載入器錯誤
- [UI] 修正 Spark DAG 視覺效果的 href 連結
- SizeInBytesOnlyStatsSparkPlanVisitor 中無法正確處理未知的分葉節點 SparkPlan
- 還原
SHOW DATABASES
的輸出結構描述 - [Delta][8.0, 7.6] 修正了檔案大小自動調整邏輯中的計算錯誤
- 停用磁碟快取中差異資料表檔案的過時檢查
- [SQL] 當範圍聯結提示存在時,請使用正確的動態剪除來建置索引鍵
- 停用非 SQL 程式碼路徑中的 char 類型支援
- 避免 DataFrameReader.schema 中的 NPE
- 修正 EventGridClient 回應沒有實體時的 NPE
- 修正 Azure 自動載入器中的讀取已關閉串流錯誤
- [SQL] 啟用 AOS 時,不要產生隨機分割區編號建議
- 2021 年 2 月 24 日
- 已將 Spark BigQuery 連接器升級至 v0.18,引進了各種錯誤修正和支援 Arrow 和 Avro 迭代器。
- 修正當 Parquet 檔案的小數精確度和比例與 Spark 結構描述不同時,導致 Spark 傳回不正確結果的正確性問題。
- 修正了包含空間資料類型 Microsoft SQL Server 資料表的讀取失敗問題,方法是新增 Spark SQL 的 geometry 和 geography JDBC 類型支援。
- 引進了新的組態
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此組態可控制內建 Hive 初始化。 當設定為 true 時,Azure Databricks 會將使用者擁有的所有資料庫的所有函式重新載入FunctionRegistry
。 這就像 Hive 中繼存放區警示中的預設行為。 當設定為 false 時,Azure Databricks 會停用此程式以進行最佳化。 - [SPARK-34212] 修正了從 Parquet 檔案讀取小數資料的相關問題。
- [SPARK-34260][SQL] 修正在建立暫存檢視兩次時未解決的 Exception。
Databricks Runtime 7.5 (EoS)
請參閱 Databricks Runtime 7.5 (EoS)。
- 2021 年 5 月 26 日
- 使用安全性修補程式更新了 Python,以修正 Python 安全性弱點 (CVE-2021-3177)。
- 2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
- [SPARK-34245][CORE] 確定 Master 會移除無法傳送完成狀態的執行程式
- 2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵守 Univocity 中的預設輸入緩衝區大小
- [SPARK-34534] 修正使用 FetchShuffleBlocks 擷取區塊時出現的 blockIds 順序問題
- 2021 年 3 月 9 日
- (僅限 Azure) 修正了使用 Databricks Runtime 7.5 執行在 Databricks Runtime 7.2 中建立的舊自動載入器串流時,出現可能導致 NullPointerException 的自動載入器錯誤。
- [UI] 修正 Spark DAG 視覺效果的 href 連結
- SizeInBytesOnlyStatsSparkPlanVisitor 中無法正確處理未知的分葉節點 SparkPlan
- 還原
SHOW DATABASES
的輸出結構描述 - 停用磁碟快取中差異資料表檔案的過時檢查
- [SQL] 當範圍聯結提示存在時,請使用正確的動態剪除來建置索引鍵
- 停用非 SQL 程式碼路徑中的 char 類型支援
- 避免 DataFrameReader.schema 中的 NPE
- 修正 EventGridClient 回應沒有實體時的 NPE
- 修正 Azure 自動載入器中的讀取已關閉串流錯誤
- 2021 年 2 月 24 日
- 已將 Spark BigQuery 連接器升級至 v0.18,引進了各種錯誤修正和支援 Arrow 和 Avro 迭代器。
- 修正當 Parquet 檔案的小數精確度和比例與 Spark 結構描述不同時,導致 Spark 傳回不正確結果的正確性問題。
- 修正了包含空間資料類型 Microsoft SQL Server 資料表的讀取失敗問題,方法是新增 Spark SQL 的 geometry 和 geography JDBC 類型支援。
- 引進了新的組態
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此組態可控制內建 Hive 初始化。 當設定為 true 時,Azure Databricks 會將使用者擁有的所有資料庫的所有函式重新載入FunctionRegistry
。 這就像 Hive 中繼存放區警示中的預設行為。 當設定為 false 時,Azure Databricks 會停用此程式以進行最佳化。 - [SPARK-34212] 修正了從 Parquet 檔案讀取小數資料的相關問題。
- [SPARK-34260][SQL] 修正在建立暫存檢視兩次時未解決的 Exception。
- 2021 年 2 月 4 日
- 修正了防止執行設定全域限制 (例如
SELECT * FROM table LIMIT nrows
) 的查詢累加執行的迴歸。 在啟用 Arrow 序列化的情況下,透過 ODBC/JDBC 執行查詢的使用者會經歷迴歸。 - 引進 Hive 用戶端的寫入時間檢查,以防止差異資料表 Hive 中繼存放區中的中繼資料損毀。
- 修正了當叢集環境變數組態包含無效 bash 語法時,導致 DBFS FUSE 無法啟動的迴歸。
- 修正了防止執行設定全域限制 (例如
- 2021 年 1 月 20 日
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
df.join(df.select($"col" as "new_col"), cond)
- 衍生的 DataFrame 會透過 select、groupBy 或 window 排除某些資料行。
- 聯結的 DataFrame 之後的聯結條件或下列轉換是指非一般資料行。 例如,
df.join(df.drop("a"), df("a") === 1)
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
- 2021 年 1 月 12 日
- 將 Azure 儲存體 SDK 從 2.3.8 升級至 2.3.9。
- [SPARK-33593][SQL] 向量讀取器取得具有二進位資料分割值的不正確資料
- [SPARK-33480][SQL] 更新 char/varchar 資料表插入長度檢查的錯誤訊息
Databricks Runtime 7.3 LTS (EoS)
請參閱 Databricks Runtime 7.3 LTS (EoS)。
2023 年 9 月 10 日
- 其他錯誤修正。
2023 年 8 月 30 日
- 作業系統安全性更新。
2023 年 8 月 15 日
- 作業系統安全性更新。
2023 年 6 月 23 日
- Snowflake-jdbc 程式庫已升級至 3.13.29,以解決安全性問題。
- 作業系統安全性更新。
2023 年 6 月 15 日
- [SPARK-43413][SQL] 修正
IN
子查詢ListQuery
可 NULL 性。 - 作業系統安全性更新。
- [SPARK-43413][SQL] 修正
2023 年 6 月 2 日
- 修正了自動載入器中,不同來源檔案格式在提供的結構描述未包含推斷的分割區時不一致的問題。 讀取推斷資料區結構描述中遺漏資料行的檔案時,此問題可能會導致非預期的失敗。
2023 年 5 月 17 日
- 作業系統安全性更新。
2023 年 4 月 25 日
- 作業系統安全性更新。
2023 年 4 月 11 日
- [SPARK-42967][CORE] 在取消階段之後啟動工作時修正 SparkListenerTaskStart.stageAttemptId。
- 其他錯誤修正。
2023 年 3 月 29 日
- 作業系統安全性更新。
2023 年 3 月 14 日
- 其他錯誤修正。
2023 年 2 月 28 日
- 作業系統安全性更新。
2023 年 2 月 16 日
- 作業系統安全性更新。
2023 年 1 月 31 日
- JDBC 資料表的資料表類型現在預設為 EXTERNAL。
2023 年 1 月 18 日
- 作業系統安全性更新。
2022 年 11 月 29 日
- 其他錯誤修正。
2022 年 11 月 15 日
- 將 Apache commons-text 升級至 1.10.0。
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 11 月 1 日
- [SPARK-38542][SQL] UnsafeHashedRelation 應該序列化 numKeys
2022 年 10 月 18 日
- 作業系統安全性更新。
2022 年 10 月 5 日
- 其他錯誤修正。
- 作業系統安全性更新。
2022 年 9 月 22 日
- [SPARK-40089][SQL] 修正一些小數類型的排序
2022 年 9 月 6 日
- [SPARK-35542][CORE][ML] 修正:為具有參數 splitsArray、inputCols 和 outputCols 的多個資料行建立的貯體化程式在儲存之後無法載入
- [SPARK-40079][CORE] 新增空白輸入案例的 Imputer inputCols 驗證
2022 年 8 月 24 日
- [SPARK-39962][PYTHON][SQL] 當群組屬性為空時套用投影
- 作業系統安全性更新。
2022 年 8 月 9 日
- 作業系統安全性更新。
2022 年 7 月 27 日
- 當來源不具決定性時,讓 Delta MERGE 作業的結果保持一致。
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 7 月 13 日
- [SPARK-32680][SQL] 不要使用未解決的查詢預先處理 V2 CTAS
- 已停用自動載入器針對 Azure 上的目錄清單使用原生雲端 API。
- 作業系統安全性更新。
2022 年 7 月 5 日
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 6 月 2 日
- [SPARK-38918][SQL] 巢狀資料行剪除應篩選出不屬於目前關聯的屬性
- 作業系統安全性更新。
2022 年 5 月 18 日
- 將 AWS SDK 從 1.11.655 版升級為 1.11.678。
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 4 月 19 日
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 4 月 6 日
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 3 月 14 日
- 從 log4j 1.2.17 jar 移除易受攻擊的類別
- 其他錯誤修正。
2022 年 2 月 23 日
- [SPARK-37859][SQL] 請勿在結構描述比較期間檢查中繼資料
2022 年 2 月 8 日
- 將 Ubuntu JDK 升級至 1.8.0.312。
- 作業系統安全性更新。
2022 年 2 月 1 日
- 作業系統安全性更新。
2022 年 1 月 26 日
- 修正了當 ANSI SQL 方言啟用時,OPTIMIZE 命令可能會失敗的問題 bug。
2022 年 1 月 19 日
- Conda 預設通道已從 7.3 ML LTS 中移除
- 作業系統安全性更新。
2021 年 12 月 7 日
- 作業系統安全性更新。
2021 年 11 月 4 日
- 修正了可能導致結構化串流失敗並出現 ArrayIndexOutOfBoundsException 的錯誤
- 修正了可能會造成
java.io.IOException: No FileSystem for scheme
等 IOException 的查詢失敗,或可能會導致對sparkContext.hadoopConfiguration
的修改在查詢中不生效的競爭條件。
2021 年 9 月 15 日
- 修正了可能導致查詢失敗並出現 IOException (如
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
) 的競爭條件。 - 作業系統安全性更新。
- 修正了可能導致查詢失敗並出現 IOException (如
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 在外部系統建立和寫入時,讀取 char/varchar orc 資料表。
- [SPARK-36532][CORE][3.1] 修正了
CoarseGrainedExecutorBackend.onDisconnected
中的鎖死,以避免executorsconnected
執行程式關機懸置。
2021 年 8 月 25 日
- Snowflake 連接器已升級至 2.9.0。
2021 年 7 月 29 日
- [SPARK-36034][BUILD] 將向下推入篩選條件中的日期時間重訂基底為 Parquet
- [SPARK-34508][BUILD] 如果網路關閉,則略過
HiveExternalCatalogVersionsSuite
2021 年 7 月 14 日
- 引進了 Azure Synapse Connector 的
database.schema.table
格式。 - 新增了支援,以提供
databaseName.schemaName.tableName
格式作為目標資料表,而不只是schemaName.tableName
或tableName
。 - 修正了使用者無法透過差異資料表前往可用舊版的錯誤。
- 引進了 Azure Synapse Connector 的
2021 年 6 月 15 日
- 修正 Delta Lake 最佳化寫入中的
NoSuchElementException
錯誤,在寫入大量資料並遇到執行程式損失時可能發生 - 使用安全性修補程式更新了 Python,以修正 Python 安全性弱點 (CVE-2021-3177)。
- 修正 Delta Lake 最佳化寫入中的
2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
- [SPARK-34245][CORE] 確定 Master 會移除無法傳送完成狀態的執行程式
- [SPARK-35045][SQL] 新增內部選項以控制單一調用中的輸入緩衝區
2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵守 Univocity 中的預設輸入緩衝區大小
- [SPARK-34534] 修正使用 FetchShuffleBlocks 擷取區塊時出現的 blockIds 順序問題
- [SPARK-33118][SQL] CREATE TEMPORARY TABLE 失敗,位置為
2021 年 3 月 9 日
- 更新了 Azure Data Lake Storage Gen2 的 Azure Blob File System 驅動程式現在預設為啟用。 它帶來了多個穩定性改善。
- 修正 Windows for
databricks-connect get-jar-dir
上的路徑分隔符號 - [UI] 修正 Spark DAG 視覺效果的 href 連結
- [DBCONNECT] 在 Databricks Connect 7.3 中新增對 FlatMapCoGroupsInPandas 的支援
- 還原
SHOW DATABASES
的輸出結構描述 - [SQL] 當範圍聯結提示存在時,請使用正確的動態剪除來建置索引鍵
- 停用磁碟快取中差異資料表檔案的過時檢查
- [SQL] 啟用 AOS 時,不要產生隨機分割區編號建議
2021 年 2 月 24 日
- 已將 Spark BigQuery 連接器升級至 v0.18,引進了各種錯誤修正和支援 Arrow 和 Avro 迭代器。
- 修正當 Parquet 檔案的小數精確度和比例與 Spark 結構描述不同時,導致 Spark 傳回不正確結果的正確性問題。
- 修正了包含空間資料類型 Microsoft SQL Server 資料表的讀取失敗問題,方法是新增 Spark SQL 的 geometry 和 geography JDBC 類型支援。
- 引進了新的組態
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此組態可控制內建 Hive 初始化。 當設定為 true 時,Azure Databricks 會將使用者擁有的所有資料庫的所有函式重新載入FunctionRegistry
。 這就像 Hive 中繼存放區警示中的預設行為。 當設定為 false 時,Azure Databricks 會停用此程式以進行最佳化。 - [SPARK-34212] 修正了從 Parquet 檔案讀取小數資料的相關問題。
- [SPARK-33579][UI] 修正 Proxy 後方的執行程式空白頁面。
- [SPARK-20044][UI] 使用路徑前置詞支援前端反向 Proxy 後方的 Spark UI。
- [SPARK-33277][PYSPARK][SQL] 使用 ContextAwareIterator 在工作結束之後停止取用。
2021 年 2 月 4 日
- 修正了防止執行設定全域限制 (例如
SELECT * FROM table LIMIT nrows
) 的查詢累加執行的迴歸。 在啟用 Arrow 序列化的情況下,透過 ODBC/JDBC 執行查詢的使用者會經歷迴歸。 - 修正了當叢集環境變數組態包含無效 bash 語法時,導致 DBFS FUSE 無法啟動的迴歸。
- 修正了防止執行設定全域限制 (例如
2021 年 1 月 20 日
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
df.join(df.select($"col" as "new_col"), cond)
- 衍生的 DataFrame 會透過 select、groupBy 或 window 排除某些資料行。
- 聯結的 DataFrame 之後的聯結條件或下列轉換是指非一般資料行。 例如,
df.join(df.drop("a"), df("a") === 1)
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
2021 年 1 月 12 日
- 作業系統安全性更新。
- [SPARK-33593][SQL] 向量讀取器取得具有二進位資料分割值的不正確資料
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,請略過 LikeSimplification 規則
- [SPARK-33592][ML][PYTHON] estimatorParamMaps 中的 Pyspark ML 驗證程式參數在儲存和重載之後可能會遺失
- [SPARK-33071][SPARK-33536][SQL] 避免變更 join() 中的 LogicalPlan dataset_id,以免中斷 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-33587][CORE] 在巢狀嚴重錯誤上終止執行程式
- [SPARK-27421][SQL] 修正剪除資料分割資料行時 int 資料行和值類別 java.lang.String 的篩選
- [SPARK-33316][SQL] 支援使用者在 Avro 撰寫中為不可為 Null 的催化劑結構描述提供可為 Null 的 Avro 結構描述
- 使用 Databricks Connect 啟動的 Spark 作業可能會無限期懸置,並在執行程式堆疊追蹤中顯示
Executor$TaskRunner.$anonfun$copySessionState
- 作業系統安全性更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0] 修正
date_trunc
運算式中不正確的結果 - [SPARK-33339][PYTHON] Pyspark 應用程式因非例外狀況錯誤而懸置
- [SPARK-33183][SQL][HOTFIX] 修正最佳化工具規則 RemoveSorts 並新增實體規則以移除備援的排序
- [SPARK-33371][PYTHON][3.0] Python 3.9 的更新 setup.py 和測試
- [SPARK-33391][SQL] 使用 CreateArray 的 element_at 不遵從單一索引。
- [SPARK-33306][SQL] 將日期轉換成字串時需要時區
- [SPARK-33260][SQL] 修正當 SortOrder 為 Stream 時,SortExec 不正確的結果
- [SPARK-33404][SQL][3.0] 修正
2020 年 11 月 5 日
2020 年 10 月 13 日
- 作業系統安全性更新。
- 當在啟用高並行認證傳遞的叢集時,可以使用 /dbfs/ 的 FUSE 掛接從 DBFS 讀取和寫入。 支援一般掛接,但是尚未支援需要傳遞認證的掛接。
- [SPARK-32999][SQL] 使用 Utils.getSimpleName 避免在 TreeNode 中叫用格式錯誤的類別名稱
- [SPARK-32585][SQL] 支援 ScalaReflection 中的 Scala 列舉
- 修正了 FUSE 掛接中含有無效 XML 字元之檔案名稱的清單目錄
- FUSE 掛接不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-32718][SQL] 移除間隔單元的不必要關鍵字
- [SPARK-32635][SQL] 修正摺疊式傳播
- 新增新的組態
spark.shuffle.io.decoder.consolidateThreshold
。 將組態值設定為Long.MAX_VALUE
,以略過 netty FrameBuffers 的彙總,以避免在邊角案例中發生java.lang.IndexOutOfBoundsException
。
2023 年 4 月 25 日
- 作業系統安全性更新。
2023 年 4 月 11 日
- 其他錯誤修正。
2023 年 3 月 29 日
- 其他錯誤修正。
2023 年 3 月 14 日
- 作業系統安全性更新。
2023 年 2 月 28 日
- 作業系統安全性更新。
2023 年 2 月 16 日
- 作業系統安全性更新。
2023 年 1 月 31 日
- 其他錯誤修正。
2023 年 1 月 18 日
- 作業系統安全性更新。
2022 年 11 月 29 日
- 作業系統安全性更新。
2022 年 11 月 15 日
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 11 月 1 日
- 作業系統安全性更新。
2022 年 10 月 18 日
- 作業系統安全性更新。
- 2022 年 10 月 5 日
- 作業系統安全性更新。
- 2022 年 8 月 24 日
- 作業系統安全性更新。
- 2022 年 8 月 9 日
- 作業系統安全性更新。
- 2022 年 7 月 27 日
- 作業系統安全性更新。
- 2022 年 7 月 5 日
- 作業系統安全性更新。
- 2022 年 6 月 2 日
- 作業系統安全性更新。
- 2022 年 5 月 18 日
- 作業系統安全性更新。
- 2022 年 4 月 19 日
- 作業系統安全性更新。
- 其他錯誤修正。
- 2022 年 4 月 6 日
- 作業系統安全性更新。
- 其他錯誤修正。
- 2022 年 3 月 14 日
- 其他錯誤修正。
- 2022 年 2 月 23 日
- 其他錯誤修正。
- 2022 年 2 月 8 日
- 將 Ubuntu JDK 升級至 1.8.0.312。
- 作業系統安全性更新。
- 2022 年 2 月 1 日
- 作業系統安全性更新。
- 2022 年 1 月 19 日
- 作業系統安全性更新。
- 2021 年 9 月 22 日
- 作業系統安全性更新。
- 2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
- 2021 年 1 月 12 日
- 作業系統安全性更新。
- 2020 年 12 月 8 日
- [SPARK-27421][SQL] 修正剪除資料分割資料行時 int 資料行和值類別 java.lang.String 的篩選
- 作業系統安全性更新。
- 2020 年 12 月 1 日
- [SPARK-33260][SQL] 修正當 SortOrder 為 Stream 時,SortExec 不正確的結果
- 2020 年 11 月 3 日
- 已將 Java 版本從 1.8.0_252 版升級至 1.8.0_265 版。
- 修正與 UserGroupInformation.getCurrentUser() 相關的 ABFS 和 WASB 鎖定
- 2020 年 10 月 13 日
- 作業系統安全性更新。
Databricks Runtime 6.4 延伸支援 (EoS)
請參閱 Databricks Runtime 6.4 (EoS) 和 Databricks Runtime 6.4 延伸支援 (EoS)。
2022 年 7 月 5 日
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 6 月 2 日
- 作業系統安全性更新。
2022 年 5 月 18 日
- 作業系統安全性更新。
2022 年 4 月 19 日
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 4 月 6 日
- 作業系統安全性更新。
- 其他錯誤修正。
2022 年 3 月 14 日
- 從 log4j 1.2.17 jar 移除易受攻擊的類別
- 其他錯誤修正。
2022 年 2 月 23 日
- 其他錯誤修正。
2022 年 2 月 8 日
- 將 Ubuntu JDK 升級至 1.8.0.312。
- 作業系統安全性更新。
2022 年 2 月 1 日
- 作業系統安全性更新。
2022 年 1 月 26 日
- 修正了當 ANSI SQL 方言啟用時,OPTIMIZE 命令可能會失敗的問題 bug。
2022 年 1 月 19 日
- 作業系統安全性更新。
2021 年 12 月 8 日
- 作業系統安全性更新。
2021 年 9 月 22 日
- 作業系統安全性更新。
2021 年 6 月 15 日
- [SPARK-35576][SQL]在 Set 命令的結果中修訂敏感性資訊
2021 年 6 月 7 日
- 新增名為
spark.sql.maven.additionalRemoteRepositories
的新組態,這是其他選擇性遠端 Maven 鏡像的逗號分隔字串組態。 值預設為https://maven-central.storage-download.googleapis.com/maven2/
。
- 新增名為
2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
2021 年 3 月 9 日
- 將 HADOOP-17215 移植到 Azure Blob File System 驅動程式 (支援條件式覆寫)。
- 修正 Windows for
databricks-connect get-jar-dir
上的路徑分隔符號 - 新增了對 Hive 中繼存放區 2.3.5、2.3.6 和 2.3.7 版的支援
- 溢寫之後,Arrow “totalResultsCollected” 報告不正確
2021 年 2 月 24 日
- 引進了新的組態
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此組態可控制內建 Hive 初始化。 當設定為 true 時,Azure Databricks 會將使用者擁有的所有資料庫的所有函式重新載入FunctionRegistry
。 這就像 Hive 中繼存放區警示中的預設行為。 當設定為 false 時,Azure Databricks 會停用此程式以進行最佳化。
- 引進了新的組態
2021 年 2 月 4 日
- 修正了防止執行設定全域限制 (例如
SELECT * FROM table LIMIT nrows
) 的查詢累加執行的迴歸。 在啟用 Arrow 序列化的情況下,透過 ODBC/JDBC 執行查詢的使用者會經歷迴歸。 - 修正了當叢集環境變數組態包含無效 bash 語法時,導致 DBFS FUSE 無法啟動的迴歸。
- 修正了防止執行設定全域限制 (例如
2021 年 1 月 12 日
- 作業系統安全性更新。
2020 年 12 月 8 日
- [SPARK-27421][SQL] 修正剪除資料分割資料行時 int 資料行和值類別 java.lang.String 的篩選
- [SPARK-33183][SQL] 修正最佳化工具規則 RemoveSorts 並新增實體規則以移除備援的排序
- [Runtime 6.4 ML GPU] 我們先前已安裝不正確的 NCCL 版本 (2.7.8-1+cuda11.1)。 此版本會將它更正為與 CUDA 10.0 相容的 2.4.8-1+cuda10.0。
- 作業系統安全性更新。
2020 年 12 月 1 日
- [SPARK-33260][SQL] 修正當 SortOrder 為 Stream 時,SortExec 不正確的結果
- [SPARK-32635][SQL] 修正摺疊式傳播
2020 年 11 月 3 日
- 已將 Java 版本從 1.8.0_252 版升級至 1.8.0_265 版。
- 修正與 UserGroupInformation.getCurrentUser() 相關的 ABFS 和 WASB 鎖定
- 修正 Avro 讀取器在讀取 MAGIC 位元組時的無限迴圈錯誤。
2020 年 10 月 13 日
- 作業系統安全性更新。
- [SPARK-32999][SQL][2.4] 使用 Utils.getSimpleName 避免在 TreeNode 中叫用格式錯誤的類別名稱
- 修正了 FUSE 掛接中含有無效 XML 字元之檔案名稱的清單目錄
- FUSE 掛接不再使用 ListMultipartUploads
2020 年 9 月 24 日
- 修正了標準叢集上的傳遞仍會限制檔案系統實作使用者使用的先前限制。 現在,使用者將能夠存取本機文件系統,而不受限制。
- 作業系統安全性更新。
2020 年 9 月 8 日
- 已為 Azure Synapse Analytics
maxbinlength
建立新的參數。 此參數可用來控制 BinaryType 資料行的資料行長度,並轉譯為VARBINARY(maxbinlength)
。 可使用.option("maxbinlength", n)
來設定,其中 0 < n <= 8000。 - 將 Azure 儲存體 SDK 更新為 8.6.4,並在 WASB 驅動程式建立的連線上保持 TCP 保持運作
- 已為 Azure Synapse Analytics
2020 年 8 月 25 日
- 修正了自我合併中模稜兩可的屬性解析
2020 年 8 月 18 日
- [SPARK-32431][SQL] 檢查從內建資料來源讀取的重複巢狀資料行
- 修正了使用 Trigger.Once 時 AQS 連接器中的競爭條件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免從 ContextCleaner 過度記錄
2020 年 8 月 3 日
- 您現在可以在已啟用傳遞的叢集上使用 LDA 轉換函式。
- 作業系統安全性更新。
2020 年 7 月 7 日
- 已將 Java 版本從 1.8.0_232 版升級至 1.8.0_252 版。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 執行個體的快取類別執行個體
2020 年 4 月 7 日
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 來啟用對這些 PyArrow 版本的支援。 請參閱 [SPARK-29367] 中的指示。
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
2020 年 3 月 10 日
- 安全性計畫上的互動式叢集預設會使用最佳化的自動調整。
- Databricks Runtime 中包含的 Snowflake 連接器 (
spark-snowflake_2.11
) 更新為 2.5.9 版。 已將snowflake-jdbc
更新為 3.12.0 版。
Databricks Runtime 5.5 LTS (EoS)
請參閱 Databricks Runtime 5.5 LTS (EoS) 和 Databricks Runtime 5.5 延伸支援 (EoS)。
2021 年 12 月 8 日
- 作業系統安全性更新。
2021 年 9 月 22 日
- 作業系統安全性更新。
2021 年 8 月 25 日
- 在 5.5 ML 延伸支援版本中降級了一些先前升級的 Python 套件,以維持與 5.5 ML LTS (現已被取代) 更好的同位。 如需兩個版本的更新差異,請參閱 [_]/release-notes/runtime/5.5xml.md)。
2021 年 6 月 15 日
- [SPARK-35576][SQL]在 Set 命令的結果中修訂敏感性資訊
2021 年 6 月 7 日
- 新增名為
spark.sql.maven.additionalRemoteRepositories
的新組態,這是其他選擇性遠端 Maven 鏡像的逗號分隔字串組態。 值預設為https://maven-central.storage-download.googleapis.com/maven2/
。
- 新增名為
2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
2021 年 3 月 9 日
- 將 HADOOP-17215 移植到 Azure Blob File System 驅動程式 (支援條件式覆寫)。
2021 年 2 月 24 日
- 引進了新的組態
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此組態可控制內建 Hive 初始化。 當設定為 true 時,Azure Databricks 會將使用者擁有的所有資料庫的所有函式重新載入FunctionRegistry
。 這就像 Hive 中繼存放區警示中的預設行為。 當設定為 false 時,Azure Databricks 會停用此程式以進行最佳化。
- 引進了新的組態
2021 年 1 月 12 日
- 作業系統安全性更新。
- 修正 [HADOOP-17130]。
2020 年 12 月 8 日
- [SPARK-27421][SQL] 修正剪除資料分割資料行時 int 資料行和值類別 java.lang.String 的篩選
- 作業系統安全性更新。
2020 年 12 月 1 日
- [SPARK-33260][SQL] 修正當 SortOrder 為 Stream 時,SortExec 不正確的結果
- [SPARK-32635][SQL] 修正摺疊式傳播
2020 年 10 月 29 日
- 已將 Java 版本從 1.8.0_252 版升級至 1.8.0_265 版。
- 修正與 UserGroupInformation.getCurrentUser() 相關的 ABFS 和 WASB 鎖定
- 修正 Avro 讀取器在讀取 MAGIC 位元組時的無限迴圈錯誤。
2020 年 10 月 13 日
- 作業系統安全性更新。
- [SPARK-32999][SQL][2.4] 使用 Utils.getSimpleName 避免在 TreeNode 中叫用格式錯誤的類別名稱
2020 年 9 月 24 日
- 作業系統安全性更新。
2020 年 9 月 8 日
- 已為 Azure Synapse Analytics
maxbinlength
建立新的參數。 此參數可用來控制 BinaryType 資料行的資料行長度,並轉譯為VARBINARY(maxbinlength)
。 可使用.option("maxbinlength", n)
來設定,其中 0 < n <= 8000。
- 已為 Azure Synapse Analytics
2020 年 8 月 18 日
- [SPARK-32431][SQL] 檢查從內建資料來源讀取的重複巢狀資料行
- 修正了使用 Trigger.Once 時 AQS 連接器中的競爭條件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免從 ContextCleaner 過度記錄
2020 年 8 月 3 日
- 作業系統安全性實體
2020 年 7 月 7 日
- 已將 Java 版本從 1.8.0_232 版升級至 1.8.0_252 版。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 執行個體的快取類別執行個體
2020 年 4 月 7 日
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 來啟用對這些 PyArrow 版本的支援。 請參閱 [SPARK-29367] 中的指示。
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
2020 年 3 月 25 日
- Databricks Runtime 中包含的 Snowflake 連接器 (
spark-snowflake_2.11
) 更新為 2.5.9 版。 已將snowflake-jdbc
更新為 3.12.0 版。
- Databricks Runtime 中包含的 Snowflake 連接器 (
2020 年 3 月 10 日
- 作業輸出,例如發出至 stdout 的記錄輸出,會受限於 20 MB 的大小限制。 如果總輸出的大小較大,將會取消執行,並標示為失敗。 若要避免遇到此限制,您可以將
true
Spark 組態設為spark.databricks.driver.disableScalaOutput
,以防止從驅動程式傳回 stdout。 根據預設,此值為false
。 旗標可控制 Scala JAR 作業和 Scala 筆記本的儲存格輸出。 如果已啟用旗標,Spark 不會將作業執行結果傳回用戶端。 旗標不會影響在叢集記錄檔中寫入的資料。 建議只針對 JAR 作業的自動化叢集設定此旗標,因為它將會停用筆記本結果。
- 作業輸出,例如發出至 stdout 的記錄輸出,會受限於 20 MB 的大小限制。 如果總輸出的大小較大,將會取消執行,並標示為失敗。 若要避免遇到此限制,您可以將
2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 應該擲回例外狀況
- 當 ADLS 用戶端預先擷取啟用時,ADLS Gen2 的認證傳遞會因為不正確的執行緒本機處理而導致效能下降。 在啟用認證傳遞時,此版本會停用 ADLS Gen2 預先擷取,直到我們有適當的修正。
2020 年 1 月 28 日
- [SPARK-30447][SQL] 常數傳播可 NULL 性的問題。
2020 年 1 月 14 日
- 已將 Java 版本從 1.8.0_222 版升級至 1.8.0_232 版。
2019 年 11 月 19 日
- [SPARK-29743] [SQL] 範例如果其子系的 needCopyResult 為 true,則範例應該將 needCopyResult 設定為 true
- R 版本從 3.6.0 意外升級至 3.6.1。 我們將其降級回 3.6.0。
2019 年 11 月 5 日
- 已將 Java 版本從 1.8.0_212 版升級至 1.8.0_222 版。
2019 年 10 月 23 日
- [SPARK-29244][CORE] 防止 BytesToBytesMap 中的可用頁面再次可用
2019 年 10 月 8 日
- 伺服器端變更以允許 Simba Apache Spark ODBC 驅動程式在擷取結果期間重新連線並繼續進行 (需要 Simba Apache Spark ODBC 驅動程式 2.6.10 版)。
- 修正了搭配資料表 ACL 啟用叢集使用
Optimize
命令的問題。 - 修正了
pyspark.ml
程式庫因為資料表 ACL 和認證傳遞已啟用叢集的 Scala UDF 禁止錯誤而失敗的問題。 - 已將認證傳遞的 Allowlisted SerDe 和 SerDeUtil 方法加入允許清單。
- 修正了在 WASB 用戶端中檢查錯誤碼時的 NullPointerException。
2019 年 9 月 24 日
- 改善 Parquet 寫入器的穩定性。
- 修正了 Thrift 查詢在開始執行之前取消的問題,可能會卡在 STARTED 狀態中。
2019 年 9 月 10 日
- 為 BytesToBytesMap 新增執行緒安全的迭代器
- [SPARK-27992][SPARK-28881] 允許 Python 與連線執行緒聯結以傳播錯誤
- 修正了影響特定全域彙總查詢的錯誤。
- 已改善認證修訂。
- [SPARK-27330][SS] 支援 foreach 寫入器中的工作中止
- [SPARK-28642] 隱藏 SHOW CREATE TABLE 中的認證
- [SPARK-28699][SQL] 在重新分割案例中停用使用 ShuffleExchangeExec 的基數排序
2019 年 8 月 27 日
- [SPARK-20906][SQL] 允許 API to_avro 中具有結構描述登錄的使用者指定結構描述
- [SPARK-27838][SQL] 支援使用者針對可為 Null 的催化劑結構描述提供不可為 Null 的 avro 結構描述,而沒有任何 Null 記錄
- 改善 Delta Lake 的時間旅行
- 修正影響特定
transform
運算式的問題 - 啟用程序隔離時支援廣播變數
2019 年 8 月 13 日
- 差異串流來源應該檢查資料表的最新通訊協定
- [SPARK-28260] 將 CLOSED 狀態新增至 ExecutionState
- [SPARK-28489][SS] 修正 KafkaOffsetRangeCalculator.getRanges 可能會卸除位移的錯誤
2019 年 7 月 30 日
- [SPARK-28015][SQL] 檢查 stringToDate() 是否針對 yyyy 和 yyyy-[m]m 格式取用整個輸入
- [SPARK-28308][CORE] 剖析之前,應該先填補 CalendarInterval 次秒部分
- [SPARK-27485]EnsureRequirements.reorder 應該正常處理重複的運算式
- [SPARK-28355][CORE][PYTHON] 針對 UDF 透過廣播壓縮的臨界值,使用 Spark 組態
Databricks Light 2.4 延伸支援
請參閱 Databricks Light 2.4 (EoS) 和 Databricks Light 2.4 延伸支援 (EoS)。
Databricks Runtime 7.4 (EoS)
請參閱 Databricks Runtime 7.4 (EoS)。
2021 年 4 月 30 日
- 作業系統安全性更新。
- [SPARK-35227][BUILD] 在 SparkSubmit 中更新 spark 套件的解析程式
- [SPARK-34245][CORE] 確定 Master 會移除無法傳送完成狀態的執行程式
- [SPARK-35045][SQL] 新增內部選項,用於控制單一調用中的輸入緩衝,以及 CSV 輸入緩衝區大小的組態
2021 年 3 月 24 日
- [SPARK-34768][SQL] 遵守 Univocity 中的預設輸入緩衝區大小
- [SPARK-34534] 修正使用 FetchShuffleBlocks 擷取區塊時出現的 blockIds 順序問題
2021 年 3 月 9 日
- 更新了 Azure Data Lake Storage Gen2 的 Azure Blob File System 驅動程式現在預設為啟用。 它帶來了多個穩定性改善。
- [ES-67926][UI] 修正 Spark DAG 視覺效果的 href 連結
- [ES-65064] 還原
SHOW DATABASES
的輸出結構描述 - [SC-70522][SQL] 當範圍聯結提示存在時,請使用正確的動態剪除來建置索引鍵
- [SC-35081] 停用磁碟快取中差異資料表檔案的過時檢查
- [SC-70640] 修正 EventGridClient 回應沒有實體時的 NPE
- [SC-70220][SQL] 啟用 AOS 時,不要產生隨機分割區編號建議
2021 年 2 月 24 日
- 已將 Spark BigQuery 連接器升級至 v0.18,引進了各種錯誤修正和支援 Arrow 和 Avro 迭代器。
- 修正當 Parquet 檔案的小數精確度和比例與 Spark 結構描述不同時,導致 Spark 傳回不正確結果的正確性問題。
- 修正了包含空間資料類型 Microsoft SQL Server 資料表的讀取失敗問題,方法是新增 Spark SQL 的 geometry 和 geography JDBC 類型支援。
- 引進了新的組態
spark.databricks.hive.metastore.init.reloadFunctions.enabled
。 此組態可控制內建 Hive 初始化。 當設定為 true 時,Azure Databricks 會將使用者擁有的所有資料庫的所有函式重新載入FunctionRegistry
。 這就像 Hive 中繼存放區警示中的預設行為。 當設定為 false 時,Azure Databricks 會停用此程式以進行最佳化。 - [SPARK-34212] 修正了從 Parquet 檔案讀取小數資料的相關問題。
- [SPARK-33579][UI] 修正 Proxy 後方的執行程式空白頁面。
- [SPARK-20044][UI] 使用路徑前置詞支援前端反向 Proxy 後方的 Spark UI。
- [SPARK-33277][PYSPARK][SQL] 使用 ContextAwareIterator 在工作結束之後停止取用。
2021 年 2 月 4 日
- 修正了防止執行設定全域限制 (例如
SELECT * FROM table LIMIT nrows
) 的查詢累加執行的迴歸。 在啟用 Arrow 序列化的情況下,透過 ODBC/JDBC 執行查詢的使用者會經歷迴歸。 - 修正了當叢集環境變數組態包含無效 bash 語法時,導致 DBFS FUSE 無法啟動的迴歸。
- 修正了防止執行設定全域限制 (例如
2021 年 1 月 20 日
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
df.join(df.select($"col" as "new_col"), cond)
- 衍生的 DataFrame 會透過 select、groupBy 或 window 排除某些資料行。
- 聯結的 DataFrame 之後的聯結條件或下列轉換是指非一般資料行。 例如,
df.join(df.drop("a"), df("a") === 1)
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
2021 年 1 月 12 日
- 作業系統安全性更新。
- [SPARK-33593][SQL] 向量讀取器取得具有二進位資料分割值的不正確資料
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,請略過 LikeSimplification 規則
- [SPARK-33071][SPARK-33536][SQL] 避免變更 join() 中的 LogicalPlan dataset_id,以免中斷 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-33587][CORE] 在巢狀嚴重錯誤上終止執行程式
- [SPARK-27421][SQL] 修正剪除資料分割資料行時 int 資料行和值類別 java.lang.String 的篩選
- [SPARK-33316][SQL] 支援使用者在 Avro 撰寫中為不可為 Null 的催化劑結構描述提供可為 Null 的 Avro 結構描述
- 作業系統安全性更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0] 修正
date_trunc
運算式中不正確的結果 - [SPARK-33339][PYTHON] Pyspark 應用程式因非例外狀況錯誤而懸置
- [SPARK-33183][SQL][HOTFIX] 修正最佳化工具規則 RemoveSorts 並新增實體規則以移除備援的排序
- [SPARK-33371][PYTHON][3.0] Python 3.9 的更新 setup.py 和測試
- [SPARK-33391][SQL] 使用 CreateArray 的 element_at 不遵從單一索引。
- [SPARK-33306][SQL] 將日期轉換成字串時需要時區
- [SPARK-33260][SQL] 修正當 SortOrder 為 Stream 時,SortExec 不正確的結果
- [SPARK-33272][SQL] 剪除 QueryPlan.transformUpWithNewOutput 中的屬性對應
- [SPARK-33404][SQL][3.0] 修正
Databricks Runtime 7.2 (EoS)
請參閱 Databricks Runtime 7.2 (EoS)。
2021 年 2 月 4 日
- 修正了防止執行設定全域限制 (例如
SELECT * FROM table LIMIT nrows
) 的查詢累加執行的迴歸。 在啟用 Arrow 序列化的情況下,透過 ODBC/JDBC 執行查詢的使用者會經歷迴歸。 - 修正了當叢集環境變數組態包含無效 bash 語法時,導致 DBFS FUSE 無法啟動的迴歸。
- 修正了防止執行設定全域限制 (例如
2021 年 1 月 20 日
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
df.join(df.select($"col" as "new_col"), cond)
- 衍生的 DataFrame 會透過 select、groupBy 或 window 排除某些資料行。
- 聯結的 DataFrame 之後的聯結條件或下列轉換是指非一般資料行。 例如,
df.join(df.drop("a"), df("a") === 1)
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
2021 年 1 月 12 日
- 作業系統安全性更新。
- [SPARK-33593][SQL] 向量讀取器取得具有二進位資料分割值的不正確資料
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,請略過 LikeSimplification 規則
- [SPARK-33071][SPARK-33536][SQL] 避免變更 join() 中的 LogicalPlan dataset_id,以免中斷 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-27421][SQL] 修正剪除資料分割資料行時 int 資料行和值類別 java.lang.String 的篩選
- [SPARK-33404][SQL] 修正
date_trunc
運算式中不正確的結果 - [SPARK-33339][PYTHON] Pyspark 應用程式因非例外狀況錯誤而懸置
- [SPARK-33183][SQL] 修正最佳化工具規則 RemoveSorts 並新增實體規則以移除備援的排序
- [SPARK-33391][SQL] 使用 CreateArray 的 element_at 不遵從單一索引。
- 作業系統安全性更新。
2020 年 12 月 1 日
- [SPARK-33306][SQL] 將日期轉換成字串時需要時區
- [SPARK-33260][SQL] 修正當 SortOrder 為 Stream 時,SortExec 不正確的結果
2020 年 11 月 3 日
- 已將 Java 版本從 1.8.0_252 版升級至 1.8.0_265 版。
- 修正與 UserGroupInformation.getCurrentUser() 相關的 ABFS 和 WASB 鎖定
- 修正 Avro 讀取器在讀取 MAGIC 位元組時的無限迴圈錯誤。
2020 年 10 月 13 日
- 作業系統安全性更新。
- [SPARK-32999][SQL] 使用 Utils.getSimpleName 避免在 TreeNode 中叫用格式錯誤的類別名稱
- 修正了 FUSE 掛接中含有無效 XML 字元之檔案名稱的清單目錄
- FUSE 掛接不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] 引進 AlreadyOptimized 以防止重新分析 V1FallbackWriters
- [SPARK-32635][SQL] 修正摺疊式傳播
- 新增新的組態
spark.shuffle.io.decoder.consolidateThreshold
。 將組態值設定為Long.MAX_VALUE
,以略過 netty FrameBuffers 的彙總,以避免在邊角案例中發生java.lang.IndexOutOfBoundsException
。
2020 年 9 月 24 日
- [SPARK-32764][SQL] -0.0 應該等於 0.0
- [SPARK-32753][SQL] 只有在轉換計畫時,將標籤複製到沒有標籤的節點
- [SPARK-32659][SQL] 修正在非不可部分完成類型上插入動態資料分割剪除的資料問題
- 作業系統安全性更新。
2020 年 9 月 8 日
- 已為 Azure Synapse Analytics
maxbinlength
建立新的參數。 此參數可用來控制 BinaryType 資料行的資料行長度,並轉譯為VARBINARY(maxbinlength)
。 可使用.option("maxbinlength", n)
來設定,其中 0 < n <= 8000。
- 已為 Azure Synapse Analytics
Databricks Runtime 7.1 (EoS)
請參閱 Databricks Runtime 7.1 (EoS)。
2021 年 2 月 4 日
- 修正了當叢集環境變數組態包含無效 bash 語法時,導致 DBFS FUSE 無法啟動的迴歸。
2021 年 1 月 20 日
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
df.join(df.select($"col" as "new_col"), cond)
- 衍生的 DataFrame 會透過 select、groupBy 或 window 排除某些資料行。
- 聯結的 DataFrame 之後的聯結條件或下列轉換是指非一般資料行。 例如,
df.join(df.drop("a"), df("a") === 1)
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
2021 年 1 月 12 日
- 作業系統安全性更新。
- [SPARK-33593][SQL] 向量讀取器取得具有二進位資料分割值的不正確資料
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,請略過 LikeSimplification 規則
- [SPARK-33071][SPARK-33536][SQL] 避免變更 join() 中的 LogicalPlan dataset_id,以免中斷 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-27421][SQL] 修正剪除資料分割資料行時 int 資料行和值類別 java.lang.String 的篩選
- 使用 Databricks Connect 啟動的 Spark 作業可能會無限期懸置,並在執行程式堆疊追蹤中顯示
Executor$TaskRunner.$anonfun$copySessionState
- 作業系統安全性更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0] 修正
date_trunc
運算式中不正確的結果 - [SPARK-33339][PYTHON] Pyspark 應用程式因非例外狀況錯誤而懸置
- [SPARK-33183][SQL][HOTFIX] 修正最佳化工具規則 RemoveSorts 並新增實體規則以移除備援的排序
- [SPARK-33371][PYTHON][3.0] Python 3.9 的更新 setup.py 和測試
- [SPARK-33391][SQL] 使用 CreateArray 的 element_at 不遵從單一索引。
- [SPARK-33306][SQL] 將日期轉換成字串時需要時區
- [SPARK-33404][SQL][3.0] 修正
2020 年 11 月 3 日
- 已將 Java 版本從 1.8.0_252 版升級至 1.8.0_265 版。
- 修正與 UserGroupInformation.getCurrentUser() 相關的 ABFS 和 WASB 鎖定
- 修正 Avro 讀取器在讀取 MAGIC 位元組時的無限迴圈錯誤。
2020 年 10 月 13 日
- 作業系統安全性更新。
- [SPARK-32999][SQL] 使用 Utils.getSimpleName 避免在 TreeNode 中叫用格式錯誤的類別名稱
- 修正了 FUSE 掛接中含有無效 XML 字元之檔案名稱的清單目錄
- FUSE 掛接不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] 引進 AlreadyOptimized 以防止重新分析 V1FallbackWriters
- [SPARK-32635][SQL] 修正摺疊式傳播
- 新增新的組態
spark.shuffle.io.decoder.consolidateThreshold
。 將組態值設定為Long.MAX_VALUE
,以略過 netty FrameBuffers 的彙總,以避免在邊角案例中發生java.lang.IndexOutOfBoundsException
。
2020 年 9 月 24 日
- [SPARK-32764][SQL] -0.0 應該等於 0.0
- [SPARK-32753][SQL] 只有在轉換計畫時,將標籤複製到沒有標籤的節點
- [SPARK-32659][SQL] 修正在非不可部分完成類型上插入動態資料分割剪除的資料問題
- 作業系統安全性更新。
2020 年 9 月 8 日
- 已為 Azure Synapse Analytics
maxbinlength
建立新的參數。 此參數可用來控制 BinaryType 資料行的資料行長度,並轉譯為VARBINARY(maxbinlength)
。 可使用.option("maxbinlength", n)
來設定,其中 0 < n <= 8000。
- 已為 Azure Synapse Analytics
2020 年 8 月 25 日
- [SPARK-32159][SQL] 修正
Aggregator[Array[_], _, _]
與UnresolvedMapObjects
之間的整合 - [SPARK-32559][SQL]修正
UTF8String.toInt/toLong
中未正確處理非 ASCII 字元的修剪邏輯 - [SPARK-32543][R] 移除 SparkR 中
arrow::as_tibble
的使用量 - [SPARK-32091][CORE] 移除遺失執行程式上區塊時略過逾時錯誤
- 修正了使用 MSI 認證影響 Azure Synapse 連接器的問題
- 修正了自我合併中模稜兩可的屬性解析
- [SPARK-32159][SQL] 修正
2020 年 8 月 18 日
- [SPARK-32594][SQL] 修正插入 Hive資料表的日期序列化
- [SPARK-32237][SQL] 解決 CTE 中的提示
- [SPARK-32431][SQL] 檢查從內建資料來源讀取的重複巢狀資料行
- [SPARK-32467][UI] 避免兩次編碼 HTTPs 重新導向上的 URL
- 修正了使用 Trigger.Once 時 AQS 連接器中的競爭條件。
2020 年 8 月 11 日
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight 應該只重寫衝突計畫上階節點的屬
- [SPARK-32234][SQL] 選取 ORC 資料表時,Spark SQL 命令失敗
2020 年 8 月 3 日
- 您現在可以在已啟用傳遞的叢集上使用 LDA 轉換函式。
Databricks Runtime 7.0 (EoS)
請參閱 Databricks Runtime 7.0 (EoS)。
2021 年 2 月 4 日
- 修正了當叢集環境變數組態包含無效 bash 語法時,導致 DBFS FUSE 無法啟動的迴歸。
2021 年 1 月 20 日
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
df.join(df.select($"col" as "new_col"), cond)
- 衍生的 DataFrame 會透過 select、groupBy 或 window 排除某些資料行。
- 聯結的 DataFrame 之後的聯結條件或下列轉換是指非一般資料行。 例如,
df.join(df.drop("a"), df("a") === 1)
- 這兩個 DataFrame 有一般資料行,但自我聯結的輸出沒有一般資料行。 例如,
- 修正了 2021 年 1 月 12 日維護版本中的迴歸,該迴歸可能導致 AnalysisException 不正確,並指出資料行在自我聯結中模稜兩可。 當使用者將 DataFrame 與其衍生的 DataFrame (所說的自我聯結) 聯結至下列條件時,就會發生此迴歸:
2021 年 1 月 12 日
- 作業系統安全性更新。
- [SPARK-33593][SQL] 向量讀取器取得具有二進位資料分割值的不正確資料
- [SPARK-33677][SQL] 如果模式包含任何 escapeChar,請略過 LikeSimplification 規則
- [SPARK-33071][SPARK-33536][SQL] 避免變更 join() 中的 LogicalPlan dataset_id,以免中斷 DetectAmbiguousSelfJoin
2020 年 12 月 8 日
- [SPARK-27421][SQL] 修正剪除資料分割資料行時 int 資料行和值類別 java.lang.String 的篩選
- [SPARK-33404][SQL] 修正
date_trunc
運算式中不正確的結果 - [SPARK-33339][PYTHON] Pyspark 應用程式因非例外狀況錯誤而懸置
- [SPARK-33183][SQL] 修正最佳化工具規則 RemoveSorts 並新增實體規則以移除備援的排序
- [SPARK-33391][SQL] 使用 CreateArray 的 element_at 不遵從單一索引。
- 作業系統安全性更新。
2020 年 12 月 1 日
- [SPARK-33306][SQL] 將日期轉換成字串時需要時區
2020 年 11 月 3 日
- 已將 Java 版本從 1.8.0_252 版升級至 1.8.0_265 版。
- 修正與 UserGroupInformation.getCurrentUser() 相關的 ABFS 和 WASB 鎖定
- 修正 Avro 讀取器在讀取 MAGIC 位元組時的無限迴圈錯誤。
2020 年 10 月 13 日
- 作業系統安全性更新。
- [SPARK-32999][SQL] 使用 Utils.getSimpleName 避免在 TreeNode 中叫用格式錯誤的類別名稱
- 修正了 FUSE 掛接中含有無效 XML 字元之檔案名稱的清單目錄
- FUSE 掛接不再使用 ListMultipartUploads
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] 引進 AlreadyOptimized 以防止重新分析 V1FallbackWriters
- [SPARK-32635][SQL] 修正摺疊式傳播
- 新增新的組態
spark.shuffle.io.decoder.consolidateThreshold
。 將組態值設定為Long.MAX_VALUE
,以略過 netty FrameBuffers 的彙總,以避免在邊角案例中發生java.lang.IndexOutOfBoundsException
。
2020 年 9 月 24 日
- [SPARK-32764][SQL] -0.0 應該等於 0.0
- [SPARK-32753][SQL] 只有在轉換計畫時,將標籤複製到沒有標籤的節點
- [SPARK-32659][SQL] 修正在非不可部分完成類型上插入動態資料分割剪除的資料問題
- 作業系統安全性更新。
2020 年 9 月 8 日
- 已為 Azure Synapse Analytics
maxbinlength
建立新的參數。 此參數可用來控制 BinaryType 資料行的資料行長度,並轉譯為VARBINARY(maxbinlength)
。 可使用.option("maxbinlength", n)
來設定,其中 0 < n <= 8000。
- 已為 Azure Synapse Analytics
2020 年 8 月 25 日
- [SPARK-32159][SQL] 修正
Aggregator[Array[_], _, _]
與UnresolvedMapObjects
之間的整合 - [SPARK-32559][SQL]修正
UTF8String.toInt/toLong
中未正確處理非 ASCII 字元的修剪邏輯 - [SPARK-32543][R] 移除 SparkR 中
arrow::as_tibble
的使用量 - [SPARK-32091][CORE] 移除遺失執行程式上區塊時略過逾時錯誤
- 修正了使用 MSI 認證影響 Azure Synapse 連接器的問題
- 修正了自我合併中模稜兩可的屬性解析
- [SPARK-32159][SQL] 修正
2020 年 8 月 18 日
- [SPARK-32594][SQL] 修正插入 Hive資料表的日期序列化
- [SPARK-32237][SQL] 解決 CTE 中的提示
- [SPARK-32431][SQL] 檢查從內建資料來源讀取的重複巢狀資料行
- [SPARK-32467][UI] 避免兩次編碼 HTTPs 重新導向上的 URL
- 修正了使用 Trigger.Once 時 AQS 連接器中的競爭條件。
2020 年 8 月 11 日
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight 應該只重寫衝突計畫上階節點的屬
- [SPARK-32234][SQL] 選取 ORC 資料表時,Spark SQL 命令失敗
- 您現在可以在已啟用傳遞的叢集上使用 LDA 轉換函式。
Databricks Runtime 6.6 (EoS)
請參閱 Databricks Runtime 6.6 (EoS)。
2020 年 12 月 1 日
- [SPARK-33260][SQL] 修正當 SortOrder 為 Stream 時,SortExec 不正確的結果
- [SPARK-32635][SQL] 修正摺疊式傳播
2020 年 11 月 3 日
- 已將 Java 版本從 1.8.0_252 版升級至 1.8.0_265 版。
- 修正與 UserGroupInformation.getCurrentUser() 相關的 ABFS 和 WASB 鎖定
- 修正 Avro 讀取器在讀取 MAGIC 位元組時的無限迴圈錯誤。
2020 年 10 月 13 日
- 作業系統安全性更新。
- [SPARK-32999][SQL][2.4] 使用 Utils.getSimpleName 避免在 TreeNode 中叫用格式錯誤的類別名稱
- 修正了 FUSE 掛接中含有無效 XML 字元之檔案名稱的清單目錄
- FUSE 掛接不再使用 ListMultipartUploads
2020 年 9 月 24 日
- 作業系統安全性更新。
2020 年 9 月 8 日
- 已為 Azure Synapse Analytics
maxbinlength
建立新的參數。 此參數可用來控制 BinaryType 資料行的資料行長度,並轉譯為VARBINARY(maxbinlength)
。 可使用.option("maxbinlength", n)
來設定,其中 0 < n <= 8000。 - 將 Azure 儲存體 SDK 更新為 8.6.4,並在 WASB 驅動程式建立的連線上保持 TCP 保持運作
- 已為 Azure Synapse Analytics
2020 年 8 月 25 日
- 修正了自我合併中模稜兩可的屬性解析
2020 年 8 月 18 日
- [SPARK-32431][SQL] 檢查從內建資料來源讀取的重複巢狀資料行
- 修正了使用 Trigger.Once 時 AQS 連接器中的競爭條件。
2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免從 ContextCleaner 過度記錄
- [SPARK-31967][UI] 降級至 vis.js 4.21.0 以修正作業 UI 載入時間迴歸問題
2020 年 8 月 3 日
- 您現在可以在已啟用傳遞的叢集上使用 LDA 轉換函式。
- 作業系統安全性更新。
Databricks Runtime 6.5 (EoS)
請參閱 Databricks Runtime 6.5 (EoS)。
- 2020 年 9 月 24 日
- 修正了標準叢集上的傳遞仍會限制檔案系統實作使用者使用的先前限制。 現在,使用者將能夠存取本機文件系統,而不受限制。
- 作業系統安全性更新。
- 2020 年 9 月 8 日
- 已為 Azure Synapse Analytics
maxbinlength
建立新的參數。 此參數可用來控制 BinaryType 資料行的資料行長度,並轉譯為VARBINARY(maxbinlength)
。 可使用.option("maxbinlength", n)
來設定,其中 0 < n <= 8000。 - 將 Azure 儲存體 SDK 更新為 8.6.4,並在 WASB 驅動程式建立的連線上保持 TCP 保持運作
- 已為 Azure Synapse Analytics
- 2020 年 8 月 25 日
- 修正了自我合併中模稜兩可的屬性解析
- 2020 年 8 月 18 日
- [SPARK-32431][SQL] 檢查從內建資料來源讀取的重複巢狀資料行
- 修正了使用 Trigger.Once 時 AQS 連接器中的競爭條件。
- 2020 年 8 月 11 日
- [SPARK-28676][CORE] 避免從 ContextCleaner 過度記錄
- 2020 年 8 月 3 日
- 您現在可以在已啟用傳遞的叢集上使用 LDA 轉換函式。
- 作業系統安全性更新。
- 2020 年 7 月 7 日
- 已將 Java 版本從 1.8.0_242 版升級至 1.8.0_252 版。
- 2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 執行個體的快取類別執行個體
Databricks Runtime 6.3 (EoS)
請參閱 Databricks Runtime 6.3 (EoS)。
- 2020 年 7 月 7 日
- 已將 Java 版本從 1.8.0_232 版升級至 1.8.0_252 版。
- 2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 執行個體的快取類別執行個體
- 2020 年 4 月 7 日
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 來啟用對這些 PyArrow 版本的支援。 請參閱 [SPARK-29367] 中的指示。
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
- 2020 年 3 月 10 日
- Databricks Runtime 中包含的 Snowflake 連接器 (
spark-snowflake_2.11
) 更新為 2.5.9 版。 已將snowflake-jdbc
更新為 3.12.0 版。
- Databricks Runtime 中包含的 Snowflake 連接器 (
- 2020 年 2 月 18 日
- 當 ADLS 用戶端預先擷取啟用時,ADLS Gen2 的認證傳遞會因為不正確的執行緒本機處理而導致效能下降。 在啟用認證傳遞時,此版本會停用 ADLS Gen2 預先擷取,直到我們有適當的修正。
- 2020 年 2 月 11 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 應該擲回例外狀況
- [SPARK-30447][SQL] 常數傳播可 NULL 性的問題
- [SPARK-28152][SQL] 新增舊版 MsSqlServerDialect 數值對應的舊版組態
- 已將覆蓋函式加入允許清單,以便 MLModels 擴展 MLWriter 可以呼叫該函式。
Databricks Runtime 6.2 (EoS)
請參閱 Databricks Runtime 6.2 (EoS)。
- 2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper 中 UDF 執行個體的快取類別執行個體
- 2020 年 4 月 7 日
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 來啟用對這些 PyArrow 版本的支援。 請參閱 [SPARK-29367] 中的指示。
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
- 2020 年 3 月 25 日
- 作業輸出,例如發出至 stdout 的記錄輸出,會受限於 20 MB 的大小限制。 如果總輸出的大小較大,將會取消執行,並標示為失敗。 若要避免遇到此限制,您可以將
true
Spark 組態設為spark.databricks.driver.disableScalaOutput
,以防止從驅動程式傳回 stdout。 根據預設,此值為false
。 旗標可控制 Scala JAR 作業和 Scala 筆記本的儲存格輸出。 如果已啟用旗標,Spark 不會將作業執行結果傳回用戶端。 旗標不會影響在叢集記錄檔中寫入的資料。 建議只針對 JAR 作業的自動化叢集設定此旗標,因為它將會停用筆記本結果。
- 作業輸出,例如發出至 stdout 的記錄輸出,會受限於 20 MB 的大小限制。 如果總輸出的大小較大,將會取消執行,並標示為失敗。 若要避免遇到此限制,您可以將
- 2020 年 3 月 10 日
- Databricks Runtime 中包含的 Snowflake 連接器 (
spark-snowflake_2.11
) 更新為 2.5.9 版。 已將snowflake-jdbc
更新為 3.12.0 版。
- Databricks Runtime 中包含的 Snowflake 連接器 (
- 2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 應該擲回例外狀況
- 當 ADLS 用戶端預先擷取啟用時,ADLS Gen2 的認證傳遞會因為不正確的執行緒本機處理而導致效能下降。 在啟用認證傳遞時,此版本會停用 ADLS Gen2 預先擷取,直到我們有適當的修正。
- 2020 年 1 月 28 日
- 已將針對已啟用認證傳遞之叢集的 ML 模型寫入器覆寫函式加入允許清單,讓模型儲存可以在認證傳遞叢集上使用覆寫模式。
- [SPARK-30447][SQL] 常數傳播可 NULL 性的問題。
- [SPARK-28152][SQL] 新增舊版 MsSqlServerDialect 數值對應的舊版組態。
- 2020 年 1 月 14 日
- 已將 Java 版本從 1.8.0_222 版升級至 1.8.0_232 版。
- 2019 年 12 月 10 日
- [SPARK-29904][SQL] 透過 JSON/CSV 資料來源以微秒精確度解析時間戳記。
Databricks Runtime 6.1 (EoS)
請參閱 Databricks Runtime 6.1 (EoS)。
- 2020 年 4 月 7 日
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
ARROW_PRE_0_15_IPC_FORMAT=1
) 來啟用對這些 PyArrow 版本的支援。 請參閱 [SPARK-29367] 中的指示。
- 為了解決 pandas udf 無法與 PyArrow 0.15.0 和更新版本搭配運作的問題,我們新增了環境變數 (
- 2020 年 3 月 25 日
- 作業輸出,例如發出至 stdout 的記錄輸出,會受限於 20 MB 的大小限制。 如果總輸出的大小較大,將會取消執行,並標示為失敗。 若要避免遇到此限制,您可以將
true
Spark 組態設為spark.databricks.driver.disableScalaOutput
,以防止從驅動程式傳回 stdout。 根據預設,此值為false
。 旗標可控制 Scala JAR 作業和 Scala 筆記本的儲存格輸出。 如果已啟用旗標,Spark 不會將作業執行結果傳回用戶端。 旗標不會影響在叢集記錄檔中寫入的資料。 建議只針對 JAR 作業的自動化叢集設定此旗標,因為它將會停用筆記本結果。
- 作業輸出,例如發出至 stdout 的記錄輸出,會受限於 20 MB 的大小限制。 如果總輸出的大小較大,將會取消執行,並標示為失敗。 若要避免遇到此限制,您可以將
- 2020 年 3 月 10 日
- Databricks Runtime 中包含的 Snowflake 連接器 (
spark-snowflake_2.11
) 更新為 2.5.9 版。 已將snowflake-jdbc
更新為 3.12.0 版。
- Databricks Runtime 中包含的 Snowflake 連接器 (
- 2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 應該擲回例外狀況
- 當 ADLS 用戶端預先擷取啟用時,ADLS Gen2 的認證傳遞會因為不正確的執行緒本機處理而導致效能下降。 在啟用認證傳遞時,此版本會停用 ADLS Gen2 預先擷取,直到我們有適當的修正。
- 2020 年 1 月 28 日
- [SPARK-30447][SQL] 常數傳播可 NULL 性的問題。
- [SPARK-28152][SQL] 新增舊版 MsSqlServerDialect 數值對應的舊版組態。
- 2020 年 1 月 14 日
- 已將 Java 版本從 1.8.0_222 版升級至 1.8.0_232 版。
- 2019 年 11 月 7 日
- [SPARK-29743][SQL] 範例如果其子系的 needCopyResult 為 true,則範例應該將 needCopyResult 設定為 true。
- 公開預覽中 Spark 組態屬性和環境變數所參考的秘密。 請參閱在 Spark 組態屬性或環境變數中使用祕密。
- 2019 年 11 月 5 日
- 修正了 DBFS FUSE 中的錯誤,以處理路徑中具有
//
的掛接點。 - [SPARK-29081] 以更快的實作取代對屬性上的 SerializationUtils.clone 呼叫
- [SPARK-29244][CORE] 防止 BytesToBytesMap 中的可用頁面再次可用
- (6.1 ML) 未小心安裝程式庫 mkl 2019.4 版。 我們已將其降級為 mkl 2019.3 版,以符合 Anaconda Distribution 2019.03。
- 修正了 DBFS FUSE 中的錯誤,以處理路徑中具有
Databricks Runtime 6.0 (EoS)
請參閱 Databricks Runtime 6.0 (EoS)。
- 2020 年 3 月 25 日
- 作業輸出,例如發出至 stdout 的記錄輸出,會受限於 20 MB 的大小限制。 如果總輸出的大小較大,將會取消執行,並標示為失敗。 若要避免遇到此限制,您可以將
true
Spark 組態設為spark.databricks.driver.disableScalaOutput
,以防止從驅動程式傳回 stdout。 根據預設,此值為false
。 旗標可控制 Scala JAR 作業和 Scala 筆記本的儲存格輸出。 如果已啟用旗標,Spark 不會將作業執行結果傳回用戶端。 旗標不會影響在叢集記錄檔中寫入的資料。 建議只針對 JAR 作業的自動化叢集設定此旗標,因為它將會停用筆記本結果。
- 作業輸出,例如發出至 stdout 的記錄輸出,會受限於 20 MB 的大小限制。 如果總輸出的大小較大,將會取消執行,並標示為失敗。 若要避免遇到此限制,您可以將
- 2020 年 2 月 18 日
- 當 ADLS 用戶端預先擷取啟用時,ADLS Gen2 的認證傳遞會因為不正確的執行緒本機處理而導致效能下降。 在啟用認證傳遞時,此版本會停用 ADLS Gen2 預先擷取,直到我們有適當的修正。
- 2020 年 2 月 11 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 應該擲回例外狀況
- 2020 年 1 月 28 日
- [SPARK-30447][SQL] 常數傳播可 NULL 性的問題。
- [SPARK-28152][SQL] 新增舊版 MsSqlServerDialect 數值對應的舊版組態。
- 2020 年 1 月 14 日
- 已將 Java 版本從 1.8.0_222 版升級至 1.8.0_232 版。
- 2019 年 11 月 19 日
- [SPARK-29743] [SQL] 範例如果其子系的 needCopyResult 為 true,則範例應該將 needCopyResult 設定為 true
- 2019 年 11 月 5 日
dbutils.tensorboard.start()
現在支援 TensorBoard 2.0 (如果手動安裝)。- 修正了 DBFS FUSE 中的錯誤,以處理路徑中具有
//
的掛接點。 - [SPARK-29081] 以更快的實作取代對屬性上的 SerializationUtils.clone 呼叫
- 2019 年 10 月 23 日
- [SPARK-29244][CORE] 防止 BytesToBytesMap 中的可用頁面再次可用
- 2019 年 10 月 8 日
- 伺服器端變更以允許 Simba Apache Spark ODBC 驅動程式在擷取結果期間重新連線並繼續進行 (需要 Simba Apache Spark ODBC 驅動程式 2.6.10 版)。
- 修正了搭配資料表 ACL 啟用叢集使用
Optimize
命令的問題。 - 修正了
pyspark.ml
程式庫因為資料表 ACL 和認證傳遞已啟用叢集的 Scala UDF 禁止錯誤而失敗的問題。 - 已將認證傳遞的 SerDe/SerDeUtil 方法加入允許清單。
- 修正了在 WASB 用戶端中檢查錯誤碼時的 NullPointerException。
- 修正了使用者認證無法轉寄給
dbutils.notebook.run()
所建立作業的問題。
Databricks Runtime 5.4 ML (EoS)
請參閱 Databricks Runtime 5.4 for ML (EoS)。
- 2019 年 6 月 18 日
- 改善了在 Hyperopt 整合中處理 MLflow 作用中的執行
- 改善了 Hyperopt 中的訊息
- 已將套件
Marchkdown
從 3.1 更新為 3.1.1
Databricks Runtime 5.4 (EoS)
請參閱 Databricks Runtime 5.4 (EoS)。
- 2019 年 11 月 19 日
- [SPARK-29743] [SQL] 範例如果其子系的 needCopyResult 為 true,則範例應該將 needCopyResult 設定為 true
- 2019 年 10 月 8 日
- 伺服器端變更以允許 Simba Apache Spark ODBC 驅動程式在擷取結果期間重新連線並繼續進行 (需要 Simba Apache Spark ODBC 驅動程式更新至 2.6.10 版)。
- 修正了在 WASB 用戶端中檢查錯誤碼時的 NullPointerException。
- 2019 年 9 月 10 日
- 為 BytesToBytesMap 新增執行緒安全的迭代器
- 修正了影響特定全域彙總查詢的錯誤。
- [SPARK-27330][SS] 支援 foreach 寫入器中的工作中止
- [SPARK-28642] 隱藏 SHOW CREATE TABLE 中的認證
- [SPARK-28699][SQL] 在重新分割案例中停用使用 ShuffleExchangeExec 的基數排序
- [SPARK-28699][CORE] 修正中止不確定階段的邊角案例
- 2019 年 8 月 27 日
- 修正影響特定
transform
運算式的問題
- 修正影響特定
- 2019 年 8 月 13 日
- 差異串流來源應該檢查資料表的最新通訊協定
- [SPARK-28489][SS] 修正 KafkaOffsetRangeCalculator.getRanges 可能會卸除位移的錯誤
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] 檢查 stringToDate() 是否針對 yyyy 和 yyyy-[m]m 格式取用整個輸入
- [SPARK-28308][CORE] 剖析之前,應該先填補 CalendarInterval 次秒部分
- [SPARK-27485]EnsureRequirements.reorder 應該正常處理重複的運算式
- 2019 年 7 月 2 日
- 已將 snappy-java 從 1.1.7.1 升級至 1.1.7.3。
- 2019 年 6 月 18 日
- 改善了在 MLlib 整合中處理 MLflow 作用中的執行
- 改善了與使用磁碟快取相關的 Databricks Advisor 訊息
- 修正了使用較高順序函式影響的錯誤
- 修正了影響差異中繼資料查詢的錯誤
Databricks Runtime 5.3 (EoS)
請參閱 Databricks Runtime 5.3 (EoS)。
- 2019 年 11 月 7 日
- [SPARK-29743][SQL] 範例如果其子系的 needCopyResult 為 true,則範例應該將 needCopyResult 設定為 true
- 2019 年 10 月 8 日
- 伺服器端變更以允許 Simba Apache Spark ODBC 驅動程式在擷取結果期間重新連線並繼續進行 (需要 Simba Apache Spark ODBC 驅動程式更新至 2.6.10 版)。
- 修正了在 WASB 用戶端中檢查錯誤碼時的 NullPointerException。
- 2019 年 9 月 10 日
- 為 BytesToBytesMap 新增執行緒安全的迭代器
- 修正了影響特定全域彙總查詢的錯誤。
- [SPARK-27330][SS] 支援 foreach 寫入器中的工作中止
- [SPARK-28642] 隱藏 SHOW CREATE TABLE 中的認證
- [SPARK-28699][SQL] 在重新分割案例中停用使用 ShuffleExchangeExec 的基數排序
- [SPARK-28699][CORE] 修正中止不確定階段的邊角案例
- 2019 年 8 月 27 日
- 修正影響特定
transform
運算式的問題
- 修正影響特定
- 2019 年 8 月 13 日
- 差異串流來源應該檢查資料表的最新通訊協定
- [SPARK-28489][SS] 修正 KafkaOffsetRangeCalculator.getRanges 可能會卸除位移的錯誤
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] 檢查 stringToDate() 是否針對 yyyy 和 yyyy-[m]m 格式取用整個輸入
- [SPARK-28308][CORE] 剖析之前,應該先填補 CalendarInterval 次秒部分
- [SPARK-27485]EnsureRequirements.reorder 應該正常處理重複的運算式
- 2019 年 6 月 18 日
- 改善了與使用磁碟快取相關的 Databricks Advisor 訊息
- 修正了使用較高順序函式影響的錯誤
- 修正了影響差異中繼資料查詢的錯誤
- 2019 年 5 月 28 日
- 改善了 Delta 的穩定性
- 讀取 Delta LAST_CHECKPOINT 檔案時容許 IOException
- 已將復原新增至失敗的程式庫安裝
- 2019 年 5 月 7 日
- 將 HADOOP-15778 (ABFS:修正用戶端節流以讀取) 移植到 Azure Data Lake Storage Gen2 連接器
- 將 HADOOP-16040 (ABFS:tolerateOobAppends 錯誤的錯誤修復) 移植到 Azure Data Lake Storage Gen2 連接器
- 修正了影響資料表 ACL 的錯誤
- 修正了載入 Delta 記錄總和檢查碼檔案時的競爭條件
- 修正了差異衝突偵測邏輯,無法將「插入 + 覆寫」識別為純「附加」作業
- 確定資料表 ACL 已啟用時不會停用磁碟快取
- [SPARK-27494][SS] Null 索引鍵/值無法在 Kafka 來源 v2 中運作
- [SPARK-27446][R] 如果有的話,請使用現有的 Spark 組態。
- [SPARK-27454][SPARK-27454][ML][SQL] 遇到一些不合法的映射時,Spark 映像資料來源會失敗
- [SPARK-27160][SQL] 在建置 Orc 篩選時修正 DecimalType
- [SPARK-27338][CORE] 修正 UnsafeExternalSorter 與 TaskMemoryManager 之間的鎖死
Databricks Runtime 5.2 (EoS)
請參閱 Databricks Runtime 5.2 (EoS)。
- 2019 年 9 月 10 日
- 為 BytesToBytesMap 新增執行緒安全的迭代器
- 修正了影響特定全域彙總查詢的錯誤。
- [SPARK-27330][SS] 支援 foreach 寫入器中的工作中止
- [SPARK-28642] 隱藏 SHOW CREATE TABLE 中的認證
- [SPARK-28699][SQL] 在重新分割案例中停用使用 ShuffleExchangeExec 的基數排序
- [SPARK-28699][CORE] 修正中止不確定階段的邊角案例
- 2019 年 8 月 27 日
- 修正影響特定
transform
運算式的問題
- 修正影響特定
- 2019 年 8 月 13 日
- 差異串流來源應該檢查資料表的最新通訊協定
- [SPARK-28489][SS] 修正 KafkaOffsetRangeCalculator.getRanges 可能會卸除位移的錯誤
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] 檢查 stringToDate() 是否針對 yyyy 和 yyyy-[m]m 格式取用整個輸入
- [SPARK-28308][CORE] 剖析之前,應該先填補 CalendarInterval 次秒部分
- [SPARK-27485]EnsureRequirements.reorder 應該正常處理重複的運算式
- 2019 年 7 月 2 日
- 讀取 Delta LAST_CHECKPOINT 檔案時容許 IOException
- 2019 年 6 月 18 日
- 改善了與使用磁碟快取相關的 Databricks Advisor 訊息
- 修正了使用較高順序函式影響的錯誤
- 修正了影響差異中繼資料查詢的錯誤
- 2019 年 5 月 28 日
- 已將復原新增至失敗的程式庫安裝
- 2019 年 5 月 7 日
- 將 HADOOP-15778 (ABFS:修正用戶端節流以讀取) 移植到 Azure Data Lake Storage Gen2 連接器
- 將 HADOOP-16040 (ABFS:tolerateOobAppends 錯誤的錯誤修復) 移植到 Azure Data Lake Storage Gen2 連接器
- 修正了載入 Delta 記錄總和檢查碼檔案時的競爭條件
- 修正了差異衝突偵測邏輯,無法將「插入 + 覆寫」識別為純「附加」作業
- 確定資料表 ACL 已啟用時不會停用磁碟快取
- [SPARK-27494][SS] Null 索引鍵/值無法在 Kafka 來源 v2 中運作
- [SPARK-27454][SPARK-27454][ML][SQL] 遇到一些不合法的映射時,Spark 映像資料來源會失敗
- [SPARK-27160][SQL] 在建置 Orc 篩選時修正 DecimalType
- [SPARK-27338][CORE] 修正 UnsafeExternalSorter 與 TaskMemoryManager 之間的鎖死
- 2019 年 3 月 26 日
- 避免在全階段產生的程式碼中內嵌平台相依位移
- [SPARK-26665][CORE] 修正 BlockTransferService.fetchBlockSync 可能永遠懸置的錯誤。
- [SPARK-27134][SQL] array_distinct 函式無法正確使用包含陣列的資料行。
- [SPARK-24669][SQL] 在 DROP DATABASE CASCADE 的情況下使資料表失效。
- [SPARK-26572][SQL] 修正彙總 codegen 結果評估。
- 修正了影響特定 PythonUDF 的錯誤。
- 2019 年 2 月 26 日
- [SPARK-26864][SQL] 當 Python udf 當做左半聯結條件使用時,查詢可能會傳回不正確的結果。
- [SPARK-26887][PYTHON] 直接建立 datetime.date,而不是建立 datetime64 作為中繼資料。
- 修正了影響 JDBC/ODBC 伺服器的錯誤。
- 修正了影響 PySpark 的錯誤。
- 建置 HadoopRDD 時排除隱藏的檔案。
- 修正了造成序列化問題的 Delta 中的錯誤。
- 2019 年 2 月 12 日
- 修正了搭配 Azure ADLS Gen2 掛接點使用 Delta 的問題。
- 修正了在傳送已啟用加密的大型 RPC 錯誤訊息時,Spark 低階網路協定可能會中斷的問題 (
spark.network.crypto.enabled
設定為 true 時)。
- 2019 年 1 月 30 日
- 修正了在快取關聯性上放置扭曲聯結提示時的 StackOverflowError。
- 修正了 SQL 快取的已快取 RDD 與其實體計畫之間不一致,導致不正確結果的問題。
- [SPARK-26706][SQL] 修正 ByteType 的
illegalNumericPrecedence
。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 無法正確處理空白的記錄。
- 在推斷結構描述時,CSV/JSON 資料來源應避免擷取路徑。
- 修正了 Window 運算子的條件約束推斷。
- 修正了使用已啟用資料表 ACL 的叢集來安裝蛋類程式庫的問題。
Databricks Runtime 5.1 (EoS)
請參閱 Databricks Runtime 5.1 (EoS)。
- 2019 年 8 月 13 日
- 差異串流來源應該檢查資料表的最新通訊協定
- [SPARK-28489][SS] 修正 KafkaOffsetRangeCalculator.getRanges 可能會卸除位移的錯誤
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] 檢查 stringToDate() 是否針對 yyyy 和 yyyy-[m]m 格式取用整個輸入
- [SPARK-28308][CORE] 剖析之前,應該先填補 CalendarInterval 次秒部分
- [SPARK-27485]EnsureRequirements.reorder 應該正常處理重複的運算式
- 2019 年 7 月 2 日
- 讀取 Delta LAST_CHECKPOINT 檔案時容許 IOException
- 2019 年 6 月 18 日
- 修正了使用較高順序函式影響的錯誤
- 修正了影響差異中繼資料查詢的錯誤
- 2019 年 5 月 28 日
- 已將復原新增至失敗的程式庫安裝
- 2019 年 5 月 7 日
- 將 HADOOP-15778 (ABFS:修正用戶端節流以讀取) 移植到 Azure Data Lake Storage Gen2 連接器
- 將 HADOOP-16040 (ABFS:tolerateOobAppends 錯誤的錯誤修復) 移植到 Azure Data Lake Storage Gen2 連接器
- 修正了載入 Delta 記錄總和檢查碼檔案時的競爭條件
- 修正了差異衝突偵測邏輯,無法將「插入 + 覆寫」識別為純「附加」作業
- [SPARK-27494][SS] Null 索引鍵/值無法在 Kafka 來源 v2 中運作
- [SPARK-27454][SPARK-27454][ML][SQL] 遇到一些不合法的映射時,Spark 映像資料來源會失敗
- [SPARK-27160][SQL] 在建置 Orc 篩選時修正 DecimalType
- [SPARK-27338][CORE] 修正 UnsafeExternalSorter 與 TaskMemoryManager 之間的鎖死
- 2019 年 3 月 26 日
- 避免在全階段產生的程式碼中內嵌平台相依位移
- 修正了影響特定 PythonUDF 的錯誤。
- 2019 年 2 月 26 日
- [SPARK-26864][SQL] 當 Python udf 當做左半聯結條件使用時,查詢可能會傳回不正確的結果。
- 修正了影響 JDBC/ODBC 伺服器的錯誤。
- 建置 HadoopRDD 時排除隱藏的檔案。
- 2019 年 2 月 12 日
- 修正了使用已啟用資料表 ACL 的叢集來安裝蛋類程式庫的問題。
- 修正了 SQL 快取的已快取 RDD 與其實體計畫之間不一致,導致不正確結果的問題。
- [SPARK-26706][SQL] 修正 ByteType 的
illegalNumericPrecedence
。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 無法正確處理空白的記錄。
- 修正了 Window 運算子的條件約束推斷。
- 修正了在傳送已啟用加密的大型 RPC 錯誤訊息時,Spark 低階網路協定可能會中斷的問題 (
spark.network.crypto.enabled
設定為 true 時)。
- 2019 年 1 月 30 日
- 修正了在某些情況下,使用 UDT 的
df.rdd.count()
可能會傳回不正確答案的問題。 - 修正了影響安裝 wheelhouse 的問題。
- [SPARK-26267] 偵測 Kafka 不正確的位移時重試。
- 修正了影響串流查詢中多個檔案串流來源的錯誤。
- 修正了在快取關聯性上放置扭曲聯結提示時的 StackOverflowError。
- 修正了 SQL 快取的已快取 RDD 與其實體計畫之間不一致,導致不正確結果的問題。
- 修正了在某些情況下,使用 UDT 的
- 2019 年 1 月 8 日
- 修正了導致錯誤
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
的問題。 - [SPARK-26352] 聯結重新排序不應變更輸出屬性的順序。
- [SPARK-26366] ReplaceExceptWithFilter 應將 NULL 視為 False。
- Delta Lake 的穩定性改善。
- 已啟用 Delta Lake。
- 修正了在已啟用 Azure Data Lake Storage Gen1 Microsoft Entra ID 認證傳遞時,導致 Azure Data Lake Storage Gen2 存取失敗的問題。
- Databricks IO Cache 現已針對所有定價層的 Ls 系列背景工作角色執行個體類型啟用。
- 修正了導致錯誤
Databricks Runtime 5.0 (EoS)
請參閱 Databricks Runtime 5.0 (EoS)。
- 2019 年 6 月 18 日
- 修正了使用較高順序函式影響的錯誤
- 2019 年 5 月 7 日
- 修正了載入 Delta 記錄總和檢查碼檔案時的競爭條件
- 修正了差異衝突偵測邏輯,無法將「插入 + 覆寫」識別為純「附加」作業
- [SPARK-27494][SS] Null 索引鍵/值無法在 Kafka 來源 v2 中運作
- [SPARK-27454][SPARK-27454][ML][SQL] 遇到一些不合法的映射時,Spark 映像資料來源會失敗
- [SPARK-27160][SQL] 在建置 Orc 篩選時修正 DecimalType
- [SPARK-27338][CORE] 修正 UnsafeExternalSorter 與 TaskMemoryManager 之間的鎖死
- 2019 年 3 月 26 日
- 避免在全階段產生的程式碼中內嵌平台相依位移
- 修正了影響特定 PythonUDF 的錯誤。
- 2019 年 3 月 12 日
- [SPARK-26864][SQL] 當 Python udf 當做左半聯結條件使用時,查詢可能會傳回不正確的結果。
- 2019 年 2 月 26 日
- 修正了影響 JDBC/ODBC 伺服器的錯誤。
- 建置 HadoopRDD 時排除隱藏的檔案。
- 2019 年 2 月 12 日
- 修正了 SQL 快取的已快取 RDD 與其實體計畫之間不一致,導致不正確結果的問題。
- [SPARK-26706][SQL] 修正 ByteType 的
illegalNumericPrecedence
。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 無法正確處理空白的記錄。
- 修正了 Window 運算子的條件約束推斷。
- 修正了在傳送已啟用加密的大型 RPC 錯誤訊息時,Spark 低階網路協定可能會中斷的問題 (
spark.network.crypto.enabled
設定為 true 時)。
- 2019 年 1 月 30 日
- 修正了在某些情況下,使用 UDT 的
df.rdd.count()
可能會傳回不正確答案的問題。 - [SPARK-26267] 偵測 Kafka 不正確的位移時重試。
- 修正了影響串流查詢中多個檔案串流來源的錯誤。
- 修正了在快取關聯性上放置扭曲聯結提示時的 StackOverflowError。
- 修正了 SQL 快取的已快取 RDD 與其實體計畫之間不一致,導致不正確結果的問題。
- 修正了在某些情況下,使用 UDT 的
- 2019 年 1 月 8 日
- 修正了導致錯誤
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
的問題。 - [SPARK-26352] 聯結重新排序不應變更輸出屬性的順序。
- [SPARK-26366] ReplaceExceptWithFilter 應將 NULL 視為 False。
- Delta Lake 的穩定性改善。
- 已啟用 Delta Lake。
- Databricks IO Cache 現已針對所有定價層的 Ls 系列背景工作角色執行個體類型啟用。
- 修正了導致錯誤
- 2018 年 12 月 18 日
- [SPARK-26293] 在子查詢中具有 Python UDF 時,轉換例外狀況
- 修正了使用 Join 和 Limit 影響特定查詢的問題。
- 在 Spark UI 中從 RDD 名稱修訂認證
- 2018 年 12 月 6 日
- 修正了當使用 orderBy 緊接著 groupBy 且搭配 group-by 索引鍵作為排序依據索引鍵的前置部分時,導致查詢結果不正確的問題。
- 已將 Spark 的 Snowflake 連接器從 2.4.9.2-spark_2.4_pre_release 升級為 2.4.10。
- 只有在啟用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
旗標時,才略過一或多個重試之後損毀的檔案。 - 修正了影響特定自我聯集查詢的問題。
- 修正了 Thrift 伺服器的錯誤,其中工作階段有時會在取消時外洩。
- [SPARK-26307] 修正了使用 Hive SerDe 插入資料分割資料表時的 CTAS。
- [SPARK-26147]即使只使用聯結一端的資料行,聯結條件中的 Python UDF 也會失敗
- [SPARK-26211] 針對具有 null 的二進位和結構與數位修正 InSet。
- [SPARK-26181]
ColumnStatsMap
的hasMinMaxStats
方法不正確。 - 修正了在沒有網際網路存取的環境中安裝 Python Wheel 的問題。
- 2018 年 11 月 20 日
- 修正了在取消串流查詢之後導致筆記本無法使用的問題。
- 修正了使用視窗函式影響特定查詢的問題。
- 修正了使用多個結構描述變更影響 Delta 的串流的問題。
- 修正了影響具有左半/反聯結之特定彙總查詢的問題。
Databricks Runtime 4.3 (EoS)
請參閱 Databricks Runtime 4.3 (EoS)。
2019 年 4 月 9 日
- [SPARK-26665][CORE] 修正會導致 BlockTransferService.fetchBlockSync 永遠懸置的錯誤。
- [SPARK-24669][SQL] 在 DROP DATABASE CASCADE 的情況下使資料表失效。
2019 年 3 月 12 日
- 修正了影響程式碼產生的錯誤。
- 修正了影響 Delta 的錯誤。
2019 年 2 月 26 日
- 修正了影響 JDBC/ODBC 伺服器的錯誤。
2019 年 2 月 12 日
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 無法正確處理空白的記錄。
- 建置 HadoopRDD 時排除隱藏的檔案。
- 修正了當 IN 述詞的值為空時,IN 述詞的 Parquet 篩選轉換問題。
- 修正了在傳送已啟用加密的大型 RPC 錯誤訊息時,Spark 低階網路協定可能會中斷的問題 (
spark.network.crypto.enabled
設定為 true 時)。
2019 年 1 月 30 日
- 修正了在某些情況下,使用 UDT 的
df.rdd.count()
可能會傳回不正確答案的問題。 - 修正了 SQL 快取的已快取 RDD 與其實體計畫之間不一致,導致不正確結果的問題。
- 修正了在某些情況下,使用 UDT 的
2019 年 1 月 8 日
- 修正了導致錯誤
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
的問題。 - 在 Spark UI 中從 RDD 名稱修訂認證
- [SPARK-26352] 聯結重新排序不應變更輸出屬性的順序。
- [SPARK-26366] ReplaceExceptWithFilter 應將 NULL 視為 False。
- 已啟用 Delta Lake。
- Databricks IO Cache 現已針對所有定價層的 Ls 系列背景工作角色執行個體類型啟用。
- 修正了導致錯誤
2018 年 12 月 18 日
- [SPARK-25002]Avro:修改輸出記錄命名空間。
- 修正了使用 Join 和 Limit 影響特定查詢的問題。
- [SPARK-26307] 修正了使用 Hive SerDe 插入資料分割資料表時的 CTAS。
- 只有在啟用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
旗標時,才略過一或多個重試之後損毀的檔案。 - [SPARK-26181]
ColumnStatsMap
的hasMinMaxStats
方法不正確。 - 修正了在沒有網際網路存取的環境中安裝 Python Wheel 的問題。
- 修正了查詢分析器中的效能問題。
- 修正了 PySpark 中導致 DataFrame 動作失敗,並出現「連線拒絕」錯誤的問題。
- 修正了影響特定自我聯集查詢的問題。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241] 修正在設定 nullValue 時,要剖析為 null 的空字串問題。
- [SPARK-25387] 修正因 CSV 輸入不正確所造成的 NPE。
- 修正了影響具有左半/反聯結之特定彙總查詢的問題。
2018 年 11 月 6 日
- [SPARK-25741] 長 URL 不會在 Web UI 中正確轉譯。
- [SPARK-25714] 修正最佳化工具規則 BooleanSimplification 中的 Null 處理。
- 修正了在 Synapse Analytics 連接器中影響暫存物件清理的問題。
- [SPARK-25816] 修正巢狀擷取器中的屬性解析。
2018 年 10 月 16 日
- 修正了影響在 Delta 資料表上執行的
SHOW CREATE TABLE
輸出的錯誤。 - 修正了影響
Union
作業的錯誤。
- 修正了影響在 Delta 資料表上執行的
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正確的條件約束推斷會傳回錯誤的結果。
- [SPARK-25402][SQL] BooleanSimplification 中的 Null 處理。
- 修正了 Avro 資料來源中的
NotSerializableException
問題。
2018 年 9 月 11 日
- [SPARK-25214][SS] 修正 Kafka v2 來源在
failOnDataLoss=false
時可能會傳回重複記錄的問題。 - [SPARK-24987][SS] 修正當 articlePartition 沒有新的位移時,Kafka 取用者流失的問題。
- 篩選縮減應正確處理 Null 值。
- 改善了執行引擎的穩定性。
- [SPARK-25214][SS] 修正 Kafka v2 來源在
2018 年 8 月 28 日
- 修正了 Delta Lake 刪除命令中的錯誤,該錯誤會錯誤地刪除條件評估為 Null 的資料列。
- [SPARK-25142] 當 Python 背景工作角色無法在
_load_from_socket
中開啟套接字時新增錯誤訊息。
2018 年 8 月 23 日
- [SPARK-23935] mapEntry 會擲回
org.codehaus.commons.compiler.CompileException
。 - 修正了 Parquet 讀取器中可為 Null 的對應問題。
- [SPARK-25051][SQL] FixNullability 不應在 AnalysisBarrier 上停止。
- [SPARK-25081] 修正了當溢出無法配置記憶體時,ShuffleExternalSorter 可能會存取已釋放的記憶體頁面的錯誤。
- 修正了 Databricks Delta 與 Pyspark 之間的互動可能導致暫時性讀取失敗的問題。
- [SPARK-25084] 在多個資料行上 ”distribute by” (以括弧括住) 可能會導致 codegen 問題。
- [SPARK-25096] 如果轉換是強制可為 Null,則鬆散可為 Null。
- 降低 Delta Lake Optimize 命令所使用的預設執行緒數目,降低記憶體額外負荷,並加快認可資料的速度。
- [SPARK-25114] 修正 RecordBinaryComparator 在兩個字之間的減數可被 Integer.MAX_VALUE 整除時的問題。
- 修正了命令部分成功時的秘密管理員修訂。
- [SPARK-23935] mapEntry 會擲回
Databricks Runtime 4.2 (EoS)
請參閱 Databricks Runtime 4.2 (EoS)。
2019 年 2 月 26 日
- 修正了影響 JDBC/ODBC 伺服器的錯誤。
2019 年 2 月 12 日
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery 無法正確處理空白的記錄。
- 建置 HadoopRDD 時排除隱藏的檔案。
- 修正了當 IN 述詞的值為空時,IN 述詞的 Parquet 篩選轉換問題。
- 修正了在傳送已啟用加密的大型 RPC 錯誤訊息時,Spark 低階網路協定可能會中斷的問題 (
spark.network.crypto.enabled
設定為 true 時)。
2019 年 1 月 30 日
- 修正了在某些情況下,使用 UDT 的
df.rdd.count()
可能會傳回不正確答案的問題。
- 修正了在某些情況下,使用 UDT 的
2019 年 1 月 8 日
- 修正了導致錯誤
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
的問題。 - 在 Spark UI 中從 RDD 名稱修訂認證
- [SPARK-26352] 聯結重新排序不應變更輸出屬性的順序。
- [SPARK-26366] ReplaceExceptWithFilter 應將 NULL 視為 False。
- 已啟用 Delta Lake。
- Databricks IO Cache 現已針對所有定價層的 Ls 系列背景工作角色執行個體類型啟用。
- 修正了導致錯誤
2018 年 12 月 18 日
- [SPARK-25002]Avro:修改輸出記錄命名空間。
- 修正了使用 Join 和 Limit 影響特定查詢的問題。
- [SPARK-26307] 修正了使用 Hive SerDe 插入資料分割資料表時的 CTAS。
- 只有在啟用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
旗標時,才略過一或多個重試之後損毀的檔案。 - [SPARK-26181]
ColumnStatsMap
的hasMinMaxStats
方法不正確。 - 修正了在沒有網際網路存取的環境中安裝 Python Wheel 的問題。
- 修正了查詢分析器中的效能問題。
- 修正了 PySpark 中導致 DataFrame 動作失敗,並出現「連線拒絕」錯誤的問題。
- 修正了影響特定自我聯集查詢的問題。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241] 修正在設定 nullValue 時,要剖析為 null 的空字串問題。
- 修正了影響具有左半/反聯結之特定彙總查詢的問題。
2018 年 11 月 6 日
- [SPARK-25741] 長 URL 不會在 Web UI 中正確轉譯。
- [SPARK-25714] 修正最佳化工具規則 BooleanSimplification 中的 Null 處理。
2018 年 10 月 16 日
- 修正了影響在 Delta 資料表上執行的
SHOW CREATE TABLE
輸出的錯誤。 - 修正了影響
Union
作業的錯誤。
- 修正了影響在 Delta 資料表上執行的
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正確的條件約束推斷會傳回錯誤的結果。
- [SPARK-25402][SQL] BooleanSimplification 中的 Null 處理。
- 修正了 Avro 資料來源中的
NotSerializableException
問題。
2018 年 9 月 11 日
- [SPARK-25214][SS] 修正 Kafka v2 來源在
failOnDataLoss=false
時可能會傳回重複記錄的問題。 - [SPARK-24987][SS] 修正當 articlePartition 沒有新的位移時,Kafka 取用者流失的問題。
- 篩選縮減應正確處理 Null 值。
- [SPARK-25214][SS] 修正 Kafka v2 來源在
2018 年 8 月 28 日
- 修正了 Delta Lake 刪除命令中的錯誤,該錯誤會錯誤地刪除條件評估為 Null 的資料列。
2018 年 8 月 23 日
- 修正了差異快照集的 NoClassDefError
- [SPARK-23935] mapEntry 會擲回
org.codehaus.commons.compiler.CompileException
。 - [SPARK-24957][SQL] 具有小數的平均值,後面接著彙總會傳回錯誤的結果。 可能會傳回 AVERAGE 的不正確結果。 如果 Divide 的結果與轉型為相同的類型,則會略過 Average 運算子中加入的 CAST。
- [SPARK-25081] 修正了當溢出無法配置記憶體時,ShuffleExternalSorter 可能會存取已釋放的記憶體頁面的錯誤。
- 修正了 Databricks Delta 與 Pyspark 之間的互動可能導致暫時性讀取失敗的問題。
- [SPARK-25114] 修正 RecordBinaryComparator 在兩個字之間的減數可被 Integer.MAX_VALUE 整除時的問題。
- [SPARK-25084] 在多個資料行上 ”distribute by” (以括弧括住) 可能會導致 codegen 問題。
- [SPARK-24934][SQL] 明確將在記憶體內部分割區剪除的上限/下限支援類型加入允許清單。 當針對快取資料的查詢篩選中使用複雜資料類型時,Spark 一律會傳回空的結果集。 由於複雜類型的上下限設定為 null,因此記憶體內部統計資料型剪除會產生不正確的結果。 修正方式是不要針對複雜類型使用記憶體內部統計資料型剪除。
- 修正了命令部分成功時的秘密管理員修訂。
- 修正了 Parquet 讀取器中可為 Null 的對應問題。
2018 年 8 月 2 日
- 已在 Python 中新增 writeStream.table API。
- 修正了影響差異檢查點的問題。
- [SPARK-24867][SQL] 將 AnalysisBarrier 新增至 DataFrameWriter。 使用 DataFrameWriter 寫入具有 UDF 的資料框架時,不會使用 SQL 快取。 這是我們在 AnalysisBarrier 中所做變更所造成的迴歸,因為並非所有分析器規則都是等冪的。
- 修正了可能導致
mergeInto
命令產生不正確結果的問題。 - 改善了存取 Azure Data Lake Storage Gen1 的穩定性。
- [SPARK-24809] 在執行程式中序列化 LongHashedRelation 可能會導致資料錯誤。
- [SPARK-24878][SQL] 修正包含 Null 之基本類型之陣列類型的反向函式。
2018 年 7 月 11 日
- 修正了查詢執行中的 bug,該 bug 會導致具有不同精確度的小數位數資料行彙總在某些情況下傳回不正確的結果。
- 修正了在進階彙總作業期間擲回的
NullPointerException
錯誤,例如群組集。
Databricks Runtime 4.1 ML (EoS)
請參閱 Databricks Runtime 4.1 ML (EoS)。
- 2018 年 7 月 31 日
- 已將 Azure Synapse Analytics 新增至 ML 執行階段 4.1
- 修正了當述詞中使用的資料分割資料行名稱與資料表結構描述中該資料行的案例不同時,可能會導致不正確的查詢結果的錯誤。
- 修正了影響 Spark SQL 執行引擎的錯誤。
- 修正了影響程式碼產生的錯誤。
- 修正了影響 Delta Lake 的錯誤 (
java.lang.NoClassDefFoundError
)。 - 改善了 Delta Lake 中的錯誤處理。
- 修正了會導致針對字串資料行 32 個字元或更大的字串資料行收集不正確的資料而略過統計資料的錯誤。
Databricks Runtime 4.1 (EoS)
請參閱 Databricks Runtime 4.1 (EoS)。
2019 年 1 月 8 日
- [SPARK-26366] ReplaceExceptWithFilter 應將 NULL 視為 False。
- 已啟用 Delta Lake。
2018 年 12 月 18 日
- [SPARK-25002]Avro:修改輸出記錄命名空間。
- 修正了使用 Join 和 Limit 影響特定查詢的問題。
- [SPARK-26307] 修正了使用 Hive SerDe 插入資料分割資料表時的 CTAS。
- 只有在啟用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
旗標時,才略過一或多個重試之後損毀的檔案。 - 修正了在沒有網際網路存取的環境中安裝 Python Wheel 的問題。
- 修正了 PySpark 中導致 DataFrame 動作失敗,並出現「連線拒絕」錯誤的問題。
- 修正了影響特定自我聯集查詢的問題。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241] 修正在設定 nullValue 時,要剖析為 null 的空字串問題。
- 修正了影響具有左半/反聯結之特定彙總查詢的問題。
2018 年 11 月 6 日
- [SPARK-25741] 長 URL 不會在 Web UI 中正確轉譯。
- [SPARK-25714] 修正最佳化工具規則 BooleanSimplification 中的 Null 處理。
2018 年 10 月 16 日
- 修正了影響在 Delta 資料表上執行的
SHOW CREATE TABLE
輸出的錯誤。 - 修正了影響
Union
作業的錯誤。
- 修正了影響在 Delta 資料表上執行的
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正確的條件約束推斷會傳回錯誤的結果。
- [SPARK-25402][SQL] BooleanSimplification 中的 Null 處理。
- 修正了 Avro 資料來源中的
NotSerializableException
問題。
2018 年 9 月 11 日
- [SPARK-25214][SS] 修正 Kafka v2 來源在
failOnDataLoss=false
時可能會傳回重複記錄的問題。 - [SPARK-24987][SS] 修正當 articlePartition 沒有新的位移時,Kafka 取用者流失的問題。
- 篩選縮減應正確處理 Null 值。
- [SPARK-25214][SS] 修正 Kafka v2 來源在
2018 年 8 月 28 日
- 修正了 Delta Lake 刪除命令中的錯誤,該錯誤會錯誤地刪除條件評估為 Null 的資料列。
- [SPARK-25084] 在多個資料行上 ”distribute by” (以括弧括住) 可能會導致 codegen 問題。
- [SPARK-25114] 修正 RecordBinaryComparator 在兩個字之間的減數可被 Integer.MAX_VALUE 整除時的問題。
2018 年 8 月 23 日
- 修正了差異快照集的 NoClassDefError。
- [SPARK-24957][SQL] 具有小數的平均值,後面接著彙總會傳回錯誤的結果。 可能會傳回 AVERAGE 的不正確結果。 如果 Divide 的結果與轉型為相同的類型,則會略過 Average 運算子中加入的 CAST。
- 修正了 Parquet 讀取器中可為 Null 的對應問題。
- [SPARK-24934][SQL] 明確將在記憶體內部分割區剪除的上限/下限支援類型加入允許清單。 當針對快取資料的查詢篩選中使用複雜資料類型時,Spark 一律會傳回空的結果集。 由於複雜類型的上下限設定為 null,因此記憶體內部統計資料型剪除會產生不正確的結果。 修正方式是不要針對複雜類型使用記憶體內部統計資料型剪除。
- [SPARK-25081] 修正了當溢出無法配置記憶體時,ShuffleExternalSorter 可能會存取已釋放的記憶體頁面的錯誤。
- 修正了 Databricks Delta 與 Pyspark 之間的互動可能導致暫時性讀取失敗的問題。
- 修正了命令部分成功時的秘密管理員修訂
2018 年 8 月 2 日
- [SPARK-24613][SQL] 使用 UDF 的快取無法與後續相依快取進行比對。 在 CacheManager 中使用 AnalysisBarrier 包裝邏輯計畫,以便編譯執行計畫,避免計畫再次被分析。 這也是 Spark 2.3 的迴歸。
- 修正了 Synapse Analytics 連接器問題,影響寫入 DateType 資料的時區轉換。
- 修正了影響差異檢查點的問題。
- 修正了可能導致
mergeInto
命令產生不正確結果的問題。 - [SPARK-24867][SQL] 將 AnalysisBarrier 新增至 DataFrameWriter。 使用 DataFrameWriter 寫入具有 UDF 的資料框架時,不會使用 SQL 快取。 這是我們在 AnalysisBarrier 中所做變更所造成的迴歸,因為並非所有分析器規則都是等冪的。
- [SPARK-24809] 在執行程式中序列化 LongHashedRelation 可能會導致資料錯誤。
2018 年 7 月 11 日
- 修正了查詢執行中的 bug,該 bug 會導致具有不同精確度的小數位數資料行彙總在某些情況下傳回不正確的結果。
- 修正了在進階彙總作業期間擲回的
NullPointerException
錯誤,例如群組集。
2018 年 6 月 28 日
- 修正了當述詞中使用的資料分割資料行名稱與資料表結構描述中該資料行的案例不同時,可能會導致不正確的查詢結果的錯誤。
2018 年 6 月 7 日
- 修正了影響 Spark SQL 執行引擎的錯誤。
- 修正了影響程式碼產生的錯誤。
- 修正了影響 Delta Lake 的錯誤 (
java.lang.NoClassDefFoundError
)。 - 改善了 Delta Lake 中的錯誤處理。
2018 年 5 月 17 日
- 修正了會導致針對字串資料行 32 個字元或更大的字串資料行收集不正確的資料而略過統計資料的錯誤。
Databricks Runtime 4.0 (EoS)
請參閱 Databricks Runtime 4.0 (EoS)。
2018 年 11 月 6 日
- [SPARK-25714] 修正最佳化工具規則 BooleanSimplification 中的 Null 處理。
2018 年 10 月 16 日
- 修正了影響
Union
作業的錯誤。
- 修正了影響
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不正確的條件約束推斷會傳回錯誤的結果。
- [SPARK-25402][SQL] BooleanSimplification 中的 Null 處理。
- 修正了 Avro 資料來源中的
NotSerializableException
問題。
2018 年 9 月 11 日
- 篩選縮減應正確處理 Null 值。
2018 年 8 月 28 日
- 修正了 Delta Lake 刪除命令中的錯誤,該錯誤會錯誤地刪除條件評估為 Null 的資料列。
2018 年 8 月 23 日
- 修正了 Parquet 讀取器中可為 Null 的對應問題。
- 修正了命令部分成功時的秘密管理員修訂
- 修正了 Databricks Delta 與 Pyspark 之間的互動可能導致暫時性讀取失敗的問題。
- [SPARK-25081] 修正了當溢出無法配置記憶體時,ShuffleExternalSorter 可能會存取已釋放的記憶體頁面的錯誤。
- [SPARK-25114] 修正 RecordBinaryComparator 在兩個字之間的減數可被 Integer.MAX_VALUE 整除時的問題。
2018 年 8 月 2 日
- [SPARK-24452] 避免 int add 或 multiple 中的可能的溢位。
- [SPARK-24588]串流聯結應該需要來自子系的 HashClusteredPartitioning。
- 修正了可能導致
mergeInto
命令產生不正確結果的問題。 - [SPARK-24867][SQL] 將 AnalysisBarrier 新增至 DataFrameWriter。 使用 DataFrameWriter 寫入具有 UDF 的資料框架時,不會使用 SQL 快取。 這是我們在 AnalysisBarrier 中所做變更所造成的迴歸,因為並非所有分析器規則都是等冪的。
- [SPARK-24809] 在執行程式中序列化 LongHashedRelation 可能會導致資料錯誤。
2018 年 6 月 28 日
- 修正了當述詞中使用的資料分割資料行名稱與資料表結構描述中該資料行的案例不同時,可能會導致不正確的查詢結果的錯誤。
2018 年 6 月 7 日
- 修正了影響 Spark SQL 執行引擎的錯誤。
- 改善了 Delta Lake 中的錯誤處理。
2018 年 5 月 17 日
- Databricks 祕密管理的錯誤修復。
- 改善了讀取 Azure Data Lake Store 中所儲存資料的穩定性。
- 修正了影響 RDD 快取的錯誤。
- 修正了影響 Spark SQL 中 Null 安全相等的錯誤。
2018 年 4 月 24 日
- 已將 Azure Data Lake Store SDK 從 2.0.11 升級至 2.2.8,以改善對 Azure Data Lake Store 的存取穩定性。
- 修正了當
spark.databricks.io.hive.fastwriter.enabled
為false
時,影響插入覆寫至分割區 Hive 資料表的錯誤。 - 修正了工作序列化失敗的問題。
- 改善了 Delta Lake 穩定性。
2018 年 3 月 14 日
- 在寫入 Delta Lake 時,防止不必要的中繼資料更新。
- 修正了在少數情況下,可能會造成某些輸出檔案遺失之競爭條件所造成的問題。
Databricks Runtime 3.5 LTS (EoS)
請參閱 Databricks Runtime 3.5 LTS (EoS)。
2019 年 11 月 7 日
- [SPARK-29743][SQL] 範例如果其子系的 needCopyResult 為 true,則範例應該將 needCopyResult 設定為 true
2019 年 10 月 8 日
- 伺服器端變更以允許 Simba Apache Spark ODBC 驅動程式在擷取結果期間重新連線並繼續進行 (需要 Simba Apache Spark ODBC 驅動程式更新至 2.6.10 版)。
2019 年 9 月 10 日
- [SPARK-28699][SQL] 在重新分割案例中停用使用 ShuffleExchangeExec 的基數排序
2019 年 4 月 9 日
- [SPARK-26665][CORE] 修正會導致 BlockTransferService.fetchBlockSync 永遠懸置的錯誤。
2019 年 2 月 12 日
- 修正了在傳送已啟用加密的大型 RPC 錯誤訊息時,Spark 低階網路協定可能會中斷的問題 (
spark.network.crypto.enabled
設定為 true 時)。
- 修正了在傳送已啟用加密的大型 RPC 錯誤訊息時,Spark 低階網路協定可能會中斷的問題 (
2019 年 1 月 30 日
- 修正了在某些情況下,使用 UDT 的
df.rdd.count()
可能會傳回不正確答案的問題。
- 修正了在某些情況下,使用 UDT 的
2018 年 12 月 18 日
- 只有在啟用
spark.sql.files.ignoreCorruptFiles
或spark.sql.files.ignoreMissingFiles
旗標時,才略過一或多個重試之後損毀的檔案。 - 修正了影響特定自我聯集查詢的問題。
- 只有在啟用
2018 年 11 月 20 日
- [SPARK-25816] 已修正巢狀擷取器中的屬性解析。
2018 年 11 月 6 日
- [SPARK-25714] 修正最佳化工具規則 BooleanSimplification 中的 Null 處理。
2018 年 10 月 16 日
- 修正了影響
Union
作業的錯誤。
- 修正了影響
2018 年 9 月 25 日
- [SPARK-25402][SQL] BooleanSimplification 中的 Null 處理。
- 修正了 Avro 資料來源中的
NotSerializableException
問題。
2018 年 9 月 11 日
- 篩選縮減應正確處理 Null 值。
2018 年 8 月 28 日
- 修正了 Delta Lake 刪除命令中的錯誤,該錯誤會錯誤地刪除條件評估為 Null 的資料列。
- [SPARK-25114] 修正 RecordBinaryComparator 在兩個字之間的減數可被 Integer.MAX_VALUE 整除時的問題。
2018 年 8 月 23 日
- [SPARK-24809] 在執行程式中序列化 LongHashedRelation 可能會導致資料錯誤。
- 修正了 Parquet 讀取器中可為 Null 的對應問題。
- [SPARK-25081] 修正了當溢出無法配置記憶體時,ShuffleExternalSorter 可能會存取已釋放的記憶體頁面的錯誤。
- 修正了 Databricks Delta 與 Pyspark 之間的互動可能導致暫時性讀取失敗的問題。
2018 年 6 月 28 日
- 修正了當述詞中使用的資料分割資料行名稱與資料表結構描述中該資料行的案例不同時,可能會導致不正確的查詢結果的錯誤。
2018 年 6 月 28 日
- 修正了當述詞中使用的資料分割資料行名稱與資料表結構描述中該資料行的案例不同時,可能會導致不正確的查詢結果的錯誤。
2018 年 6 月 7 日
- 修正了影響 Spark SQL 執行引擎的錯誤。
- 改善了 Delta Lake 中的錯誤處理。
2018 年 5 月 17 日
- 改善了讀取 Azure Data Lake Store 中所儲存資料的穩定性。
- 修正了影響 RDD 快取的錯誤。
- 修正了影響 Spark SQL 中 Null 安全相等的錯誤。
- 修正了影響串流查詢中特定彙總的錯誤。
2018 年 4 月 24 日
- 已將 Azure Data Lake Store SDK 從 2.0.11 升級至 2.2.8,以改善對 Azure Data Lake Store 的存取穩定性。
- 修正了當
spark.databricks.io.hive.fastwriter.enabled
為false
時,影響插入覆寫至分割區 Hive 資料表的錯誤。 - 修正了工作序列化失敗的問題。
2018 年 3 月 9 日
- 修正了在少數情況下,可能會造成某些輸出檔案遺失之競爭條件所造成的問題。
2018 年 3 月 1 日
- 由於處理串流可能需要很長的時間才能停止,因而改善了處理效率。
- 修正了影響 Python 自動完成的問題。
- 已套用 Ubuntu 安全性修補程式。
- 修正了使用 Python UDF 和視窗函式影響特定查詢的問題。
- 修正了在已啟用資料表存取控制的叢集上使用 UDF 的問題。
2018 年 1 月 29 日
- 修正了影響 Azure Blob 儲存體中儲存之資料表操作的問題。
- 修正了在空白 DataFrame 上卸除重複資料刪除之後的彙總。
Databricks Runtime 3.4 (EoS)
請參閱 Databricks Runtime 3.4 (EoS)。
2018 年 6 月 7 日
- 修正了影響 Spark SQL 執行引擎的錯誤。
- 改善了 Delta Lake 中的錯誤處理。
2018 年 5 月 17 日
- 改善了讀取 Azure Data Lake Store 中所儲存資料的穩定性。
- 修正了影響 RDD 快取的錯誤。
- 修正了影響 Spark SQL 中 Null 安全相等的錯誤。
2018 年 4 月 24 日
- 修正了當
spark.databricks.io.hive.fastwriter.enabled
為false
時,影響插入覆寫至分割區 Hive 資料表的錯誤。
- 修正了當
2018 年 3 月 9 日
- 修正了在少數情況下,可能會造成某些輸出檔案遺失之競爭條件所造成的問題。
2017 年 12 月 13 日
- 修正了影響 Scala 中 UDF 的問題。
- 修正了在非 DBFS 路徑中儲存之資料來源資料表上使用資料略過索引的問題。
2017 年 12 月 7 日
- 改善了隨機播放穩定性。
不受支援的 Databricks Runtime 版本
針對原始版本資訊,請遵循次標題下方的連結。