Databricks Runtime メンテナンス更新プログラム
この記事では、サポートされている Databricks Runtime バージョンのメンテナンス更新プログラムの一覧を示します。 既存のクラスターにメンテナンス更新プログラムを追加するには、クラスターを再起動します。 サポートされている Databricks Runtime バージョンのメンテナンス更新プログラムについては、「Databricks Runtime のメンテナンス更新プログラム (アーカイブ済み)」を参照してください。
Note
リリースは段階的に行われます。 Azure Databricks アカウントは、最初のリリース日から数日間更新されない場合があります。
Databricks Runtime リリース
リリース別のメンテナンス更新プログラム:
- Databricks Runtime 15.4
- Databricks Runtime 15.3
- Databricks Runtime 15.2
- Databricks Runtime 14.3
- Databricks Runtime 14.1
- Databricks Runtime 13.3 LTS
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
Databricks Runtime 15.4
「Databricks Runtime 15.4 LTS」を参照してください。
- 2024 年 11 月 5 日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-49867][SQL]GetColumnByOrdinal を呼び出すときにインデックスが範囲外の場合のエラー メッセージを改善する
- [SPARK-49863][SQL]NormalizeFloatingNumbers を修正して、入れ子になった構造体の null 値の許容を維持する
- [SPARK-49829] ストリーム ストリーム結合で状態ストアに入力を追加する際の最適化を修正する (正確性の修正)
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- [SPARK-46632][SQL]同等の三項式に異なる子がある場合の部分式の削除を修正する
- [SPARK-49443][SQL][PYTHON]to_variant_object式を実装し、バリアント オブジェクトschema_of_variantオブジェクトのオブジェクトを出力します
- [SPARK-49615] バグ修正: ML 列スキーマの検証が spark 構成
spark.sql.caseSensitive
に準拠するようにします。
- 2024 年 10 月 22 日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-49867][SQL]GetColumnByOrdinal を呼び出すときにインデックスが範囲外の場合のエラー メッセージを改善する
- [SPARK-49863][SQL]NormalizeFloatingNumbers を修正して、入れ子になった構造体の null 値の許容を維持する
- [SPARK-49829] ストリーム ストリーム結合で状態ストアに入力を追加する際の最適化を修正する (正確性の修正)
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- [SPARK-46632][SQL]同等の三項式に異なる子がある場合の部分式の削除を修正する
- [SPARK-49443][SQL][PYTHON]to_variant_object式を実装し、バリアント オブジェクトschema_of_variantオブジェクトのオブジェクトを出力します
- [SPARK-49615] バグ修正: ML 列スキーマの検証が spark 構成
spark.sql.caseSensitive
に準拠するようにします。
- 2024 年 10 月 10 日
- [SPARK-49743][SQL]GetArrayStructFields を排除するときに OptimizeCsvJsonExpr でスキーマ フィールドを変更しないでください
- [SPARK-49688][CONNECT]割り込みと実行プランの間のデータ 競合を修正する
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS]FlatMapGroupsWithState ユーザー関数エラーの分類 Error クラス
- [SPARK-49460][SQL]補足情報: 潜在的な NPE リスクを修正する
- 2024 年 9 月 25 日
- [SPARK-49628][SQL]ConstantFolding では、評価前にステートフル式をコピーする必要があります
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- [SPARK-49492][CONNECT]非アクティブな ExecutionHolder に対して再アタッチが試行されました
- [SPARK-49458][CONNECT][PYTHON]ReattachExecute を使用してサーバー側のセッション ID を指定する
- [SPARK-49017][SQL]複数のパラメーターが使用されている場合、Insert ステートメントが失敗する
- [SPARK-49451] parse_jsonで重複するキーを許可します。
- 各種のバグ修正。
- 2024 年 9 月 17 日
- [SPARK-48463][ML] Make Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor で入れ子になった入力列をサポートする
- [SPARK-49409][CONNECT]CONNECT_SESSION_PLAN_CACHE_SIZEの既定値を調整する
- [SPARK-49526][CONNECT][HOTFIX-15.4.2] ArtifactManager での Windows スタイルのパスのサポート
- "[SPARK-48482][PYTHON] dropDuplicates と dropDuplicatesWIthinWatermark は可変長引数を受け入れる必要があります" を元に戻す
- [SPARK-43242][CORE]シャッフル破損診断で "予期しない種類の BlockId" がスローされる問題を修正しました
- [SPARK-49366][CONNECT]データフレーム列解決で共用体ノードをリーフとして扱う
- [SPARK-49018][SQL]照合順序approx_count_distinct正しく動作しない問題を修正しました
- [SPARK-49460][SQL]EmptyRelationExec から
cleanupResource()
を削除する - [SPARK-49056][SQL] ErrorClassesJsonReader は null を正しく処理できません
- [SPARK-49336][CONNECT]protobuf メッセージを切り捨てるときに入れ子レベルを制限する
- 2024 年 8 月 29 日
SHOW CREATE TABLE
ステートメントからの出力には、具体化されたビューまたはストリーミング テーブルで定義されている行フィルターまたは列マスクが含まれるようになりました。 「SHOW CREATE TABLE」を参照してください。 行フィルターと列マスクの詳細については、「行フィルターと列マスクを使用して機密性の高いテーブル データのフィルター処理」を参照してください。- 共有アクセス モードで構成されたコンピューティングでは、Kafka バッチの読み取りと書き込みには、構造化ストリームに関して文書化されている制限事項と同じものが実施されるようになりました。 「Unity Catalog 共有アクセス モードのストリーミングの制限事項と要件」をご覧ください。
- [SPARK-48941][SPARK-48970] バックポート ML ライター/リーダーの修正
- [SPARK-49074][SQL]
df.cache()
でバリアントを修正する - [SPARK-49263][CONNECT] Spark Connect Python クライアント: ブール値データフレーム リーダーのオプションを一貫して処理する
- [SPARK-48955][SQL] ArrayCompact の変更を 15.4 に含める
- [SPARK-48937][SQL] StringToMap の文字列式に照合順序のサポートを追加する
- [SPARK-48929] ビューの内部エラーを修正し、パーサー例外コンテキストをクリーンアップする
- [SPARK-49125][SQL] CSV 書き込みで重複する列名を許可する
- [SPARK-48934][SS] applyInPandasWithState でタイムアウト設定に Python の datetime タイプが正しく変換されていない
- [SPARK-48843] BindParameters を使用して無限ループを防止する
- [SPARK-48981] 照合順序のために pyspark で StringType の simpleString メソッドを修正する
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-48896][SPARK-48909] [SPARK-48883] バックポート Spark ML ライターの修正
- [SPARK-48725][SQL] CollationAwareUTF8String.lowerCaseCodePoints を文字列式に統合する
- [SPARK-48978][SQL] UTF8_LCASE の照合順序サポートに ASCII 高速パスを実装する
- [SPARK-49047][PYTHON][CONNECT] ログ記録用にメッセージを切り詰める
- [SPARK-49146][SS] 追加モードのストリーミング クエリでウォーターマークが見つからない問題に関連するアサーション エラーをエラー フレームワークに移動する
- [SPARK-48977][SQL] UTF8_LCASE 照合順序で文字列検索を最適化する
- [SPARK-48889][SS] 終了する前に testStream で状態ストアをアンロードする
- [SPARK-48463] StringIndexer で入れ子になった入力列をサポートさせる
- [SPARK-48954] try_mod() は try_remainder() を置き換える
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 15.3
「Databricks Runtime 15.3」を参照してください。
- 2024 年 11 月 5 日
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- [SPARK-49867][SQL]GetColumnByOrdinal を呼び出すときにインデックスが範囲外の場合のエラー メッセージを改善する
- [SPARK-48843][15.3,15.2] BindParameters による無限ループの防止
- [SPARK-49829] ストリーム ストリーム結合で状態ストアに入力を追加する際の最適化を修正する (正確性の修正)
- [SPARK-49863][SQL]NormalizeFloatingNumbers を修正して、入れ子になった構造体の null 値の許容を維持する
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-46632][SQL]同等の三項式に異なる子がある場合の部分式の削除を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 22 日
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- [SPARK-49867][SQL]GetColumnByOrdinal を呼び出すときにインデックスが範囲外の場合のエラー メッセージを改善する
- [SPARK-48843][15.3,15.2] BindParameters による無限ループの防止
- [SPARK-49829] ストリーム ストリーム結合で状態ストアに入力を追加する際の最適化を修正する (正確性の修正)
- [SPARK-49863][SQL]NormalizeFloatingNumbers を修正して、入れ子になった構造体の null 値の許容を維持する
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-46632][SQL]同等の三項式に異なる子がある場合の部分式の削除を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 10 日
- [SPARK-49688][CONNECT]割り込みと実行プランの間のデータ 競合を修正する
- [SPARK-49743][SQL]GetArrayStructFields を排除するときに OptimizeCsvJsonExpr でスキーマ フィールドを変更しないでください
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS]FlatMapGroupsWithState ユーザー関数エラーの分類 Error クラス
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 25 日
- [SPARK-49492][CONNECT]非アクティブな ExecutionHolder に対して再アタッチが試行されました
- [SPARK-49628][SQL]ConstantFolding では、評価前にステートフル式をコピーする必要があります
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- [SPARK-49458][CONNECT][PYTHON]ReattachExecute を使用してサーバー側のセッション ID を指定する
- [SPARK-48719][SQL]最初のパラメーターが null の場合の
RegrSlope
&RegrIntercept
の計算バグを修正しました - オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT]protobuf メッセージを切り捨てるときに入れ子レベルを制限する
- [SPARK-49526][CONNECT][15.3.5] ArtifactManager での Windows スタイルのパスのサポート
- [SPARK-49366][CONNECT]データフレーム列解決で共用体ノードをリーフとして扱う
- [SPARK-43242][CORE]シャッフル破損診断で "予期しない種類の BlockId" がスローされる問題を修正しました
- [SPARK-49409][CONNECT]CONNECT_SESSION_PLAN_CACHE_SIZEの既定値を調整する
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect Python クライアント: ブール値データフレーム リーダーのオプションを一貫して処理する
- [SPARK-49056][SQL] ErrorClassesJsonReader は null を正しく処理できません
- [SPARK-48862][PYTHON][CONNECT] INFO レベルが有効化されていないときに
_proto_to_string
の呼び出しは避けてください - [SPARK-49146][SS] 追加モードのストリーミング クエリでウォーターマークが見つからない問題に関連するアサーション エラーをエラー フレームワークに移動する
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] バックポート ML ライター/リーダーの修正
- [SPARK-48706][PYTHON] 上位の関数の Python UDF は内部エラーをスローしてはなりません
- [SPARK-48954] try_mod() は try_remainder() を置き換える
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-49047][PYTHON][CONNECT] ログ記録用にメッセージを切り詰める
- [SPARK-48740][SQL] 不足しているウィンドウ仕様のエラーを早期にキャッチする
- 2024 年 8 月 1 日
- [破壊的変更] Databricks Runtime 15.3 以降では、引数または戻り値として
VARIANT
タイプを使用する Python のユーザー定義関数 (UDF)、ユーザー定義集計関数 (UDAF)、ユーザー定義テーブル関数 (UDTF) を呼び出すと、例外がスローされます。 この変更は、これらの関数のいずれかが返す無効な値による原因により、発生する可能性がある問題を防ぐために行われました。VARIANT
タイプの詳細については、「VARIANT を使用して半構造化データの保存」を参照してください。 - ノートブックとジョブのサーバーレス コンピューティングでは、ANSI SQL モードが既定で有効になっています。 「サポートされている Spark 構成パラメーター」を参照してください。
- 共有アクセス モードで構成されたコンピューティングでは、Kafka バッチの読み取りと書き込みには、構造化ストリームに関して文書化されている制限事項と同じものが実施されるようになりました。 「Unity Catalog 共有アクセス モードのストリーミングの制限事項と要件」をご覧ください。
SHOW CREATE TABLE
ステートメントからの出力には、具体化されたビューまたはストリーミング テーブルで定義されている行フィルターまたは列マスクが含まれるようになりました。 「SHOW CREATE TABLE」を参照してください。 行フィルターと列マスクの詳細については、「行フィルターと列マスクを使用して機密性の高いテーブル データのフィルター処理」を参照してください。- [SPARK-46957][CORE] 移行済みシャッフル ファイルのデコミッションは実行元からクリーンアップできる必要があります
- [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags を適切に threadlocal にする
- [SPARK-48896][SPARK-48909] [SPARK-48883] バックポート Spark ML ライターの修正
- [SPARK-48713][SQL] baseObject がバイト配列のときに UnsafeRow.pointTo にインデックスの範囲チェックを追加する
- [SPARK-48834][SQL] クエリのコンパイル時に Python スカラー UDF、UDTF、UDAF へのバリアント入力/出力を無効にする
- [SPARK-48934][SS] applyInPandasWithState でタイムアウト設定に Python の datetime タイプが正しく変換されていない
- [SPARK-48705][PYTHON] pyspark を使用して起動されるときに worker_main を明示的に使用する
- [SPARK-48544][SQL] 空の TreeNode BitSets のメモリ負荷を軽減する
- [SPARK-48889][SS] 終了する前に testStream で状態ストアをアンロードする
- [SPARK-49054][SQL] 列の既定値は current_* 関数をサポートする必要があります
- [SPARK-48653][PYTHON] 無効な Python データ ソース エラーのクラス参照を修正する
- [SPARK-48463] StringIndexer で入れ子になった入力列をサポートさせる
- [SPARK-48810][CONNECT] Session stop() API はべき等である必要があり、セッションが既にサーバーによって閉じられていても異常終了してはなりません
- [SPARK-48873][SQL] JSON パーサーで UnsafeRow を使用する。
- オペレーティング システムのセキュリティを更新。
- [破壊的変更] Databricks Runtime 15.3 以降では、引数または戻り値として
- 2024 年 7 月 11 日
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
.checkpoint()
を使用して DataFrame の有効期間全体にわたってテーブルの状態を永続化します。 - Snowflake JDBC ドライバーでは、バージョン 3.16.1 に更新されました。
- このリリースには、Databricks コンテナー サービスで実行中に [Spark UI] の [環境] タブが正しく表示されない問題の修正が含まれています。
- データの読み取り時に無効なパーティションを無視するには、Parquet、ORC、CSV、JSON などのファイル ベースのデータ ソースで ignoreInvalidPartitionPaths データ ソース オプションを true に設定できます。 例: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)` SQL 構成 spark.sql.files.ignoreInvalidPartitionPaths を使用することもできます。 ただし、データ ソース オプションは SQL 構成よりも優先されます。 この設定の既定は false です。
- [SPARK-48100][SQL] スキーマで選択されていない入れ子構造フィールドのスキップに関する問題を修正する
- [SPARK-47463][SQL] V2Predicate を使用して戻り値がブール型の式をラップする
- [SPARK-48292][CORE] 取り消し: [SPARK-39195][SQL] Spark OutputCommitCoordinator はコミットされたファイルとタスクの状態が整合していない場合にステージを中止する必要がある
- [SPARK-48475][PYTHON] PySpark で _get_jvm_function in を最適化する
- [SPARK-48286] 既定の式が存在する列の分析を修正する - ユーザー向けエラーを追加する
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan をストリーミング Dataset に適用しない
- "[SPARK-47406][SQL] MYSQLDialect の TIMESTAMP と DATETIME を処理する" を取り消す
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- [SPARK-48503][14.3-15.3][SQL] group-by や非等値列が誤って許可されていた無効なスカラー サブクエリを修正する
- [SPARK-48445][SQL] 高コストの子を持つ UDF をインライン化しない
- [SPARK-48252][SQL] 必要なときに CommonExpressionRef を更新する
- [SPARK-48273][master][SQL] PlanWithUnresolvedIdentifier の遅延書き換えを修正する
- [SPARK-48566][PYTHON] UDTF analyze() が select と partitionColumns の両方を使用するときにパーティション インデックスが正しくないというバグを修正する
- [SPARK-48556][SQL] UNSUPPORTED_GROUPING_EXPRESSION を指す誤ったエラー メッセージを修正する
- オペレーティング システムのセキュリティを更新。
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
Databricks Runtime 15.2
「Databricks Runtime 15.2」を参照してください。
- 2024 年 11 月 5 日
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- [SPARK-48843][15.3,15.2] BindParameters による無限ループの防止
- [SPARK-49829] ストリーム ストリーム結合で状態ストアに入力を追加する際の最適化を修正する (正確性の修正)
- [SPARK-49863][SQL]NormalizeFloatingNumbers を修正して、入れ子になった構造体の null 値の許容を維持する
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-46632][SQL]同等の三項式に異なる子がある場合の部分式の削除を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 22 日
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- [SPARK-48843][15.3,15.2] BindParameters による無限ループの防止
- [SPARK-49829] ストリーム ストリーム結合で状態ストアに入力を追加する際の最適化を修正する (正確性の修正)
- [SPARK-49863][SQL]NormalizeFloatingNumbers を修正して、入れ子になった構造体の null 値の許容を維持する
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-46632][SQL]同等の三項式に異なる子がある場合の部分式の削除を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 10 日
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS]FlatMapGroupsWithState ユーザー関数エラーの分類 Error クラス
- [SPARK-49743][SQL]GetArrayStructFields を排除するときに OptimizeCsvJsonExpr でスキーマ フィールドを変更しないでください
- [SPARK-49688][CONNECT]割り込みと実行プランの間のデータ 競合を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 25 日
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- [SPARK-48719][SQL]最初のパラメーターが null の場合の RegrSlope と RegrIntercept の計算バグを修正しました
- [SPARK-49458][CONNECT][PYTHON]ReattachExecute を使用してサーバー側のセッション ID を指定する
- [SPARK-49628][SQL]ConstantFolding では、評価前にステートフル式をコピーする必要があります
- [SPARK-49492][CONNECT]非アクティブな ExecutionHolder に対して再アタッチが試行されました
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT]protobuf メッセージを切り捨てるときに入れ子レベルを制限する
- [SPARK-49526][CONNECT]ArtifactManager で Windows スタイルのパスをサポートする
- [SPARK-49366][CONNECT]データフレーム列解決で共用体ノードをリーフとして扱う
- [SPARK-43242][CORE]シャッフル破損診断で "予期しない種類の BlockId" がスローされる問題を修正しました
- [SPARK-49409][CONNECT]CONNECT_SESSION_PLAN_CACHE_SIZEの既定値を調整する
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 29 日
- [SPARK-49056][SQL] ErrorClassesJsonReader は null を正しく処理できません
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- [SPARK-48862][PYTHON][CONNECT] INFO レベルが有効化されていないときに
_proto_to_string
の呼び出しは避けてください - [SPARK-49263][CONNECT] Spark Connect Python クライアント: ブール値データフレーム リーダーのオプションを一貫して処理する
- [SPARK-49146][SS] 追加モードのストリーミング クエリでウォーターマークが見つからない問題に関連するアサーション エラーをエラー フレームワークに移動する
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] バックポート ML ライター/リーダーの修正
- [SPARK-48050][SS] クエリの開始時に論理プランをログ記録する
- [SPARK-48706][PYTHON] 上位の関数の Python UDF は内部エラーをスローしてはなりません
- [SPARK-48740][SQL] 不足しているウィンドウ仕様のエラーを早期にキャッチする
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-49047][PYTHON][CONNECT] ログ記録用にメッセージを切り詰める
- 2024 年 8 月 1 日
- ノートブックとジョブのサーバーレス コンピューティングでは、ANSI SQL モードが既定で有効になっています。 「サポートされている Spark 構成パラメーター」を参照してください。
- 共有アクセス モードで構成されたコンピューティングでは、Kafka バッチの読み取りと書き込みには、構造化ストリームに関して文書化されている制限事項と同じものが実施されるようになりました。 「Unity Catalog 共有アクセス モードのストリーミングの制限事項と要件」をご覧ください。
SHOW CREATE TABLE
ステートメントからの出力には、具体化されたビューまたはストリーミング テーブルで定義されている行フィルターまたは列マスクが含まれるようになりました。 「SHOW CREATE TABLE」を参照してください。 行フィルターと列マスクの詳細については、「行フィルターと列マスクを使用して機密性の高いテーブル データのフィルター処理」を参照してください。- [SPARK-48705][PYTHON] pyspark を使用して起動されるときに worker_main を明示的に使用する
- [SPARK-48047][SQL] 空の TreeNode タグのメモリ負荷を軽減する
- [SPARK-48810][CONNECT] Session stop() API はべき等である必要があり、セッションが既にサーバーによって閉じられていても異常終了してはなりません
- [SPARK-48873][SQL] JSON パーサーで UnsafeRow を使用する。
- [SPARK-46957][CORE] 移行済みシャッフル ファイルのデコミッションは実行元からクリーンアップできる必要があります
- [SPARK-48889][SS] 終了する前に testStream で状態ストアをアンロードする
- [SPARK-48713][SQL] baseObject がバイト配列のときに UnsafeRow.pointTo にインデックスの範囲チェックを追加する
- [SPARK-48896][SPARK-48909] [SPARK-48883] バックポート Spark ML ライターの修正
- [SPARK-48544][SQL] 空の TreeNode BitSets のメモリ負荷を軽減する
- [SPARK-48934][SS] applyInPandasWithState でタイムアウト設定に Python の datetime タイプが正しく変換されていない
- [SPARK-48463] StringIndexer で入れ子になった入力列をサポートさせる
- オペレーティング システムのセキュリティを更新。
- 2024 年 7 月 11 日
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
.checkpoint()
を使用して DataFrame の有効期間全体にわたってテーブルの状態を永続化します。 - Snowflake JDBC ドライバーでは、バージョン 3.16.1 に更新されました。
- このリリースには、Databricks コンテナー サービスで実行中に [Spark UI] の [環境] タブが正しく表示されない問題の修正が含まれています。
- サーバーレス ノートブックとジョブでは、ANSI SQL モードが既定で有効になり、短い名前がサポートされます
- データの読み取り時に無効なパーティションを無視するには、Parquet、ORC、CSV、JSON などのファイル ベースのデータ ソースで ignoreInvalidPartitionPaths データ ソース オプションを true に設定できます。 例: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)` SQL 構成 spark.sql.files.ignoreInvalidPartitionPaths を使用することもできます。 ただし、データ ソース オプションは SQL 構成よりも優先されます。 この設定の既定は false です。
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifier の遅延書き換えを修正する
- [SPARK-48292][CORE] 取り消し: [SPARK-39195][SQL] Spark OutputCommitCoordinator はコミットされたファイルとタスクの状態が整合していない場合にステージを中止する必要がある
- [SPARK-48100][SQL] スキーマで選択されていない入れ子構造フィールドのスキップに関する問題を修正する
- [SPARK-48286] 既定の式が存在する列の分析を修正する - ユーザー向けエラーを追加する
- [SPARK-48294][SQL] nestedTypeMissingElementTypeError で小文字を処理する
- [SPARK-48556][SQL] UNSUPPORTED_GROUPING_EXPRESSION を指す誤ったエラー メッセージを修正する
- [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags を適切に threadlocal にする
- [SPARK-48503][SQL] group-by や非等値列が誤って許可されていた無効なスカラー サブクエリを修正する
- [SPARK-48252][SQL] 必要なときに CommonExpressionRef を更新する
- [SPARK-48475][PYTHON] PySpark で _get_jvm_function in を最適化する
- [SPARK-48566][PYTHON] UDTF analyze() が select と partitionColumns の両方を使用するときにパーティション インデックスが正しくないというバグを修正する
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan をストリーミング Dataset に適用しない
- [SPARK-47463][SQL] V2Predicate を使用して戻り値がブール型の式をラップする
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- [SPARK-48445][SQL] 高コストの子を持つ UDF をインライン化しない
- オペレーティング システムのセキュリティを更新。
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
- 2024 年 6 月 17 日
applyInPandasWithState()
は共有クラスターで使用できます。- Photon TopK を使用したランクウィンドウの最適化で、構造体を含むパーティションが正しく処理されないバグを修正しました。
- 10 進数を含む入力で予期しない例外が発生する try_divide() 関数のバグを修正しました。
- [SPARK-48197][SQL] 無効なラムダ関数のアサート エラーを回避する
- [SPARK-48276][PYTHON][CONNECT]
SQLExpression
の足りない__repr__
メソッドを追加する - [SPARK-48014][SQL] EvaluatePython の makeFromJava エラーをユーザー側エラーに変更する
- [SPARK-48016][SQL] 10 進数を使用する場合 try_divide 関数のバグを修正する
- [SPARK-47986][CONNECT][PYTHON] 既定のセッションがサーバーによって閉じられたときに新しいセッションを作成できない
- [SPARK-48173][SQL] CheckAnalysis にクエリ プラン全体が表示される
- [SPARK-48056][CONNECT][PYTHON] SESSION_NOT_FOUND エラーが発生しても部分的な応答が受信されなかった場合にプランを再実行する
- [SPARK-48172][SQL] 15.2 への JDBCDialects バックポートのエスケープの問題を修正する
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- [SPARK-48288] コネクタ キャスト式のソース データ型を追加する
- [SPARK-48310][PYTHON][CONNECT] キャッシュされたプロパティはコピーを返す必要がある
- [SPARK-48277] ErrorClassesJsonReader.getErrorMessage のエラー メッセージを改善する
- [SPARK-47986][CONNECT][PYTHON] 既定のセッションがサーバーによって閉じられたときに新しいセッションを作成できない
- "[SPARK-47406][SQL] MYSQLDialect の TIMESTAMP と DATETIME を処理する" を取り消す
- [SPARK-47994][SQL] SQLServer で CASE WHEN 列フィルターがプッシュダウンされるバグを修正する
- [SPARK-47764][CORE][SQL] ShuffleCleanupMode に基づくシャッフル依存関係をクリーンアップする
- [SPARK-47921][CONNECT] ExecuteHolder での ExecuteJobTag の作成を修正する
- [SPARK-48010][SQL] resolveExpression で conf.resolver を繰り返し呼び出さないようにする
- [SPARK-48146][SQL] With 式子アサーションの集計関数を修正する
- [SPARK-48180][SQL] TABLE 引数を指定した UDTF 呼び出しで複数の PARTITION/ORDER BY 式のかっこを忘れた場合のエラーを改善する
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 14.3
「Databricks Runtime 14.3 LTS」をご覧ください。
- 2024 年 11 月 5 日
- [SPARK-48843] BindParameters を使用して無限ループを防止する
- [SPARK-49829] ストリーム ストリーム結合で状態ストアに入力を追加する際の最適化を修正する (正確性の修正)
- [SPARK-49863][SQL]NormalizeFloatingNumbers を修正して、入れ子になった構造体の null 値の許容を維持する
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS]Foreach シンク のユーザー関数エラーの分類エラー クラス
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-46632][SQL]同等の三項式に異なる子がある場合の部分式の削除を修正する
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 22 日
- [SPARK-48843] BindParameters を使用して無限ループを防止する
- [SPARK-49863][SQL]NormalizeFloatingNumbers を修正して、入れ子になった構造体の null 値の許容を維持する
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- [SPARK-46632][SQL]同等の三項式に異なる子がある場合の部分式の削除を修正する
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS]Foreach シンク のユーザー関数エラーの分類エラー クラス
- [SPARK-49829] ストリーム ストリーム結合で状態ストアに入力を追加する際の最適化を修正する (正確性の修正)
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 10 日
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS]FlatMapGroupsWithState ユーザー関数エラーの分類 Error クラス
- [SPARK-49743][SQL]GetArrayStructFields を排除するときに OptimizeCsvJsonExpr でスキーマ フィールドを変更しないでください
- [SPARK-49688][CONNECT]割り込みと実行プランの間のデータ 競合を修正する
- 2024 年 9 月 25 日
- [SPARK-48810][CONNECT] Session stop() API はべき等である必要があり、セッションが既にサーバーによって閉じられていても異常終了してはなりません
- [SPARK-48719][SQL]'RegrS... の計算バグを修正しました。
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- [SPARK-49628][SQL]ConstantFolding では、評価前にステートフル式をコピーする必要があります
- [SPARK-49492][CONNECT]非アクティブな ExecutionHolder に対して再アタッチが試行されました
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT]protobuf メッセージを切り捨てるときに入れ子レベルを制限する
- [SPARK-43242][CORE]シャッフル破損診断で "予期しない種類の BlockId" がスローされる問題を修正しました
- [SPARK-48463][ML] Make Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor で入れ子になった入力列をサポートする
- [SPARK-49526][CONNECT]ArtifactManager で Windows スタイルのパスをサポートする
- [SPARK-49409][CONNECT]CONNECT_SESSION_PLAN_CACHE_SIZEの既定値を調整する
- [SPARK-49366][CONNECT]データフレーム列解決で共用体ノードをリーフとして扱う
- 2024 年 8 月 29 日
- [SPARK-49146][SS] 追加モードのストリーミング クエリでウォーターマークが見つからない問題に関連するアサーション エラーをエラー フレームワークに移動する
- [SPARK-48862][PYTHON][CONNECT] INFO レベルが有効化されていないときに
_proto_to_string
の呼び出しは避けてください - [SPARK-49263][CONNECT] Spark Connect Python クライアント: ブール値データフレーム リーダーのオプションを一貫して処理する
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] バックポート ML ライター/リーダーの修正
- [SPARK-48706][PYTHON] 上位の関数の Python UDF は内部エラーをスローしてはなりません
- [SPARK-49056][SQL] ErrorClassesJsonReader は null を正しく処理できません
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-48934][SS] applyInPandasWithState でタイムアウト設定に Python の datetime タイプが正しく変換されていない
- 2024 年 8 月 1 日
- このリリースには、Spark Java インターフェイスの
ColumnVector
クラスとColumnarArray
クラスのバグ修正が含まれています。 この修正プログラムの前には、これらのクラスのいずれかのインスタンスにnull
値が含まれていると、ArrayIndexOutOfBoundsException
がスローされるか、正しくないデータが返される可能性がありました。 - ノートブックとジョブのサーバーレス コンピューティングでは、ANSI SQL モードが既定で有効になっています。 「サポートされている Spark 構成パラメーター」を参照してください。
- 共有アクセス モードで構成されたコンピューティングでは、Kafka バッチの読み取りと書き込みには、構造化ストリームに関して文書化されている制限事項と同じものが実施されるようになりました。 「Unity Catalog 共有アクセス モードのストリーミングの制限事項と要件」をご覧ください。
SHOW CREATE TABLE
ステートメントからの出力には、具体化されたビューまたはストリーミング テーブルで定義されている行フィルターまたは列マスクが含まれるようになりました。 「SHOW CREATE TABLE」を参照してください。 行フィルターと列マスクの詳細については、「行フィルターと列マスクを使用して機密性の高いテーブル データのフィルター処理」を参照してください。- [SPARK-48896][SPARK-48909] [SPARK-48883] バックポート Spark ML ライターの修正
- [SPARK-48889][SS] 終了する前に testStream で状態ストアをアンロードする
- [SPARK-48705][PYTHON] pyspark を使用して起動されるときに worker_main を明示的に使用する
- [SPARK-48047][SQL] 空の TreeNode タグのメモリ負荷を軽減する
- [SPARK-48544][SQL] 空の TreeNode BitSets のメモリ負荷を軽減する
- [SPARK-46957][CORE] 移行済みシャッフル ファイルのデコミッションは実行元からクリーンアップできる必要があります
- [SPARK-48463] StringIndexer で入れ子になった入力列をサポートさせる
- [SPARK-47202][PYTHON] tzinfo を使用して入力ミスを 壊す datetimes を修正する
- [SPARK-47713][SQL][CONNECT] 自己結合エラーを修正する
- オペレーティング システムのセキュリティを更新。
- このリリースには、Spark Java インターフェイスの
- 2024 年 7 月 11 日
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
.checkpoint()
を使用して DataFrame の有効期間全体にわたってテーブルの状態を永続化します。 - Snowflake JDBC ドライバーでは、バージョン 3.16.1 に更新されました。
- このリリースには、Databricks コンテナー サービスで実行中に [Spark UI] の [環境] タブが正しく表示されない問題の修正が含まれています。
- ノートブックとジョブのサーバーレス コンピューティングでは、ANSI SQL モードが既定で有効になっています。 「サポートされている Spark 構成パラメーター」を参照してください。
- データの読み取り時に無効なパーティションを無視するには、Parquet、ORC、CSV、JSON などのファイル ベースのデータ ソースで ignoreInvalidPartitionPaths データ ソース オプションを true に設定できます。 例: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…). SQL 構成 spark.sql.files.ignoreInvalidPartitionPaths を使用することもできます。 ただし、データ ソース オプションは SQL 構成よりも優先されます。 この設定の既定は false です。
- [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags を適切に threadlocal にする
- [SPARK-48445][SQL] 高コストの子を持つ UDF をインライン化しない
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan をストリーミング Dataset に適用しない
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- [SPARK-48503][SQL] group-by や非等値列が誤って許可されていた無効なスカラー サブクエリを修正する
- [SPARK-48100][SQL] スキーマで選択されていない入れ子構造フィールドのスキップに関する問題を修正する
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifier の遅延書き換えを修正する
- [SPARK-48252][SQL] 必要なときに CommonExpressionRef を更新する
- [SPARK-48475][PYTHON] PySpark で _get_jvm_function in を最適化する
- [SPARK-48292][CORE] 取り消し: [SPARK-39195][SQL] Spark OutputCommitCoordinator はコミットされたファイルとタスクの状態が整合していない場合にステージを中止する必要がある
- オペレーティング システムのセキュリティを更新。
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
- 2024 年 6 月 17 日
applyInPandasWithState()
は共有クラスターで使用できます。- Photon TopK を使用したランクウィンドウの最適化で、構造体を含むパーティションが正しく処理されないバグを修正しました。
- [SPARK-48310][PYTHON][CONNECT] キャッシュされたプロパティはコピーを返す必要がある
- [SPARK-48276][PYTHON][CONNECT]
SQLExpression
の足りない__repr__
メソッドを追加する - [SPARK-48294][SQL] nestedTypeMissingElementTypeError で小文字を処理する
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 21 日
- (動作変更) ノートブック内のすべてのウィジェット値を取得するために
dbutils.widgets.getAll()
がサポートされるようになりました。 - 10 進数を含む入力で予期しない例外が発生する try_divide() 関数のバグを修正しました。
- [SPARK-48056][CONNECT][PYTHON] SESSION_NOT_FOUND エラーが発生しても部分的な応答が受信されなかった場合にプランを再実行する
- [SPARK-48146][SQL] With 式子アサーションの集計関数を修正する
- [SPARK-47986][CONNECT][PYTHON] 既定のセッションがサーバーによって閉じられたときに新しいセッションを作成できない
- [SPARK-48180][SQL] TABLE 引数を指定した UDTF 呼び出しで複数の PARTITION/ORDER BY 式のかっこを忘れた場合のエラーを改善する
- [SPARK-48016][SQL] 10 進数を使用する場合 try_divide 関数のバグを修正する
- [SPARK-48197][SQL] 無効なラムダ関数のアサート エラーを回避する
- [SPARK-47994][SQL] SQLServer で CASE WHEN 列フィルターがプッシュダウンされるバグを修正する
- [SPARK-48173][SQL] CheckAnalysis にクエリ プラン全体が表示される
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- オペレーティング システムのセキュリティを更新。
- (動作変更) ノートブック内のすべてのウィジェット値を取得するために
- 2024 年 5 月 9 日
- (動作の変更)
applyInPandas
とmapInPandas
UDF の種類が、Databricks Runtime 14.3 以降を実行している共有アクセス モード コンピューティングでサポートされるようになりました。 - [SPARK-47739][SQL] 論理 avro 型を登録する
- [SPARK-47941] [SS] [Connect] PySpark の ForeachBatch worker 初期化エラーについてユーザーに伝える
- [SPARK-48010][SQL] resolveExpression で conf.resolver を繰り返し呼び出さないようにする
- [SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
をキャッシュする - [SPARK-47956][SQL] 未解決の LCA リファレンスのサニティ チェックを実行する
- [SPARK-47543][CONNECT][PYTHON] Pandas DataFrame から dict を MapType として推論して DataFrame を作成できるようにする
- [SPARK-47819][CONNECT][Cherry-pick-14.3] 実行のクリーンアップに非同期コールバックを使用する
- [SPARK-47764][CORE][SQL] ShuffleCleanupMode に基づくシャッフル依存関係をクリーンアップする
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange をスローするときにパラメーター不足のエラーを引き起こす null groupId を修正する
- [SPARK-47839][SQL] RewriteWithExpression における集計のバグを修正する
- [SPARK-47371][SQL] XML: CDATA で見つかった行タグを無視する
- [SPARK-47895][SQL] グループはすべてべき等である必要がある
- [SPARK-47973][CORE] SparkContext.assertNotStopped() の SparkContext.stop() 以降の呼び出しサイトをログする
- オペレーティング システムのセキュリティを更新。
- (動作の変更)
- 2024 年 4 月 25 日
- [SPARK-47543][CONNECT][PYTHON] Pandas DataFrame から
dict
をMapType
として推論して DataFrame を作成できるようにする - [SPARK-47694][CONNECT] クライアント側で最大メッセージ サイズを構成できるようにする
- [SPARK-47664][PYTHON][CONNECT][Cherry-pick-14.3] キャッシュされたスキーマで列名を検証する
- [SPARK-47862][PYTHON][CONNECT] proto ファイルの生成を修正する
- "[SPARK-47543][CONNECT][PYTHON] Pandas DataFrame から
dict
をMapType
として推論して DataFrame を作成できるようにする" を取り消す - [SPARK-47704][SQL] spark.sql.json.enablePartialResults が有効になっている場合に、JSON の解析が "java.lang.ClassCastException" で失敗する
- [SPARK-47812][CONNECT] ForEachBatch ワーカーの SparkSession のシリアル化をサポートする
- [SPARK-47818][CONNECT][Cherry-pick-14.3] SparkConnectPlanner にプラン キャッシュを導入して、分析要求のパフォーマンスを向上させる
- [SPARK-47828][CONNECT][PYTHON] 無効なプランで
DataFrameWriterV2.overwrite
が失敗する - オペレーティング システムのセキュリティを更新。
- [SPARK-47543][CONNECT][PYTHON] Pandas DataFrame から
- 2024 年 4 月 11 日
- (動作変更) さまざまなコンピューティングの種類で一貫した動作を確保するために、共有クラスター上の PySpark UDF は、非分離クラスターと割り当てられたクラスター上の UDF の動作と一致するようになりました。 この更新プログラムには、既存のコードを中断する可能性がある次の変更が含まれています。
- 戻り値の型が
string
である UDF は、非string
値をstring
値に暗黙的には変換しなくなりました。 以前は、戻り値の型がstr
である UDF は、戻り値の実際のデータ型に関係なく、戻り値をstr()
関数でラップしていました。 - 戻り値の型が
timestamp
である UDF は、timezone
を持つtimestamp
への変換を暗黙的には適用しなくなりました。 - Spark クラスター構成
spark.databricks.sql.externalUDF.*
は、共有クラスター上の PySpark UDF には適用されなくなりました。 - Spark クラスター構成
spark.databricks.safespark.externalUDF.plan.limit
は、PySpark UDF には影響を与えなくなり、クエリあたり 5 個の UDF という PySpark UDF でのパブリック プレビュー制限が削除されました。 - Spark クラスター構成
spark.databricks.safespark.sandbox.size.default.mib
は、共有クラスター上の PySpark UDF には適用されなくなりました。 代わりに、システム上の使用可能なメモリが使用されます。 PySpark UDF のメモリを制限するには、最小値を100m
にしてspark.databricks.pyspark.udf.isolation.memoryLimit
を使用します。
- 戻り値の型が
TimestampNTZ
データ型は、リキッド クラスタリングを使用するクラスタリング列としてサポートされるようになりました。 詳しくは、「Delta テーブルにリキッド クラスタリングを使用する」をご覧ください。- [SPARK-47511][SQL] ID を再割り当てすることで式で正規化します
- [SPARK-47509][SQL] ラムダ関数と上位関数のサブクエリ式をブロックします
- [SPARK-46990][SQL] イベントハブによって出力される空の Avro ファイルが読み込まれる問題を修正します
- [SPARK-47638][PS][CONNECT] PS での列名の検証をスキップします
- オペレーティング システムのセキュリティを更新。
- (動作変更) さまざまなコンピューティングの種類で一貫した動作を確保するために、共有クラスター上の PySpark UDF は、非分離クラスターと割り当てられたクラスター上の UDF の動作と一致するようになりました。 この更新プログラムには、既存のコードを中断する可能性がある次の変更が含まれています。
- 2024 年 3 月 14 日
- [SPARK-47135][SS] Kafka データ損失例外のエラー クラスを実装します
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning ヘルパー関数がある
- [SPARK-47145][SQL] V2 戦略の行データ ソース スキャン exec にテーブル識別子を渡します。
- [SPARK-47044][SQL] JDBC 外部データソースに対して実行されたクエリを追加して出力を説明する
- [SPARK-47167][SQL] JDBC 匿名関係の具象クラスを追加する
- [SPARK-47070] サブクエリの書き換え後の無効な集計を修正する
- [SPARK-47121][CORE] StandaloneSchedulerBackend シャットダウン中に RejectedExecutionExceptions を回避する
- "[SPARK-46861][CORE] DAGScheduler でのデッドロックを回避する" を取り消す
- [SPARK-47125][SQL] Univocity が解析をトリガーしない場合は null を返す
- [SPARK-46999][SQL] ExpressionWithUnresolvedIdentifier は式ツリーに他の式を含める必要がある
- [SPARK-47129][CONNECT][SQL]
ResolveRelations
キャッシュ接続プランを適切に作成する - [SPARK-47241][SQL] ExtractGenerator のルールの順序の問題を修正します
- [SPARK-47035][SS][CONNECT] クライアント側リスナーのプロトコル
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 29 日
- MERGE コマンドでローカル コレクションをソースとして使用すると、操作メトリック numSourceRows が正しい行数の 2 倍になる問題を修正しました。
- 場所が定義されたスキーマを作成するには、ユーザーに ANY FILE に対する SELECT および MODIFY 権限が必要になりました。
- [SPARK-47071][SQL] 特殊な式が含まれている場合に With 式をインライン化する
- [SPARK-47059][SQL] ALTER COLUMN v1 コマンドのエラー コンテキストをアタッチする
- [SPARK-46993][SQL] セッション変数の定数の畳み込みを修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 1 月 3 日
- [SPARK-46933] JDBCRDD を使用するコネクタにクエリ実行時間メトリックを追加します。
- [SPARK-46763] 重複する属性での ReplaceDeduplicateWithAggregate のアサーション エラーを修正します。
- [SPARK-46954] XML: InputStreamReader を BufferedReader でラップします。
- [SPARK-46655]
DataFrame
メソッドでのクエリ コンテキストのキャッチをスキップします。 - [SPARK-44815] 余分な RPC を回避するために df.schema をキャッシュします。
- [SPARK-46952] XML: 破損したレコードのサイズを制限します。
- [SPARK-46794] LogicalRDD 制約からサブクエリを削除します。
- [SPARK-46736] protobuf コネクタに空のメッセージ フィールドを保持します。
- [SPARK-45182] チェックサムで確定された親の不確定ステージを再試行した後で、古いステージからのタスクの完了を無視します。
- [SPARK-46414] prependBaseUri を使用して javascript インポートをレンダリングします。
- [SPARK-46383]
TaskInfo.accumulables()
の有効期間を短縮してドライバー ヒープの使用量を削減します。 - [SPARK-46861] DAGScheduler でのデッドロックを回避します。
- [SPARK-46954] XML: スキーマ インデックスの検索を最適化します。
- [SPARK-46676] dropDuplicatesWithinWatermark はプランの正規化でエラーになってはなりません。
- [SPARK-46644] isZero を使用するように SQLMetric の add と merge を変更します。
- [SPARK-46731] 状態データ ソース - リーダーによって状態ストア プロバイダー インスタンスを管理します。
- [SPARK-46677]
dataframe["*"]
の解像度を修正します。 - [SPARK-46610] テーブルを作成すると、オプション内のキーの値がない場合に例外がスローされます。
- [SPARK-46941] SizeBasedWindowFunction が含まれている場合、上位 k の計算にウィンドウ グループ制限ノードを挿入できません。
- [SPARK-45433] timestamp が、指定された timestampFormat と一致しない場合の CSV/JSON スキーマ推論を修正します。
- [SPARK-46930] Avro で共用体型フィールドのカスタム プレフィックスのサポートを追加します。
- [SPARK-46227] 14.3 へのバックポート。
- [SPARK-46822] jdbc で jdbc 型を Catalyst 型にキャストする場合は、spark.sql.legacy.charVarcharAsString に従います。
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 14.1
「Databricks Runtime 14.1」を参照してください。
- 2024 年 11 月 5 日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- 2024 年 10 月 22 日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- 2024 年 10 月 10 日
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS]FlatMapGroupsWithState ユーザー関数エラーの分類 Error クラス
- [SPARK-49743][SQL]GetArrayStructFields を排除するときに OptimizeCsvJsonExpr でスキーマ フィールドを変更しないでください
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 25 日
- [SPARK-49628][SQL]ConstantFolding では、評価前にステートフル式をコピーする必要があります
- [SPARK-43242][CORE]シャッフル破損診断で "予期しない種類の BlockId" がスローされる問題を修正しました
- [SPARK-48719][SQL]'RegrS... の計算バグを修正しました。
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- [SPARK-46601] [CORE]handleStatusMessage のログ エラーを修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT]ArtifactManager で Windows スタイルのパスをサポートする
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect Python クライアント: ブール値データフレーム リーダーのオプションを一貫して処理する
- [SPARK-49056][SQL] ErrorClassesJsonReader は null を正しく処理できません
- 2024 年 8 月 14 日
- [SPARK-48706][PYTHON] 上位の関数の Python UDF は内部エラーをスローしてはなりません
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-48050][SS] クエリの開始時に論理プランをログ記録する
- 2024 年 8 月 1 日
- このリリースには、Spark Java インターフェイスの
ColumnVector
クラスとColumnarArray
クラスのバグ修正が含まれています。 この修正プログラムの前には、これらのクラスのいずれかのインスタンスにArrayIndexOutOfBoundsException
値が含まれていると、null
がスローされるか、正しくないデータが返される可能性がありました。 SHOW CREATE TABLE
ステートメントからの出力には、具体化されたビューまたはストリーミング テーブルで定義されている行フィルターまたは列マスクが含まれるようになりました。 「SHOW CREATE TABLE」を参照してください。 行フィルターと列マスクの詳細については、「行フィルターと列マスクを使用して機密性の高いテーブル データのフィルター処理」を参照してください。- [SPARK-48705][PYTHON] pyspark を使用して起動されるときに worker_main を明示的に使用する
- [SPARK-47202][PYTHON] tzinfo を使用して入力ミスを 壊す datetimes を修正する
- オペレーティング システムのセキュリティを更新。
- このリリースには、Spark Java インターフェイスの
- 2024 年 7 月 11 日
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
.checkpoint()
を使用して DataFrame の有効期間全体にわたってテーブルの状態を永続化します。 - このリリースには、Databricks コンテナー サービスで実行中に [Spark UI] の [環境] タブが正しく表示されない問題の修正が含まれています。
- [SPARK-48475][PYTHON] PySpark で _get_jvm_function in を最適化する
- [SPARK-48445][SQL] 高コストの子を持つ UDF をインライン化しない
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan をストリーミング Dataset に適用しない
- [SPARK-48292][CORE] 取り消し: [SPARK-39195][SQL] Spark OutputCommitCoordinator はコミットされたファイルとタスクの状態が整合していない場合にステージを中止する必要がある
- [SPARK-48503][SQL] group-by や非等値列が誤って許可されていた無効なスカラー サブクエリを修正する
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifier の遅延書き換えを修正する
- [SPARK-48100][SQL] スキーマで選択されていない入れ子構造フィールドのスキップに関する問題を修正する
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- オペレーティング システムのセキュリティを更新。
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
- 2024 年 6 月 17 日
- Photon TopK を使用したランクウィンドウの最適化で、構造体を含むパーティションが正しく処理されないバグを修正しました。
- [SPARK-48276][PYTHON][CONNECT]
SQLExpression
の足りない__repr__
メソッドを追加する - [SPARK-48277] ErrorClassesJsonReader.getErrorMessage のエラー メッセージを改善する
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 21 日
- (動作変更) ノートブック内のすべてのウィジェット値を取得するために
dbutils.widgets.getAll()
がサポートされるようになりました。 - [SPARK-47994][SQL] SQLServer で CASE WHEN 列フィルターがプッシュダウンされるバグを修正する
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- [SPARK-48173][SQL] CheckAnalysis にクエリ プラン全体が表示される
- オペレーティング システムのセキュリティを更新。
- (動作変更) ノートブック内のすべてのウィジェット値を取得するために
- 2024 年 5 月 9 日
- [SPARK-47371][SQL] XML: CDATA で見つかった行タグを無視する
- [SPARK-47895][SQL] グループはすべてべき等である必要がある
- [SPARK-47956][SQL] 未解決の LCA リファレンスのサニティ チェックを実行する
- [SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
をキャッシュする - [SPARK-47973][CORE] SparkContext.assertNotStopped() の SparkContext.stop() 以降の呼び出しサイトをログする
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 25 日
- [SPARK-47704][SQL] spark.sql.json.enablePartialResults が有効になっている場合に、JSON の解析が "java.lang.ClassCastException" で失敗する
- [SPARK-47828][CONNECT][PYTHON] 無効なプランで
DataFrameWriterV2.overwrite
が失敗する - オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 11 日
- [SPARK-47638][PS][CONNECT] PS での列名の検証をスキップします
- [SPARK-38708][SQL] Hive メタストア クライアントを Hive 3.1 用の 3.1.3 にアップグレードします
- [SPARK-47309][SQL][XML] スキーマ推論の単体テストを追加します
- [SPARK-47509][SQL] ラムダ関数と上位関数のサブクエリ式をブロックします
- [SPARK-46990][SQL] イベントハブによって出力される空の Avro ファイルが読み込まれる問題を修正します
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 1 日
- [SPARK-47305][SQL] プランにバッチとストリーミングの両方がある場合に LocalRelation の isStreaming フラグに正しくタグを付けるために PruneFilters を修正します
- [SPARK-47218][SQL] XML: XML トークナイザーのコメントされた行タグを無視します
- [SPARK-47300][SQL]
quoteIfNeeded
は数字で始まる識別子を引用符で囲む必要があります - [SPARK-47368][SQL] ParquetRowConverter の inferTimestampNTZ 構成チェックを削除します
- [SPARK-47070] サブクエリの書き換え後の無効な集計を修正する
- [SPARK-47322][PYTHON][CONNECT]
withColumnsRenamed
列名の重複処理をwithColumnRenamed
と整合させます - [SPARK-47300] DecomposerSuite の修正
- [SPARK-47218] [SQL] XML: DROPMALFORMED モードで SchemaOfXml が失敗するように変更されました
- [SPARK-47385] オプション入力を使用してタプル エンコーダーを修正します
- オペレーティング システムのセキュリティを更新。
- 2024 年 3 月 14 日
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning ヘルパー関数がある
- [SPARK-47145][SQL] V2 戦略の行データ ソース スキャン exec にテーブル識別子を渡します。
- [SPARK-47167][SQL] JDBC 匿名関係の具象クラスを追加する
- [SPARK-47129][CONNECT][SQL]
ResolveRelations
キャッシュ接続プランを適切に作成する - "[SPARK-46861][CORE] DAGScheduler でのデッドロックを回避する" を取り消す
- [SPARK-47044][SQL] JDBC 外部データソースに対して実行されたクエリを追加して出力を説明する
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 29 日
- MERGE コマンドでローカル コレクションをソースとして使用すると、操作メトリック numSourceRows が正しい行数の 2 倍になる問題を修正しました。
- 場所が定義されたスキーマを作成するには、ユーザーに ANY FILE に対する SELECT および MODIFY 権限が必要になりました。
- オートローダー、read_files、COPY INTO、DLT、DBSQL を使用して XML ファイルを取り込めるようになりました。 XML ファイルのサポートでは、スキーマの推論と進化、型の不一致によるデータの復旧、XSD を使用した XML の検証、from_xml、schema_of_xml、to_xml などの SQL 式のサポートを自動的に行うことができます。 詳細については、XML ファイル サポートに関するページを参照してください。 以前に外部 spark-xml パッケージを使用していた場合は、移行ガイダンスについて、こちらを参照してください。
- [SPARK-46248][SQL] XML: ignoreCorruptFiles および ignoreMissingFiles オプションのサポート
- [SPARK-47059][SQL] ALTER COLUMN v1 コマンドのエラー コンテキストをアタッチする
- [SPARK-46954][SQL] XML: InputStreamReader を BufferedReader でラップする
- [SPARK-46954][SQL] XML: スキーマ インデックスの検索を最適化する
- [SPARK-46630][SQL] XML: 書き込み時に XML 要素名を検証する
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 8 日
- Unity カタログの具体化されたビューに対する変更データ フィード (CDF) クエリはサポートされていません。また、Unity カタログの具体化されたビューで CDF クエリを実行しようとするとエラーが返されます。 Unity カタログのストリーミング テーブルは、Databricks Runtime 14.1 以降の 非
APPLY CHANGES
テーブルに対する CDF クエリをサポートします。 Databricks Runtime 14.0 以前の Unity カタログのストリーミング テーブルでは、CDF クエリはサポートされていません。 - [SPARK-46952] XML: 破損したレコードのサイズを制限します。
- [SPARK-45182] チェックサムで確定された親の不確定ステージを再試行した後で、古いステージからのタスクの完了を無視します。
- [SPARK-46794] LogicalRDD 制約からサブクエリを削除します。
- [SPARK-46933] JDBCRDD を使用するコネクタにクエリ実行時間メトリックを追加します。
- [SPARK-46861] DAGScheduler でのデッドロックを回避します。
- [SPARK-45582] 出力モード ストリーミング集計内でコミットを呼び出した後にストア インスタンスが使用されないようにします。
- [SPARK-46930] Avro で共用体型フィールドのカスタム プレフィックスのサポートを追加します。
- [SPARK-46941] SizeBasedWindowFunction が含まれている場合、上位 k の計算にウィンドウ グループ制限ノードを挿入できません。
- [SPARK-46396] timestamp 推論では例外をスローしてはいけません。
- [SPARK-46822] jdbc で jdbc 型を Catalyst 型にキャストする場合は、spark.sql.legacy.charVarcharAsString に従います。
- [SPARK-45957] 非実行可能コマンドで実行プランが生成されないようにします。
- オペレーティング システムのセキュリティを更新。
- Unity カタログの具体化されたビューに対する変更データ フィード (CDF) クエリはサポートされていません。また、Unity カタログの具体化されたビューで CDF クエリを実行しようとするとエラーが返されます。 Unity カタログのストリーミング テーブルは、Databricks Runtime 14.1 以降の 非
- 2024 年 1 月 31 日
- [SPARK-46684] 引数を正しく渡すように CoGroup.applyInPandas/Arrow を修正します。
- [SPARK-46763] 重複する属性での ReplaceDeduplicateWithAggregate のアサーション エラーを修正します。
- [SPARK-45498] フォローアップ: 古いステージ試行からのタスクの完了を無視します。
- [SPARK-46382] XML:
ignoreSurroundingSpaces
のドキュメントを更新します。 - [SPARK-46383]
TaskInfo.accumulables()
の有効期間を短縮してドライバー ヒープの使用量を削減します。 - [SPARK-46382] XML: ignoreSurroundingSpaces の既定値を true にします。
- [SPARK-46677]
dataframe["*"]
の解像度を修正します。 - [SPARK-46676] dropDuplicatesWithinWatermark はプランの正規化でエラーになってはなりません。
- [SPARK-46633] 長さゼロのブロックを処理するように Avro リーダーを修正します。
- [SPARK-45912] XSDToSchema API の機能強化: クラウド ストレージ アクセシビリティの HDFS API に変更します。
- [SPARK-46599] XML: 互換性チェックに TypeCoercion.findTightestCommonType を使用します。
- [SPARK-46382] XML: 要素間に点在する値をキャプチャします。
- [SPARK-46769] タイムスタンプ関連のスキーマ推論を調整します。
- [SPARK-46610] テーブルを作成すると、オプション内のキーの値がない場合に例外がスローされます。
- [SPARK-45964] Catalyst パッケージの下の XML および JSON パッケージのプライベート SQL アクセサーを削除します。
- 「[SPARK-46769] タイムスタンプ関連のスキーマ推論を調整します」を元に戻します。
- [SPARK-45962]
treatEmptyValuesAsNulls
を削除し、XML で代わりにnullValue
オプションを使用します。 - [SPARK-46541] 自己結合におけるあいまいな列参照を修正します。
- オペレーティング システムのセキュリティを更新。
- 2024 年 1 月 17 日
- Photon クエリによって返される Explain プランの
shuffle
ノードは、ブロードキャスト結合の一部であるシャッフル中にメモリ不足エラーが発生した場合に、causedBroadcastJoinBuildOOM=true
フラグを追加するように更新されます。 - TLSv1.3 経由で通信するときの待機時間の増加を回避するために、このメンテナンス リリースには JDK バグ JDK-8293562 を修正するための JDK 8 インストールへのパッチが含まれています。
- [SPARK-46538]
ALSModel.transform
におけるあいまいな列参照の問題を修正します。 - [SPARK-46417] hive.getTable を呼び出し、throwException が false の場合は失敗しません。
- [SPARK-46484]
resolveOperators
ヘルパー関数でプラン ID が保持されるようにします。 - [SPARK-46153] XML: TimestampNTZType のサポートを追加します。
- [SPARK-46152] XML: XML スキーマ推論で DecimalType のサポートを追加します。
- [SPARK-46145] spark.catalog.listTables は、テーブルまたはビューが見つからないときに例外をスローしません。
- [SPARK-46478] SPARK-43049 を元に戻して、文字列に oracle varchar(255) を使用します。
- [SPARK-46394]
spark.sql.legacy.keepCommandOutputSchema
が true に設定されている場合に、特殊文字を持つスキーマでの spark.catalog.listDatabases() の問題を修正します。 - [SPARK-46337]
CTESubstitution
でPLAN_ID_TAG
を保持するようにします。 - [SPARK-46466] ベクトル化された Parquet 閲覧者は、timestamp ntz のリベースを実行しないでください。
- [SPARK-46587] XML: XSD の大きな整数変換を修正します。
- [SPARK-45814] メモリ リークを回避するため、ArrowConverters.createEmptyArrowBatch で close() を呼び出すようにします。
- [SPARK-46132] RPC SSL の JKS キーのキー パスワードをサポートします。
- [SPARK-46602] ビュー/テーブルが存在しない場合に、ビューの作成時に
allowExisting
を伝達します。 - [SPARK-46173] 日付解析中の trimAll 呼び出しをスキップします。
- [SPARK-46355] XML: 読み取り完了時に InputStreamReader を閉じます。
- [SPARK-46600] SqlConf と SqlApiConf の間の共有コードを SqlApiConfHelper に移動します。
- [SPARK-46261]
DataFrame.withColumnsRenamed
では、dict/map の順序を維持する必要があります。 - [SPARK-46056] Parquet のベクトル化された読み取り NPE を byteArrayDecimalType の既定値で修正します。
- [SPARK-46260]
DataFrame.withColumnsRenamed
は dict の順序を考慮する必要があります。 - [SPARK-46250] test_parity_listener をフレーク解除します。
- [SPARK-46370] 列の既定値を変更した後にテーブルからクエリを実行するときのバグを修正します。
- [SPARK-46609] PartitioningPreservingUnaryExecNode での指数関数的な爆発を回避します。
- [SPARK-46058] privateKeyPassword に別のフラグを追加します。
- Photon クエリによって返される Explain プランの
- 2023 年 12 月 14 日
- JDBC または ODBC クライアントからの getColumns 操作でエスケープされたアンダースコアが誤って処理され、ワイルドカードとして解釈される問題を修正しました。
- [SPARK-45509] Spark Connect の df 列参照動作を修正します。
- [SPARK-45844] XML の大文字と小文字の区別を実装します。
- [SPARK-46141] spark.sql.legacy.ctePrecedencePolicy の既定値を CORRECTED に変更します。
- [SPARK-46028]
Column.__getitem__
が入力列を受け入れるようにします。 - [SPARK-46255] 複合型 -> 文字列変換をサポートします。
- [SPARK-45655] CollectMetrics の AggregateFunctions 内で非決定論的な式を許可します。
- [SPARK-45433] timestamp が、指定された timestampFormat と一致しない場合の CSV/JSON スキーマ推論を修正します。
- [SPARK-45316] 新しいパラメーター
ignoreCorruptFiles
/ignoreMissingFiles
をHadoopRDD
とNewHadoopRDD
に追加します。 - [SPARK-45852] ログ記録中の再帰エラーを適切に処理します。
- [SPARK-45920] 序数によるグループはべき等である必要があります。
- オペレーティング システムのセキュリティを更新。
- 2023 年 11 月 29 日
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
pyarrow-hotfix
をインストールしました。 - JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアがワイルドカードとして誤って解釈される問題を修正しました。 - 自動ローダーまたはストリーミング テーブルを使用して CSV データを取り込む場合、大きな CSV ファイルは分割可能になり、スキーマの推論とデータ処理の両方で並列に処理できます。
- [SPARK-45892] オプティマイザー プランの検証をリファクタリングして、
validateSchemaOutput
とvalidateExprIdUniqueness
を分離します。 - [SPARK-45620] Python UDF に関連する API で camelCase が使用されるようになりました。
- [SPARK-44790] Python、Spark Connect、SQL の
to_xml
実装とバインドを追加しました。 - [SPARK-45770]
Dataframe.drop
のDataFrameDropColumns
を使用して列解決を修正しました。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - [SPARK-44784] SBT テストを密閉にしました。
- オペレーティング システムのセキュリティを更新。
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
- 2023 年 11 月 10 日
- [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-45250] 動的割り当てが無効になっている場合の、Yarn クラスターのステージ レベルのタスク リソース プロファイルのサポートを追加しました。
- [SPARK-44753] PySpark SQL の XML DataFrame リーダーとライターを追加しました。
- [SPARK-45396]
PySpark.ml.connect
モジュールのドキュメント エントリを追加しました。 - [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45541] SSLFactory を追加しました。
- [SPARK-45577]
UserDefinedPythonTableFunctionAnalyzeRunner
が名前付き引数からフォールド値を渡すように修正しました。 - [SPARK-45562] 'rowTag' を必須オプションにしました。
- [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [SPARK-43380] Avro 読み取りの速度低下を修正しました。
- [SPARK-45430]
FramelessOffsetWindowFunction
は、IGNORE NULLS
とoffset > rowCount
の場合に失敗しなくなりました。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-45386] 誤って
StorageLevel.NONE
から 0 が返される問題を修正しました。 - [SPARK-44219] 最適化書き換えに関する規則ごとの検証チェックを追加しました。
- [SPARK-45543] 他の window 関数に rank-like 関数と同じウィンドウ フレームがない場合に
InferWindowGroupLimit
で問題が発生する問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45545]
- 2023 年 9 月 27 日
- [SPARK-44823]
black
を 23.9.1 に更新し、誤ったチェックを修正しました。 - [SPARK-45339] PySpark では、再試行したエラーがログに記録されるようになりました。
- 「[SPARK-42946] 変数置換で入れ子になった機密データを編集しました」を元に戻します。
- [SPARK-44551] OSS と同期するようにコメントを編集しました。
- [SPARK-45360] Spark セッション ビルダーでは、
SPARK_REMOTE
からの初期化がサポートされています。 - [SPARK-45279]
plan_id
をすべての論理プランにアタッチしました。 - [SPARK-45425]
TINYINT
をMsSqlServerDialect
でShortType
にマップしました。 - [SPARK-45419]
rocksdb
sst ファイル ID の再利用を回避するために、より大きなバージョンのファイル バージョン マップ エントリを削除しました。 - [SPARK-45488]
rowTag
要素の値に対するサポートを追加しました。 - [SPARK-42205]
JsonProtocol
イベント ログのTask/Stage
開始イベントのAccumulables
のログを削除しました。 - [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - [SPARK-45256] 初期容量より多い値を書き込むと
DurationWriter
が失敗します。 - [SPARK-43380] パフォーマンス低下を引き起こすことなく、
Avro
データ型変換の問題を修正しました。 - [SPARK-45182] ステージ出力が不確定のときにすべてのステージ タスクを再試行できるように、シャッフル マップ ステージのロールバックのサポートを追加しました。
- [SPARK-45399]
newOption
を使う XML オプションを追加しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44823]
Databricks Runtime 13.3 LTS
「Databricks Runtime 13.3 LTS」をご覧ください。
- 2024 年 11 月 5 日
- [SPARK-48843] BindParameters を使用して無限ループを防止する
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS]Foreach シンク のユーザー関数エラーの分類エラー クラス
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 22 日
- [SPARK-48843] BindParameters を使用して無限ループを防止する
- [BACKPORT][[SPARK-49326]]https://issues.apache.org/jira/browse/SPARK-49326)[SS]Foreach シンク のユーザー関数エラーの分類エラー クラス
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 10 日
- [SPARK-49743][SQL]GetArrayStructFields を排除するときに OptimizeCsvJsonExpr でスキーマ フィールドを変更しないでください
- 2024 年 9 月 25 日
- [SPARK-46601] [CORE]handleStatusMessage のログ エラーを修正する
- [SPARK-48719][SQL]最初のパラメーターが null の場合の RegrSlope と RegrIntercept の計算バグを修正しました
- [SPARK-43242][CORE]シャッフル破損診断で "予期しない種類の BlockId" がスローされる問題を修正しました
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT]ArtifactManager で Windows スタイルのパスをサポートする
- [SPARK-48463][ML] Make Binarizer、Bucketizer、Vector Assembler、FeatureHasher、QuantizeDiscretizer、OnehotEncoder、StopWordsRemover、Imputer、Interactor で入れ子になった入力列をサポートする
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 29 日
- 2024 年 8 月 14 日
- [SPARK-49056][SQL] ErrorClassesJsonReader は null を正しく処理できません
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- 2024 年 8 月 1 日
- このリリースには、Spark Java インターフェイスの
ColumnVector
クラスとColumnarArray
クラスのバグ修正が含まれています。 この修正プログラムの前には、これらのクラスのいずれかのインスタンスにArrayIndexOutOfBoundsException
値が含まれていると、null
がスローされるか、正しくないデータが返される可能性がありました。 - [SPARK-47202][PYTHON] tzinfo を使用して入力ミスを 壊す datetimes を修正する
- [SPARK-48896][SPARK-48909] [SPARK-48883] バックポート Spark ML ライターの修正
- [SPARK-48463] StringIndexer で入れ子になった入力列をサポートさせる
- オペレーティング システムのセキュリティを更新。
- このリリースには、Spark Java インターフェイスの
- 2024 年 7 月 11 日
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
.checkpoint()
を使用して DataFrame の有効期間全体にわたってテーブルの状態を永続化します。 - このリリースには、Databricks コンテナー サービスで実行中に [Spark UI] の [環境] タブが正しく表示されない問題の修正が含まれています。
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- [SPARK-48292][CORE] 取り消し: [SPARK-39195][SQL] Spark OutputCommitCoordinator はコミットされたファイルとタスクの状態が整合していない場合にステージを中止する必要がある
- [SPARK-48503][SQL] group-by や非等値列が誤って許可されていた無効なスカラー サブクエリを修正する
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan をストリーミング Dataset に適用しない
- [SPARK-48475][PYTHON] PySpark で _get_jvm_function in を最適化する
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifier の遅延書き換えを修正する
- [SPARK-48445][SQL] 高コストの子を持つ UDF をインライン化しない
- オペレーティング システムのセキュリティを更新。
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
- 2024 年 6 月 17 日
- [SPARK-48277] ErrorClassesJsonReader.getErrorMessage のエラー メッセージを改善する
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 21 日
- (動作変更) ノートブック内のすべてのウィジェット値を取得するために
dbutils.widgets.getAll()
がサポートされるようになりました。 - [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- [SPARK-47994][SQL] SQLServer で CASE WHEN 列フィルターがプッシュダウンされるバグを修正する
- オペレーティング システムのセキュリティを更新。
- (動作変更) ノートブック内のすべてのウィジェット値を取得するために
- 2024 年 5 月 9 日
- [SPARK-47956][SQL] 未解決の LCA リファレンスのサニティ チェックを実行する
- [SPARK-46822][SQL] jdbc で jdbc 型を Catalyst 型にキャストする場合は、spark.sql.legacy.charVarcharAsString に従う
- [SPARK-47895][SQL] グループはすべてべき等である必要がある
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange をスローするときにパラメーター不足のエラーを引き起こす null groupId を修正する
- [SPARK-47973][CORE] SparkContext.assertNotStopped() の SparkContext.stop() 以降の呼び出しサイトをログする
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 25 日
- [SPARK-44653][SQL] 単純でない DataFrame 共用体でキャッシュを破損させてはならない
- 各種のバグ修正。
- 2024 年 4 月 11 日
- [SPARK-47509][SQL] ラムダ関数と上位関数のサブクエリ式をブロックします
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 1 日
- [SPARK-47385] オプション入力を使用してタプル エンコーダーを修正します
- [SPARK-38708][SQL] Hive メタストア クライアントを Hive 3.1 用の 3.1.3 にアップグレードします
- [SPARK-47200][SS] Foreach バッチ シンクユーザー関数エラーのエラー クラス
- [SPARK-47368][SQL] ParquetRowConverter の inferTimestampNTZ 構成チェックを削除します
- [SPARK-44252][SS] 新しいエラー クラスを定義し、DFS からの状態の読み込みが失敗した場合に適用する
- [SPARK-47135][SS] Kafka データ損失例外のエラー クラスを実装します
- [SPARK-47300][SQL]
quoteIfNeeded
は数字で始まる識別子を引用符で囲む必要があります - [SPARK-47305][SQL] プランにバッチとストリーミングの両方がある場合に LocalRelation の isStreaming フラグに正しくタグを付けるために PruneFilters を修正します
- [SPARK-47070] サブクエリの書き換え後の無効な集計を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 3 月 14 日
- [SPARK-47145][SQL] V2 戦略の行データ ソース スキャン exec にテーブル識別子を渡します。
- [SPARK-47167][SQL] JDBC 匿名関係の具象クラスを追加する
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning ヘルパー関数がある
- [SPARK-47044][SQL] JDBC 外部データソースに対して実行されたクエリを追加して出力を説明する
- [SPARK-47125][SQL] Univocity が解析をトリガーしない場合は null を返す
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 29 日
- MERGE コマンドでローカル コレクションをソースとして使用すると、操作メトリック numSourceRows が正しい行数の 2 倍になる問題を修正しました。
- 場所が定義されたスキーマを作成するには、ユーザーに ANY FILE に対する SELECT および MODIFY 権限が必要になりました。
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 8 日
- Unity カタログの具体化されたビューに対する変更データ フィード (CDF) クエリはサポートされていません。また、Unity カタログの具体化されたビューで CDF クエリを実行しようとするとエラーが返されます。 Unity カタログのストリーミング テーブルは、Databricks Runtime 14.1 以降の 非
APPLY CHANGES
テーブルに対する CDF クエリをサポートします。 Databricks Runtime 14.0 以前の Unity カタログのストリーミング テーブルでは、CDF クエリはサポートされていません。 - [SPARK-46794] LogicalRDD 制約からサブクエリを削除します。
- [SPARK-46933] JDBCRDD を使用するコネクタにクエリ実行時間メトリックを追加します。
- [SPARK-45582] 出力モード ストリーミング集計内でコミットを呼び出した後にストア インスタンスが使用されないようにします。
- [SPARK-46396] timestamp 推論では例外をスローしてはいけません。
- [SPARK-46861] DAGScheduler でのデッドロックを回避します。
- [SPARK-46941] SizeBasedWindowFunction が含まれている場合、上位 k の計算にウィンドウ グループ制限ノードを挿入できません。
- オペレーティング システムのセキュリティを更新。
- Unity カタログの具体化されたビューに対する変更データ フィード (CDF) クエリはサポートされていません。また、Unity カタログの具体化されたビューで CDF クエリを実行しようとするとエラーが返されます。 Unity カタログのストリーミング テーブルは、Databricks Runtime 14.1 以降の 非
- 2024 年 1 月 31 日
- [SPARK-46610] テーブルを作成すると、オプション内のキーの値がない場合に例外がスローされます。
- [SPARK-46383] TaskInfo.accumulables() の有効期間を短縮してドライバー ヒープの使用量を削減します。
- [SPARK-46600] SqlConf と SqlApiConf の間の共有コードを SqlApiConfHelper に移動します。
- [SPARK-46676] dropDuplicatesWithinWatermark はプランの正規化でエラーになってはなりません。
- [SPARK-46763] 重複する属性での ReplaceDeduplicateWithAggregate のアサーション エラーを修正します。
- オペレーティング システムのセキュリティを更新。
- 2024 年 1 月 17 日
- Photon クエリによって返される Explain プランの
shuffle
ノードは、ブロードキャスト結合の一部であるシャッフル中にメモリ不足エラーが発生した場合に、causedBroadcastJoinBuildOOM=true
フラグを追加するように更新されます。 - TLSv1.3 経由で通信するときの待機時間の増加を回避するために、このメンテナンス リリースには JDK バグ JDK-8293562 を修正するための JDK 8 インストールへのパッチが含まれています。
- [SPARK-46058] privateKeyPassword に別のフラグを追加します。
- [SPARK-46173] 日付解析中の trimAll 呼び出しをスキップします。
- [SPARK-46370] 列の既定値を変更した後にテーブルからクエリを実行するときのバグを修正します。
- [SPARK-46370] 列の既定値を変更した後にテーブルからクエリを実行するときのバグを修正します。
- [SPARK-46370] 列の既定値を変更した後にテーブルからクエリを実行するときのバグを修正します。
- [SPARK-46609] PartitioningPreservingUnaryExecNode での指数関数的な爆発を回避します。
- [SPARK-46132] RPC SSL の JKS キーのキー パスワードをサポートします。
- [SPARK-46602] ビュー/テーブルが存在しない場合に、ビューの作成時に
allowExisting
を伝達します。 - [SPARK-46249] バックグラウンド操作との競合を防ぐために、RocksDB メトリックを取得するためのインスタンス ロックが必要です。
- [SPARK-46417] hive.getTable を呼び出し、throwException が false の場合は失敗しません。
- [SPARK-46538]
ALSModel.transform
におけるあいまいな列参照の問題を修正します。 - [SPARK-46478] SPARK-43049 を元に戻して、文字列に oracle varchar(255) を使用します。
- [SPARK-46250] test_parity_listener をフレーク解除します。
- [SPARK-46394]
spark.sql.legacy.keepCommandOutputSchema
が true に設定されている場合に、特殊文字を持つスキーマでの spark.catalog.listDatabases() の問題を修正します。 - [SPARK-46056] Parquet のベクトル化された読み取り NPE を byteArrayDecimalType の既定値で修正します。
- [SPARK-46145] spark.catalog.listTables は、テーブルまたはビューが見つからないときに例外をスローしません。
- [SPARK-46466] ベクトル化された Parquet 閲覧者は、timestamp ntz のリベースを実行しないでください。
- Photon クエリによって返される Explain プランの
- 2023 年 12 月 14 日
- JDBC または ODBC クライアントからの getColumns 操作でエスケープされたアンダースコアが誤って処理され、ワイルドカードとして解釈される問題を修正しました。
- [SPARK-45920] 序数によるグループはべき等である必要があります。
- [SPARK-44582] SMJ がクリーンアップされた場合に、SMJ の反復子をスキップします。
- [SPARK-45433] timestamp が、指定された timestampFormat と一致しない場合の CSV/JSON スキーマ推論を修正します。
- [SPARK-45655] CollectMetrics の AggregateFunctions 内で非決定論的な式を許可します。
- オペレーティング システムのセキュリティを更新。
- 2023 年 11 月 29 日
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
pyarrow-hotfix
をインストールしました。 - spark-snowflake コネクタは 2.12.0 にアップグレードされます。
- [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-45892] オプティマイザー プランの検証をリファクタリングして、
validateSchemaOutput
とvalidateExprIdUniqueness
を分離します。 - [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - オペレーティング システムのセキュリティを更新。
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
- 2023 年 11 月 10 日
- Delta Lake ストリーミング クエリのパーティション フィルターは、使用率を向上させるためにレート制限の前にプッシュダウンされます。
- Unity カタログ ストリーミング テーブルと具体化されたビューに対するデータ フィード クエリを変更し、エラー メッセージを表示しました。
- [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-45430]
FramelessOffsetWindowFunction
は、IGNORE NULLS
とoffset > rowCount
の場合に失敗しなくなりました。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-44219] 最適化の書き換えに関する規則ごとの検証を追加しました。
- [SPARK-45543] 他の window 関数に rank-like 関数と同じウィンドウ フレームがない場合に
InferWindowGroupLimit
で問題が発生する問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 10 月 23 日
- [SPARK-45256] 初期容量よりも多い値を書き込むと
DurationWriter
が失敗する問題を修正しました。 - [SPARK-45419] より新しいバージョンのファイル バージョン マップ エントリを削除して、異なる
rocksdb
インスタンスでrocksdb sst
ファイルが再利用されないようにします。 - [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - その他の修正。
- [SPARK-45256] 初期容量よりも多い値を書き込むと
- 2023 年 10 月 13 日
- Snowflake-jdbc 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
array_insert
関数では、負のインデックスは以前は 0 ベースでしたが、現在は、正と負のインデックスは 1 ベースです。 インデックス 1 の入力配列の最後に新しい要素を挿入するようになりました。 以前の動作を復元するには、spark.sql.legacy.negativeIndexInArrayInsert
をtrue
に設定します。- 自動ローダーを使用した CSV スキーマ推論中に
ignoreCorruptFiles
が有効になっている場合、破損したファイルが無視されない問題を修正しました。 - [SPARK-42946] を元に戻します。
- [SPARK-42205] タスクまたはステージ開始イベントの Accumulables ログを削除するように、JSON プロトコルを更新しました。
- [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使って
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - [SPARK-45316] 新しいパラメーター
ignoreCorruptFiles
とignoreMissingFiles
をHadoopRDD
とNewHadoopRDD
に追加します。 - [SPARK-44740] Artifacts のメタデータ値を修正しました。
- [SPARK-45360] Spark セッション ビルダーの構成を
SPARK_REMOTE
から初期化しました。 - [SPARK-44551] OSS と同期するようにコメントを編集しました。
- [SPARK-45346] Parquet スキーマ推論では、スキーマをマージする際に、大文字と小文字が区別されるフラグが考慮されるようになりました。
- [SPARK-44658]
ShuffleStatus.getMapStatus
は、Some(null)
ではなくNone
を返すようになりました。 - [SPARK-44840]
array_insert()
で負のインデックスを 1 ベースにしました。
- 2023 年 9 月 14 日
- [SPARK-44873] Hive クライアントで入れ子になった列を含む
alter view
のサポートを追加しました。 - [SPARK-44878] キャッシュ完了時に挿入例外が発生しないように、
RocksDB
書き込みマネージャーの厳密な制限を無効にしました。
- [SPARK-44873] Hive クライアントで入れ子になった列を含む
- 2023 年 8 月 30 日
- dbutils
cp
コマンド (dbutils.fs.cp
) は、より高速なコピー用に最適化されています。 この改善により、ファイル サイズに応じて、コピー操作の時間を最大 100 分の 1 に短縮することができます。 この機能は、Unity Catalog Volumes と DBFS マウントを含め、Databricks でアクセスできるすべてのクラウドとファイル システムで使用できます。 - [SPARK-44455]
SHOW CREATE TABLE
結果のバッククォートを含む識別子を引用符で囲みます。 - [SPARK-44763] 間隔付きの二項演算で文字列が double として表示される問題を修正しました。
- [SPARK-44871]
percentile_disc
の動作を修正しました。 - [SPARK-44714] クエリに関する LCA 解決の制限を緩和します。
- [SPARK-44818]
taskThread
の初期化前に発行された保留中のタスク割り込みの競合を修正しました。 - [SPARK-44505] DSv2 のスキャンで列サポートのオーバーライドを追加しました。
- [SPARK-44479] 空の構造体型からの protobuf 変換を修正しました。
- [SPARK-44718]
ColumnVector
メモリモード構成の既定値をOffHeapMemoryMode
構成値に一致させます。 - [SPARK-42941] Python で
StreamingQueryListener
のサポートを追加しました。 - [SPARK-44558] PySpark の Spark Connect ログ レベルをエクスポートします。
- [SPARK-44464] 最初の列値として Null を持つ出力行に対する
applyInPandasWithStatePythonRunner
を修正しました。 - [SPARK-44643] フィールドが空の行の場合の
Row.__repr__
を修正しました。 - オペレーティング システムのセキュリティを更新。
- dbutils
Databricks Runtime 12.2 LTS
「Databricks Runtime 12.2 LTS」を参照してください。
- 2024 年 10 月 10 日
- [SPARK-49743][SQL]GetArrayStructFields を排除するときに OptimizeCsvJsonExpr でスキーマ フィールドを変更しないでください
- 2024 年 9 月 25 日
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- [SPARK-46601] [CORE]handleStatusMessage のログ エラーを修正する
- 各種のバグ修正。
- 2024 年 9 月 17 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 29 日
- 各種のバグ修正。
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] バックポート ML ライター/リーダーの修正
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-49056][SQL] ErrorClassesJsonReader は null を正しく処理できません
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- [SPARK-48463][ML] 入れ子になった入力列をサポートする StringIndexer を作成する
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909] [SPARK-48883] バックポート Spark ML ライターの修正
- 2024 年 8 月 1 日
- 必要なセキュリティ パッチを適用するため、Databricks Runtime 12.2 LTS の Python バージョンが 3.9.5 から 3.9.19 にアップグレードされます。
- 2024 年 7 月 11 日
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
.checkpoint()
を使用して DataFrame の有効期間全体にわたってテーブルの状態を永続化します。 - [SPARK-48481][SQL][SS] OptimizeOneRowPlan をストリーミング Dataset に適用しない
- [SPARK-47070] サブクエリの書き換え後の無効な集計を修正する
- [SPARK-42741][SQL] リテラルが null の場合、バイナリ比較でキャストのラップを解除しない
- [SPARK-48445][SQL] 高コストの子を持つ UDF をインライン化しない
- [SPARK-48503][SQL] group-by や非等値列が誤って許可されていた無効なスカラー サブクエリを修正する
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- オペレーティング システムのセキュリティを更新。
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
- 2024 年 6 月 17 日
- [SPARK-48277] ErrorClassesJsonReader.getErrorMessage のエラー メッセージを改善する
- 各種のバグ修正。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 9 日
- [SPARK-44251][SQL] 完全外部 USING 結合の結合キーに null 許容を正しく設定する
- [SPARK-47973][CORE] SparkContext.assertNotStopped() の SparkContext.stop() 以降の呼び出しサイトをログする
- [SPARK-47956][SQL] 未解決の LCA リファレンスのサニティ チェックを実行する
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange をスローするときにパラメーター不足のエラーを引き起こす null groupId を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 25 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 11 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 1 日
- [SPARK-47305][SQL] プランにバッチとストリーミングの両方がある場合に LocalRelation の isStreaming フラグに正しくタグを付けるために PruneFilters を修正します
- [SPARK-44252][SS] 新しいエラー クラスを定義し、DFS からの状態の読み込みが失敗した場合に適用する
- [SPARK-47135][SS] Kafka データ損失例外のエラー クラスを実装します
- [SPARK-47200][SS] Foreach バッチ シンクユーザー関数エラーのエラー クラス
- オペレーティング システムのセキュリティを更新。
- 2024 年 3 月 14 日
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning ヘルパー関数がある
- "[SPARK-46861][CORE] DAGScheduler でのデッドロックを回避する" を取り消す
- [SPARK-47125][SQL] Univocity が解析をトリガーしない場合は null を返す
- [SPARK-47167][SQL] JDBC 匿名関係の具象クラスを追加する
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 29 日
- MERGE コマンドでローカル コレクションをソースとして使用すると、操作メトリック numSourceRows が正しい行数の 2 倍になる問題を修正しました。
- 場所が定義されたスキーマを作成するには、ユーザーに ANY FILE に対する SELECT および MODIFY 権限が必要になりました。
- [SPARK-45582][SS] 出力モード ストリーミング集計内でコミットを呼び出した後にストア インスタンスが使用されないようにする
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 13 日
- [SPARK-46861] DAGScheduler でのデッドロックを回避します。
- [SPARK-46794] LogicalRDD 制約からサブクエリを削除します。
- オペレーティング システムのセキュリティを更新。
- 2024 年 1 月 31 日
- [SPARK-46763] 重複する属性での ReplaceDeduplicateWithAggregate のアサーション エラーを修正します。
- オペレーティング システムのセキュリティを更新。
- 2023 年 12 月 25 日
- TLSv1.3 経由で通信するときの待機時間の増加を回避するために、このメンテナンス リリースには JDK バグ JDK-8293562 を修正するための JDK 8 インストールへのパッチが含まれています。
- [SPARK-39440] イベント タイムラインを無効にする構成を追加します。
- [SPARK-46132] RPC SSL の JKS キーのキー パスワードをサポートします。
- [SPARK-46394]
spark.sql.legacy.keepCommandOutputSchema
が true に設定されている場合に、特殊文字を持つスキーマでの spark.catalog.listDatabases() の問題を修正します。 - [SPARK-46417] hive.getTable を呼び出し、throwException が false の場合は失敗しません。
- [SPARK-43067] Kafka コネクタのエラー クラス リソース ファイルの場所を修正します。
- [SPARK-46249] バックグラウンド操作との競合を防ぐために、RocksDB メトリックを取得するためのインスタンス ロックが必要です。
- [SPARK-46602] ビュー/テーブルが存在しない場合に、ビューの作成時に
allowExisting
を伝達します。 - [SPARK-46058] privateKeyPassword に別のフラグを追加します。
- [SPARK-46145] spark.catalog.listTables は、テーブルまたはビューが見つからないときに例外をスローしません。
- [SPARK-46538]
ALSModel.transform
におけるあいまいな列参照の問題を修正します。 - [SPARK-42852] EquivalentExpressions からの NamedLambdaVariable 関連の変更を元に戻します。
- 2023 年 12 月 14 日
- JDBC または ODBC クライアントからの getColumns 操作でエスケープされたアンダースコアが誤って処理され、ワイルドカードとして解釈される問題を修正しました。
- [SPARK-44582] SMJ がクリーンアップされた場合に、SMJ の反復子をスキップします。
- [SPARK-45920] 序数によるグループはべき等である必要があります。
- [SPARK-45655] CollectMetrics の AggregateFunctions 内で非決定論的な式を許可します。
- オペレーティング システムのセキュリティを更新。
- 2023 年 11 月 29 日
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
pyarrow-hotfix
をインストールしました。 - JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアがワイルドカードとして誤って解釈される問題を修正しました。 - [SPARK-42205]
Stage
とTask
の開始イベントの蓄積されたログ記録を削除しました。 - [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - [SPARK-43718]
USING
結合でのキーの NULL 値の許容を修正しました。 - [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-43973] 構造化ストリーミング UI で、失敗したクエリが正しく表示されるようになりました。
- [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - オペレーティング システムのセキュリティを更新。
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
- 2023 年 11 月 14 日
- Delta Lake ストリーミング クエリのパーティション フィルターは、使用率を向上させるためにレート制限の前にプッシュダウンされます。
- [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-45430]
FramelessOffsetWindowFunction
は、IGNORE NULLS
とoffset > rowCount
の場合に失敗しなくなりました。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 10 月 24 日
- [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - その他の修正。
- [SPARK-45426]
- 2023 年 10 月 13 日
- Snowflake-jdbc 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- [SPARK-42553] interval の後に少なくとも 1 つの時間単位を確保します。
- [SPARK-45346] Parquet スキーマ推論では、スキーマをマージする際に、大文字と小文字が区別されるフラグが考慮されます。
- [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使って
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - [SPARK-45084] 正確で適切なシャッフル パーティション番号を使用するための
StateOperatorProgress
。
- 2023 年 9 月 12 日
- [SPARK-44873] Hive クライアントで入れ子になった列を含む
alter view
のサポートを追加しました。 - [SPARK-44718]
ColumnVector
メモリモード構成の既定値をOffHeapMemoryMode
構成値に一致させます。 - [SPARK-43799] Pyspark
Protobuf
API に記述子バイナリ オプションを追加しました。 - その他の修正。
- [SPARK-44873] Hive クライアントで入れ子になった列を含む
- 2023 年 8 月 30 日
- [SPARK-44485]
TreeNode.generateTreeString
を最適化しました。 - [SPARK-44818]
taskThread
の初期化前に発行された保留中のタスク割り込みの競合を修正しました。 - [SPARK-44871][11.3-13.0]
percentile_disc
の動作を修正しました。 - [SPARK-44714] クエリに関する LCA 解決の制限を緩和しました。
- オペレーティング システムのセキュリティを更新。
- [SPARK-44485]
- 2023 年 8 月 15 日
- [SPARK-44504] メンテナンス タスクで、停止エラー時に読み込まれたプロバイダーがクリーンアップされます。
- [SPARK-44464] 最初の列値として
Null
を持つ出力行に対するapplyInPandasWithStatePythonRunner
を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 7 月 29 日
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
dbutils.fs.ls()
がINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
を返す問題を修正しました。 - [SPARK-44199]
CacheManager
は、fileIndex
を不必要に更新しなくなりました。 - オペレーティング システムのセキュリティを更新。
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
- 2023 年 7 月 24 日
- [SPARK-44337]
Any.getDefaultInstance
に設定されたフィールドで解析エラーが発生する問題を修正しました。 - [SPARK-44136]
FlatMapGroupsWithStateExec
のドライバーではなく Executor でStateManager
が具体化される問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44337]
- 2023 年 6 月 23 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 15 日
approx_count_distinct
が Photon に対応しました。- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- [SPARK-43779]
ParseToDate
により、メイン スレッドにEvalMode
が読み込まれるようになりました。 - [SPARK-43156][SPARK-43098]
decorrelateInnerQuery
を無効にしてスカラー サブクエリ数のエラー テストを拡張しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。SHALLOW CLONE
の Iceberg と Parquet を使用して増分更新のパフォーマンスを向上させます。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-43404] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43413][11.3-13.0]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - [SPARK-43522] 配列のインデックスを含む構造体列名の作成の問題を修正しました。
- [SPARK-43541] 式と不足している列の解決において、すべての
Project
タグを伝達します。 - [SPARK-43527] PySpark の
catalog.listCatalogs
を修正しました。 - [SPARK-43123] 内部フィールド メタデータがカタログにリークしなくなりました。
- [SPARK-43340] イベント ログにスタック トレース フィールドが見つからない問題を修正しました。
- [SPARK-42444]
DataFrame.drop
で、重複する列が正しく処理されるようになりました。 - [SPARK-42937]
PlanSubqueries
でInSubqueryExec#shouldBroadcast
が true に設定されるようになりました。 - [SPARK-43286] ランダムな IV を生成するように
aes_encrypt
の CBC モードを更新しました。 - [SPARK-43378]
deserializeFromChunkedBuffer
内のストリーム オブジェクトを適切に閉じます。
- 2023 年 5 月 17 日
- バッチ サイズを動的に調整することで、非常に構造化されたファイルをスキャンするときに、Parquet スキャンが OOM に対して堅牢になりました。 バッチ サイズを大幅に小さくするためにファイル メタデータが分析され、最終的なセーフティ ネットとしてタスクの再試行時に再度低下します。
- Avro ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 - 自動ローダーで次の処理を行うようになりました。
-
Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合は、型が正しく読み取られ、復旧されなくなりましたが、Avro ファイルでは他の 2 つの型のいずれかが提案されます。
-
- 日付型またはタイムスタンプ型として interval 型を読み取らないようにし、破損した日付を取得しないようにします。
-
- 精度が低い
Decimal
型を読み取らないようにします。
- 精度が低い
- [SPARK-43172] Spark Connect クライアントからホストとトークンを公開します。
- [SPARK-43293]
__qualified_access_only
は通常の列では無視されます。 - [SPARK-43098] スカラー サブクエリが句でグループ化されている場合の正確性の
COUNT
バグを修正しました。 - [SPARK-43085] マルチパート テーブル名の列
DEFAULT
割り当てのサポート。 - [SPARK-43190]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 - [SPARK-43192] ユーザー エージェントの文字セット検証を削除しました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 4 月 25 日
- Parquet ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合、自動ローダーで型が正しく読み取られるようになり、復旧されなくなりました。 Parquet ファイルでは、他の 2 つの型のいずれかが提案されます。 復旧されたデータ列が以前に有効になっていた場合、データ型の不一致により、列は読み取り可能であっても保存されます。- [SPARK-43009]
Any
定数でパラメーター化されたsql()
- [SPARK-42406] フィールドを削除して Protobuf 再帰フィールドを終了する。
- [SPARK-43038]
aes_encrypt()
/aes_decrypt()
によって CBC モードをサポートする - [SPARK-42971] ワーカーで
WorkDirCleanup
イベントが処理されるときにappDirs
が null の場合、workdir
の出力に変更する - [SPARK-43018] タイムスタンプ リテラルを含む INSERT コマンドのバグを修正する
- オペレーティング システムのセキュリティを更新。
- Parquet ファイルが、
- 2023 年 4 月 11 日
SYNC
コマンドの従来のデータ ソース形式をサポートします。- リポジトリの外部にあるノートブックの %autoreload 動作の問題を修正しました。
- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性がある問題を修正しました。
- [SPARK-42928]
resolvePersistentFunction
を同期させました。 - [SPARK-42936] 句をその子集計で直接解決できる場合の LCA 問題を修正しました。.
- [SPARK-42967] ステージが取り消された後にタスクが開始されたときの
SparkListenerTaskStart.stageAttemptId
を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 3 月 29 日
Databricks SQL では、テーブルの作成時またはその後のいずれかで、Delta Lake テーブルの列の既定値を指定することがサポートされるようになりました。 以降の
INSERT
、UPDATE
、DELETE
、MERGE
コマンドでは、明示的なDEFAULT
キーワードを使用して、列の既定値を参照できます。 さらに、INSERT
割り当てに、ターゲット テーブルよりも少ない列のリストがある場合、残りの列について、対応する列の既定値が置き換えられます (または、既定値が指定されていない場合は NULL)。次に例を示します。
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; > 0, 2023-03-28 1, 2023-03-28z
自動ローダーでは、高速で実行される自動ローダー ストリームに対してチェックポイントを定期的にクリーンアップできることを確認するために、
Trigger.AvailableNow
ストリーム用に少なくとも 1 つの同期 RocksDB ログクリーンを開始するようになりました。 これにより、一部のストリームがシャットダウンされるまでに時間がかかる場合がありますが、ストレージ コストが節約され、今後の実行で自動ローダーのエクスペリエンスが向上します。Delta テーブルを変更して、
DeltaTable.addFeatureSupport(feature_name)
を使用してテーブル機能のサポートを追加できるようになりました。[SPARK-42794] 構造化ストリーミングの RocksDB 状態ストアを取得するための lockAcquireTimeoutMs を 2 分に増やす
[SPARK-42521] ターゲット テーブルよりも少ない列のユーザー指定リストを使用して、INSERT に NULL 値を追加する
[SPARK-42702][SPARK-42623] サブクエリと CTE でパラメーター化されたクエリをサポート
[SPARK-42668] HDFSStateStoreProvider 停止で圧縮ストリームを閉じようとしているときに例外をキャッチする
[SPARK-42403] JsonProtocol で null JSON 文字列を処理する必要がある
- 2023 年 3 月 8 日
- "構成の初期化エラー" というエラー メッセージが改善され、顧客に多くのコンテキストが提供されます。
- table プロパティを使用して Delta テーブルに機能を追加するための用語の変更があります。 推奨される構文は、
'delta.feature.featureName'='enabled'
ではなく'delta.feature.featureName'='supported'
になりました。 下位互換性のために、'delta.feature.featureName'='enabled'
を使用しても引き続き動作し、今後も引き続き動作します。 - このリリース以降では、既定のリーダーとライターのバージョンおよび既定でサポートされているテーブル機能を含む、プロトコル関連の Spark 構成を無視するために、追加のテーブル プロパティ
delta.ignoreProtocolDefaults
でテーブルを作成または置換できます。 - [SPARK-42070] Mask 関数の引数の既定値を -1 から NULL に変更する
- [SPARK-41793] 大きい 10 進数の範囲句で定義されたウィンドウ フレームの結果が正しくない
- [SPARK-42484] UnsafeRowUtils のエラー メッセージを改善
- [SPARK-42516] ビューの作成時にセッション タイム ゾーン構成を常にキャプチャする
- [SPARK-42635] TimestampAdd 式を修正します。
- [SPARK-42622] 値の置換を無効にしました
- [SPARK-42534] DB2Dialect Limit 句を修正する
- [SPARK-42121] 組み込みのテーブル値関数 posexplode、posexplode_outer、json_tuple、stack を追加する
- [SPARK-42045] ANSI SQL モード: Round/Bround は、tiny/small/significant の整数オーバーフローでエラーを返す必要がある
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 11.3 LTS
Databricks Runtime 11.3 LTSを参照してください。
- 2024 年 10 月 10 日
- 各種のバグ修正。
- 2024 年 9 月 25 日
- [SPARK-46601] [CORE]handleStatusMessage のログ エラーを修正する
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- 各種のバグ修正。
- 2024 年 9 月 17 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 29 日
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] バックポート ML ライター/リーダーの修正
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- [SPARK-48463][ML] 入れ子になった入力列をサポートする StringIndexer を作成する
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909] [SPARK-48883] バックポート Spark ML ライターの修正
- 2024 年 8 月 1 日
- 必要なセキュリティ パッチを適用するため、Databricks Runtime 11.3 LTS の Python バージョンが 3.9.5 から 3.9.19 にアップグレードされます。
- 2024 年 7 月 11 日
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- [SPARK-47070] サブクエリの書き換え後の無効な集計を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 6 月 17 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 9 日
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange をスローするときにパラメーター不足のエラーを引き起こす null groupId を修正する
- [SPARK-47973][CORE] SparkContext.assertNotStopped() の SparkContext.stop() 以降の呼び出しサイトをログする
- [SPARK-44251][SQL] 完全外部 USING 結合の結合キーに null 許容を正しく設定する
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 25 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 11 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 1 日
- [SPARK-44252][SS] 新しいエラー クラスを定義し、DFS からの状態の読み込みが失敗した場合に適用する
- [SPARK-47135][SS] Kafka データ損失例外のエラー クラスを実装します
- "[SPARK-46861][CORE] DAGScheduler でのデッドロックを回避する" を取り消す
- [SPARK-47200][SS] Foreach バッチ シンクユーザー関数エラーのエラー クラス
- オペレーティング システムのセキュリティを更新。
- 2024 年 3 月 14 日
- [SPARK-47167][SQL] JDBC 匿名関係の具象クラスを追加する
- [SPARK-47125][SQL] Univocity が解析をトリガーしない場合は null を返す
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 29 日
- MERGE コマンドでローカル コレクションをソースとして使用すると、操作メトリック numSourceRows が正しい行数の 2 倍になる問題を修正しました。
- [SPARK-45582][SS] 出力モード ストリーミング集計内でコミットを呼び出した後にストア インスタンスが使用されないようにする
- 2024 年 2 月 13 日
- [SPARK-46794] LogicalRDD 制約からサブクエリを削除します。
- [SPARK-46861] DAGScheduler でのデッドロックを回避します。
- オペレーティング システムのセキュリティを更新。
- 2024 年 1 月 31 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 12 月 25 日
- TLSv1.3 経由で通信するときの待機時間の増加を回避するために、このメンテナンス リリースには JDK バグ JDK-8293562 を修正するための JDK 8 インストールへのパッチが含まれています。
- [SPARK-46058] privateKeyPassword に別のフラグを追加します。
- [SPARK-46602] ビュー/テーブルが存在しない場合に、ビューの作成時に
allowExisting
を伝達します。 - [SPARK-46394]
spark.sql.legacy.keepCommandOutputSchema
が true に設定されている場合に、特殊文字を持つスキーマでの spark.catalog.listDatabases() の問題を修正します。 - [SPARK-46538]
ALSModel.transform
におけるあいまいな列参照の問題を修正します。 - [SPARK-39440] イベント タイムラインを無効にする構成を追加します。
- [SPARK-46249] バックグラウンド操作との競合を防ぐために、RocksDB メトリックを取得するためのインスタンス ロックが必要です。
- [SPARK-46132] RPC SSL の JKS キーのキー パスワードをサポートします。
- 2023 年 12 月 14 日
- JDBC または ODBC クライアントからの getColumns 操作でエスケープされたアンダースコアが誤って処理され、ワイルドカードとして解釈される問題を修正しました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 11 月 29 日
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
pyarrow-hotfix
をインストールしました。 - JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアがワイルドカードとして誤って解釈される問題を修正しました。 - [SPARK-43973] 構造化ストリーミング UI で、失敗したクエリが正しく表示されるようになりました。
- [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - [SPARK-43718]
USING
結合でのキーの NULL 値の許容を修正しました。 - [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - オペレーティング システムのセキュリティを更新。
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
- 2023 年 11 月 14 日
- Delta Lake ストリーミング クエリのパーティション フィルターは、使用率を向上させるためにレート制限の前にプッシュダウンされます。
- [SPARK-42205] ステージおよびタスクの開始イベントの蓄積されたログ記録を削除しました。
- [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-33861] を元に戻します。
- [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45430]
FramelessOffsetWindowFunction
は、IGNORE NULLS
とoffset > rowCount
の場合に失敗しなくなりました。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 10 月 24 日
- [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - その他の修正。
- [SPARK-45426]
- 2023 年 10 月 13 日
- Snowflake-jdbc 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使って
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - [SPARK-45084] 正確で適切なシャッフル パーティション番号を使用するための
StateOperatorProgress
。 - [SPARK-45346] Parquet スキーマ推論では、スキーマをマージする際に、大文字と小文字を区別するフラグが考慮されるようになりました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 9 月 10 日
- その他の修正。
- 2023 年 8 月 30 日
- [SPARK-44818]
taskThread
の初期化前に発行された保留中のタスク割り込みの競合を修正しました。 - [SPARK-44871][11.3-13.0]
percentile_disc
の動作を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44818]
- 2023 年 8 月 15 日
- [SPARK-44485]
TreeNode.generateTreeString
を最適化しました。 - [SPARK-44504] メンテナンス タスクで、停止エラー時に読み込まれたプロバイダーがクリーンアップされます。
- [SPARK-44464] 最初の列値として
Null
を持つ出力行に対するapplyInPandasWithStatePythonRunner
を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44485]
- 2023 年 7 月 27 日
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
dbutils.fs.ls()
がINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
を返す問題を修正しました。 - [SPARK-44199]
CacheManager
は、fileIndex
を不必要に更新しなくなりました。 - オペレーティング システムのセキュリティを更新。
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
- 2023 年 7 月 24 日
- [SPARK-44136] FlatMapGroupsWithStateExec のドライバーではなく Executor で StateManager が具体化される可能性がある問題を修正しました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 23 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 15 日
approx_count_distinct
が Photon に対応しました。- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- [SPARK-43779]
ParseToDate
により、メイン スレッドにEvalMode
が読み込まれるようになりました。 - [SPARK-40862] RewriteCorrelatedScalarSubquery で集計されていないサブクエリをサポートする
- [SPARK-43156][SPARK-43098]
decorrelateInnerQuery
を無効にしてスカラー サブクエリ数のバグ テストを拡張しました。 - [SPARK-43098] スカラー サブクエリに group by 句がある場合の COUNT の正確性のバグを修正する
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。SHALLOW CLONE
の Iceberg と Parquet を使用して増分更新のパフォーマンスを向上させます。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-43404] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43527] PySpark の
catalog.listCatalogs
を修正しました。 - [SPARK-43413][11.3-13.0]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - [SPARK-43340] イベント ログにスタック トレース フィールドが見つからない問題を修正しました。
Databricks Runtime 10.4 LTS
「Databricks Runtime 10.4 LTS」を参照してください。
- 2024 年 11 月 5 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 22 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 10 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 25 日
- [SPARK-46601] [CORE]handleStatusMessage のログ エラーを修正する
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 17 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 29 日
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- 2024 年 8 月 14 日
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- [SPARK-48941][SPARK-48970] バックポート ML ライター/リーダーの修正
- [SPARK-48463][ML] 入れ子になった入力列をサポートする StringIndexer を作成する
- 2024 年 8 月 1 日
- [SPARK-48896][SPARK-48909] [SPARK-48883] バックポート Spark ML ライターの修正
- オペレーティング システムのセキュリティを更新。
- 2024 年 7 月 11 日
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- オペレーティング システムのセキュリティを更新。
- 2024 年 6 月 17 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 9 日
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange をスローするときにパラメーター不足のエラーを引き起こす null groupId を修正する
- [SPARK-47973][CORE] SparkContext.assertNotStopped() の SparkContext.stop() 以降の呼び出しサイトをログする
- [SPARK-44251][SQL] 完全外部 USING 結合の結合キーに null 許容を正しく設定する
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 25 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 11 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 1 日
- [SPARK-47135][SS] Kafka データ損失例外のエラー クラスを実装します
- [SPARK-44252][SS] 新しいエラー クラスを定義し、DFS からの状態の読み込みが失敗した場合に適用する
- [SPARK-47200][SS] Foreach バッチ シンクユーザー関数エラーのエラー クラス
- "[SPARK-46861][CORE] DAGScheduler でのデッドロックを回避する" を取り消す
- オペレーティング システムのセキュリティを更新。
- 2024 年 3 月 14 日
- [SPARK-47125][SQL] Univocity が解析をトリガーしない場合は null を返す
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 29 日
- MERGE コマンドでローカル コレクションをソースとして使用すると、操作メトリック numSourceRows が正しい行数の 2 倍になる問題を修正しました。
- [SPARK-45582][SS] 出力モード ストリーミング集計内でコミットを呼び出した後にストア インスタンスが使用されないようにする
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 13 日
- [SPARK-46861] DAGScheduler でのデッドロックを回避します。
- オペレーティング システムのセキュリティを更新。
- 2024 年 1 月 31 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 12 月 25 日
- TLSv1.3 経由で通信するときの待機時間の増加を回避するために、このメンテナンス リリースには JDK バグ JDK-8293562 を修正するための JDK 8 インストールへのパッチが含まれています。
- [SPARK-46058] privateKeyPassword に別のフラグを追加します。
- [SPARK-46538]
ALSModel.transform
におけるあいまいな列参照の問題を修正します。 - [SPARK-39440] イベント タイムラインを無効にする構成を追加します。
- [SPARK-46132] RPC SSL の JKS キーのキー パスワードをサポートします。
- 2023 年 12 月 14 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 11 月 29 日
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
pyarrow-hotfix
をインストールしました。 - [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - [SPARK-43718]
USING
結合でのキーの NULL 値の許容を修正しました。 - [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - [SPARK-42205] ステージおよびタスクの開始イベントの蓄積されたログ記録を削除しました。
- [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - オペレーティング システムのセキュリティを更新。
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
- 2023 年 11 月 14 日
- [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-33861] を元に戻します。
- オペレーティング システムのセキュリティを更新。
- [SPARK-45541]
- 2023 年 10 月 24 日
- [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45426]
- 2023 年 10 月 13 日
- [SPARK-45084] 正確で適切なシャッフル パーティション番号を使用するための
StateOperatorProgress
。 - [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使って
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45084] 正確で適切なシャッフル パーティション番号を使用するための
- 2023 年 9 月 10 日
- その他の修正。
- 2023 年 8 月 30 日
- [SPARK-44818]
taskThread
の初期化前に発行された保留中のタスク割り込みの競合を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44818]
- 2023 年 8 月 15 日
- [SPARK-44504] メンテナンス タスクで、停止エラー時に読み込まれたプロバイダーがクリーンアップされます。
- [SPARK-43973] 構造化ストリーミング UI で、失敗したクエリが正しく表示されるようになりました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 23 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 15 日
- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- [SPARK-43098] スカラー サブクエリに group by 句がある場合の COUNT の正確性のバグを修正する
- [SPARK-40862] RewriteCorrelatedScalarSubquery で集計されていないサブクエリをサポートする
- [SPARK-43156][SPARK-43098]
decorrelateInnerQuery
を無効にしてスカラー サブクエリ数のテストを拡張しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。UnknownFieldException
を防ぐために JSON で復旧されたデータ解析の問題を修正しました。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-43404] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43413]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 5 月 17 日
- バッチ サイズを動的に調整することで、非常に構造化されたファイルをスキャンするときに、Parquet スキャンが OOM に対して堅牢になりました。 バッチ サイズを大幅に小さくするためにファイル メタデータが分析され、最終的なセーフティ ネットとしてタスクの再試行時に再度低下します。
- [SPARK-41520]
AND_OR
ツリー パターンを分割して、AND
とOR
に分離します。 - [SPARK-43190]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 4 月 25 日
- [SPARK-42928]
resolvePersistentFunction
を同期させます。 - オペレーティング システムのセキュリティを更新。
- [SPARK-42928]
- 2023 年 4 月 11 日
- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性がある問題を修正しました。
- [SPARK-42937]
PlanSubqueries
でInSubqueryExec#shouldBroadcast
が true に設定されるようになりました。 - [SPARK-42967] ステージが取り消された後にタスクが開始されたときの SparkListenerTaskStart.stageAttemptId を修正します。
- 2023 年 3 月 29 日
- [SPARK-42668] HDFSStateStoreProvider 停止で圧縮ストリームを閉じようとしているときに例外をキャッチする
- [SPARK-42635] ... を修正する
- オペレーティング システムのセキュリティを更新。
- 2023 年 3 月 14 日
- [SPARK-41162] 集計を使用した自己結合の反結合および半結合を修正する
- [SPARK-33206] 小さいインデックス ファイルのシャッフル インデックス キャッシュの重みの計算を修正する
- [SPARK-42484]
UnsafeRowUtils
エラー メッセージを改善しました - その他の修正。
- 2023 年 2 月 28 日
- yyyy-MM-dd date_format の生成列をサポート。 この変更により、生成された列の date_format としての yyyy-MM-dd のパーティション排除がサポートされます。
- ユーザーは Databricks Runtime 9.1 LTS 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに記載されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- yyyy-MM-dd date_format の生成列をサポート。 この変更により、生成された列の date_format としての yyyy-MM-dd のパーティション排除がサポートされます。
- オペレーティング システムのセキュリティを更新。
- 2023 年 2 月 16 日
- [SPARK-30220] フィルター ノードの外部にある Exists/In サブクエリの使用を有効にする
- オペレーティング システムのセキュリティを更新。
- 2023 年 1 月 31 日
- JDBC テーブルのテーブルの種類が既定では EXTERNAL になりました。
- 2023 年 1 月 18 日
- Azure Synapse コネクタからは、列名に空白やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージが返されます。 このような場合は、次のメッセージが返されます。
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
- [SPARK-38277] RocksDB 状態ストアのコミット後に書き込みバッチをクリアする
- [SPARK-41199] DSv1 ストリーミング ソースと DSv2 ストリーミング ソースが共同使用されている場合のメトリックの問題を修正する
- [SPARK-41198] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリックを修正します。
- [SPARK-41339] 単にクリアするのではなく、RocksDB 書き込みバッチを閉じて再作成します。
- [SPARK-41732] SessionWindowing のルールにツリー パターン ベースの排除を適用します。
- オペレーティング システムのセキュリティを更新。
- Azure Synapse コネクタからは、列名に空白やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージが返されます。 このような場合は、次のメッセージが返されます。
- 2022 年 11 月 29 日
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理を制御するために、次のオプションが追加されました。
csvignoreleadingwhitespace
:true
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に先頭の空白が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。csvignoretrailingwhitespace
:true
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に末尾の空白が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。
- すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないか、false
に設定されている)、JSON に入れ子になったオブジェクトが含まれている場合の、自動ローダーでの JSON 解析の問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理を制御するために、次のオプションが追加されました。
- 2022 年 11 月 15 日
- Apache commons-text を 1.10.0 にアップグレードしました。
- [SPARK-40646] 構造体、マップ、配列の JSON 解析は修正されているため、レコードの一部がスキーマと一致しない場合でも、残りのレコードは null 値 を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 フラグは、元の動作を保持するために既定で無効になっています。 - [SPARK-40292] 入れ子になった構造体から配列が参照されている場合の
arrays_zip
関数の列名を修正する - オペレーティング システムのセキュリティを更新。
- 2022 年 11 月 1 日
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで変更データ フィードが無効になっている場合、その列のデータがMERGE
の実行時に NULL 値で誤って入力される問題を修正しました。 allowOverwrites
が有効になっている場合に、同じマイクロバッチでファイルを複製できる自動ローダーの問題を修正しました- [SPARK-40697] 外部データ ファイルをカバーする読み取り側の char パディングを追加する
- [SPARK-40596] ExecutorDecommission に ExecutorDecommissionInfo のメッセージを設定する
- オペレーティング システムのセキュリティを更新。
- Delta テーブルに
- 2022 年 10 月 18 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 5 日
- [SPARK-40468]
_corrupt_record
が選択されている場合の CSV での列の排除を修正します。 - オペレーティング システムのセキュリティを更新。
- [SPARK-40468]
- 2022 年 9 月 22 日
- ユーザーは spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) を設定して、ADLS Gen2 の自動ローダーの組み込みリストを再度有効にすることができます。 組み込みリストは、以前はパフォーマンスの問題のために無効にされていましたが、顧客のストレージ コストの増加につながっている可能性があります。 - [SPARK-40315] ArrayBasedMapData のリテラルに hashCode() を追加する
- [SPARK-40213] ラテン 1 文字の ASCII 値変換をサポート
- [SPARK-40380] プランにシリアル化不可能なリテラルが埋め込まれるのを避けるために InvokeLike の定数フォールディングを修正する
- [SPARK-38404] 入れ子になった CTE が外部 CTE を参照する場合の CTE 解決を向上させる
- [SPARK-40089] 一部の Decimal 型の並べ替えを修正する
- [SPARK-39887] RemoveRedundantAliases は、プロジェクション ノードの出力を一意にするエイリアスを保持する必要がある
- ユーザーは spark.conf.set(
- 2022 年 9 月 6 日
- [SPARK-40235] Executor.updateDependencies() で同期する代わりに、割り込み可能なロックを使用します。
- [SPARK-40218] GROUPING SETS では列のグループ化を保持する必要があります。
- [SPARK-39976] ArrayIntersect で左側の式に含まれる null が正しく処理される必要があります。
- [SPARK-40053] Python ランタイム環境を必要とする動的キャンセル ケースに
assume
を追加します。 - [SPARK-35542] 修正: パラメータ splitsArray、inputCols、outputCols を指定して複数の列に対して作成された Bucketizer を保存後に読み込めません。
- [SPARK-40079] 空の入力ケースに対する Imputer inputCols 検証を追加します。
- 2022 年 8 月 24 日
- [SPARK-39983] ドライバーに非直列化ブロードキャスト関係をキャッシュしないでください。
- [SPARK-39775] Avro スキーマの解析時に既定値の検証を無効にします。
- [SPARK-39962] グループ属性が空の場合にプロジェクションを適用する
- [SPARK-37643] charVarcharAsString が true の場合、char データ型述語クエリでは rpadding ルールをスキップする必要があります。
- オペレーティング システムのセキュリティを更新。
- 2022 年 8 月 9 日
- [SPARK-39847] 呼び出し元スレッドが中断された場合の RocksDBLoader.loadLibrary() の競合状態を修正する
- [SPARK-39731] 修正されたタイム パーサー ポリシーを使用して "yyyyMMdd" 形式で日付を解析するときの CSV および JSON データ ソースの問題を修正する
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 27 日
- [SPARK-39625] Dataset.as(StructType) を追加します。
- [SPARK-39689]CSV データ ソースで 2 文字の
lineSep
をサポートします。 - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded はスレッド セーフである必要があります。
- [SPARK-39570] インライン テーブルで、別名を持つ式を許可する必要があります。
- [SPARK-39702] 共有 byteRawChannel を使用して、TransportCipher$EncryptedMessage のメモリ オーバーヘッドを削減します。
- [SPARK-39575] AvroDeserializer で ByteBuffer#get の後に ByteBuffer#rewind を追加します。
- [SPARK-39476] Long から Float か Double、または Integer から Float へのキャスト時に、アンラップ キャストの最適化を無効にします。
- [SPARK-38868] 外部結合を最適化するときにフィルター述語から例外を伝達しません。
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 20 日
- ソースが決定論的でない場合は、Delta MERGE 操作の結果を一貫性のあるものにします。
- [SPARK-39355] 単一列で引用符を使用して UnresolvedAttribute を構築します。
- [SPARK-39548] ウィンドウ句クエリで CreateView コマンドを実行したら間違ったウィンドウ定義に達して、問題が見つかりません。
- [SPARK-39419] 比較器が null を返したときに例外をスローするように ArraySort を修正します。
- Azure でのディレクトリ一覧に対する自動ローダーによる組み込みのクラウド API の使用を無効にしました。
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 5 日
- [SPARK-39376] NATURAL/USING JOIN からのサブクエリ エイリアスのスター展開で重複する列を表示しない
- オペレーティング システムのセキュリティを更新。
- 2022 年 6 月 15 日
- [SPARK-39283] TaskMemoryManager と UnsafeExternalSorter.SpillableIterator の間のデッドロックを修正します。
- [SPARK-39285] ファイルの読み取り時に Spark でフィールド名を確認しないでください。
- [SPARK-34096] オフセット ウィンドウでの nth_value ignore nulls のパフォーマンスが向上します。
- [SPARK-36718] CollapseProject の
isExtractOnly
チェックを修正します。
- 2022 年 6 月 2 日
- [SPARK-39093] 年月の間隔または日時の間隔を整数で除算するときの codegen コンパイル エラーを回避します。
- [SPARK-38990] バインドされた参照として date_trunc/trunc 形式を評価するときの NullPointerException を回避します。
- オペレーティング システムのセキュリティを更新。
- 2022 年 5 月 18 日
- 自動ローダーで組み込みメモリ リークが発生する可能性がある問題を修正しました。
- [SPARK-38918] 入れ子になった列の排除で、現在のリレーションシップに属していない属性を除外する必要があります。
- [SPARK-37593] G1GC と ON_HEAP が使用されている場合、LONG_ARRAY_OFFSET だけ既定のページ サイズを縮小します。
- [SPARK-39084] TaskContext を使用してタスクの完了時に反復子を停止して df.rdd.isEmpty() を修正します。
- [SPARK-32268] injectBloomFilter に ColumnPruning を追加します。
- [SPARK-38974] リスト関数で指定されたデータベース名を使用して、登録されている関数をフィルター処理します。
- [SPARK-38931] 第 1 チェックポイントのキー数が不明な RocksDBFileManager のルート dfs ディレクトリを作成します。
- オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 19 日
- Java AWS SDK をバージョン 1.11.655 から 1.12.1899 にアップグレードしました。
- ノートブック スコープのライブラリがバッチ ストリーミング ジョブで動作しない問題を修正しました。
- [SPARK-38616] Catalyst TreeNode で SQL クエリ テキストを追跡する
- オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 6 日
- このリリースでは、次の Spark SQL 関数を使用できるようになりました。
timestampadd()
およびdateadd()
: タイムスタンプ式に、指定した単位の期間を追加します。timestampdiff()
およびdatediff()
: 指定した単位の 2 つのタイム スタンプ式の時間差を計算します。
- Parquet-MR が 1.12.2 にアップグレードされました
- Parquet ファイルの包括的なスキーマのサポートを改善しました
- [SPARK-38631] Java ベースの実装を使用して、Utils.unpack での tar の展開を行います。
- [SPARK-38509][SPARK-38481] 3 つの
timestmapadd/diff
変更のチェリーピックを行います。 - [SPARK-38523] CSV の破損したレコード列を参照する修正を行います。
- [SPARK-38237] 完全なクラスタリング キーを要求できるように
ClusteredDistribution
を許可します。 - [SPARK-38437] データソースからの datetime の厳密ではないシリアル化。
- [SPARK-38180] 相関等価述語で安全なアップキャスト式を許可します。
- [SPARK-38155] サポートされていない述語を持つ lateral サブクエリの個別の集計を禁止します。
- オペレーティング システムのセキュリティを更新。
- このリリースでは、次の Spark SQL 関数を使用できるようになりました。
Databricks Runtime 9.1 LTS
「Databricks Runtime 9.1 LTS」を参照してください。
- 2024 年 11 月 5 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 22 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 10 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 25 日
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 6 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 8 月 29 日
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- 2024 年 8 月 14 日
- 2024 年 8 月 1 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 7 月 11 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 6 月 17 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 21 日
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 9 日
- [SPARK-47973][CORE] SparkContext.assertNotStopped() の SparkContext.stop() 以降の呼び出しサイトをログする
- [SPARK-44251][SQL] 完全外部 USING 結合の結合キーに null 許容を正しく設定する
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 25 日
- 各種のバグ修正。
- 2024 年 4 月 11 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 1 日
- "[SPARK-46861][CORE] DAGScheduler でのデッドロックを回避する" を取り消す
- オペレーティング システムのセキュリティを更新。
- 2024 年 3 月 14 日
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 29 日
- MERGE コマンドでローカル コレクションをソースとして使用すると、操作メトリック numSourceRows が正しい行数の 2 倍になる問題を修正しました。
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 13 日
- [SPARK-46861] DAGScheduler でのデッドロックを回避します。
- オペレーティング システムのセキュリティを更新。
- 2024 年 1 月 31 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 12 月 25 日
- TLSv1.3 経由で通信するときの待機時間の増加を回避するために、このメンテナンス リリースには JDK バグ JDK-8293562 を修正するための JDK 8 インストールへのパッチが含まれています。
- [SPARK-46058] privateKeyPassword に別のフラグを追加します。
- [SPARK-39440] イベント タイムラインを無効にする構成を追加します。
- [SPARK-46132] RPC SSL の JKS キーのキー パスワードをサポートします。
- 2023 年 12 月 14 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 11 月 29 日
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
pyarrow-hotfix
をインストールしました。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - オペレーティング システムのセキュリティを更新。
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
- 2023 年 11 月 14 日
- [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-42205] ステージおよびタスクの開始イベントの蓄積されたログ記録を削除しました。
- オペレーティング システムのセキュリティを更新。
- [SPARK-45545]
- 2023 年 10 月 24 日
- [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45426]
- 2023 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 9 月 10 日
- その他の修正。
- 2023 年 8 月 30 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 8 月 15 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 23 日
- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 15 日
- [SPARK-43098] スカラー サブクエリに group by 句がある場合の COUNT の正確性のバグを修正します。
- [SPARK-43156][SPARK-43098]
decorrelateInnerQuery
を無効にしてスカラー サブクエリ数のバグ テストを拡張します。 - [SPARK-40862] RewriteCorrelatedScalarSubquery で集計されていないサブクエリをサポートします。
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。UnknownFieldException
を防ぐために JSON で復旧されたデータ解析の問題を修正しました。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-37520]
startswith()
およびendswith()
文字列関数を追加する - [SPARK-43413]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 5 月 17 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 4 月 25 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 4 月 11 日
- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性がある問題を修正しました。
- [SPARK-42967] ステージが取り消された後にタスクが開始されたときの SparkListenerTaskStart.stageAttemptId を修正します。
- 2023 年 3 月 29 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 3 月 14 日
- [SPARK-42484]
UnsafeRowUtils
のエラー メッセージを改善しました。 - その他の修正。
- [SPARK-42484]
- 2023 年 2 月 28 日
- ユーザーは Databricks Runtime 9.1 LTS 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに記載されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- オペレーティング システムのセキュリティを更新。
- 2023 年 2 月 16 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 1 月 31 日
- JDBC テーブルのテーブルの種類が既定では EXTERNAL になりました。
- 2023 年 1 月 18 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 11 月 29 日
- すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないか、false
に設定されている)、JSON に入れ子になったオブジェクトが含まれている場合の、自動ローダーでの JSON 解析の問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- すべての列が文字列として残され (
- 2022 年 11 月 15 日
- Apache commons-text を 1.10.0 にアップグレードしました。
- オペレーティング システムのセキュリティを更新。
- その他の修正。
- 2022 年 11 月 1 日
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで変更データ フィードが無効になっている場合、その列のデータがMERGE
の実行時に NULL 値で誤って入力される問題を修正しました。 allowOverwrites
が有効になっている場合に、同じマイクロバッチでファイルを複製できる自動ローダーの問題を修正しました- [SPARK-40596] ExecutorDecommission に ExecutorDecommissionInfo のメッセージを設定する
- オペレーティング システムのセキュリティを更新。
- Delta テーブルに
- 2022 年 10 月 18 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 5 日
- その他の修正。
- オペレーティング システムのセキュリティを更新。
- 2022 年 9 月 22 日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") を設定して、ADLS Gen2 の自動ローダーの組み込みリストを再度有効にすることができます。 組み込みリストは、以前はパフォーマンスの問題のために無効にされていましたが、顧客のストレージ コストの増加につながっている可能性があります。
- [SPARK-40315] ArrayBasedMapData のリテラルに hashCode() を追加する
- [SPARK-40089] 一部の Decimal 型の並べ替えを修正する
- [SPARK-39887] RemoveRedundantAliases は、プロジェクション ノードの出力を一意にするエイリアスを保持する必要がある
- 2022 年 9 月 6 日
- [SPARK-40235] Executor.updateDependencies() で同期ではなく割り込み可能なロックを使用する
- [SPARK-35542] 修正: パラメーター splitsArray、inputCols、outputCols を指定して複数の列に対して作成された Bucketizer を保存後に読み込めない
- [SPARK-40079] 空の入力ケースに対する Imputer inputCols 検証を追加
- 2022 年 8 月 24 日
- [SPARK-39666] UnsafeProjection.create を使用して ExpressionEncoder で
spark.sql.codegen.factoryMode
を考慮する - [SPARK-39962] グループ属性が空の場合にプロジェクションを適用する
- オペレーティング システムのセキュリティを更新。
- [SPARK-39666] UnsafeProjection.create を使用して ExpressionEncoder で
- 2022 年 8 月 9 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 27 日
- ソースが決定論的でない場合は、Delta MERGE 操作の結果を一貫性のあるものにします。
- [SPARK-39689] CSV データ ソースでの 2 文字の
lineSep
のサポート - [SPARK-39575]
AvroDeserializer
でByteBuffer#get
の後にByteBuffer#rewind
を追加しました。 - [SPARK-37392] カタリスト オプティマイザーのパフォーマンス エラーを修正しました。
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 13 日
- [SPARK-39419]
ArraySort
で、比較子が null を返すときに例外がスローされます。 - Azure でのディレクトリ一覧に対する自動ローダーによる組み込みのクラウド API の使用を無効にしました。
- オペレーティング システムのセキュリティを更新。
- [SPARK-39419]
- 2022 年 7 月 5 日
- オペレーティング システムのセキュリティを更新。
- その他の修正。
- 2022 年 6 月 15 日
- [SPARK-39283]
TaskMemoryManager
とUnsafeExternalSorter.SpillableIterator
の間のデッドロックを修正します。
- [SPARK-39283]
- 2022 年 6 月 2 日
- [SPARK-34554]
ColumnarMap
でcopy()
メソッドを実装します。 - オペレーティング システムのセキュリティを更新。
- [SPARK-34554]
- 2022 年 5 月 18 日
- 自動ローダーで組み込みメモリ リークが発生する可能性がある問題を修正しました。
- AWS SDK のバージョンを 1.11.655 から 1.11.678 にアップグレードします。
- [SPARK-38918] 入れ子になった列の排除で、現在のリレーションシップに属していない属性を除外する必要がある
- [SPARK-39084]
TaskContext
を使用してタスクの完了時に反復子を停止してdf.rdd.isEmpty()
を修正する - オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 19 日
- オペレーティング システムのセキュリティを更新。
- その他の修正。
- 2022 年 4 月 6 日
- [SPARK-38631] Java ベースの実装を使用して、Utils.unpack での tar の展開を行います。
- オペレーティング システムのセキュリティを更新。
- 2022 年 3 月 22 日
- テーブル アクセス制御または資格情報パススルーが有効になっている高コンカレンシー クラスターでは、ノートブックの現在の作業ディレクトリがユーザーのホーム ディレクトリに変更されました。 以前は、アクティブ ディレクトリは
/databricks/driver
でした。 - [SPARK-38437] データソースからの datetime の厳密ではないシリアル化
- [SPARK-38180] 相関等価述語で安全なアップキャスト式を許可する
- [SPARK-38155] サポートされていない述語を持つ lateral サブクエリの個別の集計を禁止する
- [SPARK-27442] Parquet でのデータの読み取りまたは書き込み時のチェック フィールドを削除しました。
- テーブル アクセス制御または資格情報パススルーが有効になっている高コンカレンシー クラスターでは、ノートブックの現在の作業ディレクトリがユーザーのホーム ディレクトリに変更されました。 以前は、アクティブ ディレクトリは
- 2022 年 3 月 14 日
- [SPARK-38236] テーブルの作成/変更時に指定される絶対ファイル パスが相対パスとして扱われる
- [SPARK-34069] ローカル プロパティ
SPARK_JOB_INTERRUPT_ON_CANCEL
が true に設定されている場合、タスク スレッドを中断します。
- 2022 年 2 月 23 日
- [SPARK-37859] Spark 3.1 を使用して JDBC で作成された SQL テーブルを Spark 3.2 で読み取れません。
- 2022 年 2 月 8 日
- [SPARK-27442] Parquet でのデータの読み取りまたは書き込み時のチェック フィールドを削除しました。
- オペレーティング システムのセキュリティを更新。
- 2022 年 2 月 1 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 1 月 26 日
- 特定のまれな条件下で、Delta テーブルの同時実行トランザクションがシリアル化できない順序でコミットされる可能性がある問題を修正しました。
- ANSI SQL 言語が有効になっていると
OPTIMIZE
コマンドが失敗する可能性がある問題を修正しました。
- 2022 年 1 月 19 日
- 軽微な修正とセキュリティの強化。
- オペレーティング システムのセキュリティを更新。
- 2021 年 11 月 4 日
ArrayIndexOutOfBoundsException
で構造化ストリーミング ストリームが失敗する可能性がある問題を修正しました。java.io.IOException: No FileSystem for scheme
のような IOException を伴うクエリエラーが発生する可能性のある競合状態や、sparkContext.hadoopConfiguration
に対する変更がクエリに反映されなくなる可能性のある競合状態を修正。- Delta Sharing 用の Apache Spark コネクタを 0.2.0 にアップグレード。
- 2021 年 10 月 20 日
- BigQuery コネクタを 0.18.1 から 0.22.2 にアップグレード。 これにより、BigNumeric 型のサポートが追加されます。