Databricks ランタイムのメンテナンス更新プログラム (アーカイブ済み)
このアーカイブ済みのページには、サポートが終了している Databricks Runtime リリースに対して発行されたメンテナンス更新プログラムが掲載されています。 既存のクラスターにメンテナンス更新プログラムを追加するには、クラスターを再起動します。
重要
このドキュメントは廃止され、更新されない可能性があります。 このコンテンツで言及されている製品、サービス、テクノロジは、サポート終了に達しました。 「Databricks Runtime リリース ノートのバージョンと互換性」を参照してください。
Note
この記事には、Azure Databricks では使用されない "ホワイトリスト" という用語への言及があります。 ソフトウェアからこの用語が削除された時点で、この記事から削除します。
Databricks Runtime リリース
リリース別のメンテナンス更新プログラム:
- Databricks Runtime 15.1
- Databricks Runtime 15.0
- Databricks Runtime 14.2
- Databricks Runtime 14.0
- Databricks Runtime 13.1
- Databricks Runtime 12.2 LTS
- Databricks Runtime 11.3 LTS
- Databricks Runtime 10.4 LTS
- Databricks Runtime 9.1 LTS
- Databricks Runtime 13.0 (EoS)
- Databricks Runtime 12.1 (EoS)
- Databricks Runtime 12.0 (EoS)
- Databricks Runtime 11.2 (EoS)
- Databricks Runtime 11.1 (EoS)
- Databricks Runtime 11.0 (EoS)
- Databricks Runtime 10.5 (EoS)
- Databricks Runtime 10.3 (EoS)
- Databricks Runtime 10.2 (EoS)
- Databricks Runtime 10.1 (EoS)
- Databricks Runtime 10.0 (EoS)
- Databricks Runtime 9.0 (EoS)
- Databricks Runtime 8.4 (EoS)
- Databricks Runtime 8.3 (EoS)
- Databricks Runtime 8.2 (EoS)
- Databricks Runtime 8.1 (EoS)
- Databricks Runtime 8.0 (EoS)
- Databricks Runtime 7.6 (EoS)
- Databricks Runtime 7.5 (EoS)
- Databricks Runtime 7.3 LTS (EoS)
- Databricks Runtime 6.4 延長サポート (EoS)
- Databricks Runtime 5.5 LTS (EoS)
- Databricks Light 2.4 延長サポート
- Databricks Runtime 7.4 (EoS)
- Databricks Runtime 7.2 (EoS)
- Databricks Runtime 7.1 (EoS)
- Databricks Runtime 7.0 (EoS)
- Databricks Runtime 6.6 (EoS)
- Databricks Runtime 6.5 (EoS)
- Databricks Runtime 6.3 (EoS)
- Databricks Runtime 6.2 (EoS)
- Databricks Runtime 6.1 (EoS)
- Databricks Runtime 6.0 (EoS)
- Databricks Runtime 5.4 ML (EoS)
- Databricks Runtime 5.4 (EoS)
- Databricks Runtime 5.3 (EoS)
- Databricks Runtime 5.2 (EoS)
- Databricks Runtime 5.1 (EoS)
- Databricks Runtime 5.0 (EoS)
- Databricks Runtime 4.3 (EoS)
- Databricks Runtime 4.2 (EoS)
- Databricks Runtime 4.1 ML (EoS)
- Databricks Runtime 4.1 (EoS)
- Databricks Runtime 4.0 (EoS)
- Databricks Runtime 3.5 LTS (EoS)
- Databricks Runtime 3.4 (EoS)
サポートされている Databricks Runtime バージョンのメンテナンス更新プログラムについては、「Databricks Runtime メンテナンス更新プログラム」を参照してください。
Databricks Runtime 15.1
Databricks Runtime 15.1 (EoS)を参照してください。
- 2024 年 10 月 22 日
- [SPARK-49863][SQL]NormalizeFloatingNumbers を修正して、入れ子になった構造体の null 値の許容を維持する
- [SPARK-46632][SQL]同等の三項式に異なる子がある場合の部分式の削除を修正する
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- [SPARK-49829] ストリーム ストリーム結合で状態ストアに入力を追加する際の最適化を修正する (正確性の修正)
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 10 日
- [SPARK-49688][CONNECT]割り込みと実行プランの間のデータ 競合を修正する
- [SPARK-49743][SQL]GetArrayStructFields を排除するときに OptimizeCsvJsonExpr でスキーマ フィールドを変更しないでください
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS]FlatMapGroupsWithState ユーザー関数エラーの分類 Error クラス
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 25 日
- [SPARK-49628][SQL]ConstantFolding では、評価前にステートフル式をコピーする必要があります
- [SPARK-48719][SQL]最初のパラメーターが null の場合の RegrSlope と RegrIntercept の計算バグを修正しました
- [SPARK-49492][CONNECT]非アクティブな ExecutionHolder に対して再アタッチが試行されました
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- [SPARK-49458][CONNECT][PYTHON]ReattachExecute を使用してサーバー側のセッション ID を指定する
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 17 日
- [SPARK-49336][CONNECT]protobuf メッセージを切り捨てるときに入れ子レベルを制限する
- [SPARK-49526][CONNECT]ArtifactManager で Windows スタイルのパスをサポートする
- [SPARK-49409][CONNECT]CONNECT_SESSION_PLAN_CACHE_SIZEの既定値を調整する
- [SPARK-43242][CORE]シャッフル破損診断で "予期しない種類の BlockId" がスローされる問題を修正しました
- [SPARK-49366][CONNECT]データフレーム列解決で共用体ノードをリーフとして扱う
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect Python クライアント: ブール値データフレーム リーダーのオプションを一貫して処理する
- [SPARK-49056][SQL] ErrorClassesJsonReader は null を正しく処理できません
- [SPARK-48862][PYTHON][CONNECT] INFO レベルが有効化されていないときに
_proto_to_string
の呼び出しは避けてください - [SPARK-49146][SS] 追加モードのストリーミング クエリでウォーターマークが見つからない問題に関連するアサーション エラーをエラー フレームワークに移動する
- 2024 年 8 月 14 日
- [SPARK-48941][SPARK-48970] バックポート ML ライター/リーダーの修正
- [SPARK-48050][SS] クエリの開始時に論理プランをログ記録する
- [SPARK-48706][PYTHON] 上位の関数の Python UDF は内部エラーをスローしてはなりません
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-49047][PYTHON][CONNECT] ログ記録用にメッセージを切り詰める
- [SPARK-48740][SQL] 不足しているウィンドウ仕様のエラーを早期にキャッチする
- 2024 年 8 月 1 日
- ノートブックとジョブのサーバーレス コンピューティングでは、ANSI SQL モードが既定で有効になっています。 「サポートされている Spark 構成パラメーター」を参照してください。
- 共有アクセス モードで構成されたコンピューティングでは、Kafka バッチの読み取りと書き込みには、構造化ストリームに関して文書化されている制限事項と同じものが実施されるようになりました。 「Unity Catalog 共有アクセス モードのストリーミングの制限事項と要件」をご覧ください。
SHOW CREATE TABLE
ステートメントからの出力には、具体化されたビューまたはストリーミング テーブルで定義されている行フィルターまたは列マスクが含まれるようになりました。 「SHOW CREATE TABLE」を参照してください。 行フィルターと列マスクの詳細については、「行フィルターと列マスクを使用して機密性の高いテーブル データのフィルター処理」を参照してください。- [SPARK-48544][SQL] 空の TreeNode BitSets のメモリ負荷を軽減する
- [SPARK-46957][CORE] 移行済みシャッフル ファイルのデコミッションは実行元からクリーンアップできる必要があります
- [SPARK-47202][PYTHON] tzinfo を使用して入力ミスを 壊す datetimes を修正する
- [SPARK-48713][SQL] baseObject がバイト配列のときに UnsafeRow.pointTo にインデックスの範囲チェックを追加する
- [SPARK-48896][SPARK-48909][SPARK-48883] バックポート Spark ML ライターの修正
- [SPARK-48810][CONNECT] Session stop() API はべき等である必要があり、セッションが既にサーバーによって閉じられていても異常終了してはなりません
- [SPARK-48873][SQL] JSON パーサーで UnsafeRow を使用する。
- [SPARK-48934][SS] applyInPandasWithState でタイムアウト設定に Python の datetime タイプが正しく変換されていない
- [SPARK-48705][PYTHON] pyspark を使用して起動されるときに worker_main を明示的に使用する
- [SPARK-48889][SS] 終了する前に testStream で状態ストアをアンロードする
- [SPARK-48047][SQL] 空の TreeNode タグのメモリ負荷を軽減する
- [SPARK-48463] StringIndexer で入れ子になった入力列をサポートさせる
- オペレーティング システムのセキュリティを更新。
- 2024 年 7 月 11 日
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
.checkpoint()
を使用して DataFrame の有効期間全体にわたってテーブルの状態を永続化します。 - Snowflake JDBC ドライバーでは、バージョン 3.16.1 に更新されました。
- このリリースには、Databricks コンテナー サービスで実行中に [Spark UI] の [環境] タブが正しく表示されない問題の修正が含まれています。
- ノートブックとジョブのサーバーレス コンピューティングでは、ANSI SQL モードが既定で有効になっています。 「サポートされている Spark 構成パラメーター」を参照してください。
- データの読み取り時に無効なパーティションを無視するには、Parquet、ORC、CSV、JSON などのファイル ベースのデータ ソースで ignoreInvalidPartitionPaths データ ソース オプションを true に設定できます。 例: spark.read.format(“parquet”).option(“ignoreInvalidPartitionPaths”, “true”).load(…)` SQL 構成 spark.sql.files.ignoreInvalidPartitionPaths を使用することもできます。 ただし、データ ソース オプションは SQL 構成よりも優先されます。 この設定の既定は false です。
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan をストリーミング Dataset に適用しない
- [SPARK-48100][SQL] スキーマで選択されていない入れ子構造フィールドのスキップに関する問題を修正する
- [SPARK-47463][SQL] V2Predicate を使用して戻り値がブール型の式をラップする
- [SPARK-48445][SQL] 高コストの子を持つ UDF をインライン化しない
- [SPARK-48292][CORE] 取り消し: [SPARK-39195][SQL] Spark OutputCommitCoordinator はコミットされたファイルとタスクの状態が整合していない場合にステージを中止する必要がある
- [SPARK-48566][PYTHON] UDTF analyze() が select と partitionColumns の両方を使用するときにパーティション インデックスが正しくないというバグを修正する
- [SPARK-48648][PYTHON][CONNECT] SparkConnectClient.tags を適切に threadlocal にする
- [SPARK-48503][SQL] group-by や非等値列が誤って許可されていた無効なスカラー サブクエリを修正する
- [SPARK-48252][SQL] 必要なときに CommonExpressionRef を更新する
- [SPARK-48475][PYTHON] PySpark で _get_jvm_function in を最適化する
- [SPARK-48294][SQL] nestedTypeMissingElementTypeError で小文字を処理する
- [SPARK-48286] 既定の式が存在する列の分析を修正する - ユーザー向けエラーを追加する
- [SPARK-47309][SQL] XML: 値タグのスキーマ推論テストを追加する
- [SPARK-47309][SQL][XML] スキーマ推論の単体テストを追加します
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifier の遅延書き換えを修正する
- オペレーティング システムのセキュリティを更新。
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
- 2024 年 6 月 17 日
applyInPandasWithState()
は共有クラスターで使用できます。- Photon TopK を使用したランクウィンドウの最適化で、構造体を含むパーティションが正しく処理されないバグを修正しました。
- [SPARK-48310][PYTHON][CONNECT] キャッシュされたプロパティはコピーを返す必要がある
- [SPARK-48276][PYTHON][CONNECT]
__repr__
の足りないSQLExpression
メソッドを追加する - [SPARK-48277] ErrorClassesJsonReader.getErrorMessage のエラー メッセージを改善する
- [SPARK-47764][CORE][SQL] ShuffleCleanupMode に基づくシャッフル依存関係をクリーンアップする
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 21 日
- 10 進数を含む入力で予期しない例外が発生する try_divide() 関数のバグを修正しました。
- [SPARK-48173][SQL] CheckAnalysis にクエリ プラン全体が表示される
- [SPARK-48016][SQL] 10 進数を使用する場合 try_divide 関数のバグを修正する
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- [SPARK-48197][SQL] 無効なラムダ関数のアサート エラーを回避する
- [SPARK-48180][SQL] TABLE 引数を指定した UDTF 呼び出しで複数の PARTITION/ORDER BY 式のかっこを忘れた場合のエラーを改善する
- [SPARK-48014][SQL] EvaluatePython の makeFromJava エラーをユーザー側エラーに変更する
- [SPARK-48056][CONNECT][PYTHON] SESSION_NOT_FOUND エラーが発生しても部分的な応答が受信されなかった場合にプランを再実行する
- [SPARK-48146][SQL] With 式子アサーションの集計関数を修正する
- [SPARK-47994][SQL] SQLServer で CASE WHEN 列フィルターがプッシュダウンされるバグを修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 9 日
- [SPARK-47543][CONNECT][PYTHON] Pandas DataFrame から dict を MapType として推論して DataFrame を作成できるようにする
- [SPARK-47739][SQL] 論理 avro 型を登録する
- [SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
をキャッシュする - [SPARK-47855][CONNECT] サポート対象外リストに
spark.sql.execution.arrow.pyspark.fallback.enabled
を追加する - [SPARK-48010][SQL] resolveExpression で conf.resolver を繰り返し呼び出さないようにする
- [SPARK-47941] [SS] [Connect] PySpark の ForeachBatch worker 初期化エラーについてユーザーに伝える
- [SPARK-47819][CONNECT][Cherry-pick-15.0] 実行のクリーンアップに非同期コールバックを使用する
- [SPARK-47956][SQL] 未解決の LCA リファレンスのサニティ チェックを実行する
- [SPARK-47839][SQL] RewriteWithExpression における集計のバグを修正する
- [SPARK-48018][SS] KafkaException.couldNotReadOffsetRange をスローするときにパラメーター不足のエラーを引き起こす null groupId を修正する
- [SPARK-47371][SQL] XML: CDATA で見つかった行タグを無視する
- [SPARK-47907][SQL] 構成の下にバングを配置する
- [SPARK-47895][SQL] グループはすべてべき等である必要がある
- [SPARK-47973][CORE] SparkContext.assertNotStopped() の SparkContext.stop() 以降の呼び出しサイトをログする
- [SPARK-47986][CONNECT][PYTHON] 既定のセッションがサーバーによって閉じられたときに新しいセッションを作成できない
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 15.0
「Databricks Runtime 15.0 (EoS)」を参照してください。
- 2024 年 5 月 30 日
- 2024 年 4 月 25 日
- [SPARK-47786] SELECT DISTINCT () は SELECT DISTINCT struct() にするべきではない (以前の動作に戻す)
- [SPARK-47802][SQL] () の意味を struct() から * に戻す
- [SPARK-47509][SQL] ラムダ関数と上位関数のサブクエリ式をブロックします
- [SPARK-47722] RocksDB のバックグラウンド処理が終了するまで待ってからクローズする
- [SPARK-47081][CONNECT][FOLLOW] Progress Handler の使いやすさの向上
- [SPARK-47694][CONNECT] クライアント側で最大メッセージ サイズを構成できるようにする
- [SPARK-47669][SQL][CONNECT][PYTHON]
Column.try_cast
を追加する - [SPARK-47664][PYTHON][CONNECT][Cherry-pick-15.0] キャッシュされたスキーマで列名を検証する
- [SPARK-47818][CONNECT][Cherry-pick-15.0] SparkConnectPlanner にプラン キャッシュを導入して、分析要求のパフォーマンスを向上させる
- [SPARK-47704][SQL] spark.sql.json.enablePartialResults が有効になっている場合に、JSON の解析が "java.lang.ClassCastException" で失敗する
- [SPARK-47755][CONNECT] 個別の値の数が多すぎる場合、ピボットは失敗する必要がある
- [SPARK-47713][SQL][CONNECT] 自己結合エラーを修正する
- [SPARK-47812][CONNECT] ForEachBatch ワーカーの SparkSession のシリアル化をサポートする
- [SPARK-47828][CONNECT][PYTHON] 無効なプランで
DataFrameWriterV2.overwrite
が失敗する - [SPARK-47862][PYTHON][CONNECT] proto ファイルの生成を修正する
- [SPARK-47800][SQL] 識別子からテーブル識別子への変換のための新しいメソッドを作成する
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 3 日
- (動作変更) さまざまなコンピューティングの種類で一貫した動作を確保するために、共有クラスター上の PySpark UDF は、非分離クラスターと割り当てられたクラスター上の UDF の動作と一致するようになりました。 この更新プログラムには、既存のコードを中断する可能性がある次の変更が含まれています。
- 戻り値の型が
string
である UDF は、非string
値をstring
値に暗黙的には変換しなくなりました。 以前は、戻り値の型がstr
である UDF は、戻り値の実際のデータ型に関係なく、戻り値をstr()
関数でラップしていました。 - 戻り値の型が
timestamp
である UDF は、timestamp
を持つtimezone
への変換を暗黙的には適用しなくなりました。 - Spark クラスター構成
spark.databricks.sql.externalUDF.*
は、共有クラスター上の PySpark UDF には適用されなくなりました。 - Spark クラスター構成
spark.databricks.safespark.externalUDF.plan.limit
は、PySpark UDF には影響を与えなくなり、クエリあたり 5 個の UDF という PySpark UDF でのパブリック プレビュー制限が削除されました。 - Spark クラスター構成
spark.databricks.safespark.sandbox.size.default.mib
は、共有クラスター上の PySpark UDF には適用されなくなりました。 代わりに、システム上の使用可能なメモリが使用されます。 PySpark UDF のメモリを制限するには、最小値をspark.databricks.pyspark.udf.isolation.memoryLimit
にして100m
を使用します。
- 戻り値の型が
TimestampNTZ
データ型は、リキッド クラスタリングを使用するクラスタリング列としてサポートされるようになりました。 詳しくは、「Delta テーブルにリキッド クラスタリングを使用する」をご覧ください。- [SPARK-47218][SQL] XML: XML トークナイザーのコメントされた行タグを無視します
- [SPARK-46990][SQL] イベントハブによって出力される空の Avro ファイルが読み込まれる問題を修正します
- [SPARK-47033][SQL] EXECUTE IMMEDIATE USING でセッション変数名が認識されない問題を修正します
- [SPARK-47368][SQL] ParquetRowConverter の inferTimestampNTZ 構成チェックを削除します
- [SPARK-47561][SQL] エイリアスに関するアナライザー ルールの順序の問題を修正します
- [SPARK-47638][PS][CONNECT] PS での列名の検証をスキップします
- [SPARK-46906][BACKPORT][SS] ストリーミングのステートフル演算子の変更のチェックを追加します
- [SPARK-47569][SQL] バリアントの比較が禁止します
- [SPARK-47241][SQL] ExtractGenerator のルールの順序の問題を修正します
- [SPARK-47218] [SQL] XML: DROPMALFORMED モードで SchemaOfXml が失敗するように変更されました
- [SPARK-47300][SQL]
quoteIfNeeded
は数字で始まる識別子を引用符で囲む必要があります - [SPARK-47009][SQL][Collation] 照合順序のテーブル作成のサポートを有効にします
- [SPARK-47322][PYTHON][CONNECT]
withColumnsRenamed
列名の重複処理をwithColumnRenamed
と整合させます - [SPARK-47544][PYTHON] SparkSession ビルダー メソッドが Visual Studio Code の Intellisense と互換性がありません
- [SPARK-47511][SQL] ID を再割り当てすることで式で正規化します
- [SPARK-47385] オプション入力を使用してタプル エンコーダーを修正します
- [SPARK-47200][SS] Foreach バッチ シンクユーザー関数エラーのエラー クラス
- [SPARK-47135][SS] Kafka データ損失例外のエラー クラスを実装します
- [SPARK-38708][SQL] Hive メタストア クライアントを Hive 3.1 用の 3.1.3 にアップグレードします
- [SPARK-47305][SQL] プランにバッチとストリーミングの両方がある場合に LocalRelation の isStreaming フラグに正しくタグを付けるために PruneFilters を修正します
- [SPARK-47380][CONNECT] SparkSession が同じであることをサーバー側で確認します
- オペレーティング システムのセキュリティを更新。
- (動作変更) さまざまなコンピューティングの種類で一貫した動作を確保するために、共有クラスター上の PySpark UDF は、非分離クラスターと割り当てられたクラスター上の UDF の動作と一致するようになりました。 この更新プログラムには、既存のコードを中断する可能性がある次の変更が含まれています。
Databricks Runtime 14.2
Databricks Runtime 14.2 (EoS)を参照してください。
- 2024 年 10 月 22 日
- [SPARK-49782][SQL]ResolveDataFrameDropColumns ルールは、子出力で UnresolvedAttribute を解決します
- [SPARK-49905] ステートフル演算子に専用の ShuffleOrigin を使用して、AQE からシャッフルが変更されないようにする
- オペレーティング システムのセキュリティを更新。
- 2024 年 10 月 10 日
- [SPARK-49743][SQL]GetArrayStructFields を排除するときに OptimizeCsvJsonExpr でスキーマ フィールドを変更しないでください
- [BACKPORT][[SPARK-49474]]https://issues.apache.org/jira/browse/SPARK-49474)[SS]FlatMapGroupsWithState ユーザー関数エラーの分類 Error クラス
- 2024 年 9 月 25 日
- [SPARK-48719][SQL]'RegrS... の計算バグを修正しました。
- [SPARK-49628][SQL]ConstantFolding では、評価前にステートフル式をコピーする必要があります
- [SPARK-49000][SQL]RewriteDistinctAggregates を展開して、t が空のテーブルである "select count(distinct 1) from t" を修正しました
- [SPARK-43242][CORE]シャッフル破損診断で "予期しない種類の BlockId" がスローされる問題を修正しました
- [SPARK-46601] [CORE]handleStatusMessage のログ エラーを修正する
- オペレーティング システムのセキュリティを更新。
- 2024 年 9 月 17 日
- [SPARK-49526][CONNECT]ArtifactManager で Windows スタイルのパスをサポートする
- 2024 年 8 月 29 日
- [SPARK-49263][CONNECT] Spark Connect Python クライアント: ブール値データフレーム リーダーのオプションを一貫して処理する
- [SPARK-49146][SS] 追加モードのストリーミング クエリでウォーターマークが見つからない問題に関連するアサーション エラーをエラー フレームワークに移動する
- [SPARK-49056][SQL] ErrorClassesJsonReader は null を正しく処理できません
- 2024 年 8 月 14 日
- [SPARK-48050][SS] クエリの開始時に論理プランをログ記録する
- [SPARK-48597][SQL] 論理プランのテキスト表現に isStreaming プロパティのマーカーを導入する
- [SPARK-49065][SQL] レガシ フォーマッタ/パーサーのリベースは、JVM 以外のデフォルト タイム ゾーンをサポートする必要があります
- [SPARK-48706][PYTHON] 上位の関数の Python UDF は内部エラーをスローしてはなりません
- 2024 年 8 月 1 日
- このリリースには、Spark Java インターフェイスの
ColumnVector
クラスとColumnarArray
クラスのバグ修正が含まれています。 この修正プログラムの前には、これらのクラスのいずれかのインスタンスにArrayIndexOutOfBoundsException
値が含まれていると、null
がスローされるか、正しくないデータが返される可能性がありました。 SHOW CREATE TABLE
ステートメントからの出力には、具体化されたビューまたはストリーミング テーブルで定義されている行フィルターまたは列マスクが含まれるようになりました。 「SHOW CREATE TABLE」を参照してください。 行フィルターと列マスクの詳細については、「行フィルターと列マスクを使用して機密性の高いテーブル データのフィルター処理」を参照してください。- [SPARK-47202][PYTHON] tzinfo を使用して入力ミスを 壊す datetimes を修正する
- [SPARK-48705][PYTHON] pyspark を使用して起動されるときに worker_main を明示的に使用する
- オペレーティング システムのセキュリティを更新。
- このリリースには、Spark Java インターフェイスの
- 2024 年 7 月 11 日
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
.checkpoint()
を使用して DataFrame の有効期間全体にわたってテーブルの状態を永続化します。 - Snowflake JDBC ドライバーでは、バージョン 3.16.1 に更新されました
- このリリースには、Databricks コンテナー サービスで実行中に [Spark UI] の [環境] タブが正しく表示されない問題の修正が含まれています。
- [SPARK-48292][CORE] 取り消し: [SPARK-39195][SQL] Spark OutputCommitCoordinator はコミットされたファイルとタスクの状態が整合していない場合にステージを中止する必要がある
- [SPARK-48273][SQL] PlanWithUnresolvedIdentifier の遅延書き換えを修正する
- [SPARK-48503][SQL] group-by や非等値列が誤って許可されていた無効なスカラー サブクエリを修正する
- [SPARK-48481][SQL][SS] OptimizeOneRowPlan をストリーミング Dataset に適用しない
- [SPARK-48475][PYTHON] PySpark で _get_jvm_function in を最適化する
- [SPARK-48100][SQL] スキーマで選択されていない入れ子構造フィールドのスキップに関する問題を修正する
- [SPARK-48445][SQL] 高コストの子を持つ UDF をインライン化しない
- [SPARK-48383][SS] Kafka の startOffset オプションでパーティションのミスマッチに対してより良いエラーをスローする
- オペレーティング システムのセキュリティを更新。
- (動作変更) Delta テーブル ソースに対してキャッシュされた DataFrame は、ソース テーブルが上書きされたら無効化されるようになりました。 この変更は、Delta テーブルに対するすべての状態変更により、キャッシュされた結果が無効になったことを指します。
- 2024 年 6 月 17 日
- Photon TopK を使用したランクウィンドウの最適化で、構造体を含むパーティションが正しく処理されないバグを修正しました。
- [SPARK-48276][PYTHON][CONNECT]
__repr__
の足りないSQLExpression
メソッドを追加する - [SPARK-48277] ErrorClassesJsonReader.getErrorMessage のエラー メッセージを改善する
- オペレーティング システムのセキュリティを更新。
- 2024 年 5 月 21 日
- (動作変更)
dbutils.widgets.getAll()
ために がサポートされるようになりました。 - [SPARK-48173][SQL] CheckAnalysis にクエリ プラン全体が表示される
- [SPARK-48197][SQL] 無効なラムダ関数のアサート エラーを回避する
- [SPARK-47994][SQL] SQLServer で CASE WHEN 列フィルターがプッシュダウンされるバグを修正する
- [SPARK-48105][SS] 状態ストアのアンロードとスナップショット処理の間の競合状態を修正する
- オペレーティング システムのセキュリティを更新。
- (動作変更)
- 2024 年 5 月 9 日
- [SPARK-48044][PYTHON][CONNECT]
DataFrame.isStreaming
をキャッシュする - [SPARK-47956][SQL] 未解決の LCA リファレンスのサニティ チェックを実行する
- [SPARK-47371][SQL] XML: CDATA で見つかった行タグを無視する
- [SPARK-47812][CONNECT] ForEachBatch ワーカーの SparkSession のシリアル化をサポートする
- [SPARK-47895][SQL] グループはすべてべき等である必要がある
- [SPARK-47973][CORE] SparkContext.assertNotStopped() の SparkContext.stop() 以降の呼び出しサイトをログする
- オペレーティング システムのセキュリティを更新。
- [SPARK-48044][PYTHON][CONNECT]
- 2024 年 4 月 25 日
- [SPARK-47704][SQL] spark.sql.json.enablePartialResults が有効になっている場合に、JSON の解析が "java.lang.ClassCastException" で失敗する
- [SPARK-47828][CONNECT][PYTHON] 無効なプランで
DataFrameWriterV2.overwrite
が失敗する - オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 11 日
- [SPARK-47309][SQL][XML] スキーマ推論の単体テストを追加します
- [SPARK-46990][SQL] イベントハブによって出力される空の Avro ファイルが読み込まれる問題を修正します
- [SPARK-47638][PS][CONNECT] PS での列名の検証をスキップします
- [SPARK-47509][SQL] ラムダ関数と上位関数のサブクエリ式をブロックします
- [SPARK-38708][SQL] Hive メタストア クライアントを Hive 3.1 用の 3.1.3 にアップグレードします
- オペレーティング システムのセキュリティを更新。
- 2024 年 4 月 1 日
- [SPARK-47322][PYTHON][CONNECT]
withColumnsRenamed
列名の重複処理をwithColumnRenamed
と整合させます - [SPARK-47385] オプション入力を使用してタプル エンコーダーを修正します
- [SPARK-47070] サブクエリの書き換え後の無効な集計を修正する
- [SPARK-47218] [SQL] XML: DROPMALFORMED モードで SchemaOfXml が失敗するように変更されました
- [SPARK-47305][SQL] プランにバッチとストリーミングの両方がある場合に LocalRelation の isStreaming フラグに正しくタグを付けるために PruneFilters を修正します
- [SPARK-47218][SQL] XML: XML トークナイザーのコメントされた行タグを無視します
- "[SPARK-46861][CORE] DAGScheduler でのデッドロックを回避する" を取り消す
- [SPARK-47300][SQL]
quoteIfNeeded
は数字で始まる識別子を引用符で囲む必要があります - [SPARK-47368][SQL] ParquetRowConverter の inferTimestampNTZ 構成チェックを削除します
- オペレーティング システムのセキュリティを更新。
- [SPARK-47322][PYTHON][CONNECT]
- 2024 年 3 月 14 日
- [SPARK-47035][SS][CONNECT] クライアント側リスナーのプロトコル
- [SPARK-47121][CORE] StandaloneSchedulerBackend シャットダウン中に RejectedExecutionExceptions を回避する
- [SPARK-47145][SQL] V2 戦略の行データ ソース スキャン exec にテーブル識別子を渡します。
- [SPARK-47176][SQL] ResolveAllExpressionsUpWithPruning ヘルパー関数がある
- [SPARK-47167][SQL] JDBC 匿名関係の具象クラスを追加する
- [SPARK-47129][CONNECT][SQL]
ResolveRelations
キャッシュ接続プランを適切に作成する - [SPARK-47044][SQL] JDBC 外部データソースに対して実行されたクエリを追加して出力を説明する
- オペレーティング システムのセキュリティを更新。
- 2024 年 2 月 29 日
- MERGE コマンドでローカル コレクションをソースとして使用すると、操作メトリック numSourceRows が正しい行数の 2 倍になる問題を修正しました。
- 場所が定義されたスキーマを作成するには、ユーザーに ANY FILE に対する SELECT および MODIFY 権限が必要になりました。
- オートローダー、read_files、COPY INTO、DLT、DBSQL を使用して XML ファイルを取り込めるようになりました。 XML ファイルのサポートでは、スキーマの推論と進化、型の不一致によるデータの復旧、XSD を使用した XML の検証、from_xml、schema_of_xml、to_xml などの SQL 式のサポートを自動的に行うことができます。 詳細については、XML ファイル サポートに関するページを参照してください。 以前に外部 spark-xml パッケージを使用していた場合は、移行ガイダンスについて、こちらを参照してください。
- [SPARK-46954][SQL] XML: InputStreamReader を BufferedReader でラップする
- [SPARK-46630][SQL] XML: 書き込み時に XML 要素名を検証する
- [SPARK-46248][SQL] XML: ignoreCorruptFiles および ignoreMissingFiles オプションのサポート
- [SPARK-46954][SQL] XML: スキーマ インデックスの検索を最適化する
- [SPARK-47059][SQL] ALTER COLUMN v1 コマンドのエラー コンテキストをアタッチする
- [SPARK-46993][SQL] セッション変数の定数の畳み込みを修正する
- 2024 年 2 月 8 日
- Unity カタログの具体化されたビューに対する変更データ フィード (CDF) クエリはサポートされていません。また、Unity カタログの具体化されたビューで CDF クエリを実行しようとするとエラーが返されます。 Unity カタログ ストリーミング テーブルでは、Databricks Runtime 14.1 以降の
APPLY CHANGES
以外のテーブルに対する CDF クエリがサポートされています。 Databricks Runtime 14.0 以前の Unity カタログ ストリーミング テーブルでは、CDF クエリはサポートされていません。 - [SPARK-46930] Avro で共用体型フィールドのカスタム プレフィックスのサポートを追加します。
- [SPARK-46822] jdbc で jdbc 型を Catalyst 型にキャストする場合は、spark.sql.legacy.charVarcharAsString に従います。
- [SPARK-46952] XML: 破損したレコードのサイズを制限します。
- [SPARK-46644] isZero を使用するように SQLMetric の add と merge を変更します。
- [SPARK-46861] DAGScheduler でのデッドロックを回避します。
- [SPARK-46794] LogicalRDD 制約からサブクエリを削除します。
- [SPARK-46941] SizeBasedWindowFunction が含まれている場合、上位 k の計算にウィンドウ グループ制限ノードを挿入できません。
- [SPARK-46933] JDBCRDD を使用するコネクタにクエリ実行時間メトリックを追加します。
- オペレーティング システムのセキュリティを更新。
- Unity カタログの具体化されたビューに対する変更データ フィード (CDF) クエリはサポートされていません。また、Unity カタログの具体化されたビューで CDF クエリを実行しようとするとエラーが返されます。 Unity カタログ ストリーミング テーブルでは、Databricks Runtime 14.1 以降の
- 2024 年 1 月 31 日
- [SPARK-46382] XML:
ignoreSurroundingSpaces
のドキュメントを更新します。 - [SPARK-46382] XML: 要素間に点在する値をキャプチャします。
- [SPARK-46763] 重複する属性での ReplaceDeduplicateWithAggregate のアサーション エラーを修正します。
- 「[SPARK-46769] タイムスタンプ関連のスキーマ推論を調整します」を元に戻します。
- [SPARK-46677]
dataframe["*"]
の解像度を修正します。 - [SPARK-46382] XML: ignoreSurroundingSpaces の既定値を true にします。
- [SPARK-46633] 長さゼロのブロックを処理するように Avro リーダーを修正します。
- [SPARK-45964] Catalyst パッケージの下の XML および JSON パッケージのプライベート SQL アクセサーを削除します。
- [SPARK-46581] AccumulatorV2 の isZero に関するコメントを更新します。
- [SPARK-45912] XSDToSchema API の機能強化: クラウド ストレージ アクセシビリティの HDFS API に変更します。
- [SPARK-45182] チェックサムで確定された親の不確定ステージを再試行した後で、古いステージからのタスクの完了を無視します。
- [SPARK-46660] ReattachExecute 要求によって SessionHolder の有効性が更新されます。
- [SPARK-46610] テーブルを作成すると、オプション内のキーの値がない場合に例外がスローされます。
- [SPARK-46383]
TaskInfo.accumulables()
の有効期間を短縮してドライバー ヒープの使用量を削減します。 - [SPARK-46769] タイムスタンプ関連のスキーマ推論を調整します。
- [SPARK-46684] 引数を正しく渡すように CoGroup.applyInPandas/Arrow を修正します。
- [SPARK-46676] dropDuplicatesWithinWatermark はプランの正規化でエラーになってはなりません。
- [SPARK-45962]
treatEmptyValuesAsNulls
を削除し、XML で代わりにnullValue
オプションを使用します。 - [SPARK-46541] 自己結合におけるあいまいな列参照を修正します。
- [SPARK-46599] XML: 互換性チェックに TypeCoercion.findTightestCommonType を使用します。
- オペレーティング システムのセキュリティを更新。
- [SPARK-46382] XML:
- 2024 年 1 月 17 日
- Photon クエリによって返される Explain プランの
shuffle
ノードは、ブロードキャスト結合の一部であるシャッフル中にメモリ不足エラーが発生した場合に、causedBroadcastJoinBuildOOM=true
フラグを追加するように更新されます。 - TLSv1.3 経由で通信するときの待機時間の増加を回避するために、このメンテナンス リリースには JDK バグ JDK-8293562 を修正するための JDK 8 インストールへのパッチが含まれています。
- [SPARK-46261]
DataFrame.withColumnsRenamed
では、dict/map の順序を維持する必要があります。 - [SPARK-46538]
ALSModel.transform
におけるあいまいな列参照の問題を修正します。 - [SPARK-46145] spark.catalog.listTables は、テーブルまたはビューが見つからないときに例外をスローしません。
- [SPARK-46484]
resolveOperators
ヘルパー関数でプラン ID が保持されるようにします。 - [SPARK-46394]
spark.sql.legacy.keepCommandOutputSchema
が true に設定されている場合に、特殊文字を持つスキーマでの spark.catalog.listDatabases() の問題を修正します。 - [SPARK-46609] PartitioningPreservingUnaryExecNode での指数関数的な爆発を回避します。
- [SPARK-46446] 正確性のバグを修正するため、相関 OFFSET を持つサブクエリを無効にします。
- [SPARK-46152] XML: XML スキーマ推論で DecimalType のサポートを追加します。
- [SPARK-46602] ビュー/テーブルが存在しない場合に、ビューの作成時に
allowExisting
を伝達します。 - [SPARK-45814] メモリ リークを回避するため、ArrowConverters.createEmptyArrowBatch で close() を呼び出すようにします。
- [SPARK-46058] privateKeyPassword に別のフラグを追加します。
- [SPARK-46132] RPC SSL の JKS キーのキー パスワードをサポートします。
- [SPARK-46600] SqlConf と SqlApiConf の間の共有コードを SqlApiConfHelper に移動します。
- [SPARK-46478] SPARK-43049 を元に戻して、文字列に oracle varchar(255) を使用します。
- [SPARK-46417] hive.getTable を呼び出し、throwException が false の場合は失敗しません。
- [SPARK-46153] XML: TimestampNTZType のサポートを追加します。
- [SPARK-46056][BACKPORT] Parquet のベクトル化された読み取り NPE を byteArrayDecimalType の既定値で修正します。
- [SPARK-46466] ベクトル化された Parquet 閲覧者は、timestamp ntz のリベースを実行しないでください。
- [SPARK-46260]
DataFrame.withColumnsRenamed
は dict の順序を考慮する必要があります。 - [SPARK-46036] raise_error 関数から error-class を削除します。
- [SPARK-46294] init とゼロ値のセマンティクスをクリーンアップします。
- [SPARK-46173] 日付解析中の trimAll 呼び出しをスキップします。
- [SPARK-46250] test_parity_listener をフレーク解除します。
- [SPARK-46587] XML: XSD の大きな整数変換を修正します。
- [SPARK-46396] timestamp 推論では例外をスローしてはいけません。
- [SPARK-46241] 無限再帰に陥らないようにエラー処理ルーチンを修正します。
- [SPARK-46355] XML: 読み取り完了時に InputStreamReader を閉じます。
- [SPARK-46370] 列の既定値を変更した後にテーブルからクエリを実行するときのバグを修正します。
- [SPARK-46265] AddArtifact RPC のアサーションにより、接続クライアントは以前のクラスターと互換性がなくなります。
- [SPARK-46308 再帰エラー処理を禁止します。
- [SPARK-46337]
CTESubstitution
でPLAN_ID_TAG
を保持するようにします。
- Photon クエリによって返される Explain プランの
- 2023 年 12 月 14 日
- [SPARK-46141] spark.sql.legacy.ctePrecedencePolicy の既定値を CORRECTED に変更します。
- [SPARK-45730] ReloadingX509TrustManagerSuite の不安定さを軽減します。
- [SPARK-45852] ログ記録中の再帰エラーを適切に処理します。
- [SPARK-45808] SQL 例外のエラー処理が改善されました。
- [SPARK-45920] 序数によるグループはべき等である必要があります。
- "[SPARK-45649]
OffsetWindowFunctionFrame
の準備フレームワークを統合します" を元に戻します。 - [SPARK-45733] 複数の再試行ポリシーをサポートします。
- [SPARK-45509] Spark Connect の df 列参照動作を修正します。
- [SPARK-45655] CollectMetrics の AggregateFunctions 内で非決定論的な式を許可します。
- [SPARK-45905] 10 進型の間で最も一般的でない型では、整数桁が最初に保持される必要があります。
- [SPARK-45136] Ammonite のサポートで ClosureCleaner を強化します。
- [SPARK-46255] 複合型 -> 文字列変換をサポートします。
- [SPARK-45859] ml.functions で UDF オブジェクトを遅延させます。
- [SPARK-46028]
Column.__getitem__
が入力列を受け入れるようにします。 - [SPARK-45798] サーバー側のセッション ID をアサートします。
- [SPARK-45892] オプティマイザー プランの検証をリファクタリングして、
validateSchemaOutput
とvalidateExprIdUniqueness
を分離します。 - [SPARK-45844] XML の大文字と小文字の区別を実装します。
- [SPARK-45770]
DataFrameDropColumns
のプランDataframe.drop
を導入します。 - [SPARK-44790] XML: Python、connect、SQL の to_xml 実装とバインディング。
- [SPARK-45851] scala クライアントで複数のポリシーをサポートします。
- オペレーティング システムのセキュリティを更新。
- 2023 年 11 月 29 日
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
pyarrow-hotfix
をインストールしました。 - JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアがワイルドカードとして誤って解釈される問題を修正しました。 - [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - [SPARK-45852] Spark Connect 用 Python クライアントで、テキスト変換中に再帰エラーがキャッチされるようになりました。
- [SPARK-45808] SQL 例外のエラー処理を改善しました。
- [SPARK-45920]
GROUP BY
序数で序数を置き換えられません。 - [SPARK-45649] を元に戻します。
- [SPARK-45733] 複数の再試行ポリシーのサポートを追加しました。
- [SPARK-45509] Spark Connect の
df
列参照動作を修正しました。 - [SPARK-45655]
AggregateFunctions
のCollectMetrics
内で非決定論的な式を許可します。 - [SPARK-45905] 10 進型間で最も一般的な型では、最初に整数桁が保持されるようになりました。
- [SPARK-45136] Ammonite のサポートで
ClosureCleaner
を強化します。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - [SPARK-46028]
Column.__getitem__
で入力列が受け入れられます。 - [SPARK-45798] サーバー側のセッション ID をアサートします。
- [SPARK-45892] オプティマイザー プランの検証をリファクタリングして、
validateSchemaOutput
とvalidateExprIdUniqueness
を分離します。 - [SPARK-45844] XML の大文字と小文字の区別を実装します。
- [SPARK-45770]
DataFrameDropColumns
のDataframe.drop
を使用して列解決を修正しました。 - [SPARK-44790] Python、Spark Connect、SQL の
to_xml
実装とバインドを追加しました。 - [SPARK-45851] Scala クライアントで複数のポリシーのサポートを追加しました。
- オペレーティング システムのセキュリティを更新。
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
Databricks Runtime 14.0
「Databricks Runtime 14.0 (EoS)」を参照してください。
- 2024 年 2 月 8 日
- [SPARK-46396] timestamp 推論では例外をスローしてはいけません。
- [SPARK-46794] LogicalRDD 制約からサブクエリを削除します。
- [SPARK-45182] チェックサムで確定された親の不確定ステージを再試行した後で、古いステージからのタスクの完了を無視します。
- [SPARK-46933] JDBCRDD を使用するコネクタにクエリ実行時間メトリックを追加します。
- [SPARK-45957] 非実行可能コマンドで実行プランが生成されないようにします。
- [SPARK-46861] DAGScheduler でのデッドロックを回避します。
- [SPARK-46930] Avro で共用体型フィールドのカスタム プレフィックスのサポートを追加します。
- [SPARK-46941] SizeBasedWindowFunction が含まれている場合、上位 k の計算にウィンドウ グループ制限ノードを挿入できません。
- [SPARK-45582] 出力モード ストリーミング集計内でコミットを呼び出した後にストア インスタンスが使用されないようにします。
- オペレーティング システムのセキュリティを更新。
- 2024 年 1 月 31 日
- [SPARK-46541] 自己結合におけるあいまいな列参照を修正します。
- [SPARK-46676] dropDuplicatesWithinWatermark はプランの正規化でエラーになってはなりません。
- [SPARK-46769] タイムスタンプ関連のスキーマ推論を調整します。
- [SPARK-45498] フォローアップ: 古いステージ試行からのタスクの完了を無視します。
- 「[SPARK-46769] タイムスタンプ関連のスキーマ推論を調整します」を元に戻します。
- [SPARK-46383]
TaskInfo.accumulables()
の有効期間を短縮してドライバー ヒープの使用量を削減します。 - [SPARK-46633] 長さゼロのブロックを処理するように Avro リーダーを修正します。
- [SPARK-46677]
dataframe["*"]
の解像度を修正します。 - [SPARK-46684] 引数を正しく渡すように CoGroup.applyInPandas/Arrow を修正します。
- [SPARK-46763] 重複する属性での ReplaceDeduplicateWithAggregate のアサーション エラーを修正します。
- [SPARK-46610] テーブルを作成すると、オプション内のキーの値がない場合に例外がスローされます。
- オペレーティング システムのセキュリティを更新。
- 2024 年 1 月 17 日
- Photon クエリによって返される Explain プランの
shuffle
ノードは、ブロードキャスト結合の一部であるシャッフル中にメモリ不足エラーが発生した場合に、causedBroadcastJoinBuildOOM=true
フラグを追加するように更新されます。 - TLSv1.3 経由で通信するときの待機時間の増加を回避するために、このメンテナンス リリースには JDK バグ JDK-8293562 を修正するための JDK 8 インストールへのパッチが含まれています。
- [SPARK-46394]
spark.sql.legacy.keepCommandOutputSchema
が true に設定されている場合に、特殊文字を持つスキーマでの spark.catalog.listDatabases() の問題を修正します。 - [SPARK-46250] test_parity_listener をフレーク解除します。
- [SPARK-45814] メモリ リークを回避するため、ArrowConverters.createEmptyArrowBatch で close() を呼び出すようにします。
- [SPARK-46173] 日付解析中の trimAll 呼び出しをスキップします。
- [SPARK-46484]
resolveOperators
ヘルパー関数でプラン ID が保持されるようにします。 - [SPARK-46466] ベクトル化された Parquet 閲覧者は、timestamp ntz のリベースを実行しないでください。
- [SPARK-46056] Parquet のベクトル化された読み取り NPE を byteArrayDecimalType の既定値で修正します。
- [SPARK-46058] privateKeyPassword に別のフラグを追加します。
- [SPARK-46478] SPARK-43049 を元に戻して、文字列に oracle varchar(255) を使用します。
- [SPARK-46132] RPC SSL の JKS キーのキー パスワードをサポートします。
- [SPARK-46417] hive.getTable を呼び出し、throwException が false の場合は失敗しません。
- [SPARK-46261]
DataFrame.withColumnsRenamed
では、dict/map の順序を維持する必要があります。 - [SPARK-46370] 列の既定値を変更した後にテーブルからクエリを実行するときのバグを修正します。
- [SPARK-46609] PartitioningPreservingUnaryExecNode での指数関数的な爆発を回避します。
- [SPARK-46600] SqlConf と SqlApiConf の間の共有コードを SqlApiConfHelper に移動します。
- [SPARK-46538]
ALSModel.transform
におけるあいまいな列参照の問題を修正します。 - [SPARK-46337]
CTESubstitution
でPLAN_ID_TAG
を保持するようにします。 - [SPARK-46602] ビュー/テーブルが存在しない場合に、ビューの作成時に
allowExisting
を伝達します。 - [SPARK-46260]
DataFrame.withColumnsRenamed
は dict の順序を考慮する必要があります。 - [SPARK-46145] spark.catalog.listTables は、テーブルまたはビューが見つからないときに例外をスローしません。
- Photon クエリによって返される Explain プランの
- 2023 年 12 月 14 日
- JDBC または ODBC クライアントからの getColumns 操作でエスケープされたアンダースコアが誤って処理され、ワイルドカードとして解釈される問題を修正しました。
- [SPARK-46255] 複合型 -> 文字列変換をサポートします。
- [SPARK-46028]
Column.__getitem__
が入力列を受け入れるようにします。 - [SPARK-45920] 序数によるグループはべき等である必要があります。
- [SPARK-45433] timestamp が、指定された timestampFormat と一致しない場合の CSV/JSON スキーマ推論を修正します。
- [SPARK-45509] Spark Connect の df 列参照動作を修正します。
- オペレーティング システムのセキュリティを更新。
- 2023 年 11 月 29 日
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
pyarrow-hotfix
をインストールしました。 - JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアがワイルドカードとして誤って解釈される問題を修正しました。 - 自動ローダーまたはストリーミング テーブルを使用して CSV データを取り込む場合、大きな CSV ファイルは分割可能になり、スキーマの推論とデータ処理の両方で並列に処理できます。
- spark-snowflake コネクタは 2.12.0 にアップグレードされます。
- [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - [SPARK-45592] を元に戻します。
- [SPARK-45892] オプティマイザー プランの検証をリファクタリングして、
validateSchemaOutput
とvalidateExprIdUniqueness
を分離します。 - [SPARK-45592] AQE と
InMemoryTableScanExec
の正確性の問題を修正しました。 - [SPARK-45620] Python UDF に関連する API で camelCase が使用されるようになりました。
- [SPARK-44784] SBT テストを密閉にしました。
- [SPARK-45770]
DataFrameDropColumns
のDataframe.drop
を使用して列解決を修正しました。 - [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - オペレーティング システムのセキュリティを更新。
- PyArrow RCE の脆弱性を修復するために、新しいパッケージ
- 2023 年 11 月 10 日
- Unity カタログ ストリーミング テーブルと具体化されたビューに対するデータ フィード クエリを変更し、エラー メッセージを表示しました。
- [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-45430]
FramelessOffsetWindowFunction
は、IGNORE NULLS
とoffset > rowCount
の場合に失敗しなくなりました。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-44219] 最適化の書き換えに関する規則ごとの検証を追加しました。
- [SPARK-45543] 他の window 関数に rank-like 関数と同じウィンドウ フレームがない場合に
InferWindowGroupLimit
でエラーが発生する問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 10 月 23 日
- [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - [SPARK-45396]
PySpark.ml.connect
モジュールのドキュメント エントリを追加し、Evaluator
で__all__
をml.connect
に追加しました。 - [SPARK-45256] 初期容量よりも多い値を書き込むと
DurationWriter
が失敗する問題を修正しました。 - [SPARK-45279]
plan_id
をすべての論理プランにアタッチしました。 - [SPARK-45250] 動的割り当てが無効になっている場合の、Yarn クラスターのステージ レベルのタスク リソース プロファイルのサポートを追加しました。
- [SPARK-45182] ステージ出力が不確定のときにすべてのステージ タスクを再試行できるように、シャッフル マップ ステージのロールバックのサポートを追加しました。
- [SPARK-45419] より新しいバージョンのファイル バージョン マップ エントリを削除して、異なる
rocksdb sst
インスタンスでrocksdb
ファイルが再利用されないようにします。 - [SPARK-45386] 誤って
StorageLevel.NONE
から 0 が返される問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45426]
- 2023 年 10 月 13 日
- Snowflake-jdbc 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
array_insert
関数では、負のインデックスは以前は 0 ベースでしたが、現在は、正と負のインデックスは 1 ベースです。 インデックス 1 の入力配列の最後に新しい要素を挿入するようになりました。 以前の動作を復元するには、spark.sql.legacy.negativeIndexInArrayInsert
をtrue
に設定します。- 自動ローダーを使用した CSV スキーマ推論で
ignoreCorruptFiles
が有効になっている場合、Azure Databricks では破損したファイルが無視されなくなりました。 - [SPARK-45227]
CoarseGrainedExecutorBackend
に関する軽微なスレッドセーフの問題を修正しました。 - [SPARK-44658]
ShuffleStatus.getMapStatus
は、None
ではなく、Some(null)
を返す必要があります。 - [SPARK-44910]
Encoders.bean
では、ジェネリック型引数を持つスーパークラスはサポートされません。 - [SPARK-45346] Parquet スキーマ推論では、スキーマをマージする際に、大文字と小文字が区別されるフラグが考慮されます。
- [SPARK-42946] を元に戻します。
- [SPARK-42205] タスクまたはステージ開始イベントの Accumulables ログを削除するように、JSON プロトコルを更新しました。
- [SPARK-45360] Spark セッション ビルダーでは、
SPARK_REMOTE
からの初期化がサポートされています。 - [SPARK-45316] 新しいパラメーター
ignoreCorruptFiles
/ignoreMissingFiles
をHadoopRDD
とNewHadoopRDD
に追加します。 - [SPARK-44909] torch ディストリビューター ログ ストリーミング サーバーを使用できないときに、その実行をスキップします。
- [SPARK-45084]
StateOperatorProgress
では、正確なシャッフル パーティション番号が使用されるようになりました。 - [SPARK-45371] Spark Connect Scala クライアントのシェーディング問題を修正しました。
- [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使って
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - [SPARK-44840]
array_insert()
で負のインデックスを 1 ベースにします。 - [SPARK-44551] OSS と同期するようにコメントを編集しました。
- [SPARK-45078] 要素型が派生コンポーネント型と等しくない場合、
ArrayInsert
関数では明示的なキャストが行われるようになりました。 - [SPARK-45339] PySpark で再試行エラーがログに記録されるようになりました。
- [SPARK-45057]
keepReadLock
が false のときは、読み取りロックを取得しないようにします。 - [SPARK-44908] クロス検証コントロールの
foldCol
パラメーターの機能を修正しました。 - オペレーティング システムのセキュリティを更新。
Databricks Runtime 13.1
「Databricks Runtime 13.1 (EoS)」を参照してください。
- 2023 年 11 月 29 日
- JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアがワイルドカードとして誤って解釈される問題を修正しました。 - [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - [SPARK-43802] unhex 式と unbase64 式の codegen が失敗する問題を修正しました。
- [SPARK-43718]
USING
結合でのキーの NULL 値の許容を修正しました。 - オペレーティング システムのセキュリティを更新。
- JDBC または ODBC クライアントからの
- 2023 年 11 月 14 日
- Delta Lake ストリーミング クエリのパーティション フィルターは、使用率を向上させるためにレート制限の前にプッシュダウンされます。
- Unity カタログ ストリーミング テーブルと具体化されたビューに対するデータ フィード クエリを変更し、エラー メッセージを表示しました。
- [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45430]
FramelessOffsetWindowFunction
は、IGNORE NULLS
とoffset > rowCount
の場合に失敗しなくなりました。 - [SPARK-45543] 他の window 関数に rank-like 関数と同じウィンドウ フレームがない場合に
InferWindowGroupLimit
で問題が発生する問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 10 月 24 日
- [SPARK-43799] Pyspark
Protobuf
API に記述子バイナリ オプションを追加しました。 - [SPARK-42946] を元に戻します。
- [SPARK-45346] Parquet スキーマ推論では、スキーマをマージする際に、大文字と小文字を区別するフラグが考慮されるようになりました。
- オペレーティング システムのセキュリティを更新。
- [SPARK-43799] Pyspark
- 2023 年 10 月 13 日
- Snowflake-jdbc 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- 自動ローダーを使用した CSV スキーマ推論中に
ignoreCorruptFiles
が有効になっている場合、破損したファイルが無視されなくなりました。 - [SPARK-44658]
ShuffleStatus.getMapStatus
は、None
ではなくSome(null)
を返します。 - [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使って
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - [SPARK-42205] タスクまたはステージ開始イベントの Accumulables ログを削除するように、JSON プロトコルを更新しました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 9 月 12 日
- [SPARK-44718]
ColumnVector
メモリモード構成の既定値をOffHeapMemoryMode
構成値に一致させます。 - SPARK-44878 キャッシュ完了時に挿入例外が発生しないように、
RocksDB
書き込みマネージャーの厳密な制限を無効にしました。 - その他の修正。
- [SPARK-44718]
- 2023 年 8 月 30 日
- [SPARK-44871] 'percentile_disc 動作を修正しました。
- [SPARK-44714] クエリに関する LCA 解決の制限を緩和します。
- [SPARK-44245]
PySpark.sql.dataframe sample()
ドキュメント テストは説明のみになりました。 - [SPARK-44818]
taskThread
の初期化前に発行された保留中のタスク割り込みの競合を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 8 月 15 日
- [SPARK-44485]
TreeNode.generateTreeString
を最適化しました。 - [SPARK-44643] 行が空の場合の
Row.__repr__
を修正しました。 - [SPARK-44504] メンテナンス タスクで、停止エラー時に読み込まれたプロバイダーがクリーンアップされるようになりました。
- [SPARK-44479] 空の構造体型からの
protobuf
変換を修正しました。 - [SPARK-44464] 最初の列値として
applyInPandasWithStatePythonRunner
を持つ出力行に対するNull
を修正しました。 - その他の修正。
- [SPARK-44485]
- 2023 年 7 月 27 日
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
dbutils.fs.ls()
がINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
を返す問題を修正しました。 - [SPARK-44199]
CacheManager
は、fileIndex
を不必要に更新しなくなりました。 - [SPARK-44448]
DenseRankLimitIterator
とInferWindowGroupLimit
からの誤った結果のバグを修正しました。 - オペレーティング システムのセキュリティを更新。
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
- 2023 年 7 月 24 日
- [SPARK-42323] を元に戻します。
- [SPARK-41848]
TaskResourceProfile
でのタスク オーバー スケジュールの問題を修正しました。 - [SPARK-44136]
StateManager
のドライバーではなく Executor でFlatMapGroupsWithStateExec
が具体化される問題を修正しました。 - [SPARK-44337]
Any.getDefaultInstance
に設定されたフィールドで解析エラーが発生する問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 27 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 15 日
approx_count_distinct
が Photon に対応しました。failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗するようになります。- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
PubSubRecord
属性フィールドは、より簡単なシリアル化と逆シリアル化のために、Scala マップからの文字列の代わりに JSON として格納されます。EXPLAIN EXTENDED
コマンドにより、クエリの結果キャッシュの適格性が返されるようになります。SHALLOW CLONE
の Iceberg と Parquet を使用して増分更新のパフォーマンスを向上させます。- [SPARK-43032] Python SQM のバグ修正。
- [SPARK-43404] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43340] イベント ログにスタック トレース フィールドが見つからない問題を処理します。
- [SPARK-43527] PySpark の
catalog.listCatalogs
を修正しました。 - [SPARK-43541] 式と不足している列の解決において、すべての
Project
タグを伝達します。 - [SPARK-43300] Guava Cache 用の
NonFateSharingCache
ラッパー。 - [SPARK-43378]
deserializeFromChunkedBuffer
内のストリーム オブジェクトを適切に閉じます。 - [SPARK-42852]
NamedLambdaVariable
のEquivalentExpressions
に関連する変更を元に戻します。 - [SPARK-43779]
ParseToDate
により、メイン スレッドにEvalMode
が読み込まれるようになりました。 - [SPARK-43413]
IN
サブクエリのListQuery
の NULL 値の許容を修正します。 - [SPARK-43889]
__dir__()
の列名のチェックを追加して、エラーが発生しやすい列名を除外します。 - [SPARK-43043]
MapOutputTracker
.updateMapOutput のパフォーマンスを改善しました - [SPARK-43522] 配列のインデックスを含む構造体列名の作成の問題を修正しました。
- [SPARK-43457] OS、Python、Spark のバージョンを使用する引数ユーザー エージェント。
- [SPARK-43286] ランダムな IV を生成するように
aes_encrypt
の CBC モードを更新しました。 - [SPARK-42851]
EquivalentExpressions.addExpr()
を使用してsupportedExpression()
をガードします。 - [SPARK-43183] を元に戻します。
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 12.2 LTS
「Databricks Runtime 12.2 LTS」を参照してください。
- 2023 年 11 月 29 日
- JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアがワイルドカードとして誤って解釈される問題を修正しました。 - [SPARK-42205]
Stage
とTask
の開始イベントの蓄積されたログ記録を削除しました。 - [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - [SPARK-43718]
USING
結合でのキーの NULL 値の許容を修正しました。 - [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-43973] 構造化ストリーミング UI で、失敗したクエリが正しく表示されるようになりました。
- [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - オペレーティング システムのセキュリティを更新。
- JDBC または ODBC クライアントからの
- 2023 年 11 月 14 日
- Delta Lake ストリーミング クエリのパーティション フィルターは、使用率を向上させるためにレート制限の前にプッシュダウンされます。
- [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-45430]
FramelessOffsetWindowFunction
は、IGNORE NULLS
とoffset > rowCount
の場合に失敗しなくなりました。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 10 月 24 日
- [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - その他の修正。
- [SPARK-45426]
- 2023 年 10 月 13 日
- Snowflake-jdbc 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- [SPARK-42553] interval の後に少なくとも 1 つの時間単位を確保します。
- [SPARK-45346] Parquet スキーマ推論では、スキーマをマージする際に、大文字と小文字が区別されるフラグが考慮されます。
- [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使って
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - [SPARK-45084] 正確で適切なシャッフル パーティション番号を使用するための
StateOperatorProgress
。
- 2023 年 9 月 12 日
- [SPARK-44873] Hive クライアントで入れ子になった列を含む
alter view
のサポートを追加しました。 - [SPARK-44718]
ColumnVector
メモリモード構成の既定値をOffHeapMemoryMode
構成値に一致させます。 - [SPARK-43799] Pyspark
Protobuf
API に記述子バイナリ オプションを追加しました。 - その他の修正。
- [SPARK-44873] Hive クライアントで入れ子になった列を含む
- 2023 年 8 月 30 日
- [SPARK-44485]
TreeNode.generateTreeString
を最適化しました。 - [SPARK-44818]
taskThread
の初期化前に発行された保留中のタスク割り込みの競合を修正しました。 - [SPARK-44871][11.3-13.0]
percentile_disc
の動作を修正しました。 - [SPARK-44714] クエリに関する LCA 解決の制限を緩和しました。
- オペレーティング システムのセキュリティを更新。
- [SPARK-44485]
- 2023 年 8 月 15 日
- [SPARK-44504] メンテナンス タスクで、停止エラー時に読み込まれたプロバイダーがクリーンアップされます。
- [SPARK-44464] 最初の列値として
applyInPandasWithStatePythonRunner
を持つ出力行に対するNull
を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 7 月 29 日
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
dbutils.fs.ls()
がINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
を返す問題を修正しました。 - [SPARK-44199]
CacheManager
は、fileIndex
を不必要に更新しなくなりました。 - オペレーティング システムのセキュリティを更新。
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
- 2023 年 7 月 24 日
- [SPARK-44337]
Any.getDefaultInstance
に設定されたフィールドで解析エラーが発生する問題を修正しました。 - [SPARK-44136]
StateManager
のドライバーではなく Executor でFlatMapGroupsWithStateExec
が具体化される問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44337]
- 2023 年 6 月 23 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 15 日
approx_count_distinct
が Photon に対応しました。- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- [SPARK-43779]
ParseToDate
により、メイン スレッドにEvalMode
が読み込まれるようになりました。 - [SPARK-43156][SPARK-43098]
decorrelateInnerQuery
を無効にしてスカラー サブクエリ数のエラー テストを拡張しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。SHALLOW CLONE
の Iceberg と Parquet を使用して増分更新のパフォーマンスを向上させます。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-43404] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43413][11.3-13.0]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - [SPARK-43522] 配列のインデックスを含む構造体列名の作成の問題を修正しました。
- [SPARK-43541] 式と不足している列の解決において、すべての
Project
タグを伝達します。 - [SPARK-43527] PySpark の
catalog.listCatalogs
を修正しました。 - [SPARK-43123] 内部フィールド メタデータがカタログにリークしなくなりました。
- [SPARK-43340] イベント ログにスタック トレース フィールドが見つからない問題を修正しました。
- [SPARK-42444]
DataFrame.drop
で、重複する列が正しく処理されるようになりました。 - [SPARK-42937]
PlanSubqueries
でInSubqueryExec#shouldBroadcast
が true に設定されるようになりました。 - [SPARK-43286] ランダムな IV を生成するように
aes_encrypt
の CBC モードを更新しました。 - [SPARK-43378]
deserializeFromChunkedBuffer
内のストリーム オブジェクトを適切に閉じます。
- 2023 年 5 月 17 日
- バッチ サイズを動的に調整することで、非常に構造化されたファイルをスキャンするときに、Parquet スキャンが OOM に対して堅牢になりました。 バッチ サイズを大幅に小さくするためにファイル メタデータが分析され、最終的なセーフティ ネットとしてタスクの再試行時に再度低下します。
- Avro ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 - 自動ローダーで次の処理を行うようになりました。
-
Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合は、型が正しく読み取られ、復旧されなくなりましたが、Avro ファイルでは他の 2 つの型のいずれかが提案されます。
-
- 日付型またはタイムスタンプ型として interval 型を読み取らないようにし、破損した日付を取得しないようにします。
-
- 精度が低い
Decimal
型を読み取らないようにします。
- 精度が低い
- [SPARK-43172] Spark Connect クライアントからホストとトークンを公開します。
- [SPARK-43293]
__qualified_access_only
は通常の列では無視されます。 - [SPARK-43098] スカラー サブクエリが句でグループ化されている場合の正確性の
COUNT
バグを修正しました。 - [SPARK-43085] マルチパート テーブル名の列
DEFAULT
割り当てのサポート。 - [SPARK-43190]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 - [SPARK-43192] ユーザー エージェントの文字セット検証を削除しました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 4 月 25 日
- Parquet ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合、自動ローダーで型が正しく読み取られるようになり、復旧されなくなりました。 Parquet ファイルでは、他の 2 つの型のいずれかが提案されます。 復旧されたデータ列が以前に有効になっていた場合、データ型の不一致により、列は読み取り可能であっても保存されます。- [SPARK-43009]
sql()
定数でパラメーター化されたAny
- [SPARK-42406] フィールドを削除して Protobuf 再帰フィールドを終了する。
- [SPARK-43038]
aes_encrypt()
/aes_decrypt()
によって CBC モードをサポートする - [SPARK-42971] ワーカーで
workdir
イベントが処理されるときにappDirs
が null の場合、WorkDirCleanup
の出力に変更する - [SPARK-43018] タイムスタンプ リテラルを含む INSERT コマンドのバグを修正する
- オペレーティング システムのセキュリティを更新。
- Parquet ファイルが、
- 2023 年 4 月 11 日
SYNC
コマンドの従来のデータ ソース形式をサポートします。- リポジトリの外部にあるノートブックの %autoreload 動作の問題を修正しました。
- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性がある問題を修正しました。
- [SPARK-42928]
resolvePersistentFunction
を同期させました。 - [SPARK-42936] 句をその子集計で直接解決できる場合の LCA 問題を修正しました。.
- [SPARK-42967] ステージが取り消された後にタスクが開始されたときの
SparkListenerTaskStart.stageAttemptId
を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 3 月 29 日
Databricks SQL では、テーブルの作成時またはその後のいずれかで、Delta Lake テーブルの列の既定値を指定することがサポートされるようになりました。 以降の
INSERT
、UPDATE
、DELETE
、MERGE
コマンドでは、明示的なDEFAULT
キーワードを使用して、列の既定値を参照できます。 さらに、INSERT
割り当てに、ターゲット テーブルよりも少ない列のリストがある場合、残りの列について、対応する列の既定値が置き換えられます (または、既定値が指定されていない場合は NULL)。次に例を示します。
CREATE TABLE t (first INT, second DATE DEFAULT CURRENT_DATE()); INSERT INTO t VALUES (0, DEFAULT); INSERT INTO t VALUES (1, DEFAULT); SELECT first, second FROM t; \> 0, 2023-03-28 1, 2023-03-28z
自動ローダーでは、高速で実行される自動ローダー ストリームに対してチェックポイントを定期的にクリーンアップできることを確認するために、
Trigger.AvailableNow
ストリーム用に少なくとも 1 つの同期 RocksDB ログクリーンを開始するようになりました。 これにより、一部のストリームがシャットダウンされるまでに時間がかかる場合がありますが、ストレージ コストが節約され、今後の実行で自動ローダーのエクスペリエンスが向上します。Delta テーブルを変更して、
DeltaTable.addFeatureSupport(feature_name)
を使用してテーブル機能のサポートを追加できるようになりました。[SPARK-42794] 構造化ストリーミングの RocksDB 状態ストアを取得するための lockAcquireTimeoutMs を 2 分に増やす
[SPARK-42521] ターゲット テーブルよりも少ない列のユーザー指定リストを使用して、INSERT に NULL 値を追加する
[SPARK-42702][SPARK-42623] サブクエリと CTE でパラメーター化されたクエリをサポート
[SPARK-42668] HDFSStateStoreProvider 停止で圧縮ストリームを閉じようとしているときに例外をキャッチする
[SPARK-42403] JsonProtocol で null JSON 文字列を処理する必要がある
- 2023 年 3 月 8 日
- "構成の初期化エラー" というエラー メッセージが改善され、顧客に多くのコンテキストが提供されます。
- table プロパティを使用して Delta テーブルに機能を追加するための用語の変更があります。 推奨される構文は、
'delta.feature.featureName'='supported'
ではなく'delta.feature.featureName'='enabled'
になりました。 下位互換性のために、'delta.feature.featureName'='enabled'
を使用しても引き続き動作し、今後も引き続き動作します。 - このリリース以降では、既定のリーダーとライターのバージョンおよび既定でサポートされているテーブル機能を含む、プロトコル関連の Spark 構成を無視するために、追加のテーブル プロパティ
delta.ignoreProtocolDefaults
でテーブルを作成または置換できます。 - [SPARK-42070] Mask 関数の引数の既定値を -1 から NULL に変更する
- [SPARK-41793] 大きい 10 進数の範囲句で定義されたウィンドウ フレームの結果が正しくない
- [SPARK-42484] UnsafeRowUtils のエラー メッセージを改善
- [SPARK-42516] ビューの作成時にセッション タイム ゾーン構成を常にキャプチャする
- [SPARK-42635] TimestampAdd 式を修正します。
- [SPARK-42622] 値の置換を無効にしました
- [SPARK-42534] DB2Dialect Limit 句を修正する
- [SPARK-42121] 組み込みのテーブル値関数 posexplode、posexplode_outer、json_tuple、stack を追加する
- [SPARK-42045] ANSI SQL モード: Round/Bround は、tiny/small/significant の整数オーバーフローでエラーを返す必要がある
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 11.3 LTS
Databricks Runtime 11.3 LTSを参照してください。
- 2023 年 11 月 29 日
- JDBC または ODBC クライアントからの
getColumns
操作でエスケープされたアンダースコアがワイルドカードとして誤って解釈される問題を修正しました。 - [SPARK-43973] 構造化ストリーミング UI で、失敗したクエリが正しく表示されるようになりました。
- [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - [SPARK-43718]
USING
結合でのキーの NULL 値の許容を修正しました。 - [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - オペレーティング システムのセキュリティを更新。
- JDBC または ODBC クライアントからの
- 2023 年 11 月 14 日
- Delta Lake ストリーミング クエリのパーティション フィルターは、使用率を向上させるためにレート制限の前にプッシュダウンされます。
- [SPARK-42205] ステージおよびタスクの開始イベントの蓄積されたログ記録を削除しました。
- [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-33861] を元に戻します。
- [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45430]
FramelessOffsetWindowFunction
は、IGNORE NULLS
とoffset > rowCount
の場合に失敗しなくなりました。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 10 月 24 日
- [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - その他の修正。
- [SPARK-45426]
- 2023 年 10 月 13 日
- Snowflake-jdbc 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使って
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - [SPARK-45084] 正確で適切なシャッフル パーティション番号を使用するための
StateOperatorProgress
。 - [SPARK-45346] Parquet スキーマ推論では、スキーマをマージする際に、大文字と小文字を区別するフラグが考慮されるようになりました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 9 月 10 日
- その他の修正。
- 2023 年 8 月 30 日
- [SPARK-44818]
taskThread
の初期化前に発行された保留中のタスク割り込みの競合を修正しました。 - [SPARK-44871][11.3-13.0]
percentile_disc
の動作を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44818]
- 2023 年 8 月 15 日
- [SPARK-44485]
TreeNode.generateTreeString
を最適化しました。 - [SPARK-44504] メンテナンス タスクで、停止エラー時に読み込まれたプロバイダーがクリーンアップされます。
- [SPARK-44464] 最初の列値として
applyInPandasWithStatePythonRunner
を持つ出力行に対するNull
を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44485]
- 2023 年 7 月 27 日
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
dbutils.fs.ls()
がINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
を返す問題を修正しました。 - [SPARK-44199]
CacheManager
は、fileIndex
を不必要に更新しなくなりました。 - オペレーティング システムのセキュリティを更新。
- 他の外部またはマネージド ストレージの場所と競合するストレージの場所のパスを呼び出すと、
- 2023 年 7 月 24 日
- [SPARK-44136] FlatMapGroupsWithStateExec のドライバーではなく Executor で StateManager が具体化される可能性がある問題を修正しました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 23 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 15 日
approx_count_distinct
が Photon に対応しました。- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- [SPARK-43779]
ParseToDate
により、メイン スレッドにEvalMode
が読み込まれるようになりました。 - [SPARK-40862] RewriteCorrelatedScalarSubquery で集計されていないサブクエリをサポートする
- [SPARK-43156][SPARK-43098]
decorrelateInnerQuery
を無効にしてスカラー サブクエリ数のバグ テストを拡張しました。 - [SPARK-43098] スカラー サブクエリに group by 句がある場合の COUNT の正確性のバグを修正する
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。SHALLOW CLONE
の Iceberg と Parquet を使用して増分更新のパフォーマンスを向上させます。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-43404] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43527] PySpark の
catalog.listCatalogs
を修正しました。 - [SPARK-43413][11.3-13.0]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - [SPARK-43340] イベント ログにスタック トレース フィールドが見つからない問題を修正しました。
Databricks Runtime 10.4 LTS
「Databricks Runtime 10.4 LTS」を参照してください。
- 2023 年 11 月 29 日
- [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - [SPARK-43718]
USING
結合でのキーの NULL 値の許容を修正しました。 - [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - [SPARK-42205] ステージおよびタスクの開始イベントの蓄積されたログ記録を削除しました。
- [SPARK-44846]
RemoveRedundantAggregates
の後の複雑なグループ化式を削除しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45544] SSL サポートを
- 2023 年 11 月 14 日
- [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-33861] を元に戻します。
- オペレーティング システムのセキュリティを更新。
- [SPARK-45541]
- 2023 年 10 月 24 日
- [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45426]
- 2023 年 10 月 13 日
- [SPARK-45084] 正確で適切なシャッフル パーティション番号を使用するための
StateOperatorProgress
。 - [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使って
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45084] 正確で適切なシャッフル パーティション番号を使用するための
- 2023 年 9 月 10 日
- その他の修正。
- 2023 年 8 月 30 日
- [SPARK-44818]
taskThread
の初期化前に発行された保留中のタスク割り込みの競合を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44818]
- 2023 年 8 月 15 日
- [SPARK-44504] メンテナンス タスクで、停止エラー時に読み込まれたプロバイダーがクリーンアップされます。
- [SPARK-43973] 構造化ストリーミング UI で、失敗したクエリが正しく表示されるようになりました。
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 23 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 15 日
- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- [SPARK-43098] スカラー サブクエリに group by 句がある場合の COUNT の正確性のバグを修正する
- [SPARK-40862] RewriteCorrelatedScalarSubquery で集計されていないサブクエリをサポートする
- [SPARK-43156][SPARK-43098]
decorrelateInnerQuery
を無効にしてスカラー サブクエリ数のテストを拡張しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。UnknownFieldException
を防ぐために JSON で復旧されたデータ解析の問題を修正しました。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-43404] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43413]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 5 月 17 日
- バッチ サイズを動的に調整することで、非常に構造化されたファイルをスキャンするときに、Parquet スキャンが OOM に対して堅牢になりました。 バッチ サイズを大幅に小さくするためにファイル メタデータが分析され、最終的なセーフティ ネットとしてタスクの再試行時に再度低下します。
- [SPARK-41520]
AND_OR
ツリー パターンを分割して、AND
とOR
に分離します。 - [SPARK-43190]
ListQuery.childOutput
がセカンダリ出力と一致するようになりました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 4 月 25 日
- [SPARK-42928]
resolvePersistentFunction
を同期させます。 - オペレーティング システムのセキュリティを更新。
- [SPARK-42928]
- 2023 年 4 月 11 日
- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性がある問題を修正しました。
- [SPARK-42937]
PlanSubqueries
でInSubqueryExec#shouldBroadcast
が true に設定されるようになりました。 - [SPARK-42967] ステージが取り消された後にタスクが開始されたときの SparkListenerTaskStart.stageAttemptId を修正します。
- 2023 年 3 月 29 日
- [SPARK-42668] HDFSStateStoreProvider 停止で圧縮ストリームを閉じようとしているときに例外をキャッチする
- [SPARK-42635] ... を修正する
- オペレーティング システムのセキュリティを更新。
- 2023 年 3 月 14 日
- [SPARK-41162] 集計を使用した自己結合の反結合および半結合を修正する
- [SPARK-33206] 小さいインデックス ファイルのシャッフル インデックス キャッシュの重みの計算を修正する
- [SPARK-42484]
UnsafeRowUtils
エラー メッセージを改善しました - その他の修正。
- 2023 年 2 月 28 日
- yyyy-MM-dd date_format の生成列をサポート。 この変更により、生成された列の date_format としての yyyy-MM-dd のパーティション排除がサポートされます。
- ユーザーは Databricks Runtime 9.1 LTS 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに記載されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- yyyy-MM-dd date_format の生成列をサポート。 この変更により、生成された列の date_format としての yyyy-MM-dd のパーティション排除がサポートされます。
- オペレーティング システムのセキュリティを更新。
- 2023 年 2 月 16 日
- [SPARK-30220] フィルター ノードの外部にある Exists/In サブクエリの使用を有効にする
- オペレーティング システムのセキュリティを更新。
- 2023 年 1 月 31 日
- JDBC テーブルのテーブルの種類が既定では EXTERNAL になりました。
- 2023 年 1 月 18 日
- Azure Synapse コネクタからは、列名に空白やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージが返されます。 このような場合は、次のメッセージが返されます。
Azure Synapse Analytics failed to run the JDBC query produced by the connector. Check column names do not include not valid characters such as ';' or white space
- [SPARK-38277] RocksDB 状態ストアのコミット後に書き込みバッチをクリアする
- [SPARK-41199] DSv1 ストリーミング ソースと DSv2 ストリーミング ソースが共同使用されている場合のメトリックの問題を修正する
- [SPARK-41198] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリックを修正する
- [SPARK-41339] 単にクリアするのではなく、RocksDB 書き込みバッチを閉じて再作成する
- [SPARK-41732] SessionWindowing のルールにツリー パターン ベースの排除を適用する
- オペレーティング システムのセキュリティを更新。
- Azure Synapse コネクタからは、列名に空白やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージが返されます。 このような場合は、次のメッセージが返されます。
- 2022 年 11 月 29 日
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理を制御するために、次のオプションが追加されました。
csvignoreleadingwhitespace
:true
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に先頭の空白が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。csvignoretrailingwhitespace
:true
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に末尾の空白が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。
- すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないか、false
に設定されている)、JSON に入れ子になったオブジェクトが含まれている場合の、自動ローダーでの JSON 解析の問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理を制御するために、次のオプションが追加されました。
- 2022 年 11 月 15 日
- Apache commons-text を 1.10.0 にアップグレードしました。
- [SPARK-40646] 構造体、マップ、配列の JSON 解析は修正されているため、レコードの一部がスキーマと一致しない場合でも、残りのレコードは null 値 を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 フラグは、元の動作を保持するために既定で無効になっています。 - [SPARK-40292] 入れ子になった構造体から配列が参照されている場合の
arrays_zip
関数の列名を修正する - オペレーティング システムのセキュリティを更新。
- 2022 年 11 月 1 日
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで変更データ フィードが無効になっている場合、その列のデータがMERGE
の実行時に NULL 値で誤って入力される問題を修正しました。 allowOverwrites
が有効になっている場合に、同じマイクロバッチでファイルを複製できる自動ローダーの問題を修正しました- [SPARK-40697] 外部データ ファイルをカバーする読み取り側の char パディングを追加する
- [SPARK-40596] ExecutorDecommission に ExecutorDecommissionInfo のメッセージを設定する
- オペレーティング システムのセキュリティを更新。
- Delta テーブルに
- 2022 年 10 月 18 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 5 日
- [SPARK-40468]
_corrupt_record
が選択されている場合の CSV での列の排除を修正します。 - オペレーティング システムのセキュリティを更新。
- [SPARK-40468]
- 2022 年 9 月 22 日
- ユーザーは spark.conf.set(
spark.databricks.io.listKeysWithPrefix.azure.enabled
,true
) を設定して、ADLS Gen2 の自動ローダーの組み込みリストを再度有効にすることができます。 組み込みリストは、以前はパフォーマンスの問題のために無効にされていましたが、顧客のストレージ コストの増加につながっている可能性があります。 - [SPARK-40315] ArrayBasedMapData のリテラルに hashCode() を追加する
- [SPARK-40213] ラテン 1 文字の ASCII 値変換をサポート
- [SPARK-40380] プランにシリアル化不可能なリテラルが埋め込まれるのを避けるために InvokeLike の定数フォールディングを修正する
- [SPARK-38404] 入れ子になった CTE が外部 CTE を参照する場合の CTE 解決を向上させる
- [SPARK-40089] 一部の Decimal 型の並べ替えを修正する
- [SPARK-39887] RemoveRedundantAliases は、プロジェクション ノードの出力を一意にするエイリアスを保持する必要がある
- ユーザーは spark.conf.set(
- 2022 年 9 月 6 日
- [SPARK-40235] Executor.updateDependencies() で同期ではなく割り込み可能なロックを使用する
- [SPARK-40218] GROUPING SETS がグループ化列を保持するようにする
- [SPARK-39976] ArrayIntersect で左側の式に含まれる null を正しく処理するようにする
- [SPARK-40053] Python ランタイム環境を必要とする動的キャンセル ケースに
assume
を追加する - [SPARK-35542] 修正: パラメーター splitsArray、inputCols、outputCols を指定して複数の列に対して作成された Bucketizer を保存後に読み込めない
- [SPARK-40079] 空の入力ケースに対する Imputer inputCols 検証を追加
- 2022 年 8 月 24 日
- [SPARK-39983] ドライバーに非直列化ブロードキャスト関係をキャッシュしない
- [SPARK-39775] Avro スキーマの解析時に既定値の検証を無効にする
- [SPARK-39962] グループ属性が空の場合にプロジェクションを適用する
- [SPARK-37643] charVarcharAsString が true の場合、char データ型述語クエリでは rpadding ルールをスキップする必要がある
- オペレーティング システムのセキュリティを更新。
- 2022 年 8 月 9 日
- [SPARK-39847] 呼び出し元スレッドが中断された場合の RocksDBLoader.loadLibrary() の競合状態を修正する
- [SPARK-39731] 修正されたタイム パーサー ポリシーを使用して "yyyyMMdd" 形式で日付を解析するときの CSV および JSON データ ソースの問題を修正する
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 27 日
- [SPARK-39625] Dataset.as(StructType) を追加する
- [SPARK-39689]CSV データソースで 2 文字の
lineSep
をサポートする - [SPARK-39104] InMemoryRelation#isCachedColumnBuffersLoaded がスレッドセーフである必要がある
- [SPARK-39570] インライン テーブルで、別名が設定された式を許可する必要がある
- [SPARK-39702] 共有 byteRawChannel を使用して、TransportCipher$EncryptedMessage のメモリ オーバーヘッドを削減する
- [SPARK-39575] AvroDeserializer で ByteBuffer#get の後に ByteBuffer#rewind を追加する
- [SPARK-39476] Long から Float か Double、または Integer から Float へのキャスト時に、アンラップ キャストの最適化を無効にする
- [SPARK-38868] 外部結合を最適化するときにフィルター述語から例外を伝達しない
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 20 日
- ソースが決定論的でない場合は、Delta MERGE 操作の結果を一貫性のあるものにします。
- [SPARK-39355] 単一列で引用符を使用して UnresolvedAttribute を構築する
- [SPARK-39548] ウィンドウ句クエリで CreateView コマンドを実行したら間違ったウィンドウ定義に達して、問題が見つからない
- [SPARK-39419] 比較子が null を返したときに例外をスローするように ArraySort を修正する
- Azure でのディレクトリ一覧に対する自動ローダーによる組み込みのクラウド API の使用を無効にしました。
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 5 日
- [SPARK-39376] NATURAL/USING JOIN からのサブクエリ エイリアスのスター展開で重複する列を表示しない
- オペレーティング システムのセキュリティを更新。
- 2022 年 6 月 15 日
- [SPARK-39283] TaskMemoryManager と UnsafeExternalSorter.SpillableIterator の間のデッドロックを修正する
- [SPARK-39285] ファイルの読み取り時に Spark でフィールド名を確認しない
- [SPARK-34096] オフセット ウィンドウでの nth_value ignore nulls のパフォーマンスを向上させる
- [SPARK-36718] CollapseProject の
isExtractOnly
チェックを修正する
- 2022 年 6 月 2 日
- [SPARK-39093] 年月の間隔または日時の間隔を整数で除算するときの codegen コンパイル エラーを回避する
- [SPARK-38990] バインドされた参照として date_trunc/trunc 形式を評価するときの NullPointerException を回避する
- オペレーティング システムのセキュリティを更新。
- 2022 年 5 月 18 日
- 自動ローダーで組み込みメモリ リークが発生する可能性がある問題を修正しました。
- [SPARK-38918] 入れ子になった列の排除で、現在のリレーションシップに属していない属性を除外する必要がある
- [SPARK-37593] G1GC と ON_HEAP が使用されている場合、LONG_ARRAY_OFFSET だけ既定のページ サイズを縮小する
- [SPARK-39084] TaskContext を使用してタスクの完了時に反復子を停止して df.rdd.isEmpty() を修正する
- [SPARK-32268] injectBloomFilter に ColumnPruning を追加する
- [SPARK-38974] リスト関数で指定されたデータベース名を使用して、登録されている関数をフィルター処理する
- [SPARK-38931] 第 1 チェックポイントのキー数が不明な RocksDBFileManager のルート dfs ディレクトリを作成する
- オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 19 日
- Java AWS SDK をバージョン 1.11.655 から 1.12.1899 にアップグレードしました。
- ノートブック スコープのライブラリがバッチ ストリーミング ジョブで動作しない問題を修正しました。
- [SPARK-38616] Catalyst TreeNode で SQL クエリ テキストを追跡する
- オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 6 日
- このリリースでは、次の Spark SQL 関数を使用できるようになりました。
timestampadd()
およびdateadd()
: タイムスタンプ式に、指定した単位の期間を追加します。timestampdiff()
およびdatediff()
: 指定した単位の 2 つのタイム スタンプ式の時間差を計算します。
- Parquet-MR が 1.12.2 にアップグレードされました
- Parquet ファイルの包括的なスキーマのサポートを改善しました
- [SPARK-38631] Java ベースの実装を使用して、Utils.unpack での tar の展開を行う
- [SPARK-38509][SPARK-38481] 3 つの
timestmapadd/diff
変更のチェリーピックを行います。 - [SPARK-38523] CSV の破損したレコード列を参照する修正を行う
- [SPARK-38237] 完全なクラスタリング キーを要求できるように
ClusteredDistribution
を許可する - [SPARK-38437] データソースからの datetime の厳密ではないシリアル化
- [SPARK-38180] 相関等価述語で安全なアップキャスト式を許可する
- [SPARK-38155] サポートされていない述語を持つ lateral サブクエリの個別の集計を禁止する
- オペレーティング システムのセキュリティを更新。
- このリリースでは、次の Spark SQL 関数を使用できるようになりました。
Databricks Runtime 9.1 LTS
「Databricks Runtime 9.1 LTS」を参照してください。
- 2023 年 11 月 29 日
- [SPARK-45859]
ml.functions
の UDF オブジェクトを遅延させました。 - [SPARK-45544] SSL サポートを
TransportContext
に統合しました。 - [SPARK-45730]
ReloadingX509TrustManagerSuite
の時間制約を改善しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45859]
- 2023 年 11 月 14 日
- [SPARK-45545]
SparkTransportConf
は作成時にSSLOptions
を継承します。 - [SPARK-45429] SSL RPC 通信用のヘルパー クラスを追加しました。
- [SPARK-45427] RPC SSL 設定を
SSLOptions
とSparkTransportConf
に追加しました。 - [SPARK-45584]
TakeOrderedAndProjectExec
のサブクエリの実行エラーを修正しました。 - [SPARK-45541]
SSLFactory
を追加しました。 - [SPARK-42205] ステージおよびタスクの開始イベントの蓄積されたログ記録を削除しました。
- オペレーティング システムのセキュリティを更新。
- [SPARK-45545]
- 2023 年 10 月 24 日
- [SPARK-45426]
ReloadingX509TrustManager
のサポートを追加しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-45426]
- 2023 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 9 月 10 日
- その他の修正。
- 2023 年 8 月 30 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 8 月 15 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 23 日
- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 15 日
- [SPARK-43098] スカラー サブクエリに group by 句がある場合の COUNT の正確性のバグを修正する
- [SPARK-43156][SPARK-43098]
decorrelateInnerQuery
を無効にしてスカラー サブクエリ数のバグ テストを拡張します。 - [SPARK-40862] RewriteCorrelatedScalarSubquery で集計されていないサブクエリをサポートする
- オペレーティング システムのセキュリティを更新。
- 2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。UnknownFieldException
を防ぐために JSON で復旧されたデータ解析の問題を修正しました。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-37520]
startswith()
およびendswith()
文字列関数を追加する - [SPARK-43413]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - オペレーティング システムのセキュリティを更新。
- 2023 年 5 月 17 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 4 月 25 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 4 月 11 日
- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性がある問題を修正しました。
- [SPARK-42967] ステージが取り消された後にタスクが開始されたときの SparkListenerTaskStart.stageAttemptId を修正します。
- 2023 年 3 月 29 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 3 月 14 日
- [SPARK-42484]
UnsafeRowUtils
のエラー メッセージを改善しました。 - その他の修正。
- [SPARK-42484]
- 2023 年 2 月 28 日
- ユーザーは Databricks Runtime 9.1 LTS 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに記載されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- オペレーティング システムのセキュリティを更新。
- 2023 年 2 月 16 日
- オペレーティング システムのセキュリティを更新。
- 2023 年 1 月 31 日
- JDBC テーブルのテーブルの種類が既定では EXTERNAL になりました。
- 2023 年 1 月 18 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 11 月 29 日
- すべての列が文字列として残され (
cloudFiles.inferColumnTypes
が設定されていないか、false
に設定されている)、JSON に入れ子になったオブジェクトが含まれている場合の、自動ローダーでの JSON 解析の問題を修正しました。 - オペレーティング システムのセキュリティを更新。
- すべての列が文字列として残され (
- 2022 年 11 月 15 日
- Apache commons-text を 1.10.0 にアップグレードしました。
- オペレーティング システムのセキュリティを更新。
- その他の修正。
- 2022 年 11 月 1 日
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで変更データ フィードが無効になっている場合、その列のデータがMERGE
の実行時に NULL 値で誤って入力される問題を修正しました。 allowOverwrites
が有効になっている場合に、同じマイクロバッチでファイルを複製できる自動ローダーの問題を修正しました- [SPARK-40596] ExecutorDecommission に ExecutorDecommissionInfo のメッセージを設定する
- オペレーティング システムのセキュリティを更新。
- Delta テーブルに
- 2022 年 10 月 18 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 5 日
- その他の修正。
- オペレーティング システムのセキュリティを更新。
- 2022 年 9 月 22 日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") を設定して、ADLS Gen2 の自動ローダーの組み込みリストを再度有効にすることができます。 組み込みリストは、以前はパフォーマンスの問題のために無効にされていましたが、顧客のストレージ コストの増加につながっている可能性があります。
- [SPARK-40315] ArrayBasedMapData のリテラルに hashCode() を追加する
- [SPARK-40089] 一部の Decimal 型の並べ替えを修正する
- [SPARK-39887] RemoveRedundantAliases は、プロジェクション ノードの出力を一意にするエイリアスを保持する必要がある
- 2022 年 9 月 6 日
- [SPARK-40235] Executor.updateDependencies() で同期ではなく割り込み可能なロックを使用する
- [SPARK-35542] 修正: パラメーター splitsArray、inputCols、outputCols を指定して複数の列に対して作成された Bucketizer を保存後に読み込めない
- [SPARK-40079] 空の入力ケースに対する Imputer inputCols 検証を追加
- 2022 年 8 月 24 日
- [SPARK-39666] UnsafeProjection.create を使用して ExpressionEncoder で
spark.sql.codegen.factoryMode
を考慮する - [SPARK-39962] グループ属性が空の場合にプロジェクションを適用する
- オペレーティング システムのセキュリティを更新。
- [SPARK-39666] UnsafeProjection.create を使用して ExpressionEncoder で
- 2022 年 8 月 9 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 27 日
- ソースが決定論的でない場合は、Delta MERGE 操作の結果を一貫性のあるものにします。
- [SPARK-39689] CSV データ ソースでの 2 文字の
lineSep
のサポート - [SPARK-39575]
ByteBuffer#rewind
でByteBuffer#get
の後にAvroDeserializer
を追加しました。 - [SPARK-37392] カタリスト オプティマイザーのパフォーマンス エラーを修正しました。
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 13 日
- [SPARK-39419]
ArraySort
で、比較子が null を返すときに例外がスローされます。 - Azure でのディレクトリ一覧に対する自動ローダーによる組み込みのクラウド API の使用を無効にしました。
- オペレーティング システムのセキュリティを更新。
- [SPARK-39419]
- 2022 年 7 月 5 日
- オペレーティング システムのセキュリティを更新。
- その他の修正。
- 2022 年 6 月 15 日
- [SPARK-39283]
TaskMemoryManager
とUnsafeExternalSorter.SpillableIterator
の間のデッドロックを修正します。
- [SPARK-39283]
- 2022 年 6 月 2 日
- [SPARK-34554]
copy()
でColumnarMap
メソッドを実装します。 - オペレーティング システムのセキュリティを更新。
- [SPARK-34554]
- 2022 年 5 月 18 日
- 自動ローダーで組み込みメモリ リークが発生する可能性がある問題を修正しました。
- AWS SDK のバージョンを 1.11.655 から 1.11.678 にアップグレードします。
- [SPARK-38918] 入れ子になった列の排除で、現在のリレーションシップに属していない属性を除外する必要がある
- [SPARK-39084]
df.rdd.isEmpty()
を使用してタスクの完了時に反復子を停止してTaskContext
を修正する - オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 19 日
- オペレーティング システムのセキュリティを更新。
- その他の修正。
- 2022 年 4 月 6 日
- [SPARK-38631] Java ベースの実装を使用して、Utils.unpack での tar の展開を行う
- オペレーティング システムのセキュリティを更新。
- 2022 年 3 月 22 日
- テーブル アクセス制御または資格情報パススルーが有効になっている高コンカレンシー クラスターでは、ノートブックの現在の作業ディレクトリがユーザーのホーム ディレクトリに変更されました。 以前は、アクティブ ディレクトリは
/databricks/driver
でした。 - [SPARK-38437] データソースからの datetime の厳密ではないシリアル化
- [SPARK-38180] 相関等価述語で安全なアップキャスト式を許可する
- [SPARK-38155] サポートされていない述語を持つ lateral サブクエリの個別の集計を禁止する
- [SPARK-27442] Parquet でのデータの読み取りまたは書き込み時のチェック フィールドを削除しました。
- テーブル アクセス制御または資格情報パススルーが有効になっている高コンカレンシー クラスターでは、ノートブックの現在の作業ディレクトリがユーザーのホーム ディレクトリに変更されました。 以前は、アクティブ ディレクトリは
- 2022 年 3 月 14 日
- [SPARK-38236] テーブルの作成/変更時に指定される絶対ファイル パスが相対パスとして扱われる
- [SPARK-34069] ローカル プロパティ
SPARK_JOB_INTERRUPT_ON_CANCEL
が true に設定されている場合、タスク スレッドを中断します。
- 2022 年 2 月 23 日
- [SPARK-37859] Spark 3.1 を使用して JDBC で作成された SQL テーブルを Spark 3.2 で読み取れません。
- 2022 年 2 月 8 日
- [SPARK-27442] Parquet でのデータの読み取りまたは書き込み時のチェック フィールドを削除しました。
- オペレーティング システムのセキュリティを更新。
- 2022 年 2 月 1 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 1 月 26 日
- 特定のまれな条件下で、Delta テーブルの同時実行トランザクションがシリアル化できない順序でコミットされる可能性がある問題を修正しました。
- ANSI SQL 言語が有効になっていると
OPTIMIZE
コマンドが失敗する可能性がある問題を修正しました。
- 2022 年 1 月 19 日
- 軽微な修正とセキュリティの強化。
- オペレーティング システムのセキュリティを更新。
- 2021 年 11 月 4 日
ArrayIndexOutOfBoundsException
で構造化ストリーミング ストリームが失敗する可能性がある問題を修正しました。java.io.IOException: No FileSystem for scheme
のような IOException を伴うクエリエラーが発生する可能性のある競合状態や、sparkContext.hadoopConfiguration
に対する変更がクエリに反映されなくなる可能性のある競合状態を修正。- Delta Sharing 用の Apache Spark コネクタを 0.2.0 にアップグレード。
- 2021 年 10 月 20 日
- BigQuery コネクタを 0.18.1 から 0.22.2 にアップグレード。 これにより、BigNumeric 型のサポートが追加されます。
Databricks Runtime 13.0 (EoS)
「Databricks Runtime 13.0 (EoS)」を参照してください。
2023 年 10 月 13 日
- Snowflake-jdbc 依存関係が 3.13.29 から 3.13.33 にアップグレードされました。
- [SPARK-42553][SQL] interval の後に少なくとも 1 つの時間単位を確保します。
- [SPARK-45178] ラッパーを使用するのではなく、サポートされていないソースを使用して
Trigger.AvailableNow
の単一バッチを実行するようにフォールバックします。 - [SPARK-44658][CORE]
ShuffleStatus.getMapStatus
は、None
ではなくSome(null)
を返します。 - [SPARK-42205][CORE]
JsonProtocol
のタスク/ステージ開始イベントの Accumulables のログを削除します。 - オペレーティング システムのセキュリティを更新。
2023 年 9 月 12 日
- [SPARK-44485][SQL]
TreeNode.generateTreeString
を最適化しました。 - [SPARK-44718][SQL]
ColumnVector
メモリモード構成の既定値をOffHeapMemoryMode
構成値に一致させます。 - 各種のバグ修正。
- [SPARK-44485][SQL]
2023 年 8 月 30 日
- [SPARK-44818][Backport]
taskThread
の初期化前に発行された保留中のタスク割り込みの競合を修正しました。 - [SPARK-44714] クエリに関する LCA 解決の制限を緩和します。
- [SPARK-44245][PYTHON]
pyspark.sql.dataframe sample()
doctests は説明のみになりました。 - [SPARK-44871][11.3-13.0][SQL]
percentile_disc
の動作を修正しました。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44818][Backport]
2023 年 8 月 15 日
- [SPARK-44643][SQL][PYTHON] 行が空の場合の
Row.__repr__
を修正します。 - [SPARK-44504][バックポート] メンテナンス タスクは、停止エラー時に読み込まれたプロバイダーをクリーンアップします。
- [SPARK-44479][CONNECT][PYTHON] 空の構造体型からの
protobuf
の変換を修正しました。 - [SPARK-44464][SS] 最初の列値として
applyInPandasWithStatePythonRunner
を持つ出力行に対するNull
を修正しました。 - 各種のバグ修正。
- [SPARK-44643][SQL][PYTHON] 行が空の場合の
2023 年 7 月 29 日
- 他の外部または管理されたストレージの場所と競合するストレージの場所のパスを呼び出すと、
dbutils.fs.ls()
がINVALID_PARAMETER_VALUE.LOCATION_OVERLAP
を返すバグを修正しました。 - [SPARK-44199]
CacheManager
は、fileIndex
を不必要に更新しなくなりました。 - オペレーティング システムのセキュリティを更新。
- 他の外部または管理されたストレージの場所と競合するストレージの場所のパスを呼び出すと、
2023 年 7 月 24 日
- [SPARK-44337][PROTOBUF] に設定されたフィールドで解析エラーが発生する問題を
Any.getDefaultInstance
修正。 - [SPARK-44136] [SS]
StateManager
のドライバーではなく Executor でFlatMapGroupsWithStateExec
が具体化される問題を修正。 - 「[SPARK-42323] [SQL]
_LEGACY_ERROR_TEMP_2332
に名前を割り当てます」を元に戻します。 - オペレーティング システムのセキュリティを更新。
- [SPARK-44337][PROTOBUF] に設定されたフィールドで解析エラーが発生する問題を
2023 年 6 月 23 日
- オペレーティング システムのセキュリティを更新。
2023 年 6 月 15 日
approx_count_distinct
が Photon に対応しました。- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- [SPARK-43156][SPARK-43098][SQL] decorrelateInnerQuery を無効にしてスカラー サブクエリ数のバグ テストを拡張します。
- [SPARK-43779][SQL]
ParseToDate
によりメイン スレッドにEvalMode
が読み込まれるようになります。 - [SPARK-42937][SQL]
PlanSubqueries
はInSubqueryExec#shouldBroadcast
を true に設定する必要があります。 - オペレーティング システムのセキュリティを更新。
2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。SHALLOW CLONE
の Iceberg と Parquet を使用して増分更新のパフォーマンスを向上させます。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-43404][Backport] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43340][CORE] イベント ログにスタック トレース フィールドが見つからない問題を修正しました。
- [SPARK-43300][CORE] Guava Cache 用の
NonFateSharingCache
ラッパー。 - [SPARK-43378][CORE]
deserializeFromChunkedBuffer
内のストリーム オブジェクトを適切に閉じます。 - [SPARK-16484][SQL] DataSketches を表す 8 ビット レジスタを使用します。
- [SPARK-43522][SQL] 配列のインデックスを含む構造体列名の作成の問題を修正しました。
- [SPARK-43413][11.3-13.0][SQL]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - [SPARK-43043][CORE]
MapOutputTracker.updateMapOutput
のパフォーマンスが向上しました。 - [SPARK-16484][SQL] DataSketches HllSketch のサポートが追加されました。
- [SPARK-43123][SQL] 内部フィールド メタデータがカタログにリークしなくなりました。
- [SPARK-42851][SQL]
EquivalentExpressions.addExpr()
を使用してsupportedExpression()
をガードします。 - [SPARK-43336][SQL]
Timestamp
とTimestampNTZ
の間のキャストにはタイムゾーンが必要です。 - [SPARK-43286][SQL] ランダムな IV を生成するように
aes_encrypt
の CBC モードを更新しました。 - [SPARK-42852][SQL]
NamedLambdaVariable
のEquivalentExpressions
に関連する変更を元に戻しました。 - [SPARK-43541][SQL] 式と不足している列の解決においてすべての
Project
タグを伝達します。 - [SPARK-43527][PYTHON] PySpark の
catalog.listCatalogs
の問題を修正しました。 - オペレーティング システムのセキュリティを更新。
2023 年 5 月 31 日
- Unity Catalog に登録されている Delta テーブルの既定の最適化された書き込みサポートは、パーティション テーブルの
CTAS
ステートメントとINSERT
操作を含むように拡張されました。 この動作は、SQL ウェアハウスの既定値に合わせて調整されます。 「Delta Lake on Azure Databricks の最適化された書き込み」を参照してください。
- Unity Catalog に登録されている Delta テーブルの既定の最適化された書き込みサポートは、パーティション テーブルの
2023 年 5 月 17 日
_metadata.file_path
と_metadata.file_name
が、正しく書式設定されていない文字列を返す不具合を修正しました。 たとえば、スペースを含むパスがs3://test-bucket/some%20directory/some%20data.csv
ではなくs3://test-bucket/some directory/some data.csv
として表されるようになりました。- バッチ サイズを動的に調整することで、非常に構造化されたファイルをスキャンするときに、Parquet スキャンが OOM に対して堅牢になりました。 バッチ サイズを大幅に小さくするためにファイル メタデータが分析され、最終的なセーフティ ネットとしてタスクの再試行時に再度低下します。
-
- Avro ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。
- Avro ファイルが、
- 自動ローダーで次の処理を行うようになりました。
-
Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合は、型を正しく読み取り、復旧しなくなりましたが、Avro ファイルでは他の 2 つの型のいずれかが提案されます。
-
- 日付型またはタイムスタンプ型として interval 型を読み取らないようにし、破損した日付を取得しないようにします。
-
- 精度が低い
Decimal
型を読み取らないようにします。
- 精度が低い
- [SPARK-43172] [CONNECT] Spark Connect クライアントからホストとトークンを公開する。
- [SPARK-43293][SQL]
__qualified_access_only
は通常の列では無視されます。 - [SPARK-43098][SQL] スカラー サブクエリが句でグループ化されている場合の正確性の
COUNT
バグを修正しました。 - [SPARK-43085][SQL] マルチパート テーブル名の列
DEFAULT
割り当てのサポート。 - [SPARK-43190][SQL]
ListQuery.childOutput
が セカンダリ出力と一致するようになりました。 - [SPARK-43192] [CONNECT] ユーザー エージェントの文字セット検証を削除しました。
2023 年 4 月 25 日
- Delta テーブルを変更して、
DeltaTable.addFeatureSupport(feature_name)
を使用して Delta テーブル機能のサポートを追加できます。 - この
SYNC
コマンドでは、従来のデータ ソース形式がサポートされるようになりました。 - Python ノートブックで他のコマンドを実行する前に Python フォーマッタを使用すると、
sys.path.
からノートブック パスが見つからない可能性があるバグを修正しました - Azure Databricks では、Delta テーブルの列の既定値の指定がサポートされるようになりました。
INSERT
、UPDATE
、DELETE
、およびMERGE
コマンドでは、明示的なDEFAULT
キーワードを使用して、列の既定値を参照できます。INSERT
コマンドで、明示的な列のリストがターゲット テーブルよりも少ない場合 、残りの列について、対応する列の既定値が置き換えられます (または、既定値が指定されていない場合はNULL
)。
- Delta テーブルを変更して、
一部のユーザーについて、
/Workspace
のファイルにアクセスするために Web ターミナルを使用できなかったバグを修正しました。- Parquet ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合は、 自動ローダーが正しく読み取られ、型が復旧されなくなりました。 Parquet ファイルでは、他の 2 つの型のいずれかが提案されます。 復旧されたデータ列が以前に有効になっていた場合、データ型の不一致により、列は読み取り可能であっても復旧されます。- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性があるバグを修正しました。
- [SPARK-42794][SS] 構造化ストリーミングの RocksDB 状態ストアを取得するための lockAcquireTimeoutMs を 2 分に増やす。
- [SPARK-39221][SQL] Thrift サーバー ジョブ/ステージ タブの機密情報を正しく編集する。
- [SPARK-42971][CORE] ワーカーが
workdir
イベントを処理するときにappDirs
が null の場合、WorkDirCleanup
の出力に変更する。 - [SPARK-42936][SQL] having 句をその子集計で直接解決できる場合の LCA バグを修正しました。
- [SPARK-43018][SQL] タイムスタンプ リテラルを含む
INSERT
コマンドのバグを修正する。 - 「[SPARK-42754][SQL] [UI] 入れ子になった SQL 実行での下位互換性の問題を修正します」を元に戻します。
- 「[SPARK-41498] Union を介してメタデータを伝達します」を元に戻します。
- [SPARK-43038][SQL]
aes_encrypt()
/aes_decrypt()
による CBC モードをサポート。 - [SPARK-42928][SQL]
resolvePersistentFunction
を同期させる。 - [SPARK-42521][SQL] ターゲット テーブルよりも少ない列のユーザー指定リストを使用して、
NULL
にINSERT
値を追加する。 - [SPARK-41391][SQL]
groupBy.agg(count_distinct)
の出力列名が正しくありません。 - [SPARK-42548][SQL] 属性の書き換えをスキップするために
ReferenceAllColumns
を追加する。 - [SPARK-42423][SQL] メタデータ列ファイルのブロックの開始と長さを追加する。
- [SPARK-42796][SQL]
TimestampNTZ
でのCachedBatch
列へのアクセスをサポート。 - [SPARK-42266][PYTHON] IPython を使用するときに shell.py 実行の親ディレクトリを削除する。
- [SPARK-43011][SQL]
array_insert
は 0 インデックスで失敗します。 - [SPARK-41874][CONNECT][PYTHON] Spark Connect での
SameSemantics
のサポート。 - [SPARK-42702][SPARK-42623][SQL] サブクエリと CTE でパラメーター化されたクエリをサポートする。
- [SPARK-42967][CORE] ステージが取り消された後にタスクが開始されたときの
SparkListenerTaskStart.stageAttemptId
を修正する。 - オペレーティング システムのセキュリティを更新。
- Parquet ファイルが、
Databricks Runtime 12.1 (EoS)
「Databricks Runtime 12.1 (EoS)」を参照してください。
2023 年 6 月 23 日
- オペレーティング システムのセキュリティを更新。
2023 年 6 月 15 日
approx_count_distinct
が Photon に対応しました。- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- [SPARK-43779][SQL]
ParseToDate
によりメイン スレッドにEvalMode
が読み込まれるようになります。 - [SPARK-43156][SPARK-43098][SQL] decorrelateInnerQuery を無効にしてスカラー サブクエリ数のバグ テストを拡張します。
- オペレーティング システムのセキュリティを更新。
2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。SHALLOW CLONE
の Iceberg と Parquet を使用して増分更新のパフォーマンスを向上させます。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-43404][Backport] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43413][11.3-13.0][SQL]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - [SPARK-43522][SQL] 配列のインデックスを含む構造体列名の作成の問題を修正しました。
- [SPARK-42444][PYTHON]
DataFrame.drop
が重複した列を適切に処理するようになりました。 - [SPARK-43541][SQL] 式と不足している列の解決においてすべての
Project
タグを伝達します。 - [SPARK-43340][CORE] イベント ログにスタック トレース フィールドが見つからない問題を修正しました。
- [SPARK-42937][SQL]
PlanSubqueries
がInSubqueryExec#shouldBroadcast
を true に設定するようになりました。 - [SPARK-43527][PYTHON] PySpark の
catalog.listCatalogs
の問題を修正しました。 - [SPARK-43378][CORE]
deserializeFromChunkedBuffer
内のストリーム オブジェクトを適切に閉じます。
2023 年 5 月 17 日
- バッチ サイズを動的に調整することで、非常に構造化されたファイルをスキャンするときに、Parquet スキャンが OOM に対して堅牢になりました。 バッチ サイズを大幅に小さくするためにファイル メタデータが分析され、最終的なセーフティ ネットとしてタスクの再試行時に再度低下します。
- Avro ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 - 自動ローダーで次の処理を行うようになりました。
-
Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合は、型を正しく読み取り、復旧しなくなりましたが、Avro ファイルでは他の 2 つの型のいずれかが提案されます。
-
- 日付型またはタイムスタンプ型として interval 型を読み取らないようにし、破損した日付を取得しないようにします。
-
- 精度が低い
Decimal
型を読み取らないようにします。
- 精度が低い
- [SPARK-43098][SQL] スカラー サブクエリが句でグループ化されている場合の正確性の
COUNT
バグを修正しました。 - [SPARK-43190][SQL]
ListQuery.childOutput
が セカンダリ出力と一致するようになりました。 - オペレーティング システムのセキュリティを更新。
2023 年 4 月 25 日
- Parquet ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合は、 自動ローダーが正しく読み取られ、型が復旧されなくなりました。 Parquet ファイルでは、他の 2 つの型のいずれかが提案されます。 復旧されたデータ列が以前に有効になっていた場合、データ型の不一致により、列は読み取り可能であっても復旧されます。- [SPARK-43009][SQL]
sql()
定数でパラメーター化されたAny
。 - [SPARK-42971][CORE] ワーカーが
workdir
イベントを処理するときにappDirs
が null の場合、WorkDirCleanup
の出力に変更する。 - オペレーティング システムのセキュリティを更新。
- Parquet ファイルが、
2023 年 4 月 11 日
- SYNC コマンドの従来のデータ ソース形式をサポートします。
- リポジトリの外部にあるノートブックの %autoreload 動作のバグを修正しました。
- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性があるバグを修正しました。
- [SPARK-42928][SQL]
resolvePersistentFunction
を同期させる。 - [SPARK-42967][CORE] ステージが取り消された後にタスクが開始されたときに
SparkListenerTaskStart.stageAttemptId
を修正する。 - オペレーティング システムのセキュリティを更新。
2023 年 3 月 29 日
- 自動ローダーは、高速で実行される自動ローダー ストリームに対してチェックポイントを定期的にクリーンアップできるように、
Trigger.AvailableNow
ストリーム用に少なくとも 1 つの同期 RocksDB ログクリーンをトリガーするようになりました。 これにより、一部のストリームがシャットダウンされるまでに時間がかかる場合がありますが、ストレージ コストを節約し、今後の実行で自動ローダーのエクスペリエンスが向上します。 - Delta テーブルを変更して、
DeltaTable.addFeatureSupport(feature_name)
を使用してテーブル機能のサポートを追加できるようになりました。 - [SPARK-42702][SPARK-42623][SQL] サブクエリと CTE でパラメーター化されたクエリをサポート
- [SPARK-41162][SQL] 集計を使用した自己結合の反結合および半結合を修正する
- [SPARK-42403][CORE] JsonProtocol は null JSON 文字列を処理する必要があります
- [SPARK-42668][SS] HDFSStateStoreProvider 中止で圧縮ストリームを閉じようとしているときに例外をキャッチする
- [SPARK-42794][SS] 構造化ストリーミングの RocksDB 状態ストアを取得するための lockAcquireTimeoutMs を 2 分に増やす
- 自動ローダーは、高速で実行される自動ローダー ストリームに対してチェックポイントを定期的にクリーンアップできるように、
2023 年 3 月 14 日
- table プロパティを使用して Delta テーブルに機能を追加するための用語の変更があります。 推奨される構文は、
'delta.feature.featureName'='supported'
ではなく'delta.feature.featureName'='enabled'
になりました。 下位互換性のために、'delta.feature.featureName'='enabled'
を使用しても引き続き動作し、今後も引き続き動作します。 - [SPARK-42622][CORE] 値の置換を無効にする
- [SPARK-42534][SQL] DB2Dialect Limit 句を修正する
- [SPARK-42635][SQL] TimestampAdd 式を修正する。
- [SPARK-42516][SQL] ビューの作成時にセッション タイム ゾーン構成を常にキャプチャする
- [SPARK-42484] [SQL] UnsafeRowUtils のエラー メッセージを改善
- [SPARK-41793][SQL] 大きい 10 進数の範囲句で定義されたウィンドウ フレームの結果が正しくない
- オペレーティング システムのセキュリティを更新。
- table プロパティを使用して Delta テーブルに機能を追加するための用語の変更があります。 推奨される構文は、
2023 年 2 月 24 日
- クエリ フェデレーション (PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server) でサポートされているデータ ソースに接続するために、統合された一連のオプション (
host
、port
、database
、user
、password
) を使用できるようになりました。port
は省略可能であり、指定されていない場合は各データ ソースの既定のポート番号を使用します。
PostgreSQL 接続構成の例
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Snowflake 接続構成の例
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
- [SPARK-41989][PYTHON] pyspark.pandas からのログ記録の構成を中断しないようにする
- [SPARK-42346][SQL] サブクエリのマージ後に個別の集計を書き換える
- [SPARK-41990][SQL] V1 から V2 へのフィルター変換で
FieldReference.column
ではなくapply
を使用する - “[SPARK-41848][CORE] TaskResourceProfile でスケジュール超過のタスクを修正する” を元に戻す
- [SPARK-42162] 可換式の大きなツリーを正規化するためのメモリ最適化として MultiCommutativeOp 式を導入する
- オペレーティング システムのセキュリティを更新。
- クエリ フェデレーション (PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server) でサポートされているデータ ソースに接続するために、統合された一連のオプション (
2023 年 2 月 16 日
- SYNC コマンドでは、再作成された Hive メタストア テーブルの同期がサポートされます。 HMS テーブルが以前に Unity Catalog に SYNC された後に削除されて再作成された場合、その後の再同期は、状態コード TABLE_ALREADY_EXISTS をスローする代わりに機能します。
- [SPARK-41219][SQL] IntegralDivide は decimal(1, 0) を使用して 0 を表す
- [SPARK-36173][CORE] TaskContext での CPU 番号の取得のサポート
- [SPARK-41848][CORE] TaskResourceProfile でスケジュール超過のタスクを修正する
- [SPARK-42286][SQL] CAST を使用した複雑な expr の以前の codegen コード パスへのフォールバック
2023 年 1 月 31 日
- 場所が定義されたスキーマを作成するには、ユーザーに ANY FILE に対する SELECT および MODIFY 権限が必要になりました。
- [SPARK-41581][SQL] 名前を _LEGACY_ERROR_TEMP_1230 に割り当てる
- [SPARK-41996][SQL][SS] Kafka テストを修正して、失われたパーティションを検証し、低速の Kafka 操作を考慮するようにする
- [SPARK-41580][SQL] 名前を _LEGACY_ERROR_TEMP_2137 に割り当てる
- [SPARK-41666][PYTHON]
sql()
によるパラメーター化された SQL のサポート - [SPARK-41579][SQL] 名前を _LEGACY_ERROR_TEMP_1249 に割り当てる
- [SPARK-41573][SQL] 名前を _LEGACY_ERROR_TEMP_2136 に割り当てる
- [SPARK-41574][SQL] 名前を _LEGACY_ERROR_TEMP_2009 に割り当てる
- [SPARK-41049][Followup] ConvertToLocalRelation のコード同期の不具合を修正する
- [SPARK-41576][SQL] 名前を _LEGACY_ERROR_TEMP_2051 に割り当てる
- [SPARK-41572][SQL] 名前を _LEGACY_ERROR_TEMP_2149 に割り当てる
- [SPARK-41575][SQL] 名前を _LEGACY_ERROR_TEMP_2054 に割り当てる
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 12.0 (EoS)
「Databricks Runtime 12.0 (EoS)」を参照してください。
2023 年 6 月 15 日
approx_count_distinct
が Photon に対応しました。- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- [SPARK-43156][SPARK-43098][SQL] decorrelateInnerQuery を無効にしてスカラー サブクエリ数のバグ テストを拡張します。
- [SPARK-43779][SQL]
ParseToDate
によりメイン スレッドにEvalMode
が読み込まれるようになります。 - オペレーティング システムのセキュリティを更新。
2023 年 6 月 2 日
failOnUnknownFields
モードの JSON パーサーは、DROPMALFORMED
モードでレコードを削除し、FAILFAST
モードで直接失敗します。SHALLOW CLONE
の Iceberg と Parquet を使用して増分更新のパフォーマンスを向上させます。- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
- [SPARK-42444][PYTHON]
DataFrame.drop
が重複した列を適切に処理するようになりました。 - [SPARK-43404][Backport] ID の不一致エラーを回避するために、同じバージョンの RocksDB 状態ストアの sst ファイルの再利用をスキップします。
- [SPARK-43413][11.3-13.0][SQL]
IN
サブクエリのListQuery
NULL 値の許容を修正しました。 - [SPARK-43527][PYTHON] PySpark の
catalog.listCatalogs
の問題を修正しました。 - [SPARK-43522][SQL] 配列のインデックスを含む構造体列名の作成の問題を修正しました。
- [SPARK-43541][SQL] 式と不足している列の解決においてすべての
Project
タグを伝達します。 - [SPARK-43340][CORE] イベント ログにスタック トレース フィールドが見つからない問題を修正しました。
- [SPARK-42937][SQL]
PlanSubqueries
はInSubqueryExec#shouldBroadcast
を true に設定します。
2023 年 5 月 17 日
- バッチ サイズを動的に調整することで、非常に構造化されたファイルをスキャンするときに、Parquet スキャンが OOM に対して堅牢になりました。 バッチ サイズを大幅に小さくするためにファイル メタデータが分析され、最終的なセーフティ ネットとしてタスクの再試行時に再度低下します。
- Avro ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 - 自動ローダーで次の処理を行うようになりました。
-
Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合は、型を正しく読み取り、復旧しなくなりましたが、Avro ファイルでは他の 2 つの型のいずれかが提案されます。
-
- 日付型またはタイムスタンプ型として interval 型を読み取らないようにし、破損した日付を取得しないようにします。
-
- 精度が低い
Decimal
型を読み取らないようにします。
- 精度が低い
- [SPARK-43172] [CONNECT] Spark Connect クライアントからホストとトークンを公開する。
- [SPARK-41520][SQL]
AND_OR
ツリー パターンを分割してAND
とOR
に分離する。 - [SPARK-43098][SQL] スカラー サブクエリが句でグループ化されている場合の正確性の
COUNT
バグを修正しました。 - [SPARK-43190][SQL]
ListQuery.childOutput
が セカンダリ出力と一致するようになりました。 - オペレーティング システムのセキュリティを更新。
2023 年 4 月 25 日
- Parquet ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合は、 自動ローダーが正しく読み取られ、型が復旧されなくなりました。 Parquet ファイルでは、他の 2 つの型のいずれかが提案されます。 復旧されたデータ列が以前に有効になっていた場合、データ型の不一致により、列は読み取り可能であっても復旧されます。- [SPARK-42971][CORE] ワーカーが
workdir
イベントを処理するときにappDirs
が null の場合、WorkDirCleanup
の出力に変更する - オペレーティング システムのセキュリティを更新。
- Parquet ファイルが、
2023 年 4 月 11 日
SYNC
コマンドの従来のデータ ソース形式をサポートします。- リポジトリの外部にあるノートブックの %autoreload 動作のバグを修正しました。
- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性があるバグを修正しました。
- [SPARK-42928][SQL]
resolvePersistentFunction
を同期させる。 - [SPARK-42967][CORE] ステージが取り消された後にタスクが開始されたときに
SparkListenerTaskStart.stageAttemptId
を修正する。 - オペレーティング システムのセキュリティを更新。
2023 年 3 月 29 日
- [SPARK-42794][SS] 構造化ストリーミングの RocksDB 状態ストアを取得するための lockAcquireTimeoutMs を 2 分に増やす
- [SPARK-41162][SQL] 集計を使用した自己結合の反結合および半結合を修正する
- [SPARK-42403][CORE] JsonProtocol は null JSON 文字列を処理する必要があります
- [SPARK-42668][SS] HDFSStateStoreProvider 中止で圧縮ストリームを閉じようとしているときに例外をキャッチする
- 各種のバグ修正。
2023 年 3 月 14 日
- [SPARK-42534][SQL] DB2Dialect Limit 句を修正する
- [SPARK-42622][CORE] 値の置換を無効にする
- [SPARK-41793][SQL] 大きい 10 進数の範囲句で定義されたウィンドウ フレームの結果が正しくない
- [SPARK-42484] [SQL] UnsafeRowUtils のエラー メッセージを改善
- [SPARK-42635][SQL] TimestampAdd 式を修正する。
- [SPARK-42516][SQL] ビューの作成時にセッション タイム ゾーン構成を常にキャプチャする
- オペレーティング システムのセキュリティを更新。
2023 年 2 月 24 日
クエリ フェデレーションの標準化された接続オプション
クエリ フェデレーション (PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server) でサポートされているデータ ソースに接続するために、統合された一連のオプション (
host
、port
、database
、user
、password
) を使用できるようになりました。port
は省略可能であり、指定されていない場合は各データ ソースの既定のポート番号を使用します。PostgreSQL 接続構成の例
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Snowflake 接続構成の例
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
“[SPARK-41848][CORE] TaskResourceProfile でスケジュール超過のタスクを修正する” を元に戻す
[SPARK-42162] 可換式の大きなツリーを正規化するためのメモリ最適化として MultiCommutativeOp 式を導入する
[SPARK-41990][SQL] V1 から V2 へのフィルター変換で
FieldReference.column
ではなくapply
を使用する[SPARK-42346][SQL] サブクエリのマージ後に個別の集計を書き換える
オペレーティング システムのセキュリティを更新。
2023 年 2 月 16 日
- ユーザーは Databricks Runtime 9.1 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに記載されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- SYNC コマンドでは、再作成された Hive メタストア テーブルの同期がサポートされます。 HMS テーブルが以前に Unity Catalog に SYNC された後に削除されて再作成された場合、その後の再同期は、状態コード TABLE_ALREADY_EXISTS をスローする代わりに機能します。
- [SPARK-36173][CORE] TaskContext での CPU 番号の取得のサポート
- [SPARK-42286][SQL] CAST を使用した複雑な expr の以前の codegen コード パスへのフォールバック
- [SPARK-41848][CORE] TaskResourceProfile でスケジュール超過のタスクを修正する
- [SPARK-41219][SQL] IntegralDivide は decimal(1, 0) を使用して 0 を表す
2023 年 1 月 25 日
- [SPARK-41660][SQL] メタデータ列が使用されている場合にのみ反映されます
- [SPARK-41379][SS][PYTHON] PySpark の foreachBatch シンクのユーザー関数で DataFrame に複製された Spark セッションを提供する
- [SPARK-41669][SQL] canCollapseExpressions の早期排除
- オペレーティング システムのセキュリティを更新。
2023 年 1 月 18 日
REFRESH FUNCTION
SQL コマンドで SQL 関数と SQL Table 関数がサポートされるようになりました。 たとえば、このコマンドを使用して、別の SQL セッションで更新された永続的な SQL 関数を更新できます。- Java Database Connectivity (JDBC) データ ソース v1 で、クエリのパフォーマンスを向上させるための LIMIT 句のプッシュダウンがサポートされるようになりました。 この機能は既定で有効になっていて、
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
をfalse
に設定することで無効にできます。 - レガシ テーブル ACL クラスターで、JVM クラスを参照する関数を作成するには、
MODIFY_CLASSPATH
特権が必要になりました。 - Java Database Connectivity (JDBC) データ ソース v1 で、クエリのパフォーマンスを向上させるための LIMIT 句のプッシュダウンがサポートされるようになりました。 この機能は既定で有効になっていて、spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled を false に設定することで無効にできます。
- Azure Synapse コネクタは、列名に空白文字やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます。
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- Spark 構造化ストリーミングが、差分共有テーブルの形式 ("deltasharing") をソースとして使用できるようになりました。
- [SPARK-38277][SS] RocksDB ステート ストアのコミット後に書き込みバッチをクリアする
- [SPARK-41733][SQL][SS] ResolveWindowTime のルールにツリー パターン ベースの排除を適用する
- [SPARK-39591][SS] 非同期進行状況の追跡
- [SPARK-41339][SQL] 単にクリアするのではなく、RocksDB 書き込みバッチを閉じて再作成する
- [SPARK-41198][SS] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリックを修正する
- [SPARK-41539][SQL] LogicalRDD の論理プランの出力に対する統計と制約を再マップする
- [SPARK-41732][SQL][SS] SessionWindowing のルールにツリー パターン ベースの排除を適用する
- [SPARK-41862][SQL] Orc リーダーの既定値に関連する正確性のバグを修正する
- [SPARK-41199][SS] DSv1 ストリーミング ソースと DSv2 ストリーミング ソースが共同使用されている場合のメトリックの問題を修正する
- [SPARK-41261][PYTHON][SS] グループ化キーの列が最も古い順序で配置されない場合の applyInPandasWithState の問題を修正
- オペレーティング システムのセキュリティを更新。
2023 年 5 月 17 日
- バッチ サイズを動的に調整することで、非常に構造化されたファイルをスキャンするときに、Parquet スキャンが OOM に対して堅牢になりました。 バッチ サイズを大幅に小さくするためにファイル メタデータが分析され、最終的なセーフティ ネットとしてタスクの再試行時に再度低下します。
- クラスターの初期化中にメタストアへの接続に失敗した後に Azure Databricks ジョブが保持される原因となった不具合を修正しました。
- [SPARK-41520][SQL]
AND_OR
ツリー パターンを分割してAND
とOR
に分離する。 - [SPARK-43190][SQL]
ListQuery.childOutput
が セカンダリ出力と一致するようになりました。 - オペレーティング システムのセキュリティを更新。
2023 年 4 月 25 日
- Parquet ファイルが、
failOnUnknownFields
オプションだけを使用するか、failOnNewColumns
スキーマ展開モードで自動ローダーを使用して読み取られた場合、異なるデータ型の列は、ファイルを読み取ることができないというエラーがスローされる代わりに、null
として読み取られます。 これらの読み取りは失敗し、ユーザーはrescuedDataColumn
オプションを使用することが推奨されます。 Integer
、Short
、Byte
のデータ型のいずれかが指定されている場合は、 自動ローダーが正しく読み取られ、型が復旧されなくなりました。 Parquet ファイルでは、他の 2 つの型のいずれかが提案されます。 復旧されたデータ列が以前に有効になっていた場合、データ型の不一致により、列は読み取り可能であっても復旧されます。- [SPARK-42937][SQL]
PlanSubqueries
がInSubqueryExec#shouldBroadcast
を true に設定するようになりました。 - オペレーティング システムのセキュリティを更新。
- Parquet ファイルが、
2023 年 4 月 11 日
- SYNC コマンドの従来のデータ ソース形式をサポートします。
- リポジトリの外部にあるノートブックの %autoreload 動作のバグを修正しました。
- 入れ子になった JSON オブジェクトのスキーマで新しい列が検出されると、自動ローダー スキーマの展開が無限の失敗ループに入る可能性があるバグを修正しました。
- [SPARK-42928][SQL] resolvePersistentFunction を同期させる。
- [SPARK-42967][CORE] ステージが取り消された後にタスクが開始されたときに SparkListenerTaskStart.stageAttemptId を修正する。
2023 年 3 月 29 日
- [SPARK-42794][SS] 構造化ストリーミングの RocksDB 状態ストアを取得するための lockAcquireTimeoutMs を 2 分に増やす
- [SPARK-42403][CORE] JsonProtocol は null JSON 文字列を処理する必要があります
- [SPARK-42668][SS] HDFSStateStoreProvider 中止で圧縮ストリームを閉じようとしているときに例外をキャッチする
- オペレーティング システムのセキュリティを更新。
2023 年 3 月 14 日
- [SPARK-42635][SQL] TimestampAdd 式を修正する。
- [SPARK-41793][SQL] 大きい 10 進数の範囲句で定義されたウィンドウ フレームの結果が正しくない
- [SPARK-42484] [SQL] UnsafeRowUtils のエラー メッセージを改善
- [SPARK-42534][SQL] DB2Dialect Limit 句を修正する
- [SPARK-41162][SQL] 集計を使用した自己結合の反結合および半結合を修正する
- [SPARK-42516][SQL] ビューの作成時にセッション タイム ゾーン構成を常にキャプチャする
- 各種のバグ修正。
2023 年 2 月 28 日
クエリ フェデレーションの標準化された接続オプション
クエリ フェデレーション (PostgreSQL、MySQL、Synapse、Snowflake、Redshift、SQL Server) でサポートされているデータ ソースに接続するために、統合された一連のオプション (
host
、port
、database
、user
、password
) を使用できるようになりました。port
は省略可能であり、指定されていない場合は各データ ソースの既定のポート番号を使用します。PostgreSQL 接続構成の例
CREATE TABLE postgresql_table USING postgresql OPTIONS ( dbtable '<table-name>', host '<host-name>', database '<database-name>', user '<user>', password secret('scope', 'key') );
Snowflake 接続構成の例
CREATE TABLE snowflake_table USING snowflake OPTIONS ( dbtable '<table-name>', host '<host-name>', port '<port-number>', database '<database-name>', user secret('snowflake_creds', 'my_username'), password secret('snowflake_creds', 'my_password'), schema '<schema-name>', sfWarehouse '<warehouse-name>' );
[SPARK-42286][SQL] CAST を使用した複雑な expr の以前の codegen コード パスへのフォールバック
[SPARK-41989][PYTHON] pyspark.pandas からのログ記録の構成を中断しないようにする
[SPARK-42346][SQL] サブクエリのマージ後に個別の集計を書き換える
[SPARK-41360][CORE] Executor が失われた場合に BlockManager の再登録を回避する
[SPARK-42162] 可換式の大きなツリーを正規化するためのメモリ最適化として MultiCommutativeOp 式を導入する
[SPARK-41990][SQL] V1 から V2 へのフィルター変換で
FieldReference.column
ではなくapply
を使用するオペレーティング システムのセキュリティを更新。
2023 年 2 月 16 日
- ユーザーは Databricks Runtime 9.1 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに記載されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- SYNC コマンドでは、再作成された Hive メタストア テーブルの同期がサポートされます。 HMS テーブルが以前に Unity Catalog に SYNC された後に削除されて再作成された場合、その後の再同期は、状態コード TABLE_ALREADY_EXISTS をスローする代わりに機能します。
- [SPARK-41219][SQL] IntegralDivide は decimal(1, 0) を使用して 0 を表す
- [SPARK-40382][SQL]
RewriteDistinctAggregates
で意味的に等価な子によって個別の集計式をグループ化する - オペレーティング システムのセキュリティを更新。
2023 年 1 月 25 日
- [SPARK-41379][SS][PYTHON] PySpark の foreachBatch シンクのユーザー関数で DataFrame に複製された Spark セッションを提供する
- [SPARK-41660][SQL] メタデータ列が使用されている場合にのみ反映されます
- [SPARK-41669][SQL] canCollapseExpressions の早期排除
- 各種のバグ修正。
2023 年 1 月 18 日
REFRESH FUNCTION
SQL コマンドで SQL 関数と SQL Table 関数がサポートされるようになりました。 たとえば、このコマンドを使用して、別の SQL セッションで更新された永続的な SQL 関数を更新できます。- Java Database Connectivity (JDBC) データ ソース v1 で、クエリのパフォーマンスを向上させるための LIMIT 句のプッシュダウンがサポートされるようになりました。 この機能は既定で有効になっていて、
spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled
をfalse
に設定することで無効にできます。 - Java Database Connectivity (JDBC) データ ソース v1 で、クエリのパフォーマンスを向上させるための LIMIT 句のプッシュダウンがサポートされるようになりました。 この機能は既定で有効になっていて、spark.databricks.optimizer.jdbcDSv1LimitPushdown.enabled を false に設定することで無効にできます。
- Azure Synapse コネクタは、列名に空白文字やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます。
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- [SPARK-41198][SS] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリックを修正する
- [SPARK-41862][SQL] Orc リーダーの既定値に関連する正確性のバグを修正する
- [SPARK-41539][SQL] LogicalRDD の論理プランの出力に対する統計と制約を再マップする
- [SPARK-39591][SS] 非同期進行状況の追跡
- [SPARK-41199][SS] DSv1 ストリーミング ソースと DSv2 ストリーミング ソースが共同使用されている場合のメトリックの問題を修正する
- [SPARK-41261][PYTHON][SS] グループ化キーの列が最も古い順序で配置されない場合の applyInPandasWithState の問題を修正
- [SPARK-41339][SQL] 単にクリアするのではなく、RocksDB 書き込みバッチを閉じて再作成する
- [SPARK-41732][SQL][SS] SessionWindowing のルールにツリー パターン ベースの排除を適用する
- [SPARK-38277][SS] RocksDB ステート ストアのコミット後に書き込みバッチをクリアする
- オペレーティング システムのセキュリティを更新。
2022 年 11 月 29 日
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理をコントロールするために、次のオプションが追加されました:
csvignoreleadingwhitespace
がtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に先頭の空白文字が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。csvignoretrailingwhitespace
がtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に後続の空白文字が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。
- すべての列が文字列 (
cloudFiles.inferColumnTypes
はfalse
に設定または設定されていない) として残され、JSON に入れ子になったオブジェクトが含まれている場合、自動ローダーでの JSON 解析のバグを修正しました。 snowflake-jdbc
依存関係をバージョン 3.13.22 にアップグレード します。- JDBC テーブルのテーブルの種類が既定では EXTERNAL になりました。
- [SPARK-40906][SQL]
Mode
を Mapに挿入する前にキーをコピーする必要がある - オペレーティング システムのセキュリティを更新。
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理をコントロールするために、次のオプションが追加されました:
2022 年 11 月 15 日
- テーブル ACL と UC 共有クラスターで、Python の Dataset.toJSON メソッドが許可されるようになりました。
- [SPARK-40646] 構造体、マップ、配列の JSON 解析は修正されているため、レコードの一部がスキーマと一致しない場合でも、残りのレコードは null 値 を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 元の動作を保持するために、このフラグは既定では無効になっています - [SPARK-40903][SQL] データ型が変更された場合に正規化のために decimal Add の並べ替えを回避する
- [SPARK-40618][SQL] 参照追跡を使用して入れ子になったサブクエリを含む MergeScalarSubqueries ルールのバグを修正
- [SPARK-40697][SQL] 外部データ ファイルをカバーする読み取り側の char パディングを追加する
- オペレーティング システムのセキュリティを更新。
2022 年 11 月 1 日
- Unity Catalog の構造化ストリーミングで、一時的なアクセス トークンの更新がサポートされるようになりました。 Unity Catalog のすべての目的またはジョブ クラスターで実行されているストリーミング ワークロードは、最初のトークンの有効期限が切れた後に失敗しなくなりました。
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで 変更データ フィード が無効になっている場合、その列のデータがMERGE
の実行時に NULL 値で誤って入力される問題を修正しました。 MERGE
を実行して条件でソースから 99 列を使用すると、java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
が発生する可能性がある問題を修正しました。allowOverwrites
が有効になっている場合に、同じマイクロバッチでファイルを複製できる自動ローダーの問題を修正しました。- Apache commons-text を 1.10.0 にアップグレードしました。
- [SPARK-38881][DSTREAMS][KINESIS][PYSPARK] CloudWatch MetricsLevel Config のサポートを追加しました
- [SPARK-40596][CORE] ExecutorDecommissionに ExecutorDecommissionInfoのメッセージを設定する
- [SPARK-40670][SS][PYTHON] 入力スキーマに 「null 非許容」 列がある場合の applyInPandasWithState での NPE を修正
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 11.2 (EoS)
「Databricks Runtime 11.2 (EoS)」を参照してください。
- 2023 年 2 月 28 日
- [SPARK-42286][SQL] CAST を使用した複雑な expr の以前の codegen コード パスへのフォールバック
- [SPARK-42346][SQL] サブクエリのマージ後に個別の集計を書き換える
- オペレーティング システムのセキュリティを更新。
- 2023 年 2 月 16 日
- ユーザーは Databricks Runtime 9.1 以降を使用して、Reader バージョン 3 と Writer バージョン 7 を必要とする特定の Delta テーブルの読み取りと書き込みができるようになりました。 成功するには、テーブルのプロトコルに記載されているテーブル機能が、現在のバージョンの Databricks Runtime でサポートされている必要があります。
- SYNC コマンドでは、再作成された Hive メタストア テーブルの同期がサポートされます。 HMS テーブルが以前に Unity Catalog に SYNC された後に削除されて再作成された場合、その後の再同期は、状態コード TABLE_ALREADY_EXISTS をスローする代わりに機能します。
- [SPARK-41219][SQL] IntegralDivide は decimal(1, 0) を使用して 0 を表す
- オペレーティング システムのセキュリティを更新。
- 2023 年 1 月 31 日
- JDBC テーブルのテーブルの種類が既定では EXTERNAL になりました。
- [SPARK-41379][SS][PYTHON] PySpark の foreachBatch シンクのユーザー関数で DataFrame に複製された Spark セッションを提供する
- 2023 年 1 月 18 日
- Azure Synapse コネクタは、列名に空白文字やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます。
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- [SPARK-41198][SS] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリックを修正する
- [SPARK-41862][SQL] Orc リーダーの既定値に関連する正確性のバグを修正する
- [SPARK-41539][SQL] LogicalRDD の論理プランの出力に対する統計と制約を再マップする
- [SPARK-41199][SS] DSv1 ストリーミング ソースと DSv2 ストリーミング ソースが共同使用されている場合のメトリックの問題を修正する
- [SPARK-41339][SQL] 単にクリアするのではなく、RocksDB 書き込みバッチを閉じて再作成する
- [SPARK-41732][SQL][SS] SessionWindowing のルールにツリー パターン ベースの排除を適用する
- [SPARK-38277][SS] RocksDB ステート ストアのコミット後に書き込みバッチをクリアする
- オペレーティング システムのセキュリティを更新。
- Azure Synapse コネクタは、列名に空白文字やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます。
- 2022 年 11 月 29 日
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理をコントロールするために、次のオプションが追加されました:
csvignoreleadingwhitespace
がtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に先頭の空白文字が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。csvignoretrailingwhitespace
がtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に後続の空白文字が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。
- すべての列が文字列 (
cloudFiles.inferColumnTypes
はfalse
に設定または設定されていない) として残され、JSON に入れ子になったオブジェクトが含まれている場合、自動ローダーでの JSON 解析のバグを修正しました。 - [SPARK-40906][SQL]
Mode
を Mapに挿入する前にキーをコピーする必要がある - オペレーティング システムのセキュリティを更新。
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理をコントロールするために、次のオプションが追加されました:
- 2022 年 11 月 15 日
- [SPARK-40646] 構造体、マップ、配列の JSON 解析は修正されているため、レコードの一部がスキーマと一致しない場合でも、残りのレコードは null 値 を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 元の動作を保持するために、このフラグは既定では無効になっています - [SPARK-40618][SQL] 参照追跡を使用して入れ子になったサブクエリを含む MergeScalarSubqueries ルールのバグを修正
- [SPARK-40697][SQL] 外部データ ファイルをカバーする読み取り側の char パディングを追加する
- オペレーティング システムのセキュリティを更新。
- [SPARK-40646] 構造体、マップ、配列の JSON 解析は修正されているため、レコードの一部がスキーマと一致しない場合でも、残りのレコードは null 値 を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
- 2022 年 11 月 1 日
- Apache commons-text を 1.10.0 にアップグレードしました。
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで 変更データ フィード が無効になっている場合、その列のデータがMERGE
の実行時に NULL 値で誤って入力される問題を修正しました。 MERGE
を実行して条件でソースから 99 列を使用すると、java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
が発生する可能性がある問題を修正しました。allowOverwrites
が有効になっている場合に、同じマイクロバッチでファイルを複製できる自動ローダーの問題を修正しました- [SPARK-40596][CORE] ExecutorDecommissionに ExecutorDecommissionInfoのメッセージを設定する
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 19 日
- Unity Catalog 対応クラスター/ウェアハウスでの一時的な資格情報を使用した COPY INTO の使用に関する問題を修正しました。
- [SPARK-40213][SQL] ラテン 1 文字の ASCII 値変換をサポート
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 5 日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") を設定して、ADLS Gen2 の自動ローダーのネイティブ リストを再度有効にすることができます。 ネイティブ リストは、以前はパフォーマンスの問題のために無効にされていましたが、顧客のストレージ コストの増加につながっている可能性があります。 この変更は、以前のメンテナンス更新プログラムで DBR 10.4 と 9.1 にロールアウトされました。
- [SPARK-40315][SQL]URL エンコード/デコードを組み込み関数としてサポートし、URL 関連の関数を整理する
- [SPARK-40156][SQL]
url_decode()
がエラー クラスを返す必要がある - [SPARK-40169] データ スキーマへの参照がない Parquet フィルターをプッシュダウンしない
- [SPARK-40460][SS] 選択時にストリーミング メトリックを修正する
_metadata
- [SPARK-40468][SQL] _corrupt_record が選択されている場合の CSV での列の削除を修正する
- [SPARK-40055][SQL] listCatalogs は、spark_catalog 実装が defaultSessionCatalog の場合でもspark_catalog を返す必要があります
- オペレーティング システムのセキュリティを更新。
- 2022 年 9 月 22 日
- [SPARK-40315][SQL] ArrayBasedMapData のリテラルに hashCode() を追加する
- [SPARK-40389][SQL] キャストがオーバーフローする場合、Decimals は整数型としてアップキャストできません
- [SPARK-40380][SQL] プランにシリアル化不可能なリテラルが埋め込まれるのを避けるために InvokeLike の定数フォールディングを修正しました
- [SPARK-40066][SQL][FOLLOW-UP] dataType を取得する前に ElementAt が解決されているかどうかを確認する
- [SPARK-40109][SQL] 新しい SQL 関数: get()
- [SPARK-40066][SQL] ANSI モード: マップ列への無効なアクセスで常に null を返す
- [SPARK-40089][SQL] 一部の Decimal 型の並べ替えを修正しました
- [SPARK-39887][SQL] RemoveRedundantAliases は、プロジェクション ノードの出力を一意にするエイリアスを保持する必要があります
- [SPARK-40152][SQL] split_part codegen コンパイルの問題を修正しました
- [SPARK-40235][CORE] Executor.updateDependencies() で同期ではなく割り込み可能なロックを使用する
- [SPARK-40212][SQL] SparkSQL castPartValue が byte、short、または float を適切に処理しない
- [SPARK-40218][SQL] GROUPING SETS がグループ化列を保持するようにする
- [SPARK-35542][ML] 修正: パラメーターを持つ複数の列に対して作成された Bucketizer
- [SPARK-40079] 空の入力ケースに対する Imputer inputCols 検証を追加
- [SPARK-39912]SPARK-39828[SQL] CatalogImpl の修正
Databricks Runtime 11.1 (EoS)
「Databricks Runtime 11.1 (EoS)」をご覧ください。
2023 年 1 月 31 日
- [SPARK-41379][SS][PYTHON] PySpark の foreachBatch シンクのユーザー関数で DataFrame に複製された Spark セッションを提供する
- 各種のバグ修正。
2023 年 1 月 18 日
- Azure Synapse コネクタは、列名に空白文字やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます。
Azure Synapse Analytics failed to execute the JDBC query produced by the connector. Make sure column names do not include any invalid characters such as ';' or whitespace
- [SPARK-41198][SS] CTE と DSv1 ストリーミング ソースを持つストリーミング クエリのメトリックを修正する
- [SPARK-41862][SQL] Orc リーダーの既定値に関連する正確性のバグを修正する
- [SPARK-41199][SS] DSv1 ストリーミング ソースと DSv2 ストリーミング ソースが共同使用されている場合のメトリックの問題を修正する
- [SPARK-41339][SQL] 単にクリアするのではなく、RocksDB 書き込みバッチを閉じて再作成する
- [SPARK-41732][SQL][SS] SessionWindowing のルールにツリー パターン ベースの排除を適用する
- [SPARK-38277][SS] RocksDB ステート ストアのコミット後に書き込みバッチをクリアする
- オペレーティング システムのセキュリティを更新。
- Azure Synapse コネクタは、列名に空白文字やセミコロンなどの無効な文字が含まれているときに、よりわかりやすいエラー メッセージを返すようになりました。 このような場合は、次のメッセージが返されます。
2022 年 11 月 29 日
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理をコントロールするために、次のオプションが追加されました:
csvignoreleadingwhitespace
がtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に先頭の空白文字が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。csvignoretrailingwhitespace
がtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に後続の空白文字が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。
- すべての列が文字列 (
cloudFiles.inferColumnTypes
はfalse
に設定または設定されていない) として残され、JSON に入れ子になったオブジェクトが含まれている場合、自動ローダーでの JSON 解析のバグを修正しました。 - [SPARK-39650] [SS] 下位互換性のあるストリーミング重複除去に含まれる不適切な値スキーマを修正する
- オペレーティング システムのセキュリティを更新。
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理をコントロールするために、次のオプションが追加されました:
2022 年 11 月 15 日
- [SPARK-40646] 構造体、マップ、配列の JSON 解析は修正されているため、レコードの一部がスキーマと一致しない場合でも、残りのレコードは null 値 を返す代わりに正しく解析できます。改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 元の動作を保持するために、このフラグは既定では無効になっています - オペレーティング システムのセキュリティを更新。
- [SPARK-40646] 構造体、マップ、配列の JSON 解析は修正されているため、レコードの一部がスキーマと一致しない場合でも、残りのレコードは null 値 を返す代わりに正しく解析できます。改善された動作をオプトインするには、
2022 年 11 月 1 日
- Apache commons-text を 1.10.0 にアップグレードしました。
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで 変更データ フィード が無効になっている場合、その列のデータがMERGE
の実行時に NULL 値で誤って入力される問題を修正しました。 MERGE
を実行して条件でソースから 99 列を使用すると、java.lang.ClassCastException: org.apache.spark.sql.vectorized.ColumnarBatch cannot be cast to org.apache.spark.sql.catalyst.InternalRow
が発生する可能性がある問題を修正しました。allowOverwrites
が有効になっている場合に、同じマイクロバッチでファイルを複製できる自動ローダーの問題を修正しました- [SPARK-40697][SQL] 外部データ ファイルをカバーする読み取り側の char パディングを追加する
- [SPARK-40596][CORE] ExecutorDecommissionに ExecutorDecommissionInfoのメッセージを設定する
- オペレーティング システムのセキュリティを更新。
2022 年 10 月 18 日
- Unity Catalog 対応クラスター/ウェアハウスでの一時的な資格情報を使用した COPY INTO の使用に関する問題を修正しました。
- [SPARK-40213][SQL] ラテン 1 文字の ASCII 値変換をサポート
- オペレーティング システムのセキュリティを更新。
2022 年 10 月 5 日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") を設定して、ADLS Gen2 の自動ローダーのネイティブ リストを再度有効にすることができます。 ネイティブ リストは、以前はパフォーマンスの問題のために無効にされていましたが、顧客のストレージ コストの増加につながっている可能性があります。 この変更は、以前のメンテナンス更新プログラムで DBR 10.4 と 9.1 にロールアウトされました。
- [SPARK-40169] データ スキーマへの参照がない Parquet フィルターをプッシュダウンしない
- [SPARK-40460][SS] 選択時にストリーミング メトリックを修正する
_metadata
- [SPARK-40468][SQL] _corrupt_record が選択されている場合の CSV での列の削除を修正する
- [SPARK-40055][SQL] listCatalogs は、spark_catalog 実装が defaultSessionCatalog の場合でもspark_catalog を返す必要があります
- オペレーティング システムのセキュリティを更新。
2022 年 9 月 22 日
- [SPARK-40315][SQL] ArrayBasedMapData のリテラルに hashCode() を追加する
- [SPARK-40380][SQL] プランにシリアル化不可能なリテラルが埋め込まれるのを避けるために InvokeLike の定数フォールディングを修正しました
- [SPARK-40089][SQL] 一部の Decimal 型の並べ替えを修正しました
- [SPARK-39887][SQL] RemoveRedundantAliases は、プロジェクション ノードの出力を一意にするエイリアスを保持する必要があります
- [SPARK-40152][SQL] split_part codegen コンパイルの問題を修正しました
2022 年 9 月 6 日
- ALTER TABLE を使用してテーブルのスキーマまたはテーブルのプロパティを変更するために必要なのが MODIFY アクセス許可のみになるように、テーブル アクセス制御 (テーブル ACL) のアクセス許可モデルを更新しました。 以前は、これらの操作では、ユーザーがテーブルを所有している必要がありました。 テーブルに対するアクセス許可の付与、所有者の変更、場所の変更、名前の変更には、引き続き所有権が必要です。 この変更により、テーブル ACL のアクセス許可モデルの Unity Catalog との整合性が向上します。
- [SPARK-40235][CORE] Executor.updateDependencies() で同期ではなく割り込み可能なロックを使用する
- [SPARK-40212][SQL] SparkSQL castPartValue が byte、short、または float を適切に処理しない
- [SPARK-40218][SQL] GROUPING SETS がグループ化列を保持するようにする
- [SPARK-39976] [SQL] ArrayIntersect で左側の式に含まれる null を正しく処理するようにする
- [SPARK-40053][CORE][SQL][TESTS] Python ランタイム環境を必要とする動的キャンセル ケースに
assume
を追加する - [SPARK-35542][CORE][ML] 修正: パラメーター splitsArray、inputCols、および outputCols を指定して複数の列に対して作成された Bucketizer を保存後に読み込めない
- [SPARK-40079][CORE] 空の入力ケースに対する Imputer inputCols 検証を追加
2022 年 8 月 24 日
- 共有、プロバイダー、および受信者は、所有者の変更、コメント、名前の変更を行う SQL コマンドをサポートするようになりました
- [SPARK-39983][CORE][SQL] ドライバーに非直列化ブロードキャスト関係をキャッシュしない
- [SPARK-39912][SPARK-39828][SQL] CatalogImpl の修正
- [SPARK-39775][CORE][AVRO] Avro スキーマの解析時に既定値の検証を無効にする
- [SPARK-39806] パーティション テーブルで METADATA 構造体にアクセスするクエリがクラッシュする問題を修正
- [SPARK-39867][SQL] グローバル制限が OrderPreservingUnaryNode を継承しないようにする
- [SPARK-39962][PYTHON][SQL] グループ属性が空の場合にプロジェクションを適用する
- [SPARK-39839][SQL] UnsafeRow 構造整合性チェックで、offsetAndSize が 0 以外の、null 可変長 Decimal に関する特殊なケースを処理する
- [SPARK-39713] [SQL] ANSI モード: INVALID_ARRAY_INDEX エラーの場合に try_element_at の使用を提案します
- [SPARK-39847][SS] 呼び出し元スレッドが中断された場合の RocksDBLoader.loadLibrary() の競合状態を修正します
- [SPARK-39731] [SQL] 修正されたタイム パーサー ポリシーを使用して "yyyyMMdd" 形式で日付を解析するときの CSV および JSON データ ソースの問題を修正します
- オペレーティング システムのセキュリティを更新。
2022 年 8 月 10 日
- テーブル アクセス制御を使用する Delta テーブルの場合、このようなテーブルに対する
INSERT
アクセス許可を持つすべてのユーザーが、MERGE
やMODIFY
などの DML ステートメントを使用してスキーマを自動的に展開できるようになりました。 さらに、COPY INTO
を使用してスキーマの展開を実行するために必要なアクセス許可が、他のコマンドとの一貫性を保つためにOWNER
からMODIFY
に下げられました。 これらの変更により、テーブルの ACL セキュリティ モデルは、Unity Catalog のセキュリティ モデルだけでなく、テーブルの置き換えなどの他の操作とも整合性が高くなります。 - [SPARK-39889] 0 による除算のエラー メッセージを改善します
- [SPARK-39795] [SQL] 新しい SQL 関数: try_to_timestamp
- [SPARK-39749] ANSI モードで decimal を文字列としてキャストする場合は、常にプレーン文字列表現を使用します
- [SPARK-39625] df.as の名前を df.to に変更します
- [SPARK-39787] [SQL] 関数 to_timestamp の解析エラーでエラー クラスを使用します
- [SPARK-39625] [SQL] Dataset.as(StructType) を追加します
- [SPARK-39689] CSV データソースで 2 文字
lineSep
をサポートします - [SPARK-39579] [SQL][PYTHON][R] ListFunctions/getFunction/functionExists を 3 レイヤー名前空間と互換性のあるものにします
- [SPARK-39702] [CORE] 共有 byteRawChannel を使用して TransportCipher$EncryptedMessage のメモリ オーバーヘッドを削減します
- [SPARK-39575] [AVRO] AvroDeserializer で ByteBuffer#get の後に ByteBuffer#rewind を追加します
- [SPARK-39265] [SQL] SPARK_ANSI_SQL_MODE が有効になっている場合のテスト エラーを修正します
- [SPARK-39441] [SQL] DeduplicateRelations の高速化
- [SPARK-39497] [SQL] マップ キー列が見つからない場合の分析例外を改善
- [SPARK-39476] [SQL] Long から Float か Double、または Integer から Float へのキャスト時に、アンラップ キャストの最適化を無効にする
- [SPARK-39434] [SQL] 配列インデックスが境界外の場合にランタイム エラー クエリ コンテキストを提供する
- テーブル アクセス制御を使用する Delta テーブルの場合、このようなテーブルに対する
Databricks Runtime 11.0 (EoS)
「Databricks Runtime 11.0 (EoS)」をご覧ください。
- 2022 年 11 月 29 日
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理をコントロールするために、次のオプションが追加されました:
csvignoreleadingwhitespace
がtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に先頭の空白文字が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。csvignoretrailingwhitespace
がtrue
に設定すると、tempformat
がCSV
またはCSV GZIP
に設定されている場合、書き込み中に後続の空白文字が値から削除されます。 空白は、構成がfalse
に設定されている場合に保持されます。 既定値はtrue
です。
- すべての列が文字列 (
cloudFiles.inferColumnTypes
はfalse
に設定または設定されていない) として残され、JSON に入れ子になったオブジェクトが含まれている場合、自動ローダーでの JSON 解析のバグを修正しました。 - [SPARK-39650] [SS] 下位互換性のあるストリーミング重複除去に含まれる不適切な値スキーマを修正する
- オペレーティング システムのセキュリティを更新。
- ユーザーは、Redshift コネクタを使用してデータを書き込むときに、先頭と末尾の空白文字のビヘイビアーを構成できます。 空白の処理をコントロールするために、次のオプションが追加されました:
- 2022 年 11 月 15 日
- [SPARK-40646] 構造体、マップ、配列の JSON 解析は修正されているため、レコードの一部がスキーマと一致しない場合でも、残りのレコードは null 値 を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
spark.sql.json.enablePartialResults
をtrue
に設定します。 元の動作を保持するために、フラグは既定では無効になっています。
- [SPARK-40646] 構造体、マップ、配列の JSON 解析は修正されているため、レコードの一部がスキーマと一致しない場合でも、残りのレコードは null 値 を返す代わりに正しく解析できます。 改善された動作をオプトインするには、
- 2022 年 11 月 1 日
- Apache commons-text を 1.10.0 にアップグレードしました。
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで 変更データ フィード が無効になっている場合、その列のデータがMERGE
の実行時に NULL 値で誤って入力される問題を修正しました。 allowOverwrites
が有効になっている場合に、同じマイクロバッチでファイルを複製できる自動ローダーの問題を修正しました- [SPARK-40697][SQL] 外部データ ファイルをカバーする読み取り側の char パディングを追加する
- [SPARK-40596][CORE] ExecutorDecommissionに ExecutorDecommissionInfoのメッセージを設定する
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 18 日
- [SPARK-40213][SQL] ラテン 1 文字の ASCII 値変換をサポート
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 5 日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") を設定して、ADLS Gen2 の自動ローダーのネイティブ リストを再度有効にすることができます。 ネイティブ リストは、以前はパフォーマンスの問題のために無効にされていましたが、顧客のストレージ コストの増加につながっている可能性があります。 この変更は、以前のメンテナンス更新プログラムで DBR 10.4 と 9.1 にロールアウトされました。
- [SPARK-40169] データ スキーマへの参照がない Parquet フィルターをプッシュダウンしない
- [SPARK-40460][SS] 選択時にストリーミング メトリックを修正する
_metadata
- [SPARK-40468][SQL] _corrupt_record が選択されている場合の CSV での列の削除を修正する
- オペレーティング システムのセキュリティを更新。
- 2022 年 9 月 22 日
- [SPARK-40315][SQL] ArrayBasedMapData のリテラルに hashCode() を追加する
- [SPARK-40380][SQL] プランにシリアル化不可能なリテラルが埋め込まれるのを避けるために InvokeLike の定数フォールディングを修正しました
- [SPARK-40089][SQL] 一部の Decimal 型の並べ替えを修正しました
- [SPARK-39887][SQL] RemoveRedundantAliases は、プロジェクション ノードの出力を一意にするエイリアスを保持する必要があります
- [SPARK-40152][SQL] split_part codegen コンパイルの問題を修正しました
- 2022 年 9 月 6 日
- [SPARK-40235][CORE] Executor.updateDependencies() で同期ではなく割り込み可能なロックを使用する
- [SPARK-40212][SQL] SparkSQL castPartValue が byte、short、または float を適切に処理しない
- [SPARK-40218][SQL] GROUPING SETS がグループ化列を保持するようにする
- [SPARK-39976] [SQL] ArrayIntersect で左側の式に含まれる null を正しく処理するようにする
- [SPARK-40053][CORE][SQL][TESTS] Python ランタイム環境を必要とする動的キャンセル ケースに
assume
を追加する - [SPARK-35542][CORE][ML] 修正: パラメーター splitsArray、inputCols、および outputCols を指定して複数の列に対して作成された Bucketizer を保存後に読み込めない
- [SPARK-40079][CORE] 空の入力ケースに対する Imputer inputCols 検証を追加
- 2022 年 8 月 24 日
- [SPARK-39983][CORE][SQL] ドライバーに非直列化ブロードキャスト関係をキャッシュしない
- [SPARK-39775][CORE][AVRO] Avro スキーマの解析時に既定値の検証を無効にする
- [SPARK-39806] パーティション テーブルで METADATA 構造体にアクセスするクエリがクラッシュする問題を修正
- [SPARK-39867][SQL] グローバル制限が OrderPreservingUnaryNode を継承しないようにする
- [SPARK-39962][PYTHON][SQL] グループ属性が空の場合にプロジェクションを適用する
- オペレーティング システムのセキュリティを更新。
- 2022 年 8 月 9 日
- [SPARK-39713] [SQL] ANSI モード: INVALID_ARRAY_INDEX エラーの場合に try_element_at の使用を提案します
- [SPARK-39847] 呼び出し元スレッドが中断された場合の RocksDBLoader.loadLibrary() の競合状態を修正します
- [SPARK-39731] [SQL] 修正されたタイム パーサー ポリシーを使用して "yyyyMMdd" 形式で日付を解析するときの CSV および JSON データ ソースの問題を修正します
- [SPARK-39889] 0 による除算のエラー メッセージを改善します
- [SPARK-39795] [SQL] 新しい SQL 関数: try_to_timestamp
- [SPARK-39749] ANSI モードで decimal を文字列としてキャストする場合は、常にプレーン文字列表現を使用します
- [SPARK-39625] [SQL] Dataset.to(StructType) を追加します
- [SPARK-39787] [SQL] 関数 to_timestamp の解析エラーでエラー クラスを使用します
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 27 日
- [SPARK-39689]CSV データソースで 2 文字
lineSep
をサポートする - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded セーフである必要がある
- [SPARK-39702][CORE] 共有 byteRawChannel を使用して TransportCipher$EncryptedMessage のメモリ オーバーヘッドを削減する
- [SPARK-39575][AVRO] AvroDeserializer で ByteBuffer#get の後に ByteBuffer#rewind を追加する
- [SPARK-39497][SQL] マップ キー列が見つからない場合の分析例外を改善する
- [SPARK-39441][SQL] DeduplicateRelations の高速化
- [SPARK-39476][SQL] Long から Float か Double、または Integer から Float へのキャスト時に、アンラップ キャストの最適化を無効にする
- [SPARK-39434][SQL] 配列インデックスが境界外の場合にランタイム エラー クエリ コンテキストを提供する
- [SPARK-39570][SQL] インライン テーブルで、別名が設定された式を許可する必要がある
- オペレーティング システムのセキュリティを更新。
- [SPARK-39689]CSV データソースで 2 文字
- 2022 年 7 月 13 日
- ソースが決定論的でない場合は、Delta MERGE 操作の結果を一貫性のあるものにします。
- DBFS 以外のパスでの実行時の cloud_files_state TVF の問題を修正しました。
- 自動ローダーによる Azure 上のディレクトリ一覧に対するネイティブ クラウド API の使用を無効にしました。
- [SPARK-38796][SQL] 正の数値を持つ PR を許可するように to_number 関数と try_to_number 関数を更新する
- [SPARK-39272][SQL] クエリ コンテキストの開始位置を 1 つ大きくする
- [SPARK-39419][SQL] 比較子が null を返したときに例外をスローするように ArraySort を修正する
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 5 日
- さまざまなエラー クラスのエラー メッセージの改善。
- [SPARK-39451][SQL] ANSI モードでの整数へのキャスト間隔をサポートする
- [SPARK-39361] 既定のログ構成では、Log4J2 の拡張スロー可能変換パターンを使わない
- [SPARK-39354][SQL]
Table or view not found
に関連するdataTypeMismatchError
が同時にあった場合でも、Filter
が表示されるようにする - [SPARK-38675][CORE] BlockInfoManager でのロック解除中の競合を修正する
- [SPARK-39392][SQL] try_* 関数ヒントの ANSI エラー メッセージを改善する
- [SPARK-39214][SQL][3.3] CAST に関連するエラーを改善する
- [SPARK-37939] [SQL] プロパティの解析エラーでエラー クラスを使用する
- [SPARK-39085][SQL]
INCONSISTENT_BEHAVIOR_CROSS_VERSION
のエラー メッセージを error-classes.json に移動する - [SPARK-39376][SQL] NATURAL/USING JOIN からのサブクエリ エイリアスのスター展開で重複する列を表示しない
- [SPARK-39283][CORE] TaskMemoryManager と UnsafeExternalSorter.SpillableIterator の間のデッドロックを修正します
- [SPARK-39285][SQL] ファイルの読み取り時に Spark でフィールド名を確認しない
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 10.5 (EoS)
「Databricks Runtime 10.5 (EoS)」を参照してください。
- 2022 年 11 月 1 日
- Delta テーブルに
_change_type
という名前のユーザー定義列があるが、そのテーブルで 変更データ フィード が無効になっている場合、その列のデータがMERGE
の実行時に NULL 値で誤って入力される問題を修正しました。 - [SPARK-40697][SQL] 外部データ ファイルをカバーする読み取り側の char パディングを追加する
- [SPARK-40596][CORE] ExecutorDecommissionに ExecutorDecommissionInfoのメッセージを設定する
- オペレーティング システムのセキュリティを更新。
- Delta テーブルに
- 2022 年 10 月 18 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 5 日
- ユーザーは spark.conf.set("spark.databricks.io.listKeysWithPrefix.azure.enabled", "true") を設定して、ADLS Gen2 の自動ローダーのネイティブ リストを再度有効にすることができます。 ネイティブ リストは、以前はパフォーマンスの問題のために無効にされていましたが、顧客のストレージ コストの増加につながっている可能性があります。 この変更は、以前のメンテナンス更新プログラムで DBR 10.4 と 9.1 にロールアウトされました。
- reload4j は1.2.19 にアップグレードされ、脆弱性が修正されました。
- [SPARK-40460][SS] 選択時にストリーミング メトリックを修正する
_metadata
- [SPARK-40468][SQL] _corrupt_record が選択されている場合の CSV での列の削除を修正する
- オペレーティング システムのセキュリティを更新。
- 2022 年 9 月 22 日
- [SPARK-40315][SQL] ArrayBasedMapData のリテラルに hashCode() を追加する
- [SPARK-40213][SQL] ラテン 1 文字の ASCII 値変換をサポート
- [SPARK-40380][SQL] プランにシリアル化不可能なリテラルが埋め込まれるのを避けるために InvokeLike の定数フォールディングを修正しました
- [SPARK-38404][SQL] 入れ子になった CTE が外部 CTE を参照する場合の CTE 解決を向上させる
- [SPARK-40089][SQL] 一部の Decimal 型の並べ替えを修正しました
- [SPARK-39887][SQL] RemoveRedundantAliases は、プロジェクション ノードの出力を一意にするエイリアスを保持する必要があります
- オペレーティング システムのセキュリティを更新。
- 2022 年 9 月 6 日
- [SPARK-40235][CORE] Executor.updateDependencies() で同期ではなく割り込み可能なロックを使用する
- [SPARK-39976] [SQL] ArrayIntersect で左側の式に含まれる null を正しく処理するようにする
- [SPARK-40053][CORE][SQL][TESTS] Python ランタイム環境を必要とする動的キャンセル ケースに
assume
を追加する - [SPARK-35542][CORE][ML] 修正: パラメーター splitsArray、inputCols、および outputCols を指定して複数の列に対して作成された Bucketizer を保存後に読み込めない
- [SPARK-40079][CORE] 空の入力ケースに対する Imputer inputCols 検証を追加
- 2022 年 8 月 24 日
- [SPARK-39983][CORE][SQL] ドライバーに非直列化ブロードキャスト関係をキャッシュしない
- [SPARK-39775][CORE][AVRO] Avro スキーマの解析時に既定値の検証を無効にする
- [SPARK-39806] パーティション テーブルで METADATA 構造体にアクセスするクエリがクラッシュする問題を修正
- [SPARK-39962][PYTHON][SQL] グループ属性が空の場合にプロジェクションを適用する
- [SPARK-37643][SQL] charVarcharAsString が true の場合、char データ型述語クエリでは rpadding ルールをスキップする必要がある
- オペレーティング システムのセキュリティを更新。
- 2022 年 8 月 9 日
- [SPARK-39847] 呼び出し元スレッドが中断された場合の RocksDBLoader.loadLibrary() の競合状態を修正します
- [SPARK-39731] [SQL] 修正されたタイム パーサー ポリシーを使用して "yyyyMMdd" 形式で日付を解析するときの CSV および JSON データ ソースの問題を修正します
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 27 日
- [SPARK-39625][SQL] Dataset.as(StructType) を追加する
- [SPARK-39689]CSV データソースで 2 文字
lineSep
をサポートする - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded セーフである必要がある
- [SPARK-39570][SQL] インライン テーブルで、別名が設定された式を許可する必要がある
- [SPARK-39702][CORE] 共有 byteRawChannel を使用して TransportCipher$EncryptedMessage のメモリ オーバーヘッドを削減する
- [SPARK-39575][AVRO] AvroDeserializer で ByteBuffer#get の後に ByteBuffer#rewind を追加する
- [SPARK-39476][SQL] Long から Float か Double、または Integer から Float へのキャスト時に、アンラップ キャストの最適化を無効にする
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 13 日
- ソースが決定論的でない場合は、Delta MERGE 操作の結果を一貫性のあるものにします。
- [SPARK-39355][SQL] 単一列で引用符を使用して UnresolvedAttribute を構築する
- [SPARK-39548][SQL] ウィンドウ句クエリで CreateView コマンドを実行したら間違ったウィンドウ定義にヒットして問題が見つからない
- [SPARK-39419][SQL] 比較子が null を返したときに例外をスローするように ArraySort を修正する
- 自動ローダーによる Azure 上のディレクトリ一覧に対するネイティブ クラウド API の使用を無効にしました。
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 5 日
- [SPARK-39376][SQL] NATURAL/USING JOIN からのサブクエリ エイリアスのスター展開で重複する列を表示しない
- オペレーティング システムのセキュリティを更新。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] TaskMemoryManager と UnsafeExternalSorter.SpillableIterator の間のデッドロックを修正します
- [SPARK-39285][SQL] ファイルの読み取り時に Spark でフィールド名を確認しない
- [SPARK-34096][SQL] オフセット ウィンドウでの nth_value ignore nulls のパフォーマンスが向上します
- nth_value ignore nulls[SPARK-36718][SQL][FOLLOWUP] CollapseProject での
isExtractOnly
チェックを修正します
- 2022 年 6 月 2 日
- [SPARK-39166][SQL] WSCG がオフのときにバイナリ算術演算のランタイム エラーのクエリ コンテキストを提供する
- [SPARK-39093][SQL] 年月の間隔または日時の間隔を整数で除算するときの codegen コンパイル エラーを回避する
- [SPARK-38990][SQL] バインドされた参照として date_trunc/trunc 形式を評価するときの NullPointerException を回避する
- オペレーティング システムのセキュリティを更新。
- 2022 年 5 月 18 日
- 自動ローダーでネイティブ メモリ リークが発生する可能性がある問題を修正しました。
- [SPARK-38868][SQL] 外部結合を最適化するときにフィルター述語から例外を伝達しない
- [SPARK-38796][SQL] 新しい仕様に従って to_number および try_to_number という SQL 関数を実装する
- [SPARK-38918][SQL] 入れ子になった列の排除で、現在のリレーションシップに属していない属性を除外する必要がある
- [SPARK-38929] [SQL] ANSI でのキャスト機能のエラー メッセージ改善
- [SPARK-38926][SQL] SQL形式のエラー メッセージの出力の種類
- [SPARK-39084][PYSPARK] df.rdd.isEmpty() が修正され、TaskContext を使用してタスクの完了時に反復子を停止する
- [SPARK-32268][SQL] injectBloomFilter に ColumnPruning を追加する
- [SPARK-38908][SQL] String から Number/Date/Timestamp/Boolean へのキャストの実行時エラーについて、クエリ コンテキストを提供する
- [SPARK-39046][SQL] TreeNode.origin が正しく設定されていない場合に、空のコンテキスト文字列を返す
- [SPARK-38974][SQL] リスト関数で指定されたデータベース名を使用して、登録されている関数をフィルター処理する
- [SPARK-38762][SQL] 10 進数オーバーフロー エラーについて、クエリ コンテキストを提供する
- [SPARK-38931][SS] 第 1 チェックポイントのキー数が不明な RocksDBFileManager のルート dfs ディレクトリを作成する
- [SPARK-38992][CORE] ShellBasedGroupsMappingProvider で bash -c を使用しないようにする
- [SPARK-38716][SQL] マップ キーが存在しないエラーについて、クエリ コンテキストを提供する
- [SPARK-38889][SQL] ブール型の列フィルターをコンパイルして MSSQL データ ソースにビット型を使用する
- [SPARK-38698][SQL] Divide/Div/Reminder/Pmod の実行時エラーについて、クエリ コンテキストを提供する
- [SPARK-38823][SQL] 集計バッファーの破損の問題を修正するために
NewInstance
を折りたたみ不可にする - [SPARK-38809][SS] ストリーム同士の結合の対称ハッシュ実装で null 値をスキップするオプションを実装する
- [SPARK-38676][SQL] Add/Subtract/Multiply の実行時エラー メッセージについて、SQL クエリ コンテキストを提供する
- [SPARK-38677][PYSPARK] Python MonitorThread が、I/O のブロックによるデッドロックを検出する
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 10.3 (EoS)
「Databricks Runtime 10.3 (EoS)」を参照してください。
- 2022 年 7 月 27 日
- [SPARK-39689]CSV データソースで 2 文字
lineSep
をサポートする - [SPARK-39104][SQL] InMemoryRelation#isCachedColumnBuffersLoaded セーフである必要がある
- [SPARK-39702][CORE] 共有 byteRawChannel を使用して TransportCipher$EncryptedMessage のメモリ オーバーヘッドを削減する
- オペレーティング システムのセキュリティを更新。
- [SPARK-39689]CSV データソースで 2 文字
- 2022 年 7 月 20 日
- ソースが決定論的でない場合は、Delta MERGE 操作の結果を一貫性のあるものにします。
- [SPARK-39476][SQL] Long から Float か Double、または Integer から Float へのキャスト時に、アンラップ キャストの最適化を無効にする
- [SPARK-39548][SQL] ウィンドウ句クエリで CreateView コマンドを実行したら間違ったウィンドウ定義にヒットして問題が見つからない
- [SPARK-39419][SQL] 比較子が null を返したときに例外をスローするように ArraySort を修正する
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 5 日
- [SPARK-39376][SQL] NATURAL/USING JOIN からのサブクエリ エイリアスのスター展開で重複する列を表示しない
- オペレーティング システムのセキュリティを更新。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] TaskMemoryManager と UnsafeExternalSorter.SpillableIterator の間のデッドロックを修正します
- [SPARK-39285][SQL] ファイルの読み取り時に Spark でフィールド名を確認しない
- [SPARK-34096][SQL] オフセット ウィンドウでの nth_value ignore nulls のパフォーマンスが向上します
- nth_value ignore nulls[SPARK-36718][SQL][FOLLOWUP] CollapseProject での
isExtractOnly
チェックを修正します
- 2022 年 6 月 2 日
- [SPARK-38990][SQL] バインドされた参照として date_trunc/trunc 形式を評価するときの NullPointerException を回避する
- オペレーティング システムのセキュリティを更新。
- 2022 年 5 月 18 日
- 自動ローダーでネイティブ メモリ リークが発生する可能性がある問題を修正しました。
- [SPARK-38918][SQL] 入れ子になった列の排除で、現在のリレーションシップに属していない属性を除外する必要がある
- [SPARK-37593][CORE] G1GC と ON_HEAP が使用されている場合、LONG_ARRAY_OFFSET だけ既定のページ サイズを 縮小する
- [SPARK-39084][PYSPARK] df.rdd.isEmpty() が修正され、TaskContext を使用してタスクの完了時に反復子を停止する
- [SPARK-32268][SQL] injectBloomFilter に ColumnPruning を追加する
- [SPARK-38974][SQL] リスト関数で指定されたデータベース名を使用して、登録されている関数をフィルター処理する
- [SPARK-38889][SQL] ブール型の列フィルターをコンパイルして MSSQL データ ソースにビット型を使用する
- オペレーティング システムのセキュリティを更新。
- 2022 年 5 月 4 日
- Java AWS SDK をバージョン 1.11.655 から 1.12.1899 にアップグレードしました。
- 2022 年 4 月 19 日
- [SPARK-38616][SQL] Catalyst TreeNode で SQL クエリ テキストを追跡する
- オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] Java ベースの実装を使用して、Utils.unpack での tar の展開を行う
- オペレーティング システムのセキュリティを更新。
- 2022 年 3 月 22 日
- テーブル アクセス制御または資格情報パススルーが有効になっている高コンカレンシー クラスターでは、ノートブックの現在の作業ディレクトリがユーザーのホーム ディレクトリに変更されました。 以前は、作業ディレクトリは
/databricks/driver
でした。 - [SPARK-38437][SQL] データソースからの datetime の厳密ではないシリアル化
- [SPARK-38180][SQL] 相関等価述語で安全なアップキャスト式を許可する
- [SPARK-38155][SQL] サポートされていない述語を持つ lateral サブクエリの個別の集計を禁止する
- [SPARK-38325][SQL] ANSI モード: HashJoin.extractKeyExprAt() で発生する可能性のあるランタイム エラーを回避する
- テーブル アクセス制御または資格情報パススルーが有効になっている高コンカレンシー クラスターでは、ノートブックの現在の作業ディレクトリがユーザーのホーム ディレクトリに変更されました。 以前は、作業ディレクトリは
- 2022 年 3 月 14 日
- Delta Lake の空のトランザクションに対するトランザクション競合の検出機能を強化。
- [SPARK-38185][SQL] 集計関数が空の場合にデータが正しくない問題を修正
- [SPARK-38318][SQL] データセット ビューを置き換える際の回帰
- [SPARK-38236][SQL] テーブルの作成/変更時に指定される絶対ファイル パスが相対パスとして扱われる
- [SPARK-35937][SQL] タイムスタンプからの日付フィールドの抽出は ANSI モードで機能する必要がある
- [SPARK-34069][SQL] キル バリア タスクでは
SPARK_JOB_INTERRUPT_ON_CANCEL
を考慮する必要がある - [SPARK-37707][SQL] TimestampNTZ と Date/Timestamp の間のストア割り当てを許可
- 2022 年 2 月 23 日
- [SPARK-27442][SQL] Parquet 内のデータの読み取り/書き込み時にチェック フィールド名を削除する
Databricks Runtime 10.2 (EoS)
「Databricks Runtime 10.2 (EoS)」を参照してください。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] TaskMemoryManager と UnsafeExternalSorter.SpillableIterator の間のデッドロックを修正します
- [SPARK-39285][SQL] ファイルの読み取り時に Spark でフィールド名を確認しない
- [SPARK-34096][SQL] オフセット ウィンドウでの nth_value ignore nulls のパフォーマンスが向上します
- 2022 年 6 月 2 日
- [SPARK-38918][SQL] 入れ子になった列の排除で、現在のリレーションシップに属していない属性を除外する必要がある
- [SPARK-38990][SQL] バインドされた参照として date_trunc/trunc 形式を評価するときの NullPointerException を回避する
- オペレーティング システムのセキュリティを更新。
- 2022 年 5 月 18 日
- 自動ローダーでネイティブ メモリ リークが発生する可能性がある問題を修正しました。
- [SPARK-39084][PYSPARK] df.rdd.isEmpty() が修正され、TaskContext を使用してタスクの完了時に反復子を停止する
- [SPARK-38889][SQL] ブール型の列フィルターをコンパイルして MSSQL データ ソースにビット型を使用する
- [SPARK-38931][SS] 第 1 チェックポイントのキー数が不明な RocksDBFileManager のルート dfs ディレクトリを作成する
- オペレーティング システムのセキュリティを更新。
- 2022 年 5 月 4 日
- Java AWS SDK をバージョン 1.11.655 から 1.12.1899 にアップグレードしました。
- 2022 年 4 月 19 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] Java ベースの実装を使用して、Utils.unpack での tar の展開を行う
- オペレーティング システムのセキュリティを更新。
- 2022 年 3 月 22 日
- テーブル アクセス制御または資格情報パススルーが有効になっている高コンカレンシー クラスターでは、ノートブックの現在の作業ディレクトリがユーザーのホーム ディレクトリに変更されました。 以前は、作業ディレクトリは
/databricks/driver
でした。 - [SPARK-38437][SQL] データソースからの datetime の厳密ではないシリアル化
- [SPARK-38180][SQL] 相関等価述語で安全なアップキャスト式を許可する
- [SPARK-38155][SQL] サポートされていない述語を持つ lateral サブクエリの個別の集計を禁止する
- [SPARK-38325][SQL] ANSI モード: HashJoin.extractKeyExprAt() で発生する可能性のあるランタイム エラーを回避する
- テーブル アクセス制御または資格情報パススルーが有効になっている高コンカレンシー クラスターでは、ノートブックの現在の作業ディレクトリがユーザーのホーム ディレクトリに変更されました。 以前は、作業ディレクトリは
- 2022 年 3 月 14 日
- Delta Lake の空のトランザクションに対するトランザクション競合の検出機能を強化。
- [SPARK-38185][SQL] 集計関数が空の場合にデータが正しくない問題を修正
- [SPARK-38318][SQL] データセット ビューを置き換える際の回帰
- [SPARK-38236][SQL] テーブルの作成/変更時に指定される絶対ファイル パスが相対パスとして扱われる
- [SPARK-35937][SQL] タイムスタンプからの日付フィールドの抽出は ANSI モードで機能する必要がある
- [SPARK-34069][SQL] キル バリア タスクでは
SPARK_JOB_INTERRUPT_ON_CANCEL
を考慮する必要がある - [SPARK-37707][SQL] TimestampNTZ と Date/Timestamp の間のストア割り当てを許可
- 2022 年 2 月 23 日
- [SPARK-37577][SQL] ClassCastException を修正: ArrayType を StructType にキャストして排除を生成できない
- 2022 年 2 月 8 日
- [SPARK-27442][SQL] Parquet 内のデータの読み取り/書き込み時にチェック フィールド名を削除する。
- オペレーティング システムのセキュリティを更新。
- 2022 年 2 月 1 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 1 月 26 日
- 特定のまれな条件下で、Delta テーブルの同時実行トランザクションがシリアル化できない順序でコミットされる可能性があるバグを修正。
- ANSI SQL dialect が有効になっていると OPTIMIZE コマンドが失敗する可能性があるバグを修正。
- 2022 年 1 月 19 日
- SQL ANY_FILE の許可なしでソース データを読み込むために一時的資格情報の COPY INTO への埋め込みのサポートを追加
- バグの修正とセキュリティの強化。
- 2021 年 12 月 20 日
- Parquet 列インデックス ベースのフィルター処理に関するまれなバグを修正。
Databricks Runtime 10.1 (EoS)
「Databricks Runtime 10.1 (EoS)」を参照してください。
- 2022 年 6 月 15 日
- [SPARK-39283][CORE] TaskMemoryManager と UnsafeExternalSorter.SpillableIterator の間のデッドロックを修正します
- [SPARK-39285][SQL] ファイルの読み取り時に Spark でフィールド名を確認しない
- [SPARK-34096][SQL] オフセット ウィンドウでの nth_value ignore nulls のパフォーマンスが向上します
- 2022 年 6 月 2 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 5 月 18 日
- 自動ローダーでネイティブ メモリ リークが発生する可能性がある問題を修正しました。
- [SPARK-39084][PYSPARK] df.rdd.isEmpty() が修正され、TaskContext を使用してタスクの完了時に反復子を停止する
- [SPARK-38889][SQL] ブール型の列フィルターをコンパイルして MSSQL データ ソースにビット型を使用する
- オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 19 日
- [SPARK-37270][SQL] elseValue が空の場合、CaseWhen 分岐へのプッシュたたみ込み可能を修正する
- オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] Java ベースの実装を使用して、Utils.unpack での tar の展開を行う
- オペレーティング システムのセキュリティを更新。
- 2022 年 3 月 22 日
- [SPARK-38437][SQL] データソースからの datetime の厳密ではないシリアル化
- [SPARK-38180][SQL] 相関等価述語で安全なアップキャスト式を許可する
- [SPARK-38155][SQL] サポートされていない述語を持つ lateral サブクエリの個別の集計を禁止する
- [SPARK-38325][SQL] ANSI モード: HashJoin.extractKeyExprAt() で発生する可能性のあるランタイム エラーを回避する
- 2022 年 3 月 14 日
- Delta Lake の空のトランザクションに対するトランザクション競合の検出機能を強化。
- [SPARK-38185][SQL] 集計関数が空の場合にデータが正しくない問題を修正
- [SPARK-38318][SQL] データセット ビューを置き換える際の回帰
- [SPARK-38236][SQL] テーブルの作成/変更時に指定される絶対ファイル パスが相対パスとして扱われる
- [SPARK-35937][SQL] タイムスタンプからの日付フィールドの抽出は ANSI モードで機能する必要がある
- [SPARK-34069][SQL] キル バリア タスクでは
SPARK_JOB_INTERRUPT_ON_CANCEL
を考慮する必要がある - [SPARK-37707][SQL] TimestampNTZ と Date/Timestamp の間のストア割り当てを許可
- 2022 年 2 月 23 日
- [SPARK-37577][SQL] ClassCastException を修正: ArrayType を StructType にキャストして排除を生成できない
- 2022 年 2 月 8 日
- [SPARK-27442][SQL] Parquet 内のデータの読み取り/書き込み時にチェック フィールド名を削除する。
- オペレーティング システムのセキュリティを更新。
- 2022 年 2 月 1 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 1 月 26 日
- 特定のまれな条件下で、Delta テーブルの同時実行トランザクションがシリアル化できない順序でコミットされる可能性があるバグを修正。
- ANSI SQL dialect が有効になっていると OPTIMIZE コマンドが失敗する可能性があるバグを修正。
- 2022 年 1 月 19 日
- SQL ANY_FILE の許可なしでソース データを読み込むために一時的資格情報の COPY INTO への埋め込みのサポートを追加
- 特定条件下でのクエリ結果のキャッシュに関するメモリ不足の問題を修正。
- ユーザーが現在のカタログを既定以外のカタログに切り替えた場合の
USE DATABASE
に関する問題を修正。 - バグの修正とセキュリティの強化。
- オペレーティング システムのセキュリティを更新。
- 2021 年 12 月 20 日
- Parquet 列インデックス ベースのフィルター処理に関するまれなバグを修正。
Databricks Runtime 10.0 (EoS)
「Databricks Runtime 10.0 (EoS)」を参照してください。
- 2022 年 4 月 19 日
- [SPARK-37270][SQL] elseValue が空の場合、CaseWhen 分岐へのプッシュたたみ込み可能を修正する
- オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 6 日
- [SPARK-38631][CORE] Java ベースの実装を使用して、Utils.unpack での tar の展開を行う
- オペレーティング システムのセキュリティを更新。
- 2022 年 3 月 22 日
- [SPARK-38437][SQL] データソースからの datetime の厳密ではないシリアル化
- [SPARK-38180][SQL] 相関等価述語で安全なアップキャスト式を許可する
- [SPARK-38155][SQL] サポートされていない述語を持つ lateral サブクエリの個別の集計を禁止する
- [SPARK-38325][SQL] ANSI モード: HashJoin.extractKeyExprAt() で発生する可能性のあるランタイム エラーを回避する
- 2022 年 3 月 14 日
- Delta Lake の空のトランザクションに対するトランザクション競合の検出機能を強化。
- [SPARK-38185][SQL] 集計関数が空の場合にデータが正しくない問題を修正
- [SPARK-38318][SQL] データセット ビューを置き換える際の回帰
- [SPARK-38236][SQL] テーブルの作成/変更時に指定される絶対ファイル パスが相対パスとして扱われる
- [SPARK-35937][SQL] タイムスタンプからの日付フィールドの抽出は ANSI モードで機能する必要がある
- [SPARK-34069][SQL] キル バリア タスクでは
SPARK_JOB_INTERRUPT_ON_CANCEL
を考慮する必要がある - [SPARK-37707][SQL] TimestampNTZ と Date/Timestamp の間のストア割り当てを許可
- 2022 年 2 月 23 日
- [SPARK-37577][SQL] ClassCastException を修正: ArrayType を StructType にキャストして排除を生成できない
- 2022 年 2 月 8 日
- [SPARK-27442][SQL] Parquet 内のデータの読み取り/書き込み時にチェック フィールド名を削除する。
- [SPARK-36905][SQL] 列名が明示的に指定されていない列を含む Hive ビューの読み取りに関する問題を修正
- [SPARK-37859][SQL] Spark 3.1 を使用して JDBC で作成された SQL テーブルを 3.2 で読み取れない問題を修正
- オペレーティング システムのセキュリティを更新。
- 2022 年 2 月 1 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 1 月 26 日
- 特定のまれな条件下で、Delta テーブルの同時実行トランザクションがシリアル化できない順序でコミットされる可能性があるバグを修正。
- ANSI SQL dialect が有効になっていると OPTIMIZE コマンドが失敗する可能性があるバグを修正。
- 2022 年 1 月 19 日
- バグの修正とセキュリティの強化。
- オペレーティング システムのセキュリティを更新。
- 2021 年 12 月 20 日
- Parquet 列インデックス ベースのフィルター処理に関するまれなバグを修正。
- 2021 年 11 月 9 日
- ANSI 動作をきめ細かく制御できるように追加の構成フラグを導入。
- 2021 年 11 月 4 日
- ArrayIndexOutOfBoundsException で構造化ストリーミング ストリームが 失敗する可能性のあるバグを修正
java.io.IOException: No FileSystem for scheme
のような IOException を伴うクエリエラーが発生する可能性のある競合状態や、sparkContext.hadoopConfiguration
に対する変更がクエリに反映されなくなる可能性のある競合状態を修正。- Delta Sharing 用の Apache Spark コネクタを 0.2.0 にアップグレード。
- 2021 年 11 月 30 日
- コロンのないタイムゾーン文字列が無効と見なされるタイムスタンプ解析に関する問題を修正。
- 特定条件下でのクエリ結果のキャッシュに関するメモリ不足の問題を修正。
- ユーザーが現在のカタログを既定以外のカタログに切り替えた場合の
USE DATABASE
に関する問題を修正。
Databricks Runtime 9.0 (EoS)
「Databricks Runtime 9.0 (EoS)」を参照してください。
- 2022 年 2 月 8 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 2 月 1 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 1 月 26 日
- ANSI SQL dialect が有効になっていると OPTIMIZE コマンドが失敗する可能性があるバグを修正。
- 2022 年 1 月 19 日
- バグの修正とセキュリティの強化。
- オペレーティング システムのセキュリティを更新。
- 2021 年 11 月 4 日
- ArrayIndexOutOfBoundsException で構造化ストリーミング ストリームが 失敗する可能性のあるバグを修正
java.io.IOException: No FileSystem for scheme
のような IOException を伴うクエリエラーが発生する可能性のある競合状態や、sparkContext.hadoopConfiguration
に対する変更がクエリに反映されなくなる可能性のある競合状態を修正。- Delta Sharing 用の Apache Spark コネクタを 0.2.0 にアップグレード。
- 2021 年 9 月 22 日
- 文字列を null にして Spark 配列をキャストする際のバグを修正
- 2021 年 9 月 15 日
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
のような IOException を伴うクエリエラーが発生する可能性のある競合状態を修正。
- 2021 年 9 月 8 日
- Azure Synapse Connector のターゲットテーブル名としてスキーマ名 (
databaseName.schemaName.tableName
形式) のサポートを追加。 - Spark SQL の geometry および geography JDBC 型のサポートを追加。
- [SPARK-33527][SQL] デコードの機能を拡張して、メインストリーム データベースとの整合性を確保。
- [SPARK-36532][CORE][3.1]
CoarseGrainedExecutorBackend.onDisconnected
が実行プログラムのシャットダウンをハングさせないようにexecutorsconnected
のデッドロックを修正。
- Azure Synapse Connector のターゲットテーブル名としてスキーマ名 (
- 2021 年 8 月 25 日
- SQL Server ドライバーライブラリを 9.2.1 jre8 にアップグレード。
- Snowflake コネクタを 2.9.0 にアップグレード。
- AutoML 実験ページの最適な試用版ノートブックへの壊れたリンクを修正。
Databricks Runtime 8.4 (EoS)
「Databricks Runtime 8.4 (EoS)」を参照してください。
- 2022 年 1 月 19 日
- オペレーティング システムのセキュリティを更新。
- 2021 年 11 月 4 日
- ArrayIndexOutOfBoundsException で構造化ストリーミング ストリームが 失敗する可能性のあるバグを修正
java.io.IOException: No FileSystem for scheme
のような IOException を伴うクエリエラーが発生する可能性のある競合状態や、sparkContext.hadoopConfiguration
に対する変更がクエリに反映されなくなる可能性のある競合状態を修正。- Delta Sharing 用の Apache Spark コネクタを 0.2.0 にアップグレード。
- 2021 年 9 月 22 日
- Spark JDBC ドライバーを 2.6.19.1030 にアップグレード
- [SPARK-36734][SQL] ORC を 1.5.1 にアップグレード
- 2021 年 9 月 15 日
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
のような IOException を伴うクエリエラーが発生する可能性のある競合状態を修正。- オペレーティング システムのセキュリティを更新。
- 2021 年 9 月 8 日
- [SPARK-36532][CORE][3.1]
CoarseGrainedExecutorBackend.onDisconnected
が実行プログラムのシャットダウンをハングさせないようにexecutorsconnected
のデッドロックを修正。
- [SPARK-36532][CORE][3.1]
- 2021 年 8 月 25 日
- SQL Server ドライバーライブラリを 9.2.1 jre8 にアップグレード。
- Snowflake コネクタを 2.9.0 にアップグレード。
- 新しい Parquet プリフェッチの最適化によって発生する資格情報のパススルーのバグを修正。ファイル アクセス時にユーザーのパススルー資格情報が見つからない可能性がありました。
- 2021 年 8 月 11 日
- 古い Databricks Runtime 8.4 の使用を妨げる RocksDB の非互換性に関する問題を修正。 これにより、 Auto Loader、
COPY INTO
、ステートフル ストリーミング アプリケーションの上位互換性が確保されます。 - ヘッダーファイルが一致しない CSV ファイルを Auto Loader を使用して読み取る場合のバグを修正。 列名が一致しない場合、その列には null が入力されます。 ここで、スキーマが指定されている場合は、スキーマが同じであると想定し、復旧 データ列が有効になっている場合は列の不一致のみが保存されます。
- PolyBase 読み取り用のデータベースの
externalDataSource
許可要件を削除するため、Azure Synapse コネクタにCONTROL
という新しいオプションを追加。
- 古い Databricks Runtime 8.4 の使用を妨げる RocksDB の非互換性に関する問題を修正。 これにより、 Auto Loader、
- 2021 年 7 月 29 日
- [SPARK-36034][BUILD] プッシュダウン フィルターの Datetime を Parquet にリベース
- [SPARK-36163][BUILD] JDBC コネクタプロバイダーで正しい jdbc プロパティを伝達し、
connectionProvider
オプションを追加
Databricks Runtime 8.3 (EoS)
「Databricks Runtime 8.3 (EoS)」を参照してください。
- 2022 年 1 月 19 日
- オペレーティング システムのセキュリティを更新。
- 2021 年 11 月 4 日
- ArrayIndexOutOfBoundsException で構造化ストリーミング ストリームが 失敗する可能性のあるバグを修正
java.io.IOException: No FileSystem for scheme
のような IOException を伴うクエリエラーが発生する可能性のある競合状態や、sparkContext.hadoopConfiguration
に対する変更がクエリに反映されなくなる可能性のある競合状態を修正。
- 2021 年 9 月 22 日
- Spark JDBC ドライバーを 2.6.19.1030 にアップグレード
- 2021 年 9 月 15 日
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
のような IOException を伴うクエリエラーが発生する可能性のある競合状態を修正。- オペレーティング システムのセキュリティを更新。
- 2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部システムによって作成と書き込みが行われる場合は char/varchar ORC テーブルを読み取り。
- [SPARK-36532][CORE][3.1]
CoarseGrainedExecutorBackend.onDisconnected
が実行プログラムのシャットダウンをハングさせないようにexecutorsconnected
のデッドロックを修正。
- 2021 年 8 月 25 日
- SQL Server ドライバーライブラリを 9.2.1 jre8 にアップグレード。
- Snowflake コネクタを 2.9.0 にアップグレード。
- 新しい Parquet プリフェッチの最適化によって発生する資格情報のパススルーのバグを修正。ファイル アクセス時にユーザーのパススルー資格情報が見つからない可能性がありました。
- 2021 年 8 月 11 日
- ヘッダーファイルが一致しない CSV ファイルを Auto Loader を使用して読み取る場合のバグを修正。 列名が一致しない場合、その列には null が入力されます。 ここで、スキーマが指定されている場合は、スキーマが同じであると想定し、復旧 データ列が有効になっている場合は列の不一致のみが保存されます。
- 2021 年 7 月 29 日
- Databricks Snowflake Spark コネクタを 2.9.0-spark-3.1 にアップグレード
- [SPARK-36034][BUILD] プッシュダウン フィルターの Datetime を Parquet にリベース
- [SPARK-36163][BUILD] JDBC コネクタプロバイダーで正しい jdbc プロパティを伝達し、
connectionProvider
オプションを追加
- 2021 年 7 月 14 日
- Azure Synapse コネクタでドットを含む列名を使用する場合の問題を修正。
- Synapse Connector 用の
database.schema.table
形式を導入。 databaseName.schemaName.tableName
またはschemaName.tableName
だけでなく、tableName
形式をターゲットテーブルとして提供するためのサポートを追加。
- 2021 年 6 月 15 日
- 大量のデータ書き込みで実行プログラムが停止した場合に発生する可能性がある Delta Lake 最適化書き込み時の
NoSuchElementException
バグを修正 - SQL の
CREATE GROUP
、DROP GROUP
、ALTER GROUP
、SHOW GROUPS
、SHOW USERS
コマンドを追加。 詳細については、「セキュリティ ステートメント」および「Show ステートメント」を参照してください。
- 大量のデータ書き込みで実行プログラムが停止した場合に発生する可能性がある Delta Lake 最適化書き込み時の
Databricks Runtime 8.2 (EoS)
「Databricks Runtime 8.2 (EoS)」を参照してください。
2021 年 9 月 22 日
- オペレーティング システムのセキュリティを更新。
2021 年 9 月 15 日
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
のような IOException を伴うクエリエラーが発生する可能性のある競合状態を修正。
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部システムによって作成と書き込みが行われる場合は char/varchar ORC テーブルを読み取り。
- [SPARK-36532][CORE][3.1]
CoarseGrainedExecutorBackend.onDisconnected
が実行プログラムのシャットダウンをハングさせないようにexecutorsconnected
のデッドロックを修正。
2021 年 8 月 25 日
- Snowflake コネクタを 2.9.0 にアップグレード。
2021 年 8 月 11 日
- [SPARK-36034][SQL] プッシュダウン フィルターの Datetime を Parquet にリベース。
2021 年 7 月 29 日
- Databricks Snowflake Spark コネクタを 2.9.0-spark-3.1 にアップグレード
- [SPARK-36163][BUILD] JDBC コネクタプロバイダーで正しい jdbc プロパティを伝達し、
connectionProvider
オプションを追加
2021 年 7 月 14 日
- Azure Synapse コネクタでドットを含む列名を使用する場合の問題を修正。
- Synapse Connector 用の
database.schema.table
形式を導入。 databaseName.schemaName.tableName
またはschemaName.tableName
だけでなく、tableName
形式をターゲットテーブルとして提供するためのサポートを追加。- ユーザーが Delta テーブルを使用して使用可能な古いバージョンへ移動するのを妨げるバグを修正。
2021 年 6 月 15 日
- 大量のデータ書き込みで実行プログラムが停止した場合に発生する可能性がある Delta Lake 最適化書き込み時の
NoSuchElementException
バグを修正
- 大量のデータ書き込みで実行プログラムが停止した場合に発生する可能性がある Delta Lake 最適化書き込み時の
2021 年 5 月 26 日
- Python のセキュリティの脆弱性を修正するためのセキュリティパッチ (CVE-2021-3177) を適用して Python を更新。
2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
- [SPARK-34245][CORE] 完了状態を送信できなかった実行プログラムがマスターによって削除されることを確認
- Auto Loader が構造化ストリーミングの進行状況メトリックを報告する場合の OOM の問題を修正。
Databricks Runtime 8.1 (EoS)
「Databricks Runtime 8.1 (EoS)」をご覧ください。
2021 年 9 月 22 日
- オペレーティング システムのセキュリティを更新。
2021 年 9 月 15 日
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
のような IOException を伴うクエリエラーが発生する可能性のある競合状態を修正。
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部システムによって作成と書き込みが行われる場合は char/varchar ORC テーブルを読み取り。
- [SPARK-36532][CORE][3.1]
CoarseGrainedExecutorBackend.onDisconnected
が実行プログラムのシャットダウンをハングさせないようにexecutorsconnected
のデッドロックを修正。
2021 年 8 月 25 日
- Snowflake コネクタを 2.9.0 にアップグレード。
2021 年 8 月 11 日
- [SPARK-36034][SQL] プッシュダウン フィルターの Datetime を Parquet にリベース。
2021 年 7 月 29 日
- Databricks Snowflake Spark コネクタを 2.9.0-spark-3.1 にアップグレード
- [SPARK-36163][BUILD] JDBC コネクタプロバイダーで正しい jdbc プロパティを伝達し、
connectionProvider
オプションを追加
2021 年 7 月 14 日
- Azure Synapse コネクタでドットを含む列名を使用する場合の問題を修正。
- ユーザーが Delta テーブルを使用して使用可能な古いバージョンへ移動するのを妨げるバグを修正。
2021 年 6 月 15 日
- 大量のデータ書き込みで実行プログラムが停止した場合に発生する可能性がある Delta Lake 最適化書き込み時の
NoSuchElementException
バグを修正
- 大量のデータ書き込みで実行プログラムが停止した場合に発生する可能性がある Delta Lake 最適化書き込み時の
2021 年 5 月 26 日
- Python のセキュリティの脆弱性を修正するためのセキュリティパッチ (CVE-2021-3177) を適用して Python を更新。
2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
- Auto Loader が構造化ストリーミングの進行状況メトリックを報告する場合の OOM の問題を修正。
2021 年 4 月 27 日
- [SPARK-34245][CORE] 完了状態を送信できなかった実行プログラムがマスターによって削除されることを確認
- [SPARK-34856][SQL] ANSI モード: 複合型を文字列型としてキャストできるようにした
- [SPARK-35014] フォールド可能な式を再書き込みしないように PhysicalAggregation パターンを修正する
- [SPARK-34769][SQL] AnsiTypeCoercion: TypeCollection の中で最も狭い変換可能な型を返す
- [SPARK-34614][SQL] ANSI モード: 文字列をブール値にキャストすると、解析エラーで例外がスローされる
- [SPARK-33794][SQL] ANSI モード: ANSI モードで無効な入力を受信すると NextDay 式がランタイム IllegalArgumentException をスローするように修正
Databricks Runtime 8.0 (EoS)
「Databricks Runtime 8.0 (EoS)」を参照してください。
2021 年 9 月 15 日
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
のような IOException を伴うクエリエラーが発生する可能性のある競合状態を修正。
2021 年 8 月 25 日
- Snowflake コネクタを 2.9.0 にアップグレード。
2021 年 8 月 11 日
- [SPARK-36034][SQL] プッシュダウン フィルターの Datetime を Parquet にリベース。
2021 年 7 月 29 日
- [SPARK-36163][BUILD] JDBC コネクタプロバイダーで正しい jdbc プロパティを伝達し、
connectionProvider
オプションを追加
- [SPARK-36163][BUILD] JDBC コネクタプロバイダーで正しい jdbc プロパティを伝達し、
2021 年 7 月 14 日
- Azure Synapse コネクタでドットを含む列名を使用する場合の問題を修正。
- ユーザーが Delta テーブルを使用して使用可能な古いバージョンへ移動するのを妨げるバグを修正。
2021 年 5 月 26 日
- Python のセキュリティの脆弱性を修正するためのセキュリティパッチ (CVE-2021-3177) を適用して Python を更新。
2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
- [SPARK-34245][CORE] 完了状態を送信できなかった実行プログラムがマスターによって削除されることを確認
2021 年 3 月 24 日
- [SPARK-34681][SQL] 不等号条件で左側を構築するときの、完全外部シャッフル ハッシュ結合に関するバグを修正
- [SPARK-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockIds の順序を修正
- [SPARK-34613][SQL] ビューがヒントを無効にする構成をキャプチャしない問題を修正
2021 年 3 月 9 日
- [SPARK-34543][SQL] v1
spark.sql.caseSensitive
でパーティション 仕様を解決する際にSET LOCATION
構成を考慮 - [SPARK-34392] [SQL] DateTimeUtils で Support ZoneOffset +h:mm をサポート。 getZoneId
- [UI] Spark DAG Visualization の href リンクを修正
- [SPARK-34436][SQL] DPP が LIKE ANY/ALL 式をサポート
- [SPARK-34543][SQL] v1
Databricks Runtime 7.6 (EoS)
「Databricks Runtime 7.6 (EoS)」を参照してください。
- 2021 年 8 月 11 日
- [SPARK-36034][SQL] プッシュダウン フィルターの Datetime を Parquet にリベース。
- 2021 年 7 月 29 日
- [SPARK-32998][BUILD] 内部リポジトリでのみ既定のリモート リポジトリをオーバーライドする機能を追加
- 2021 年 7 月 14 日
- ユーザーが Delta テーブルを使用して使用可能な古いバージョンへ移動するのを妨げるバグを修正。
- 2021 年 5 月 26 日
- Python のセキュリティの脆弱性を修正するためのセキュリティパッチ (CVE-2021-3177) を適用して Python を更新。
- 2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
- [SPARK-34245][CORE] 完了状態を送信できなかった実行プログラムがマスターによって削除されることを確認
- 2021 年 3 月 24 日
- [SPARK-34768][SQL] Univocity の既定の入力バッファー サイズを考慮
- [SPARK-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockIds の順序を修正
- 2021 年 3 月 9 日
- (Azure のみ)Databricks Runtime 7.6 を使用して Databricks Runtime 7.2 で作成された古い Auto Loader ストリームを実行するときに NullPointerException が発生する可能性がある Auto Loader のバグを修正
- [UI] Spark DAG Visualization の href リンクを修正
- 不明なリーフノード SparkPlan が SizeInBytesOnlyStatsSparkPlanVisitor で正しく処理されない
SHOW DATABASES
の出力スキーマを復元- [Delta][8.0, 7.6] ファイル サイズ自動チューニング ロジックの計算のバグを修正
- ディスク キャッシュ内の Delta テーブル ファイルの整合性チェックを無効化
- [SQL] 範囲結合ヒントが存在する場合は、正しい動的排除設定キーを使用
- SQL 以外のコード パスで char 型のサポートを無効化
- DataFrameReader.schema で NPE を回避
- EventGridClient 応答にエンティティがない場合の NPE を修正
- Azure Auto Loader の閉じているストリームの読み取りに関するバグを修正
- [SQL] AOS が有効になっているときにシャッフル パーティション番号のアドバイスを生成しない
- 2021 年 2 月 24 日
- Spark BigQuery コネクタを v0.18 にアップグレード。このコネクタではさまざまなバグが修正され、Arrow 反復子と Avro 反復子のサポートが導入されています。
- Parquet ファイルの 10 進数の有効桁数と小数部桁数が Spark スキーマと異なる場合に、Spark が正しくない結果を返す原因となる、正確さに関する問題を修正。
- Spark SQL の geometry 型と geography JDBC 型のサポートを追加することにより、空間データ型を含む Microsoft SQL Server テーブルでの読み取りエラーの問題を修正。
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入。 この構成は、組み込みの Hive 初期化を制御します。 true に設定すると、Azure Databricks によってユーザーの持つすべてのデータベースからすべての関数がFunctionRegistry
に再読み込みされます。 これは、Hive メタストアの既定の動作です。 false に設定すると、Azure Databricks によって最適化のためにこのプロセスが無効になります。 - [SPARK-34212] Parquet ファイルからの 10 進データの読み取りに関連する問題を修正。
- [SPARK-34260][SQL] 一時ビューを 2 回作成するときの UnresolvedException を修正。
Databricks Runtime 7.5 (EoS)
「Databricks Runtime 7.5 (EoS)」を参照してください。
- 2021 年 5 月 26 日
- Python のセキュリティの脆弱性を修正するためのセキュリティパッチ (CVE-2021-3177) を適用して Python を更新。
- 2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
- [SPARK-34245][CORE] 完了状態を送信できなかった実行プログラムがマスターによって削除されることを確認
- 2021 年 3 月 24 日
- [SPARK-34768][SQL] Univocity の既定の入力バッファー サイズを考慮
- [SPARK-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockIds の順序を修正
- 2021 年 3 月 9 日
- (Azure のみ)Databricks Runtime 7.5 を使用して Databricks Runtime 7.2 で作成された古い Auto Loader ストリームを実行するときに NullPointerException が発生する可能性がある Auto Loader のバグを修正。
- [UI] Spark DAG Visualization の href リンクを修正
- 不明なリーフノード SparkPlan が SizeInBytesOnlyStatsSparkPlanVisitor で正しく処理されない
SHOW DATABASES
の出力スキーマを復元- ディスク キャッシュ内の Delta テーブル ファイルの整合性チェックを無効化
- [SQL] 範囲結合ヒントが存在する場合は、正しい動的排除設定キーを使用
- SQL 以外のコード パスで char 型のサポートを無効化
- DataFrameReader.schema で NPE を回避
- EventGridClient 応答にエンティティがない場合の NPE を修正
- Azure Auto Loader の閉じているストリームの読み取りに関するバグを修正
- 2021 年 2 月 24 日
- Spark BigQuery コネクタを v0.18 にアップグレード。このコネクタではさまざまなバグが修正され、Arrow 反復子と Avro 反復子のサポートが導入されています。
- Parquet ファイルの 10 進数の有効桁数と小数部桁数が Spark スキーマと異なる場合に、Spark が正しくない結果を返す原因となる、正確さに関する問題を修正。
- Spark SQL の geometry 型と geography JDBC 型のサポートを追加することにより、空間データ型を含む Microsoft SQL Server テーブルでの読み取りエラーの問題を修正。
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入。 この構成は、組み込みの Hive 初期化を制御します。 true に設定すると、Azure Databricks によってユーザーの持つすべてのデータベースからすべての関数がFunctionRegistry
に再読み込みされます。 これは、Hive メタストアの既定の動作です。 false に設定すると、Azure Databricks によって最適化のためにこのプロセスが無効になります。 - [SPARK-34212] Parquet ファイルからの 10 進データの読み取りに関連する問題を修正。
- [SPARK-34260][SQL] 一時ビューを 2 回作成するときの UnresolvedException を修正。
- 2021 年 2 月 4 日
SELECT * FROM table LIMIT nrows
などのグローバル制限を設定するクエリの増分実行を妨げる回帰を修正。 この回帰は、Arrow シリアル化が有効になっている ODBC/JDBC を使用してクエリを実行するユーザーが経験していました。- Delta テーブル用の Hive メタストアのメタデータの破損を防ぐために、書き込み時間のチェックを Hive クライアントに導入。
- クラスター環境変数の構成に無効な bash 構文が含まれている場合に DBFS ヒューズが起動しない原因となっていた回帰を修正。
- 2021 年 1 月 20 日
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
df.join(df.select($"col" as "new_col"), cond)
のように指定します。 - 派生 DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合された Dataframe の後の結合条件または次の変換は、共通でない列を参照します。 たとえば、
df.join(df.drop("a"), df("a") === 1)
のように指定します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
- 2021 年 1 月 12 日
- Azure Storage SDK を 2.3.8 から 2.3.9 にアップグレード。
- [SPARK-33593][SQL] ベクターリーダーに、バイナリ パーティション値を含む正しくないデータが返される
- [SPARK-33480][SQL] char/varchar テーブルの挿入長チェックのエラーメッセージを更新
Databricks Runtime 7.3 LTS (EoS)
「Databricks Runtime 7.3 LTS (EoS)」を参照してください。
2023 年 9 月 10 日
- 各種のバグ修正。
2023 年 8 月 30 日
- オペレーティング システムのセキュリティを更新。
2023 年 8 月 15 日
- オペレーティング システムのセキュリティを更新。
2023 年 6 月 23 日
- snowflake-jdbc ライブラリはセキュリティの問題に対処するために 3.13.29 にアップグレードされます。
- オペレーティング システムのセキュリティを更新。
2023 年 6 月 15 日
- [SPARK-43413][SQL]
IN
サブクエリのListQuery
の NULL 値の許容の問題を修正します。 - オペレーティング システムのセキュリティを更新。
- [SPARK-43413][SQL]
2023 年 6 月 2 日
- 指定されたスキーマに推論されたパーティションが含まれていなかったため、異なるソース ファイル形式に一貫性がなかった自動ローダーの問題を修正しました。 この問題により、推論されたパーティション スキーマに列がないファイルの読み取り時に予期しない失敗が発生していた可能性があります。
2023 年 5 月 17 日
- オペレーティング システムのセキュリティを更新。
2023 年 4 月 25 日
- オペレーティング システムのセキュリティを更新。
2023 年 4 月 11 日
- [SPARK-42967][CORE] ステージが取り消された後にタスクが開始されたときに SparkListenerTaskStart.stageAttemptId を修正する。
- 各種のバグ修正。
2023 年 3 月 29 日
- オペレーティング システムのセキュリティを更新。
2023 年 3 月 14 日
- 各種のバグ修正。
2023 年 2 月 28 日
- オペレーティング システムのセキュリティを更新。
2023 年 2 月 16 日
- オペレーティング システムのセキュリティを更新。
2023 年 1 月 31 日
- JDBC テーブルのテーブルの種類が既定では EXTERNAL になりました。
2023 年 1 月 18 日
- オペレーティング システムのセキュリティを更新。
2022 年 11 月 29 日
- 各種のバグ修正。
2022 年 11 月 15 日
- Apache commons-text を 1.10.0 にアップグレードしました。
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 11 月 1 日
- [SPARK-38542] [SQL] UnsafeHashedRelation で numKeys out をシリアル化する必要がある
2022 年 10 月 18 日
- オペレーティング システムのセキュリティを更新。
2022 年 10 月 5 日
- 各種のバグ修正。
- オペレーティング システムのセキュリティを更新。
2022 年 9 月 22 日
- [SPARK-40089][SQL] 一部の Decimal 型の並べ替えを修正しました
2022 年 9 月 6 日
- [SPARK-35542][CORE][ML] 修正: パラメーター splitsArray、inputCols、および outputCols を指定して複数の列に対して作成された Bucketizer を保存後に読み込めない
- [SPARK-40079][CORE] 空の入力ケースに対する Imputer inputCols 検証を追加
2022 年 8 月 24 日
- [SPARK-39962][PYTHON][SQL] グループ属性が空の場合にプロジェクションを適用する
- オペレーティング システムのセキュリティを更新。
2022 年 8 月 9 日
- オペレーティング システムのセキュリティを更新。
2022 年 7 月 27 日
- ソースが決定論的でない場合は、Delta MERGE 操作の結果を一貫性のあるものにします。
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 7 月 13 日
- [SPARK-32680][SQL] 未解決のクエリで V2 CTAS を事前処理しない
- 自動ローダーによる Azure 上のディレクトリ一覧に対するネイティブ クラウド API の使用を無効にしました。
- オペレーティング システムのセキュリティを更新。
2022 年 7 月 5 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 6 月 2 日
- [SPARK-38918][SQL] 入れ子になった列の排除で、現在のリレーションシップに属していない属性を除外する必要がある
- オペレーティング システムのセキュリティを更新。
2022 年 5 月 18 日
- AWS SDK のバージョンを 1.11.655 から 1.11.678 にアップグレードします。
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 4 月 19 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 4 月 6 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 3 月 14 日
- Log4j 1.2.17 jar から脆弱なクラスを削除
- 各種のバグ修正。
2022 年 2 月 23 日
- [SPARK-37859][SQL] スキーマ比較中にメタデータを確認しない
2022 年 2 月 8 日
- Ubuntu JDK を 1.8.0.312 にアップグレード。
- オペレーティング システムのセキュリティを更新。
2022 年 2 月 1 日
- オペレーティング システムのセキュリティを更新。
2022 年 1 月 26 日
- ANSI SQL dialect が有効になっていると OPTIMIZE コマンドが失敗する可能性があるバグを修正。
2022 年 1 月 19 日
- Conda の既定のチャネルを 7.3 ML LTS から削除
- オペレーティング システムのセキュリティを更新。
2021 年 12 月 7 日
- オペレーティング システムのセキュリティを更新。
2021 年 11 月 4 日
- ArrayIndexOutOfBoundsException で構造化ストリーミング ストリームが 失敗する可能性のあるバグを修正
java.io.IOException: No FileSystem for scheme
のような IOException を伴うクエリエラーが発生する可能性のある競合状態や、sparkContext.hadoopConfiguration
に対する変更がクエリに反映されなくなる可能性のある競合状態を修正。
2021 年 9 月 15 日
java.io.IOException: org.apache.spark.SparkException: Failed to get broadcast_x_piecey of broadcast_x
のような IOException を伴うクエリエラーが発生する可能性のある競合状態を修正。- オペレーティング システムのセキュリティを更新。
2021 年 9 月 8 日
- [SPARK-35700][SQL][WARMFIX] 外部システムによって作成と書き込みが行われる場合は char/varchar ORC テーブルを読み取り。
- [SPARK-36532][CORE][3.1]
CoarseGrainedExecutorBackend.onDisconnected
が実行プログラムのシャットダウンをハングさせないようにexecutorsconnected
のデッドロックを修正。
2021 年 8 月 25 日
- Snowflake コネクタを 2.9.0 にアップグレード。
2021 年 7 月 29 日
- [SPARK-36034][BUILD] プッシュダウン フィルターの Datetime を Parquet にリベース
- [SPARK-34508][BUILD] ネットワークが停止している場合は
HiveExternalCatalogVersionsSuite
をスキップ
2021 年 7 月 14 日
- Azure Synapse コネクタ用の
database.schema.table
形式を導入。 databaseName.schemaName.tableName
またはschemaName.tableName
だけでなく、tableName
形式をターゲットテーブルとして提供するためのサポートを追加。- ユーザーが Delta テーブルを使用して使用可能な古いバージョンへ移動するのを妨げるバグを修正。
- Azure Synapse コネクタ用の
2021 年 6 月 15 日
- 大量のデータ書き込みで実行プログラムが停止した場合に発生する可能性がある Delta Lake 最適化書き込み時の
NoSuchElementException
バグを修正 - Python のセキュリティの脆弱性を修正するためのセキュリティパッチ (CVE-2021-3177) を適用して Python を更新。
- 大量のデータ書き込みで実行プログラムが停止した場合に発生する可能性がある Delta Lake 最適化書き込み時の
2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
- [SPARK-34245][CORE] 完了状態を送信できなかった実行プログラムがマスターによって削除されることを確認
- [SPARK-35045][SQL] Univocity の入力バッファーを制御するための内部オプションを追加
2021 年 3 月 24 日
- [SPARK-34768][SQL] Univocity の既定の入力バッファー サイズを考慮
- [SPARK-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockIds の順序を修正
- [SPARK-33118][SQL] LOCATION を使用すると CREATE TEMPORARY TABLE を実行できない
2021 年 3 月 9 日
- Azure Data Lake Storage Gen2 用に更新された Azure Blob File System ドライバーが既定で有効になりました。 これにより複数の安定性が向上します。
- Windows での
databricks-connect get-jar-dir
のパス区切り文字を修正 - [UI] Spark DAG Visualization の href リンクを修正
- [DBCONNECT] Databricks Connect 7.3 での FlatMapCoGroupsInPandas のサポートを追加
SHOW DATABASES
の出力スキーマを復元- [SQL] 範囲結合ヒントが存在する場合は、正しい動的排除設定キーを使用
- ディスク キャッシュ内の Delta テーブル ファイルの整合性チェックを無効化
- [SQL] AOS が有効になっているときにシャッフル パーティション番号のアドバイスを生成しない
2021 年 2 月 24 日
- Spark BigQuery コネクタを v0.18 にアップグレード。このコネクタではさまざまなバグが修正され、Arrow 反復子と Avro 反復子のサポートが導入されています。
- Parquet ファイルの 10 進数の有効桁数と小数部桁数が Spark スキーマと異なる場合に、Spark が正しくない結果を返す原因となる、正確さに関する問題を修正。
- Spark SQL の geometry 型と geography JDBC 型のサポートを追加することにより、空間データ型を含む Microsoft SQL Server テーブルでの読み取りエラーの問題を修正。
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入。 この構成は、組み込みの Hive 初期化を制御します。 true に設定すると、Azure Databricks によってユーザーの持つすべてのデータベースからすべての関数がFunctionRegistry
に再読み込みされます。 これは、Hive メタストアの既定の動作です。 false に設定すると、Azure Databricks によって最適化のためにこのプロセスが無効になります。 - [SPARK-34212] Parquet ファイルからの 10 進データの読み取りに関連する問題を修正。
- [SPARK-33579][UI] プロキシの後ろにある実行プログラムの空白ページを修正。
- [SPARK-20044][UI] パスプレフィックスを使用してフロントエンドリバースプロキシの背後にある Spark UI をサポート。
- [SPARK-33277][PYSPARK][SQL] ContextAwareIterator を使用して、タスク終了後の使用を停止。
2021 年 2 月 4 日
SELECT * FROM table LIMIT nrows
などのグローバル制限を設定するクエリの増分実行を妨げる回帰を修正。 この回帰は、Arrow シリアル化が有効になっている ODBC/JDBC を使用してクエリを実行するユーザーが経験していました。- クラスター環境変数の構成に無効な bash 構文が含まれている場合に DBFS ヒューズが起動しない原因となっていた回帰を修正。
2021 年 1 月 20 日
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
df.join(df.select($"col" as "new_col"), cond)
のように指定します。 - 派生 DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合された Dataframe の後の結合条件または次の変換は、共通でない列を参照します。 たとえば、
df.join(df.drop("a"), df("a") === 1)
のように指定します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
2021 年 1 月 12 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-33593][SQL] ベクターリーダーに、バイナリ パーティション値を含む正しくないデータが返される
- [SPARK-33677][SQL] パターンに escapeChar が含まれている場合は、LikeSimplification ルールをスキップ
- [SPARK-33592][ML][PYTHON] estimatorParamMaps の Pyspark ML Validator パラメーターが、保存および再読み込み後に失われる可能性がある
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin を中断させないように、join () で Logicalplan の dataset_id を変更しない
2020 年 12 月 8 日
- [SPARK-33587][CORE] 入れ子になった致命的なエラーに対して実行プログラムを強制終了
- [SPARK-27421][SQL] int 列のフィルターを修正し、パーティション列を排除するときに system.string クラスの値を指定
- [SPARK-33316][SQL] Avro の書き込みで null 非許容の Catalyst スキーマに対し、ユーザーが指定した null 許容の Avro スキーマをサポート
- Databricks Connect を使用して起動された Spark ジョブが、実行プログラムのスタックトレースの
Executor$TaskRunner.$anonfun$copySessionState
で無期限にハングする可能性がある - オペレーティング システムのセキュリティを更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0]
date_trunc
式の正しくない結果を修正 - [SPARK-33339][PYTHON] Pyspark アプリケーションが例外以外のエラーにより停止
- [SPARK-33183][SQL] [修正プログラム] オプティマイザールール EliminateSorts を修正し、冗長な並べ替えを削除するための物理ルールを追加
- [SPARK-33371][PYTHON][3.0] Setup.py と Python 3.9 のテストの更新
- [SPARK-33391][SQL] CreateArray を使用する element_at が、1 から始まるインデックスを考慮していない。
- [SPARK-33306][SQL] 日付を文字列にキャストするときはタイムゾーンが必要
- [SPARK-33260][SQL] sortOrder が Stream のときに SortExec の正しくない結果を修正
- [SPARK-33404][SQL][3.0]
2020 年 11 月 5 日
UserGroupInformation.getCurrentUser()
に関する ABFS および WASB のロックを修正。- Avro リーダーがマジックバイトを読み取るときの無限ループバグを修正。
- USAGE 権限のサポートを追加。
- テーブルアクセス制御での特権チェックのパフォーマンスが向上。
2020 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
- 高コンカレンシー資格情報のパススルーが有効になっているクラスターでは、/dbfs/でヒューズマウントを使用して DBFS から読み取りおよび書き込みを行うことができます。 通常のマウントはサポートされていますが、パススルー資格情報を必要とするマウントはまだサポートされていません。
- [SPARK-32999][SQL] Utils.getSimpleName を使用して、TreeNode で形式に誤りがあるクラス名をヒットするのを回避
- [SPARK-32585][SQL] ScalaReflection で Scala の列挙型をサポート
- 無効な XML 文字を使用したファイル名を含む FUSE マウント内のリスティング ディレクトリを修正
- ヒューズマウントで ListMultipartUploads を使用しなくなりました
2020 年 9 月 29 日
- [SPARK-32718][SQL] 間隔の単位に関する不要なキーワードを削除
- [SPARK-32635][SQL] たたみ込み可能な伝達を修正
- 新しい構成
spark.shuffle.io.decoder.consolidateThreshold
を追加。 構成値をLong.MAX_VALUE
に設定して netty FrameBuffers の統合をスキップします。これにより、コーナーケースでjava.lang.IndexOutOfBoundsException
が回避されます。
2023 年 4 月 25 日
- オペレーティング システムのセキュリティを更新。
2023 年 4 月 11 日
- 各種のバグ修正。
2023 年 3 月 29 日
- 各種のバグ修正。
2023 年 3 月 14 日
- オペレーティング システムのセキュリティを更新。
2023 年 2 月 28 日
- オペレーティング システムのセキュリティを更新。
2023 年 2 月 16 日
- オペレーティング システムのセキュリティを更新。
2023 年 1 月 31 日
- 各種のバグ修正。
2023 年 1 月 18 日
- オペレーティング システムのセキュリティを更新。
2022 年 11 月 29 日
- オペレーティング システムのセキュリティを更新。
2022 年 11 月 15 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 11 月 1 日
- オペレーティング システムのセキュリティを更新。
2022 年 10 月 18 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 10 月 5 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 8 月 24 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 8 月 9 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 27 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 7 月 5 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 6 月 2 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 5 月 18 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 4 月 19 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
- 2022 年 4 月 6 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
- 2022 年 3 月 14 日
- 各種のバグ修正。
- 2022 年 2 月 23 日
- 各種のバグ修正。
- 2022 年 2 月 8 日
- Ubuntu JDK を 1.8.0.312 にアップグレード。
- オペレーティング システムのセキュリティを更新。
- 2022 年 2 月 1 日
- オペレーティング システムのセキュリティを更新。
- 2022 年 1 月 19 日
- オペレーティング システムのセキュリティを更新。
- 2021 年 9 月 22 日
- オペレーティング システムのセキュリティを更新。
- 2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
- 2021 年 1 月 12 日
- オペレーティング システムのセキュリティを更新。
- 2020 年 12 月 8 日
- [SPARK-27421][SQL] int 列のフィルターを修正し、パーティション列を排除するときに system.string クラスの値を指定
- オペレーティング システムのセキュリティを更新。
- 2020 年 12 月 1 日
- [SPARK-33260][SQL] sortOrder が Stream のときに SortExec の正しくない結果を修正
- 2020 年 11 月 3 日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレード。
- UserGroupInformation.getCurrentUser() に関する ABFS および WASB のロックを修正
- 2020 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 6.4 延長サポート (EoS)
「Databricks Runtime 6.4 (EoS)」および「Databricks Runtime 6.4 延長サポート (EoS)」を参照してください。
2022 年 7 月 5 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 6 月 2 日
- オペレーティング システムのセキュリティを更新。
2022 年 5 月 18 日
- オペレーティング システムのセキュリティを更新。
2022 年 4 月 19 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 4 月 6 日
- オペレーティング システムのセキュリティを更新。
- 各種のバグ修正。
2022 年 3 月 14 日
- Log4j 1.2.17 jar から脆弱なクラスを削除
- 各種のバグ修正。
2022 年 2 月 23 日
- 各種のバグ修正。
2022 年 2 月 8 日
- Ubuntu JDK を 1.8.0.312 にアップグレード。
- オペレーティング システムのセキュリティを更新。
2022 年 2 月 1 日
- オペレーティング システムのセキュリティを更新。
2022 年 1 月 26 日
- ANSI SQL dialect が有効になっていると OPTIMIZE コマンドが失敗する可能性があるバグを修正。
2022 年 1 月 19 日
- オペレーティング システムのセキュリティを更新。
2021 年 12 月 8 日
- オペレーティング システムのセキュリティを更新。
2021 年 9 月 22 日
- オペレーティング システムのセキュリティを更新。
2021 年 6 月 15 日
- [SPARK-35576][SQL] Set コマンドの結果に含まれる機密情報を編集
2021 年 6 月 7 日
spark.sql.maven.additionalRemoteRepositories
という名前の新しい構成を追加。これは、省略可能な追加のリモート Maven ミラーのコンマ区切りの文字列構成です。 既定値はhttps://maven-central.storage-download.googleapis.com/maven2/
です。
2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
2021 年 3 月 9 日
- HADOOP-17215 を Azure Blob File System ドライバーに移植 (条件付き上書きのサポート)。
- Windows での
databricks-connect get-jar-dir
のパス区切り文字を修正 - Hive メタストアのバージョン 2.3.5、2.3.6、2.3.7 のサポートを追加
- スピル後に Arrow の “totalResultsCollected” が誤ってレポートされた
2021 年 2 月 24 日
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入。 この構成は、組み込みの Hive 初期化を制御します。 true に設定すると、Azure Databricks によってユーザーの持つすべてのデータベースからすべての関数がFunctionRegistry
に再読み込みされます。 これは、Hive メタストアの既定の動作です。 false に設定すると、Azure Databricks によって最適化のためにこのプロセスが無効になります。
- 新しい構成
2021 年 2 月 4 日
SELECT * FROM table LIMIT nrows
などのグローバル制限を設定するクエリの増分実行を妨げる回帰を修正。 この回帰は、Arrow シリアル化が有効になっている ODBC/JDBC を使用してクエリを実行するユーザーが経験していました。- クラスター環境変数の構成に無効な bash 構文が含まれている場合に DBFS ヒューズが起動しない原因となっていた回帰を修正。
2021 年 1 月 12 日
- オペレーティング システムのセキュリティを更新。
2020 年 12 月 8 日
- [SPARK-27421][SQL] int 列のフィルターを修正し、パーティション列を排除するときに system.string クラスの値を指定
- [SPARK-33183][SQL] オプティマイザールール EliminateSorts を修正し、冗長な並べ替えを削除するための物理ルールを追加
- [Runtime 6.4 ML GPU] 以前には NCCL の正しくないバージョン (2.7.8-1 + cuda 11.1) をインストールしていました。 このリリースでは、CUDA 10.0 と互換性のある 2.4.8-1+cuda10.0 に修正されています。
- オペレーティング システムのセキュリティを更新。
2020 年 12 月 1 日
- [SPARK-33260][SQL] sortOrder が Stream のときに SortExec の正しくない結果を修正
- [SPARK-32635][SQL] たたみ込み可能な伝達を修正
2020 年 11 月 3 日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレード。
- UserGroupInformation.getCurrentUser() に関する ABFS および WASB のロックを修正
- マジックバイトを読み取るときの Avro リーダーの無限ループバグを修正。
2020 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-32999][SQL][2.4] Utils.getSimpleName を使用して、TreeNode で形式に誤りがあるクラス名をヒットするのを回避
- 無効な XML 文字を使用したファイル名を含む FUSE マウント内のリスティング ディレクトリを修正
- ヒューズマウントで ListMultipartUploads を使用しなくなりました
2020 年 9 月 24 日
- 標準クラスターでのパススルーで、ユーザーが使用するファイルシステムの実装が制限されるという以前の制限を修正。 これで、ユーザーは制限なしでローカルファイルシステムにアクセスできるようになりました。
- オペレーティング システムのセキュリティを更新。
2020 年 9 月 8 日
- Azure Synapse Analytics の新しいパラメーター
maxbinlength
を作成。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、VARBINARY(maxbinlength)
として変換されます。 これは.option("maxbinlength", n)
を使用して設定できます (0 < n < = 8000)。 - Azure Storage SDK を 8.6.4 に更新して、WASB ドライバーによって行われた接続で TCP キープ アライブを有効にします
- Azure Synapse Analytics の新しいパラメーター
2020 年 8 月 25 日
- 自己マージのあいまいな属性解決を修正
2020 年 8 月 18 日
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで入れ子になった列の重複を確認
- Trigger.Once を使用するときの AQS コネクタでの競合状態を修正。
2020 年 8 月 11 日
- [SPARK-28676][CORE] contextcleaner からの過剰なログ記録を回
2020 年 8 月 3 日
- パススルーが有効になっているクラスターで LDA 変換関数を使用できるようになりました。
- オペレーティング システムのセキュリティを更新。
2020 年 7 月 7 日
- Java バージョンを 1.8.0_232 から 1.8.0_252 にアップグレード。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper の UDF インスタンスのキャッシュ クラス インスタンス
2020 年 4 月 7 日
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加して、これらのバージョンの PyArrow をサポートできるようにした。 手順については [SPARK-29367] を参照してください。
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
2020 年 3 月 10 日
- 最適化された自動スケールは、セキュリティ プランの対話型クラスターで既定で使用されるようになりました。
- Databricks Runtime に含まれている Snowflake コネクタ (
spark-snowflake_2.11
) を、バージョン 2.5.9 に更新。snowflake-jdbc
をバージョン 3.12.0 に更新。
Databricks Runtime 5.5 LTS (EoS)
「Databricks Runtime 5.5 LTS (EoS)」および「Databricks Runtime 5.5 延長サポート (EoS)」を参照してください。
2021 年 12 月 8 日
- オペレーティング システムのセキュリティを更新。
2021 年 9 月 22 日
- オペレーティング システムのセキュリティを更新。
2021 年 8 月 25 日
- 5.5 ML LTS (非推奨) 使用時により良好なパリティを維持するために、以前に 5.5 ML 延長サポート リリースでアップグレードされた Python パッケージの一部をダウングレードしました。 2 つのバージョンの更新の相違点については、[_]/release-notes/runtime/5.5xml.md) を参照してください。
2021 年 6 月 15 日
- [SPARK-35576][SQL] Set コマンドの結果に含まれる機密情報を編集
2021 年 6 月 7 日
spark.sql.maven.additionalRemoteRepositories
という名前の新しい構成を追加。これは、省略可能な追加のリモート Maven ミラーのコンマ区切りの文字列構成です。 既定値はhttps://maven-central.storage-download.googleapis.com/maven2/
です。
2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
2021 年 3 月 9 日
- HADOOP-17215 を Azure Blob File System ドライバーに移植 (条件付き上書きのサポート)。
2021 年 2 月 24 日
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入。 この構成は、組み込みの Hive 初期化を制御します。 true に設定すると、Azure Databricks によってユーザーの持つすべてのデータベースからすべての関数がFunctionRegistry
に再読み込みされます。 これは、Hive メタストアの既定の動作です。 false に設定すると、Azure Databricks によって最適化のためにこのプロセスが無効になります。
- 新しい構成
2021 年 1 月 12 日
- オペレーティング システムのセキュリティを更新。
- [HADOOP-17130]の修正。
2020 年 12 月 8 日
- [SPARK-27421][SQL] int 列のフィルターを修正し、パーティション列を排除するときに system.string クラスの値を指定
- オペレーティング システムのセキュリティを更新。
2020 年 12 月 1 日
- [SPARK-33260][SQL] sortOrder が Stream のときに SortExec の正しくない結果を修正
- [SPARK-32635][SQL] たたみ込み可能な伝達を修正
2020 年 10 月 29 日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレード。
- UserGroupInformation.getCurrentUser() に関する ABFS および WASB のロックを修正
- マジックバイトを読み取るときの Avro リーダーの無限ループバグを修正。
2020 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-32999][SQL][2.4] Utils.getSimpleName を使用して、TreeNode で形式に誤りがあるクラス名をヒットするのを回避
2020 年 9 月 24 日
- オペレーティング システムのセキュリティを更新。
2020 年 9 月 8 日
- Azure Synapse Analytics の新しいパラメーター
maxbinlength
を作成。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、VARBINARY(maxbinlength)
として変換されます。 これは.option("maxbinlength", n)
を使用して設定できます (0 < n < = 8000)。
- Azure Synapse Analytics の新しいパラメーター
2020 年 8 月 18 日
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで入れ子になった列の重複を確認
- Trigger.Once を使用するときの AQS コネクタでの競合状態を修正。
2020 年 8 月 11 日
- [SPARK-28676][CORE] contextcleaner からの過剰なログ記録を回
2020 年 8 月 3 日
- オペレーティング システムのセキュリティを更新
2020 年 7 月 7 日
- Java バージョンを 1.8.0_232 から 1.8.0_252 にアップグレード。
2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper の UDF インスタンスのキャッシュ クラス インスタンス
2020 年 4 月 7 日
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加して、これらのバージョンの PyArrow をサポートできるようにした。 手順については [SPARK-29367] を参照してください。
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
2020 年 3 月 25 日
- Databricks Runtime に含まれている Snowflake コネクタ (
spark-snowflake_2.11
) を、バージョン 2.5.9 に更新。snowflake-jdbc
をバージョン 3.12.0 に更新。
- Databricks Runtime に含まれている Snowflake コネクタ (
2020 年 3 月 10 日
- ジョブ出力 (stdout に出力されるログ出力など) には、20 MB のサイズ制限が適用されます。 出力の合計サイズがこれより大きい場合は実行が取り消され、失敗としてマークされます。 この制限が発生しないようにするために、Spark 構成
spark.databricks.driver.disableScalaOutput
をtrue
に設定することにより、ドライバーから stdout が返されないようにすることができます。 既定では、フラグの値はfalse
です。 このフラグは、Scala の JAR ジョブと Scala のノートブックのセル出力を制御します。 フラグが有効になっている場合、ジョブの実行結果が Spark からクライアントに返されません。 フラグは、クラスターのログ ファイルに書き込まれるデータには影響を与えません。 このフラグの設定はノートブック の結果を無効にするため、JAR ジョブの自動クラスターに対してのみ推奨されます。
- ジョブ出力 (stdout に出力されるログ出力など) には、20 MB のサイズ制限が適用されます。 出力の合計サイズがこれより大きい場合は実行が取り消され、失敗としてマークされます。 この制限が発生しないようにするために、Spark 構成
2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 は例外をスローする必要がある
- ADLS Gen2 を使用した資格情報のパススルーでは、ADLS クライアントのプリフェッチを有効にするとスレッドのローカル処理が正しく行われないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合には ADLS Gen2 プリフェッチが無効になります。
2020 年 1 月 28 日
- [SPARK-30447][SQL] 定数伝達の null 許容の問題。
2020 年 1 月 14 日
- Java バージョンを 1.8.0_222 から 1.8.0_232 にアップグレード。
2019 年 11 月 19 日
- [SPARK-29743] [SQL] 子の needCopyresult が true の場合、サンプルの needCopyresult も true に設定する必要がある
- R バージョンが、誤って 3.6.0 から 3.6.1 にアップグレードされました。 3.6.0 にダウングレードしています。
2019 年 11 月 5 日
- Java バージョンを 1.8.0_212 から 1.8.0_222 にアップグレード。
2019 年 10 月 23 日
- [SPARK-29244][CORE] BytesToBytesMap で解放されたページの再解放を抑止
2019 年 10 月 8 日
- サーバー側の変更により、結果のフェッチ中に接続エラーが発生した後に、Simba Apache Spark ODBC ドライバーを再接続して続行できるようになりました (Simba APACHE SPARK odbc ドライバーバージョン 2.6.10 が必要です)。
- テーブル ACL が有効なクラスターでの
Optimize
コマンド使用に影響する問題を修正しました。 - テーブル ACL および資格情報のパススルーが有効になっているクラスターで、Scala UDF の禁止エラーによって
pyspark.ml
ライブラリが失敗する問題を修正しました。 - 許可リストに含まれる資格情報パススルー用の SerDe および SerDeUtil メソッド。
- WASB クライアントのエラーコード確認するときの NullPointerException を修正しました。
2019 年 9 月 24 日
- Parquet ライターの安定性が向上しました。
- 実行開始前にキャンセルされた Thrift クエリが、STARTED 状態でスタックする可能性がある問題を修正しました。
2019 年 9 月 10 日
- BytesToBytesMap にスレッドセーフな反復子を追加
- [SPARK-27992][SPARK-28881]Python と接続スレッドを結合してエラーを伝達できるようにする
- 特定のグローバル集計クエリに影響するバグを修正。
- 資格情報の編集を強化。
- [SPARK-27330][SS] foreach ライターでのタスク中止をサポート
- [SPARK-28642]SHOW CREATE TABLE で資格情報を非表示にする
- [SPARK-28699][SQL] パーティション再分割の場合に ShuffleExchangeExec に対する基数並べ替えの使用を無効にする
2019 年 8 月 27 日
- [SPARK-20906][SQL]スキーマレジストリを使用し、API to_avroでユーザー指定のスキーマを許可
- [SPARK-27838][SQL] null レコードのない null 許容 Catalyst スキーマに対し、ユーザーが指定した null 非許容の Avro スキーマをサポート
- Delta Lake のタイム トラベルの向上
- 特定
transform
式に影響する問題を修正 - プロセスの分離が有効になっている場合にブロードキャスト変数をサポート
2019 年 8 月 13 日
- Delta ストリーミング ソースは、テーブルの最新のプロトコルを確認する必要がある
- [SPARK-28260]ExecutionState に CLOSED 状態を追加
- [SPARK-28489][SS]KafkaOffsetRangeCalculator がオフセットを削除する可能性のあるバグを修正
2019 年 7 月 30 日
- [SPARK-28015][SQL] stringToDate() が yyyy と yyyy-[m]m 形式の入力全体を使用しているかどうかをチェック
- [SPARK-28308][CORE] CalendarInterval の 1 秒未満の部分は解析前に埋め込む必要がある
- [SPARK-27485]EnsureRequirements.reorder では重複する式を適切に処理する必要がある
- [SPARK-28355][CORE][PYTHON] Spark conf を使用して、UDF がブロードキャストによって圧縮されるしきい値を指定
Databricks Light 2.4 延長サポート
「Databricks Light 2.4 (EoS)」および「Databricks Light 2.4 延長サポート (EoS)」を参照してください。
Databricks Runtime 7.4 (EoS)
「Databricks Runtime 7.4 (EoS)」を参照してください。
2021 年 4 月 30 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-35227][BUILD] SparkSubmit の SPARK パッケージの競合回避モジュールを更新
- [SPARK-34245][CORE] 完了状態を送信できなかった実行プログラムがマスターによって削除されることを確認
- [SPARK-35045][SQL] Univocity の入力バッファーを制御する内部オプションと CSV 入力バッファー サイズの構成を追加
2021 年 3 月 24 日
- [SPARK-34768][SQL] Univocity の既定の入力バッファー サイズを考慮
- [SPARK-34534] FetchShuffleBlocks を使用してブロックをフェッチするときの blockIds の順序を修正
2021 年 3 月 9 日
- Azure Data Lake Storage Gen2 用に更新された Azure Blob File System ドライバーが既定で有効になりました。 これにより複数の安定性が向上します。
- [ES-67926][UI] Spark DAG Vusualization の href リンクを修正
- [ES-65064]
SHOW DATABASES
の出力スキーマを復元 - [SC-70522][SQL] 範囲結合ヒントが存在する場合は、正しい動的排除設定キーを使用
- [SC-35081] ディスク キャッシュ内の Delta テーブル ファイルの整合性チェックを無効化
- [SC-70640] EventGridClient 応答にエンティティがない場合の NPE を修正
- [SC-70220][SQL] AOS が有効になっているときにシャッフル パーティション番号のアドバイスを生成しない
2021 年 2 月 24 日
- Spark BigQuery コネクタを v0.18 にアップグレード。このコネクタではさまざまなバグが修正され、Arrow 反復子と Avro 反復子のサポートが導入されています。
- Parquet ファイルの 10 進数の有効桁数と小数部桁数が Spark スキーマと異なる場合に、Spark が正しくない結果を返す原因となる、正確さに関する問題を修正。
- Spark SQL の geometry 型と geography JDBC 型のサポートを追加することにより、空間データ型を含む Microsoft SQL Server テーブルでの読み取りエラーの問題を修正。
- 新しい構成
spark.databricks.hive.metastore.init.reloadFunctions.enabled
を導入。 この構成は、組み込みの Hive 初期化を制御します。 true に設定すると、Azure Databricks によってユーザーの持つすべてのデータベースからすべての関数がFunctionRegistry
に再読み込みされます。 これは、Hive メタストアの既定の動作です。 false に設定すると、Azure Databricks によって最適化のためにこのプロセスが無効になります。 - [SPARK-34212] Parquet ファイルからの 10 進データの読み取りに関連する問題を修正。
- [SPARK-33579][UI] プロキシの後ろにある実行プログラムの空白ページを修正。
- [SPARK-20044][UI] パスプレフィックスを使用してフロントエンドリバースプロキシの背後にある Spark UI をサポート。
- [SPARK-33277][PYSPARK][SQL] ContextAwareIterator を使用して、タスク終了後の使用を停止。
2021 年 2 月 4 日
SELECT * FROM table LIMIT nrows
などのグローバル制限を設定するクエリの増分実行を妨げる回帰を修正。 この回帰は、Arrow シリアル化が有効になっている ODBC/JDBC を使用してクエリを実行するユーザーが経験していました。- クラスター環境変数の構成に無効な bash 構文が含まれている場合に DBFS ヒューズが起動しない原因となっていた回帰を修正。
2021 年 1 月 20 日
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
df.join(df.select($"col" as "new_col"), cond)
のように指定します。 - 派生 DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合された Dataframe の後の結合条件または次の変換は、共通でない列を参照します。 たとえば、
df.join(df.drop("a"), df("a") === 1)
のように指定します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
2021 年 1 月 12 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-33593][SQL] ベクターリーダーに、バイナリ パーティション値を含む正しくないデータが返される
- [SPARK-33677][SQL] パターンに escapeChar が含まれている場合は、LikeSimplification ルールをスキップ
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin を中断させないように、join () で Logicalplan の dataset_id を変更しない
2020 年 12 月 8 日
- [SPARK-33587][CORE] 入れ子になった致命的なエラーに対して実行プログラムを強制終了
- [SPARK-27421][SQL] int 列のフィルターを修正し、パーティション列を排除するときに system.string クラスの値を指定
- [SPARK-33316][SQL] Avro の書き込みで null 非許容の Catalyst スキーマに対し、ユーザーが指定した null 許容の Avro スキーマをサポート
- オペレーティング システムのセキュリティを更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0]
date_trunc
式の正しくない結果を修正 - [SPARK-33339][PYTHON] Pyspark アプリケーションが例外以外のエラーにより停止
- [SPARK-33183][SQL] [修正プログラム] オプティマイザールール EliminateSorts を修正し、冗長な並べ替えを削除するための物理ルールを追加
- [SPARK-33371][PYTHON][3.0] Setup.py と Python 3.9 のテストの更新
- [SPARK-33391][SQL] CreateArray を使用する element_at が、1 から始まるインデックスを考慮していない。
- [SPARK-33306][SQL] 日付を文字列にキャストするときはタイムゾーンが必要
- [SPARK-33260][SQL] sortOrder が Stream のときに SortExec の正しくない結果を修正
- [SPARK-33272][SQL] QueryPlan.transformUpWithNewOutput で属性マッピングを排除
- [SPARK-33404][SQL][3.0]
Databricks Runtime 7.2 (EoS)
「Databricks Runtime 7.2 (EoS)」を参照してください。
2021 年 2 月 4 日
SELECT * FROM table LIMIT nrows
などのグローバル制限を設定するクエリの増分実行を妨げる回帰を修正。 この回帰は、Arrow シリアル化が有効になっている ODBC/JDBC を使用してクエリを実行するユーザーが経験していました。- クラスター環境変数の構成に無効な bash 構文が含まれている場合に DBFS ヒューズが起動しない原因となっていた回帰を修正。
2021 年 1 月 20 日
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
df.join(df.select($"col" as "new_col"), cond)
のように指定します。 - 派生 DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合された Dataframe の後の結合条件または次の変換は、共通でない列を参照します。 たとえば、
df.join(df.drop("a"), df("a") === 1)
のように指定します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
2021 年 1 月 12 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-33593][SQL] ベクターリーダーに、バイナリ パーティション値を含む正しくないデータが返される
- [SPARK-33677][SQL] パターンに escapeChar が含まれている場合は、LikeSimplification ルールをスキップ
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin を中断させないように、join () で Logicalplan の dataset_id を変更しない
2020 年 12 月 8 日
- [SPARK-27421][SQL] int 列のフィルターを修正し、パーティション列を排除するときに system.string クラスの値を指定
- [SPARK-33404][SQL]
date_trunc
式の正しくない結果を修正 - [SPARK-33339][PYTHON] Pyspark アプリケーションが例外以外のエラーにより停止
- [SPARK-33183][SQL] オプティマイザールール EliminateSorts を修正し、冗長な並べ替えを削除するための物理ルールを追加
- [SPARK-33391][SQL] CreateArray を使用する element_at が、1 から始まるインデックスを考慮していない。
- オペレーティング システムのセキュリティを更新。
2020 年 12 月 1 日
- [SPARK-33306][SQL] 日付を文字列にキャストするときはタイムゾーンが必要
- [SPARK-33260][SQL] sortOrder が Stream のときに SortExec の正しくない結果を修正
2020 年 11 月 3 日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレード。
- UserGroupInformation.getCurrentUser() に関する ABFS および WASB のロックを修正
- マジックバイトを読み取るときの Avro リーダーの無限ループバグを修正。
2020 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-32999][SQL] Utils.getSimpleName を使用して、TreeNode で形式に誤りがあるクラス名をヒットするのを回避
- 無効な XML 文字を使用したファイル名を含む FUSE マウント内のリスティング ディレクトリを修正
- ヒューズマウントで ListMultipartUploads を使用しなくなりました
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] V1FallbackWriters の再分析を防ぐために AlreadyOptimized を導入
- [SPARK-32635][SQL] たたみ込み可能な伝達を修正
- 新しい構成
spark.shuffle.io.decoder.consolidateThreshold
を追加。 構成値をLong.MAX_VALUE
に設定して netty FrameBuffers の統合をスキップします。これにより、コーナーケースでjava.lang.IndexOutOfBoundsException
が回避されます。
2020 年 9 月 24 日
- [SPARK-32764][SQL] -0.0 は 0.0 と等しくなければならない
- [SPARK-32753][SQL] プランを変換するときにタグのないノードにのみタグをコピー
- [SPARK-32659][SQL] 非アトミック型に挿入された Dynamic Partition Pruning に関するデータの問題を修正
- オペレーティング システムのセキュリティを更新。
2020 年 9 月 8 日
- Azure Synapse Analytics の新しいパラメーター
maxbinlength
を作成。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、VARBINARY(maxbinlength)
として変換されます。 これは.option("maxbinlength", n)
を使用して設定できます (0 < n < = 8000)。
- Azure Synapse Analytics の新しいパラメーター
Databricks Runtime 7.1 (EoS)
「Databricks Runtime 7.1 (EoS)」をご覧ください。
2021 年 2 月 4 日
- クラスター環境変数の構成に無効な bash 構文が含まれている場合に DBFS ヒューズが起動しない原因となっていた回帰を修正。
2021 年 1 月 20 日
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
df.join(df.select($"col" as "new_col"), cond)
のように指定します。 - 派生 DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合された Dataframe の後の結合条件または次の変換は、共通でない列を参照します。 たとえば、
df.join(df.drop("a"), df("a") === 1)
のように指定します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
2021 年 1 月 12 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-33593][SQL] ベクターリーダーに、バイナリ パーティション値を含む正しくないデータが返される
- [SPARK-33677][SQL] パターンに escapeChar が含まれている場合は、LikeSimplification ルールをスキップ
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin を中断させないように、join () で Logicalplan の dataset_id を変更しない
2020 年 12 月 8 日
- [SPARK-27421][SQL] int 列のフィルターを修正し、パーティション列を排除するときに system.string クラスの値を指定
- Databricks Connect を使用して起動された Spark ジョブが、実行プログラムのスタックトレースの
Executor$TaskRunner.$anonfun$copySessionState
で無期限にハングする可能性がある - オペレーティング システムのセキュリティを更新。
2020 年 12 月 1 日
- [SPARK-33404][SQL][3.0]
date_trunc
式の正しくない結果を修正 - [SPARK-33339][PYTHON] Pyspark アプリケーションが例外以外のエラーにより停止
- [SPARK-33183][SQL] [修正プログラム] オプティマイザールール EliminateSorts を修正し、冗長な並べ替えを削除するための物理ルールを追加
- [SPARK-33371][PYTHON][3.0] Setup.py と Python 3.9 のテストの更新
- [SPARK-33391][SQL] CreateArray を使用する element_at が、1 から始まるインデックスを考慮していない。
- [SPARK-33306][SQL] 日付を文字列にキャストするときはタイムゾーンが必要
- [SPARK-33404][SQL][3.0]
2020 年 11 月 3 日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレード。
- UserGroupInformation.getCurrentUser() に関する ABFS および WASB のロックを修正
- マジックバイトを読み取るときの Avro リーダーの無限ループバグを修正。
2020 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-32999][SQL] Utils.getSimpleName を使用して、TreeNode で形式に誤りがあるクラス名をヒットするのを回避
- 無効な XML 文字を使用したファイル名を含む FUSE マウント内のリスティング ディレクトリを修正
- ヒューズマウントで ListMultipartUploads を使用しなくなりました
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] V1FallbackWriters の再分析を防ぐために AlreadyOptimized を導入
- [SPARK-32635][SQL] たたみ込み可能な伝達を修正
- 新しい構成
spark.shuffle.io.decoder.consolidateThreshold
を追加。 構成値をLong.MAX_VALUE
に設定して netty FrameBuffers の統合をスキップします。これにより、コーナーケースでjava.lang.IndexOutOfBoundsException
が回避されます。
2020 年 9 月 24 日
- [SPARK-32764][SQL] -0.0 は 0.0 と等しくなければならない
- [SPARK-32753][SQL] プランを変換するときにタグのないノードにのみタグをコピー
- [SPARK-32659][SQL] 非アトミック型に挿入された Dynamic Partition Pruning に関するデータの問題を修正
- オペレーティング システムのセキュリティを更新。
2020 年 9 月 8 日
- Azure Synapse Analytics の新しいパラメーター
maxbinlength
を作成。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、VARBINARY(maxbinlength)
として変換されます。 これは.option("maxbinlength", n)
を使用して設定できます (0 < n < = 8000)。
- Azure Synapse Analytics の新しいパラメーター
2020 年 8 月 25 日
- [SPARK-32159][SQL]
Aggregator[Array[_], _, _]
とUnresolvedMapObjects
の統合を修正 - [SPARK-32559][SQL] 非 ASCII 文字を唯行く処理しなかった
UTF8String.toInt/toLong
のトリム ロジックを修正 - [SPARK-32543][R] SparkR での
arrow::as_tibble
の使用を削除 - [SPARK-32091][CORE] 失われた実行プログラムのブロックを削除するときにタイムアウト エラーを無視
- MSI 資格情報を使用して Azure Synapse に影響を与える問題を修正
- 自己マージのあいまいな属性解決を修正
- [SPARK-32159][SQL]
2020 年 8 月 18 日
- [SPARK-32594][SQL] Hive テーブルに挿入された日付のシリアル化を修正
- [SPARK-32237][SQL] CTE のヒントを解決
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで入れ子になった列の重複を確認
- [SPARK-32467][UI] リダイレクトで URL を 2 回エンコードしないようにする
- Trigger.Once を使用するときの AQS コネクタでの競合状態を修正。
2020 年 8 月 11 日
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight は競合するプランの祖先ノードの属性のみを書き換える必要がある
- [SPARK-32234] [SQL] ORC テーブルの選択で Spark SQL コマンドが失敗
2020 年 8 月 3 日
- パススルーが有効になっているクラスターで LDA 変換関数を使用できるようになりました。
Databricks Runtime 7.0 (EoS)
「Databricks Runtime 7.0 (EoS)」を参照してください。
2021 年 2 月 4 日
- クラスター環境変数の構成に無効な bash 構文が含まれている場合に DBFS ヒューズが起動しない原因となっていた回帰を修正。
2021 年 1 月 20 日
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
df.join(df.select($"col" as "new_col"), cond)
のように指定します。 - 派生 DataFrame は、select、groupBy、または window を介して一部の列を除外します。
- 結合された Dataframe の後の結合条件または次の変換は、共通でない列を参照します。 たとえば、
df.join(df.drop("a"), df("a") === 1)
のように指定します。
- これら 2 つの DataFrame には共通の列がありますが、自己結合の出力には共通の列がありません。 たとえば、
- 2021 年 1 月 12 日のメンテナンス リリースにあった回帰を修正。この回帰は自己結合時に誤った AnalysisException を返し、列があいまいであると告げる可能性がありました。 この回帰は、ユーザーが次の条件で DataFrame とその派生 DataFrame を結合 (いわゆる自己結合) すると発生します。
2021 年 1 月 12 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-33593][SQL] ベクターリーダーに、バイナリ パーティション値を含む正しくないデータが返される
- [SPARK-33677][SQL] パターンに escapeChar が含まれている場合は、LikeSimplification ルールをスキップ
- [SPARK-33071][SPARK-33536][SQL] DetectAmbiguousSelfJoin を中断させないように、join () で Logicalplan の dataset_id を変更しない
2020 年 12 月 8 日
- [SPARK-27421][SQL] int 列のフィルターを修正し、パーティション列を排除するときに system.string クラスの値を指定
- [SPARK-33404][SQL]
date_trunc
式の正しくない結果を修正 - [SPARK-33339][PYTHON] Pyspark アプリケーションが例外以外のエラーにより停止
- [SPARK-33183][SQL] オプティマイザールール EliminateSorts を修正し、冗長な並べ替えを削除するための物理ルールを追加
- [SPARK-33391][SQL] CreateArray を使用する element_at が、1 から始まるインデックスを考慮していない。
- オペレーティング システムのセキュリティを更新。
2020 年 12 月 1 日
- [SPARK-33306][SQL] 日付を文字列にキャストするときはタイムゾーンが必要
2020 年 11 月 3 日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレード。
- UserGroupInformation.getCurrentUser() に関する ABFS および WASB のロックを修正
- マジックバイトを読み取るときの Avro リーダーの無限ループバグを修正。
2020 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-32999][SQL] Utils.getSimpleName を使用して、TreeNode で形式に誤りがあるクラス名をヒットするのを回避
- 無効な XML 文字を使用したファイル名を含む FUSE マウント内のリスティング ディレクトリを修正
- ヒューズマウントで ListMultipartUploads を使用しなくなりました
2020 年 9 月 29 日
- [SPARK-28863][SQL][WARMFIX] V1FallbackWriters の再分析を防ぐために AlreadyOptimized を導入
- [SPARK-32635][SQL] たたみ込み可能な伝達を修正
- 新しい構成
spark.shuffle.io.decoder.consolidateThreshold
を追加。 構成値をLong.MAX_VALUE
に設定して netty FrameBuffers の統合をスキップします。これにより、コーナーケースでjava.lang.IndexOutOfBoundsException
が回避されます。
2020 年 9 月 24 日
- [SPARK-32764][SQL] -0.0 は 0.0 と等しくなければならない
- [SPARK-32753][SQL] プランを変換するときにタグのないノードにのみタグをコピー
- [SPARK-32659][SQL] 非アトミック型に挿入された Dynamic Partition Pruning に関するデータの問題を修正
- オペレーティング システムのセキュリティを更新。
2020 年 9 月 8 日
- Azure Synapse Analytics の新しいパラメーター
maxbinlength
を作成。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、VARBINARY(maxbinlength)
として変換されます。 これは.option("maxbinlength", n)
を使用して設定できます (0 < n < = 8000)。
- Azure Synapse Analytics の新しいパラメーター
2020 年 8 月 25 日
- [SPARK-32159][SQL]
Aggregator[Array[_], _, _]
とUnresolvedMapObjects
の統合を修正 - [SPARK-32559][SQL] 非 ASCII 文字を唯行く処理しなかった
UTF8String.toInt/toLong
のトリム ロジックを修正 - [SPARK-32543][R] SparkR での
arrow::as_tibble
の使用を削除 - [SPARK-32091][CORE] 失われた実行プログラムのブロックを削除するときにタイムアウト エラーを無視
- MSI 資格情報を使用して Azure Synapse に影響を与える問題を修正
- 自己マージのあいまいな属性解決を修正
- [SPARK-32159][SQL]
2020 年 8 月 18 日
- [SPARK-32594][SQL] Hive テーブルに挿入された日付のシリアル化を修正
- [SPARK-32237][SQL] CTE のヒントを解決
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで入れ子になった列の重複を確認
- [SPARK-32467][UI] リダイレクトで URL を 2 回エンコードしないようにする
- Trigger.Once を使用するときの AQS コネクタでの競合状態を修正。
2020 年 8 月 11 日
- [SPARK-32280][SPARK-32372][SQL] ResolveReferences.dedupRight は競合するプランの祖先ノードの属性のみを書き換える必要がある
- [SPARK-32234] [SQL] ORC テーブルの選択で Spark SQL コマンドが失敗
- パススルーが有効になっているクラスターで LDA 変換関数を使用できるようになりました。
Databricks Runtime 6.6 (EoS)
「Databricks Runtime 6.6 (EoS)」を参照してください。
2020 年 12 月 1 日
- [SPARK-33260][SQL] sortOrder が Stream のときに SortExec の正しくない結果を修正
- [SPARK-32635][SQL] たたみ込み可能な伝達を修正
2020 年 11 月 3 日
- Java バージョンを 1.8.0_252 から 1.8.0_265 にアップグレード。
- UserGroupInformation.getCurrentUser() に関する ABFS および WASB のロックを修正
- マジックバイトを読み取るときの Avro リーダーの無限ループバグを修正。
2020 年 10 月 13 日
- オペレーティング システムのセキュリティを更新。
- [SPARK-32999][SQL][2.4] Utils.getSimpleName を使用して、TreeNode で形式に誤りがあるクラス名をヒットするのを回避
- 無効な XML 文字を使用したファイル名を含む FUSE マウント内のリスティング ディレクトリを修正
- ヒューズマウントで ListMultipartUploads を使用しなくなりました
2020 年 9 月 24 日
- オペレーティング システムのセキュリティを更新。
2020 年 9 月 8 日
- Azure Synapse Analytics の新しいパラメーター
maxbinlength
を作成。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、VARBINARY(maxbinlength)
として変換されます。 これは.option("maxbinlength", n)
を使用して設定できます (0 < n < = 8000)。 - Azure Storage SDK を 8.6.4 に更新して、WASB ドライバーによって行われた接続で TCP キープ アライブを有効にします
- Azure Synapse Analytics の新しいパラメーター
2020 年 8 月 25 日
- 自己マージのあいまいな属性解決を修正
2020 年 8 月 18 日
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで入れ子になった列の重複を確認
- Trigger.Once を使用するときの AQS コネクタでの競合状態を修正。
2020 年 8 月 11 日
- [SPARK-28676][CORE] contextcleaner からの過剰なログ記録を回
- [SPARK-31967][UI] vis.js 4.21.0 にダウングレードして、ジョブの UI 読み込み時間の回帰を修正
2020 年 8 月 3 日
- パススルーが有効になっているクラスターで LDA 変換関数を使用できるようになりました。
- オペレーティング システムのセキュリティを更新。
Databricks Runtime 6.5 (EoS)
「Databricks Runtime 6.5 (EoS)」を参照してください。
- 2020 年 9 月 24 日
- 標準クラスターでのパススルーで、ユーザーが使用するファイルシステムの実装が制限されるという以前の制限を修正。 これで、ユーザーは制限なしでローカルファイルシステムにアクセスできるようになりました。
- オペレーティング システムのセキュリティを更新。
- 2020 年 9 月 8 日
- Azure Synapse Analytics の新しいパラメーター
maxbinlength
を作成。 このパラメーターは、BinaryType 列の列の長さを制御するために使用され、VARBINARY(maxbinlength)
として変換されます。 これは.option("maxbinlength", n)
を使用して設定できます (0 < n < = 8000)。 - Azure Storage SDK を 8.6.4 に更新して、WASB ドライバーによって行われた接続で TCP キープ アライブを有効にします
- Azure Synapse Analytics の新しいパラメーター
- 2020 年 8 月 25 日
- 自己マージのあいまいな属性解決を修正
- 2020 年 8 月 18 日
- [SPARK-32431][SQL] 組み込みデータソースからの読み取りで入れ子になった列の重複を確認
- Trigger.Once を使用するときの AQS コネクタでの競合状態を修正。
- 2020 年 8 月 11 日
- [SPARK-28676][CORE] contextcleaner からの過剰なログ記録を回
- 2020 年 8 月 3 日
- パススルーが有効になっているクラスターで LDA 変換関数を使用できるようになりました。
- オペレーティング システムのセキュリティを更新。
- 2020 年 7 月 7 日
- Java バージョンを 1.8.0_242 から 1.8.0_252 にアップグレード。
- 2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper の UDF インスタンスのキャッシュ クラス インスタンス
Databricks Runtime 6.3 (EoS)
「Databricks Runtime 6.3 (EoS)」を参照してください。
- 2020 年 7 月 7 日
- Java バージョンを 1.8.0_232 から 1.8.0_252 にアップグレード。
- 2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper の UDF インスタンスのキャッシュ クラス インスタンス
- 2020 年 4 月 7 日
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加して、これらのバージョンの PyArrow をサポートできるようにした。 手順については [SPARK-29367] を参照してください。
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
- 2020 年 3 月 10 日
- Databricks Runtime に含まれている Snowflake コネクタ (
spark-snowflake_2.11
) を、バージョン 2.5.9 に更新。snowflake-jdbc
をバージョン 3.12.0 に更新。
- Databricks Runtime に含まれている Snowflake コネクタ (
- 2020 年 2 月 18 日
- ADLS Gen2 を使用した資格情報のパススルーでは、ADLS クライアントのプリフェッチを有効にするとスレッドのローカル処理が正しく行われないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合には ADLS Gen2 プリフェッチが無効になります。
- 2020 年 2 月 11 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 は例外をスローする必要がある
- [SPARK-30447][SQL] 定数伝達の null の許容に関する問題
- [SPARK-28152][SQL] 古い MsSqlServerDialect 数値マッピング用にレガシ conf を追加
- MLModels が MLWriter を拡張して関数を呼び出せるように、上書き関数を許可リストに追加。
Databricks Runtime 6.2 (EoS)
「Databricks Runtime 6.2 (EoS)」を参照してください。
- 2020 年 4 月 21 日
- [SPARK-31312][SQL] HiveFunctionWrapper の UDF インスタンスのキャッシュ クラス インスタンス
- 2020 年 4 月 7 日
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加して、これらのバージョンの PyArrow をサポートできるようにした。 手順については [SPARK-29367] を参照してください。
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
- 2020 年 3 月 25 日
- ジョブ出力 (stdout に出力されるログ出力など) には、20 MB のサイズ制限が適用されます。 出力の合計サイズがこれより大きい場合は実行が取り消され、失敗としてマークされます。 この制限が発生しないようにするために、Spark 構成
spark.databricks.driver.disableScalaOutput
をtrue
に設定することにより、ドライバーから stdout が返されないようにすることができます。 既定では、フラグの値はfalse
です。 このフラグは、Scala の JAR ジョブと Scala のノートブックのセル出力を制御します。 フラグが有効になっている場合、ジョブの実行結果が Spark からクライアントに返されません。 フラグは、クラスターのログ ファイルに書き込まれるデータには影響を与えません。 このフラグの設定はノートブック の結果を無効にするため、JAR ジョブの自動クラスターに対してのみ推奨されます。
- ジョブ出力 (stdout に出力されるログ出力など) には、20 MB のサイズ制限が適用されます。 出力の合計サイズがこれより大きい場合は実行が取り消され、失敗としてマークされます。 この制限が発生しないようにするために、Spark 構成
- 2020 年 3 月 10 日
- Databricks Runtime に含まれている Snowflake コネクタ (
spark-snowflake_2.11
) を、バージョン 2.5.9 に更新。snowflake-jdbc
をバージョン 3.12.0 に更新。
- Databricks Runtime に含まれている Snowflake コネクタ (
- 2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 は例外をスローする必要がある
- ADLS Gen2 を使用した資格情報のパススルーでは、ADLS クライアントのプリフェッチを有効にするとスレッドのローカル処理が正しく行われないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合には ADLS Gen2 プリフェッチが無効になります。
- 2020 年 1 月 28 日
- モデルを保存するときに資格情報パススルー クラスターで上書きモードを使用できるように、資格情報のパススルーが有効になっているクラスターに対する ML Model Writer の上書き関数を許可リストに追加。
- [SPARK-30447][SQL] 定数伝達の null 許容の問題。
- [SPARK-28152][SQL] 古い MsSqlServerDialect 数値マッピング用にレガシ conf を追加。
- 2020 年 1 月 14 日
- Java バージョンを 1.8.0_222 から 1.8.0_232 にアップグレード。
- 2019 年 12 月 10 日
- [SPARK-29904][SQL] JSON/CSV データ ソースによってタイムスタンプをマイクロ秒の精度で解析。
Databricks Runtime 6.1 (EoS)
「Databricks Runtime 6.1 (EoS)」をご覧ください。
- 2020 年 4 月 7 日
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
ARROW_PRE_0_15_IPC_FORMAT=1
) を追加して、これらのバージョンの PyArrow をサポートできるようにした。 手順については [SPARK-29367] を参照してください。
- PyArrow 0.15.0 以上で pandas udf が動作しない問題を解決するために、環境変数 (
- 2020 年 3 月 25 日
- ジョブ出力 (stdout に出力されるログ出力など) には、20 MB のサイズ制限が適用されます。 出力の合計サイズがこれより大きい場合は実行が取り消され、失敗としてマークされます。 この制限が発生しないようにするために、Spark 構成
spark.databricks.driver.disableScalaOutput
をtrue
に設定することにより、ドライバーから stdout が返されないようにすることができます。 既定では、フラグの値はfalse
です。 このフラグは、Scala の JAR ジョブと Scala のノートブックのセル出力を制御します。 フラグが有効になっている場合、ジョブの実行結果が Spark からクライアントに返されません。 フラグは、クラスターのログ ファイルに書き込まれるデータには影響を与えません。 このフラグの設定はノートブック の結果を無効にするため、JAR ジョブの自動クラスターに対してのみ推奨されます。
- ジョブ出力 (stdout に出力されるログ出力など) には、20 MB のサイズ制限が適用されます。 出力の合計サイズがこれより大きい場合は実行が取り消され、失敗としてマークされます。 この制限が発生しないようにするために、Spark 構成
- 2020 年 3 月 10 日
- Databricks Runtime に含まれている Snowflake コネクタ (
spark-snowflake_2.11
) を、バージョン 2.5.9 に更新。snowflake-jdbc
をバージョン 3.12.0 に更新。
- Databricks Runtime に含まれている Snowflake コネクタ (
- 2020 年 2 月 18 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 は例外をスローする必要がある
- ADLS Gen2 を使用した資格情報のパススルーでは、ADLS クライアントのプリフェッチを有効にするとスレッドのローカル処理が正しく行われないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合には ADLS Gen2 プリフェッチが無効になります。
- 2020 年 1 月 28 日
- [SPARK-30447][SQL] 定数伝達の null 許容の問題。
- [SPARK-28152][SQL] 古い MsSqlServerDialect 数値マッピング用にレガシ conf を追加。
- 2020 年 1 月 14 日
- Java バージョンを 1.8.0_222 から 1.8.0_232 にアップグレード。
- 2019 年 11 月 7 日
- [SPARK-29743][SQL] 子の needCopyresult が true の場合、サンプルの needCopyresult も true に設定する必要がある。
- パブリック プレビューの Spark の構成プロパティと環境変数によって参照されるシークレット。 「Spark の構成プロパティまたは環境変数のシークレットを使用する」を参照してください。
- 2019 年 11 月 5 日
- パスに
//
が含まれるマウントポイントを処理するように DBFS ヒューズのバグを修正。 - [SPARK-29081] プロパティの SerializationUtils.clone 呼び出しを高速化された実装に変更
- [SPARK-29244][CORE] BytesToBytesMap で解放されたページの再解放を抑止
- (6.1 ML) ライブラリ mkl のバージョン 2019.4 が誤ってインストールされました。 Anaconda Distribution 2019.03 に適合するように、これを mkl バージョン 2019.3 にダウングレードしました。
- パスに
Databricks Runtime 6.0 (EoS)
「Databricks Runtime 6.0 (EoS)」を参照してください。
- 2020 年 3 月 25 日
- ジョブ出力 (stdout に出力されるログ出力など) には、20 MB のサイズ制限が適用されます。 出力の合計サイズがこれより大きい場合は実行が取り消され、失敗としてマークされます。 この制限が発生しないようにするために、Spark 構成
spark.databricks.driver.disableScalaOutput
をtrue
に設定することにより、ドライバーから stdout が返されないようにすることができます。 既定では、フラグの値はfalse
です。 このフラグは、Scala の JAR ジョブと Scala のノートブックのセル出力を制御します。 フラグが有効になっている場合、ジョブの実行結果が Spark からクライアントに返されません。 フラグは、クラスターのログ ファイルに書き込まれるデータには影響を与えません。 このフラグの設定はノートブック の結果を無効にするため、JAR ジョブの自動クラスターに対してのみ推奨されます。
- ジョブ出力 (stdout に出力されるログ出力など) には、20 MB のサイズ制限が適用されます。 出力の合計サイズがこれより大きい場合は実行が取り消され、失敗としてマークされます。 この制限が発生しないようにするために、Spark 構成
- 2020 年 2 月 18 日
- ADLS Gen2 を使用した資格情報のパススルーでは、ADLS クライアントのプリフェッチを有効にするとスレッドのローカル処理が正しく行われないため、パフォーマンスが低下します。 このリリースでは、適切な修正が行われるまで、資格情報のパススルーが有効になっている場合には ADLS Gen2 プリフェッチが無効になります。
- 2020 年 2 月 11 日
- [SPARK-24783][SQL] spark.sql.shuffle.partitions=0 は例外をスローする必要がある
- 2020 年 1 月 28 日
- [SPARK-30447][SQL] 定数伝達の null 許容の問題。
- [SPARK-28152][SQL] 古い MsSqlServerDialect 数値マッピング用にレガシ conf を追加。
- 2020 年 1 月 14 日
- Java バージョンを 1.8.0_222 から 1.8.0_232 にアップグレード。
- 2019 年 11 月 19 日
- [SPARK-29743] [SQL] 子の needCopyresult が true の場合、サンプルの needCopyresult も true に設定する必要がある
- 2019 年 11 月 5 日
dbutils.tensorboard.start()
で TensorBoard 2.0 がサポートされるようになりました (手動でインストールされている場合)。- パスに
//
が含まれるマウントポイントを処理するように DBFS ヒューズのバグを修正。 - [SPARK-29081]プロパティの SerializationUtils.clone 呼び出しを高速化された実装に変更
- 2019 年 10 月 23 日
- [SPARK-29244][CORE] BytesToBytesMap で解放されたページの再解放を抑止
- 2019 年 10 月 8 日
- サーバー側の変更により、結果のフェッチ中に接続エラーが発生した後に、Simba Apache Spark ODBC ドライバーを再接続して続行できるようになりました (Simba APACHE SPARK odbc ドライバーバージョン 2.6.10 が必要です)。
- テーブル ACL が有効なクラスターでの
Optimize
コマンド使用に影響する問題を修正しました。 - テーブル ACL および資格情報のパススルーが有効になっているクラスターで、Scala UDF の禁止エラーによって
pyspark.ml
ライブラリが失敗する問題を修正しました。 - 許可リストに含まれる資格情報パススルー用の SerDe/SerDeUtil メソッド。
- WASB クライアントのエラーコード確認するときの NullPointerException を修正しました。
- ユーザーの資格情報が
dbutils.notebook.run()
によって作成されたジョブに転送されない問題を修正しました。
Databricks Runtime 5.4 ML (EoS)
「Databricks Runtime 5.4 for ML (EoS)」を参照してください。
- 2019 年 6 月 18 日
- Hyperopt 統合での MLflow のアクティブな実行の処理を向上
- Hyperopt でのメッセージを改善
- パッケージ
Marchkdown
を 3.1 から 3.1.1 に更新
Databricks Runtime 5.4 (EoS)
「Databricks Runtime 5.4 (EoS)」を参照してください。
- 2019 年 11 月 19 日
- [SPARK-29743] [SQL] 子の needCopyresult が true の場合、サンプルの needCopyresult も true に設定する必要がある
- 2019 年 10 月 8 日
- サーバー側の変更により、結果のフェッチ中に接続エラーが発生した後に、Simba Apache Spark ODBC ドライバーを再接続して続行できるようになりました (Simba Apache SPARK ODBC ドライバーをバージョン 2.6.10 に更新する必要があります)。
- WASB クライアントのエラーコード確認するときの NullPointerException を修正しました。
- 2019 年 9 月 10 日
- BytesToBytesMap にスレッドセーフな反復子を追加
- 特定のグローバル集計クエリに影響するバグを修正。
- [SPARK-27330][SS] foreach ライターでのタスク中止をサポート
- [SPARK-28642]SHOW CREATE TABLE で資格情報を非表示にする
- [SPARK-28699][SQL] パーティション再分割の場合に ShuffleExchangeExec に対する基数並べ替えの使用を無効にする
- [SPARK-28699][CORE] 不確定ステージを中止するためのまれなケースを修正
- 2019 年 8 月 27 日
- 特定の
transform
式に影響する問題を修正
- 特定の
- 2019 年 8 月 13 日
- Delta ストリーミング ソースは、テーブルの最新のプロトコルを確認する必要がある
- [SPARK-28489][SS]KafkaOffsetRangeCalculator がオフセットを削除する可能性のあるバグを修正
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] stringToDate() が yyyy と yyyy-[m]m 形式の入力全体を使用しているかどうかをチェック
- [SPARK-28308][CORE] CalendarInterval の 1 秒未満の部分は解析前に埋め込む必要がある
- [SPARK-27485]EnsureRequirements.reorder では重複する式を適切に処理する必要がある
- 2019 年 7 月 2 日
- snappy-java を 1.1.7.1 から 1.1.7.3 にアップグレード。
- 2019 年 6 月 18 日
- MLlib 統合時の MLflow のアクティブな実行の処理を改善
- ディスク キャッシュの使用に関連する Databricks Advisor メッセージを改善
- 高階関数の使用に影響するバグを修正
- Delta メタデータクエリに影響するバグを修正
Databricks Runtime 5.3 (EoS)
「Databricks Runtime 5.3 (EoS)」を参照してください。
- 2019 年 11 月 7 日
- [SPARK-29743][SQL] 子の needCopyresult が true の場合、サンプルの needCopyresult も true に設定する必要がある
- 2019 年 10 月 8 日
- サーバー側の変更により、結果のフェッチ中に接続エラーが発生した後に、Simba Apache Spark ODBC ドライバーを再接続して続行できるようになりました (Simba Apache SPARK ODBC ドライバーをバージョン 2.6.10 に更新する必要があります)。
- WASB クライアントのエラーコード確認するときの NullPointerException を修正しました。
- 2019 年 9 月 10 日
- BytesToBytesMap にスレッドセーフな反復子を追加
- 特定のグローバル集計クエリに影響するバグを修正。
- [SPARK-27330][SS] foreach ライターでのタスク中止をサポート
- [SPARK-28642]SHOW CREATE TABLE で資格情報を非表示にする
- [SPARK-28699][SQL] パーティション再分割の場合に ShuffleExchangeExec に対する基数並べ替えの使用を無効にする
- [SPARK-28699][CORE] 不確定ステージを中止するためのまれなケースを修正
- 2019 年 8 月 27 日
- 特定の
transform
式に影響する問題を修正
- 特定の
- 2019 年 8 月 13 日
- Delta ストリーミング ソースは、テーブルの最新のプロトコルを確認する必要がある
- [SPARK-28489][SS]KafkaOffsetRangeCalculator がオフセットを削除する可能性のあるバグを修正
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] stringToDate() が yyyy と yyyy-[m]m 形式の入力全体を使用しているかどうかをチェック
- [SPARK-28308][CORE] CalendarInterval の 1 秒未満の部分は解析前に埋め込む必要がある
- [SPARK-27485]EnsureRequirements.reorder では重複する式を適切に処理する必要がある
- 2019 年 6 月 18 日
- ディスク キャッシュの使用に関連する Databricks Advisor メッセージを改善
- 高階関数の使用に影響するバグを修正
- Delta メタデータクエリに影響するバグを修正
- 2019 年 5 月 28 日
- Delta の安定性の向上
- Delta LAST_CHECKPOINT ファイルの読み取り時に IOExceptions を許容
- 失敗したライブラリのインストールに回復を追加
- 2019 年 5 月 7 日
- HADOOP-15778 (ABFS: 読み取り用のクライアント側を修正) を Azure Data Lake Storage Gen2 コネクタに移植
- HADOOP-16040 (ABFS: tolerateOobAppends 構成のバグ修正) を Azure Data Lake Storage Gen2 コネクタに移植
- テーブル ACL に影響するバグを修正
- Delta のログ チェックサム ファイルを読み込む際の競合状態を修正
- "挿入 + 上書き" を純粋な "追加" 操作として識別しない Delta の競合検出ロジックを修正
- テーブル ACL を有効にするときにディスク キャッシュが無効になっていないか確認
- [SPARK-27494][SS] Kafka ソース v2 で Null キー/値が機能しない
- [SPARK-27446][R] 使用可能な場合は既存の Spark conf を使用。
- [SPARK-27454][SPARK-27454][ML][SQL] いくつかの不正なイメージが検出された場合、Spark イメージ データソースが失敗
- [SPARK-27160][SQL] ORC フィルターを作成するときの DecimalType を修正
- [SPARK-27338][CORE] UnsafeExternalSorter と TaskMemoryManager の間のデッドロックを修正
Databricks Runtime 5.2 (EoS)
「Databricks Runtime 5.2 (EoS)」を参照してください。
- 2019 年 9 月 10 日
- BytesToBytesMap にスレッドセーフな反復子を追加
- 特定のグローバル集計クエリに影響するバグを修正。
- [SPARK-27330][SS] foreach ライターでのタスク中止をサポート
- [SPARK-28642]SHOW CREATE TABLE で資格情報を非表示にする
- [SPARK-28699][SQL] パーティション再分割の場合に ShuffleExchangeExec に対する基数並べ替えの使用を無効にする
- [SPARK-28699][CORE] 不確定ステージを中止するためのまれなケースを修正
- 2019 年 8 月 27 日
- 特定の
transform
式に影響する問題を修正
- 特定の
- 2019 年 8 月 13 日
- Delta ストリーミング ソースは、テーブルの最新のプロトコルを確認する必要がある
- [SPARK-28489][SS]KafkaOffsetRangeCalculator がオフセットを削除する可能性のあるバグを修正
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] stringToDate() が yyyy と yyyy-[m]m 形式の入力全体を使用しているかどうかをチェック
- [SPARK-28308][CORE] CalendarInterval の 1 秒未満の部分は解析前に埋め込む必要がある
- [SPARK-27485]EnsureRequirements.reorder では重複する式を適切に処理する必要がある
- 2019 年 7 月 2 日
- Delta LAST_CHECKPOINT ファイルの読み取り時に IOExceptions を許容
- 2019 年 6 月 18 日
- ディスク キャッシュの使用に関連する Databricks Advisor メッセージを改善
- 高階関数の使用に影響するバグを修正
- Delta メタデータクエリに影響するバグを修正
- 2019 年 5 月 28 日
- 失敗したライブラリのインストールに回復を追加
- 2019 年 5 月 7 日
- HADOOP-15778 (ABFS: 読み取り用のクライアント側を修正) を Azure Data Lake Storage Gen2 コネクタに移植
- HADOOP-16040 (ABFS: tolerateOobAppends 構成のバグ修正) を Azure Data Lake Storage Gen2 コネクタに移植
- Delta のログ チェックサム ファイルを読み込む際の競合状態を修正
- "挿入 + 上書き" を純粋な "追加" 操作として識別しない Delta の競合検出ロジックを修正
- テーブル ACL を有効にするときにディスク キャッシュが無効になっていないか確認
- [SPARK-27494][SS] Kafka ソース v2 で Null キー/値が機能しない
- [SPARK-27454][SPARK-27454][ML][SQL] いくつかの不正なイメージが検出された場合、Spark イメージ データソースが失敗
- [SPARK-27160][SQL] ORC フィルターを作成するときの DecimalType を修正
- [SPARK-27338][CORE] UnsafeExternalSorter と TaskMemoryManager の間のデッドロックを修正
- 2019 年 3 月 26 日
- プラットフォームに依存するオフセットを、ステージ全体で生成されたコードにリテラルで埋め込むのを避ける
- [SPARK-26665][CORE] BlockTransferService.fetchBlockSync がいつまでもハングする可能性があるバグを修正。
- [SPARK-27134][SQL] 配列の配列を含む列で array_distinct 関数が正しく機能しない。
- [SPARK-24669][SQL] DROP DATABASE CASCADE の場合はテーブルを無効にします。
- [SPARK-26572][SQL] 集計 codegen の結果評価を修正。
- 特定の PythonUDF に影響するバグを修正。
- 2019 年 2 月 26 日
- [SPARK-26864][SQL] Python UDF を左半結合条件として使用すると、クエリが正しくない結果を返す可能性がある。
- [SPARK-26887][PYTHON] datetime64 を中間データとして作成する代わりに、datetime.date を直接作成します。
- JDBC/ODBC サーバーに影響するバグを修正しました。
- PySpark に影響するバグを修正しました。
- HadoopRDD を構築するときに非表示ファイルを除外します。
- シリアル化の問題を引き起こした Delta のバグを修正しました。
- 2019 年 2 月 12 日
- Azure ADLS Gen2 のマウント ポイントでの Delta 使用に影響する問題を修正しました。
- 暗号化を有効にして大きい RPC エラー メッセージを送信するときに (
spark.network.crypto.enabled
が true に設定されている場合) Spark の低レベル ネットワーク プロトコルが壊れる可能性がある問題を修正しました。
- 2019 年 1 月 30 日
- キャッシュされたリレーションにスキュー結合ヒントを設定する際の StackOverflowError を修正しました。
- SQL キャッシュのキャッシュされた RDD とその物理プランの間の不整合を修正しました。この場合、結果が正しくありません。
- [SPARK-26706][SQL] ByteType の
illegalNumericPrecedence
を修正します。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery が空のレコードを正しく処理しません。
- CSV/JSON データ ソースでは、スキーマを推測する際にパスのグロブを回避する必要があります。
- Window 演算子の制約の推論を修正しました。
- テーブル ACL が有効になっているクラスターでの、egg ライブラリのインストールに影響する問題を修正しました。
Databricks Runtime 5.1 (EoS)
「Databricks Runtime 5.1 (EoS)」を参照してください。
- 2019 年 8 月 13 日
- Delta ストリーミング ソースは、テーブルの最新のプロトコルを確認する必要がある
- [SPARK-28489][SS]KafkaOffsetRangeCalculator がオフセットを削除する可能性のあるバグを修正
- 2019 年 7 月 30 日
- [SPARK-28015][SQL] stringToDate() が yyyy と yyyy-[m]m 形式の入力全体を使用しているかどうかをチェック
- [SPARK-28308][CORE] CalendarInterval の 1 秒未満の部分は解析前に埋め込む必要がある
- [SPARK-27485]EnsureRequirements.reorder では重複する式を適切に処理する必要がある
- 2019 年 7 月 2 日
- Delta LAST_CHECKPOINT ファイルの読み取り時に IOExceptions を許容
- 2019 年 6 月 18 日
- 高階関数の使用に影響するバグを修正
- Delta メタデータクエリに影響するバグを修正
- 2019 年 5 月 28 日
- 失敗したライブラリのインストールに回復を追加
- 2019 年 5 月 7 日
- HADOOP-15778 (ABFS: 読み取り用のクライアント側を修正) を Azure Data Lake Storage Gen2 コネクタに移植
- HADOOP-16040 (ABFS: tolerateOobAppends 構成のバグ修正) を Azure Data Lake Storage Gen2 コネクタに移植
- Delta のログ チェックサム ファイルを読み込む際の競合状態を修正
- "挿入 + 上書き" を純粋な "追加" 操作として識別しない Delta の競合検出ロジックを修正
- [SPARK-27494][SS] Kafka ソース v2 で Null キー/値が機能しない
- [SPARK-27454][SPARK-27454][ML][SQL] いくつかの不正なイメージが検出された場合、Spark イメージ データソースが失敗
- [SPARK-27160][SQL] ORC フィルターを作成するときの DecimalType を修正
- [SPARK-27338][CORE] UnsafeExternalSorter と TaskMemoryManager の間のデッドロックを修正
- 2019 年 3 月 26 日
- プラットフォームに依存するオフセットを、ステージ全体で生成されたコードにリテラルで埋め込むのを避ける
- 特定の PythonUDF に影響するバグを修正。
- 2019 年 2 月 26 日
- [SPARK-26864][SQL] Python UDF を左半結合条件として使用すると、クエリが正しくない結果を返す可能性がある。
- JDBC/ODBC サーバーに影響するバグを修正しました。
- HadoopRDD を構築するときに非表示ファイルを除外します。
- 2019 年 2 月 12 日
- テーブル ACL が有効になっているクラスターでの、egg ライブラリのインストールに影響する問題を修正しました。
- SQL キャッシュのキャッシュされた RDD とその物理プランの間の不整合を修正しました。この場合、結果が正しくありません。
- [SPARK-26706][SQL] ByteType の
illegalNumericPrecedence
を修正します。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery が空のレコードを正しく処理しません。
- Window 演算子の制約の推論を修正しました。
- 暗号化を有効にして大きい RPC エラー メッセージを送信するときに (
spark.network.crypto.enabled
が true に設定されている場合) Spark の低レベル ネットワーク プロトコルが壊れる可能性がある問題を修正しました。
- 2019 年 1 月 30 日
- UDT を含む
df.rdd.count()
が特定のケースに対して正しくない回答を返す原因となる可能性がある問題を修正しました。 - ホイールハウスのインストールに影響する問題を修正しました。
- [SPARK-26267]Kafka からの不適切なオフセットを検出するときの再試行。
- ストリーミング クエリ内の複数のファイル ストリーム ソースに影響するバグを修正しました。
- キャッシュされたリレーションにスキュー結合ヒントを設定する際の StackOverflowError を修正しました。
- SQL キャッシュのキャッシュされた RDD とその物理プランの間の不整合を修正しました。この場合、結果が正しくありません。
- UDT を含む
- 2019 年 1 月 8 日
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
エラーの原因となる問題を修正しました。- [SPARK-26352]結合の並べ替えでは、出力属性の順序を変更しないようにする必要があります。
- [SPARK-26366]ReplaceExceptWithFilter では NULL を False と見なす必要があります。
- Delta Lake の安定性向上。
- Delta Lake を有効にしました。
- Azure Data Lake Storage Gen1 に対して Microsoft Entra ID Credential Passthrough が有効になっているときに、Azure Data Lake Storage Gen2 のアクセスが失敗する原因になっていた問題を修正しました。
- Databricks IO Cache は、すべての価格レベルの Ls シリーズ ワーカー インスタンス タイプに対して有効になります。
Databricks Runtime 5.0 (EoS)
「Databricks Runtime 5.0 (EoS)」を参照してください。
- 2019 年 6 月 18 日
- 高階関数の使用に影響するバグを修正
- 2019 年 5 月 7 日
- Delta のログ チェックサム ファイルを読み込む際の競合状態を修正
- "挿入 + 上書き" を純粋な "追加" 操作として識別しない Delta の競合検出ロジックを修正
- [SPARK-27494][SS] Kafka ソース v2 で Null キー/値が機能しない
- [SPARK-27454][SPARK-27454][ML][SQL] いくつかの不正なイメージが検出された場合、Spark イメージ データソースが失敗
- [SPARK-27160][SQL] ORC フィルターを作成するときの DecimalType を修正
- [SPARK-27338][CORE] UnsafeExternalSorter と TaskMemoryManager の間のデッドロックを修正
- 2019 年 3 月 26 日
- プラットフォームに依存するオフセットを、ステージ全体で生成されたコードにリテラルで埋め込むのを避ける
- 特定の PythonUDF に影響するバグを修正。
- 2019 年 3 月 12 日
- [SPARK-26864][SQL] Python UDF を左半結合条件として使用すると、クエリが正しくない結果を返す可能性がある。
- 2019 年 2 月 26 日
- JDBC/ODBC サーバーに影響するバグを修正しました。
- HadoopRDD を構築するときに非表示ファイルを除外します。
- 2019 年 2 月 12 日
- SQL キャッシュのキャッシュされた RDD とその物理プランの間の不整合を修正しました。この場合、結果が正しくありません。
- [SPARK-26706][SQL] ByteType の
illegalNumericPrecedence
を修正します。 - [SPARK-26709][SQL] OptimizeMetadataOnlyQuery が空のレコードを正しく処理しません。
- Window 演算子の制約の推論を修正しました。
- 暗号化を有効にして大きい RPC エラー メッセージを送信するときに (
spark.network.crypto.enabled
が true に設定されている場合) Spark の低レベル ネットワーク プロトコルが壊れる可能性がある問題を修正しました。
- 2019 年 1 月 30 日
- UDT を含む
df.rdd.count()
が特定のケースに対して正しくない回答を返す原因となる可能性がある問題を修正しました。 - [SPARK-26267]Kafka からの不適切なオフセットを検出するときの再試行。
- ストリーミング クエリ内の複数のファイル ストリーム ソースに影響するバグを修正しました。
- キャッシュされたリレーションにスキュー結合ヒントを設定する際の StackOverflowError を修正しました。
- SQL キャッシュのキャッシュされた RDD とその物理プランの間の不整合を修正しました。この場合、結果が正しくありません。
- UDT を含む
- 2019 年 1 月 8 日
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
エラーの原因となった問題を修正しました。- [SPARK-26352]結合の並べ替えでは、出力属性の順序を変更しないようにする必要があります。
- [SPARK-26366]ReplaceExceptWithFilter では NULL を False と見なす必要があります。
- Delta Lake の安定性向上。
- Delta Lake を有効にしました。
- Databricks IO Cache は、すべての価格レベルの Ls シリーズ ワーカー インスタンス タイプに対して有効になります。
- 2018 年 12 月 18 日
- [SPARK-26293]サブクエリに Python UDF がある場合のキャスト例外
- Join と Limit を使用する特定のクエリに影響を与える問題を修正。
- Spark UI での RDD 名からの資格情報を編集
- 2018 年 12 月 6 日
- グループ化キーを並べ替えキーの前に付けて orderBy の直後に groupBy を使用すると、正しいクエリ結果が得られない問題を修正しました。
- Spark 用 Snowflake コネクタを 2.4.9.2-spark_2.4_pre_release から 2.4.10 にアップグレードしました。
spark.sql.files.ignoreCorruptFiles
またはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合は、1 回以上の再試行後に破損 ファイルのみを無視します。- 特定の自己 Union クエリに影響する問題を修正しました。
- 取り消し時にセッションがリークする場合がある Thrift サーバーのバグを修正しました。
- [SPARK-26307]Hive SerDe を使用してパーティション テーブルを INSERT する場合の CTAS を修正しました。
- [SPARK-26147]結合の一方の側からの列のみを使用している場合でも、結合条件の Python UDF が失敗する
- [SPARK-26211]バイナリ、および null 値を持つ構造体と配列に対して InSet を修正しました。
- [SPARK-26181]
hasMinMaxStats
のColumnStatsMap
メソッドが正しくありません。 - インターネットにアクセスしない環境での Python ホイールのインストールに影響する問題を修正しました。
- 2018 年 11 月 20 日
- ストリーミング クエリを取り消した後にノートブックを使用できない問題を修正しました。
- ウィンドウ関数を使用する特定のクエリに影響を与える問題を修正しました。
- スキーマが複数回変更された Delta からのストリームに影響する問題を修正しました。
- 左半/反結合を使用した特定の集計クエリに影響する問題を修正しました。
Databricks Runtime 4.3 (EoS)
「Databricks Runtime 4.3 (EoS)」を参照してください。
2019 年 4 月 9 日
- [SPARK-26665][CORE] BlockTransferService.fetchBlockSync がいつまでもハングする可能性があるバグを修正しました。
- [SPARK-24669][SQL] DROP DATABASE CASCADE の場合はテーブルを無効にします。
2019 年 3 月 12 日
- コード生成に影響するバグを修正しました。
- Delta に影響するバグを修正しました。
2019 年 2 月 26 日
- JDBC/ODBC サーバーに影響するバグを修正しました。
2019 年 2 月 12 日
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery が空のレコードを正しく処理しません。
- HadoopRDD を構築するときに非表示ファイルを除外。
- 値が空の場合の IN 述語の Parquet フィルター変換を修正しました。
- 暗号化を有効にして大きい RPC エラー メッセージを送信するときに (
spark.network.crypto.enabled
が true に設定されている場合) Spark の低レベル ネットワーク プロトコルが壊れる可能性がある問題を修正しました。
2019 年 1 月 30 日
- UDT を含む
df.rdd.count()
が特定のケースに対して正しくない回答を返す原因となる可能性がある問題を修正しました。 - SQL キャッシュのキャッシュされた RDD とその物理プランの間の不整合を修正しました。この場合、結果が正しくありません。
- UDT を含む
2019 年 1 月 8 日
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
エラーの原因となる問題を修正しました。- Spark UI での RDD 名からの資格情報を編集
- [SPARK-26352]結合の並べ替えでは、出力属性の順序を変更しないようにする必要があります。
- [SPARK-26366]ReplaceExceptWithFilter では NULL を False と見なす必要があります。
- Delta Lake を有効にしました。
- Databricks IO Cache は、すべての価格レベルの Ls シリーズ ワーカー インスタンス タイプに対して有効になります。
2018 年 12 月 18 日
- [SPARK-25002]Avro: 出力レコードの名前空間を変更。
- Join と Limit を使用する特定のクエリに影響を与える問題を修正。
- [SPARK-26307]Hive SerDe を使用してパーティション テーブルを INSERT する場合の CTAS を修正しました。
spark.sql.files.ignoreCorruptFiles
またはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合は、1 回以上の再試行後に破損 ファイルのみを無視します。- [SPARK-26181]
hasMinMaxStats
のColumnStatsMap
メソッドが正しくありません。 - インターネットにアクセスしない環境での Python ホイールのインストールに影響する問題を修正しました。
- クエリ アナライザーのパフォーマンスの問題を修正しました。
- "接続が拒否されました" エラーで DataFrame アクションが失敗する原因となる PySpark の問題を修正しました。
- 特定の自己 Union クエリに影響する問題を修正しました。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241]nullValue が設定されている場合に、空の文字列が null として解析される問題を修正。
- [SPARK-25387]不適切な CSV 入力によって発生する NPE を修正。
- 左半/反結合を使用した特定の集計クエリに影響する問題を修正しました。
2018 年 11 月 6 日
- [SPARK-25741]長い URL が Web UI で正しくレンダリングされない。
- [SPARK-25714]オプティマイザー規則 BooleanSimplification の Null 処理を修正。
- Synapse Analytics コネクタでの一時オブジェクトのクリーンアップに影響する問題を修正しました。
- [SPARK-25816]入れ子になった抽出子の属性解決を修正。
2018 年 10 月 16 日
- Delta テーブルでの
SHOW CREATE TABLE
実行の出力に影響するバグを修正しました。 Union
演算に影響するバグを修正しました。
- Delta テーブルでの
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不適切な制約の推論は正しくない結果を返す。
- [SPARK-25402][SQL] BooleanSimplification での Null 処理。
- Avro データ ソースの
NotSerializableException
を修正しました。
2018 年 9 月 11 日
- [SPARK-25214][SS]
failOnDataLoss=false
のときに Kafka v2 ソースが重複したレコードを返す可能性がある問題を修正。 - [SPARK-24987][SS] articlePartition の新しいオフセットがない場合の Kafka コンシューマー リークを修正。
- フィルターを減らすには null 値を正しく処理する必要があります。
- 実行エンジンの安定性が向上しました。
- [SPARK-25214][SS]
2018 年 8 月 28 日
- Delta Lake Delete コマンドで、条件が null と評価された行が誤って削除されるバグを修正しました。
- [SPARK-25142]Python ワーカーが
_load_from_socket
でソケットを開けなかった場合のエラー メッセージを追加。
2018 年 8 月 23 日
- [SPARK-23935]mapEntry が
org.codehaus.commons.compiler.CompileException
をスロー。 - Parquet リーダーでの null 許容マップの問題を修正しました。
- [SPARK-25051][SQL] FixNullability が AnalysisBarrier で停止しないようにする必要があります。
- [SPARK-25081]スピル時にメモリの割り当てに失敗すると、ShuffleExternalSorter が解放されたメモリ ページにアクセスする可能性があるバグを修正しました。
- 一時的な読み取りエラーが発生する可能性がある Databricks Delta と Pyspark の間の相互作用を修正しました。
- [SPARK-25084]複数の列で "distribute by" を使用する (角かっこで囲む) と、codegen の問題が発生する可能性があります。
- [SPARK-25096]キャストが強制的な null 許容の場合は null 許容を緩める。
- Delta Lake Optimize コマンドで使用される既定のスレッド数を減らし、メモリのオーバーヘッドを減らし、データをより高速にコミットします。
- [SPARK-25114]2 つのワード間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正。
- コマンドが部分的に成功した場合のシークレット マネージャーの編集を修正しました。
- [SPARK-23935]mapEntry が
Databricks Runtime 4.2 (EoS)
「Databricks Runtime 4.2 (EoS)」を参照してください。
2019 年 2 月 26 日
- JDBC/ODBC サーバーに影響するバグを修正しました。
2019 年 2 月 12 日
- [SPARK-26709][SQL] OptimizeMetadataOnlyQuery が空のレコードを正しく処理しません。
- HadoopRDD を構築するときに非表示ファイルを除外。
- 値が空の場合の IN 述語の Parquet フィルター変換を修正しました。
- 暗号化を有効にして大きい RPC エラー メッセージを送信するときに (
spark.network.crypto.enabled
が true に設定されている場合) Spark の低レベル ネットワーク プロトコルが壊れる可能性がある問題を修正しました。
2019 年 1 月 30 日
- UDT を含む
df.rdd.count()
が特定のケースに対して正しくない回答を返す原因となる可能性がある問題を修正しました。
- UDT を含む
2019 年 1 月 8 日
org.apache.spark.sql.expressions.Window.rangeBetween(long,long) is not whitelisted
エラーの原因となる問題を修正しました。- Spark UI での RDD 名からの資格情報を編集
- [SPARK-26352]結合の並べ替えでは、出力属性の順序を変更しないようにする必要があります。
- [SPARK-26366]ReplaceExceptWithFilter では NULL を False と見なす必要があります。
- Delta Lake を有効にしました。
- Databricks IO Cache は、すべての価格レベルの Ls シリーズ ワーカー インスタンス タイプに対して有効になります。
2018 年 12 月 18 日
- [SPARK-25002]Avro: 出力レコードの名前空間を変更。
- Join と Limit を使用する特定のクエリに影響を与える問題を修正。
- [SPARK-26307]Hive SerDe を使用してパーティション テーブルを INSERT する場合の CTAS を修正しました。
spark.sql.files.ignoreCorruptFiles
またはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合は、1 回以上の再試行後に破損 ファイルのみを無視します。- [SPARK-26181]
hasMinMaxStats
のColumnStatsMap
メソッドが正しくありません。 - インターネットにアクセスしない環境での Python ホイールのインストールに影響する問題を修正しました。
- クエリ アナライザーのパフォーマンスの問題を修正しました。
- "接続が拒否されました" エラーで DataFrame アクションが失敗する原因となる PySpark の問題を修正しました。
- 特定の自己 Union クエリに影響する問題を修正しました。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241]nullValue が設定されている場合に、空の文字列が null として解析される問題を修正。
- 左半/反結合を使用した特定の集計クエリに影響する問題を修正しました。
2018 年 11 月 6 日
- [SPARK-25741]長い URL が Web UI で正しくレンダリングされない。
- [SPARK-25714]オプティマイザー規則 BooleanSimplification の Null 処理を修正。
2018 年 10 月 16 日
- Delta テーブルでの
SHOW CREATE TABLE
実行の出力に影響するバグを修正しました。 Union
演算に影響するバグを修正しました。
- Delta テーブルでの
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不適切な制約の推論は正しくない結果を返す。
- [SPARK-25402][SQL] BooleanSimplification での Null 処理。
- Avro データ ソースの
NotSerializableException
を修正しました。
2018 年 9 月 11 日
- [SPARK-25214][SS]
failOnDataLoss=false
のときに Kafka v2 ソースが重複したレコードを返す可能性がある問題を修正。 - [SPARK-24987][SS] articlePartition の新しいオフセットがない場合の Kafka コンシューマー リークを修正。
- フィルターを減らすには null 値を正しく処理する必要があります。
- [SPARK-25214][SS]
2018 年 8 月 28 日
- Delta Lake Delete コマンドで、条件が null と評価された行が誤って削除されるバグを修正しました。
2018 年 8 月 23 日
- Delta スナップショットの NoClassDefError を修正しました
- [SPARK-23935]mapEntry が
org.codehaus.commons.compiler.CompileException
をスロー。 - [SPARK-24957][SQL] 10 進数を含む平均の後に集計が続くと、間違った結果が返されます。 AVERAGE の正しくない結果が返される場合があります。 Divide の結果がキャスト先と同じ型である場合、Average 演算子で追加された CAST がバイパスされます。
- [SPARK-25081]スピル時にメモリの割り当てに失敗すると、ShuffleExternalSorter が解放されたメモリ ページにアクセスする可能性があるバグを修正しました。
- 一時的な読み取りエラーが発生する可能性がある Databricks Delta と Pyspark の間の相互作用を修正しました。
- [SPARK-25114]2 つのワード間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正。
- [SPARK-25084]複数の列で "distribute by" を使用する (角かっこで囲む) と、codegen の問題が発生する可能性があります。
- [SPARK-24934][SQL] メモリ内パーティション排除の上限または下限でサポートされる型を明示的に許可リストに載せる。 キャッシュされたデータに対するクエリ フィルターで複合データ型を使用すると、Spark では常に空の結果セットを返します。 複合型の上限または下限に対して null 値が設定されるため、インメモリ統計ベースの排除で正しくない結果が生成されます。 修正方法は、複合型に対してインメモリ統計ベースの排除を使用しないようにすることです。
- コマンドが部分的に成功した場合のシークレット マネージャーの編集を修正しました。
- Parquet リーダーでの null 許容マップの問題を修正しました。
2018 年 8 月 2 日
- Python に writeStream. table API が追加されました。
- デルタチェックポイント処理に影響する問題を修正しました。
- [SPARK-24867][SQL] AnalysisBarrier を DataFrameWriter に追加。 DataFrameWriter を使用して UDF を含む DataFrame を記述する場合、SQL キャッシュは使用されません。 これは、一部の Analyzer ルールがべき等ではないために、AnalysisBarrier で行った変更によって発生する回帰です。
mergeInto
コマンドが正しくない結果を生成する原因となり得る問題を修正しました。- Azure Data Lake Storage Gen1 へのアクセスの安定性が向上しました。
- [SPARK-24809]実行プログラムで LongHashedRelation をシリアル化すると、データエラーが発生する可能性があります。
- [SPARK-24878][SQL] null 値を含むプリミティブ型の配列型に対し reverse 関数を修正。
2018 年 7 月 11 日
- 異なる有効桁数を持つ 10 進数列の集計によって、誤った結果が返される場合があるというクエリ実行のバグを修正しました。
- グループ化セットなどの高度な集計操作中にスローされた
NullPointerException
バグを修正しました。
Databricks Runtime 4.1 ML (EoS)
「Databricks Runtime 4.1 ML (EoS)」を参照してください。
- 2018 年 7 月 31日
- ML Runtime 4.1 に Azure Synapse Analytics を追加しました
- 述語で使用されているパーティション列の名前と、テーブルのスキーマ内のその列とで大文字と小文字の区別が異なる場合に、誤ったクエリ結果となる可能性のあるバグを修正しました。
- Spark SQL 実行エンジンに影響するバグを修正した。
- コード生成に影響するバグを修正しました。
- Delta Lake に影響するバグ (
java.lang.NoClassDefFoundError
) を修正しました。 - Delta Lake でのエラー処理が改善されました。
- 32 文字以上の文字列型の列に対して誤ったデータ スキッピング統計情報が収集される原因となっていたバグを修正しました。
Databricks Runtime 4.1 (EoS)
「Databricks Runtime 4.1 (EoS)」をご覧ください。
2019 年 1 月 8 日
- [SPARK-26366]ReplaceExceptWithFilter では NULL を False と見なす必要があります。
- Delta Lake を有効にしました。
2018 年 12 月 18 日
- [SPARK-25002]Avro: 出力レコードの名前空間を変更。
- Join と Limit を使用する特定のクエリに影響を与える問題を修正。
- [SPARK-26307]Hive SerDe を使用してパーティション テーブルを INSERT する場合の CTAS を修正しました。
spark.sql.files.ignoreCorruptFiles
またはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合は、1 回以上の再試行後に破損 ファイルのみを無視します。- インターネットにアクセスしない環境での Python ホイールのインストールに影響する問題を修正しました。
- "接続が拒否されました" エラーで DataFrame アクションが失敗する原因となる PySpark の問題を修正しました。
- 特定の自己 Union クエリに影響する問題を修正しました。
2018 年 11 月 20 日
- [SPARK-17916][SPARK-25241]nullValue が設定されている場合に、空の文字列が null として解析される問題を修正。
- 左半/反結合を使用した特定の集計クエリに影響する問題を修正しました。
2018 年 11 月 6 日
- [SPARK-25741]長い URL が Web UI で正しくレンダリングされない。
- [SPARK-25714]オプティマイザー規則 BooleanSimplification の Null 処理を修正。
2018 年 10 月 16 日
- Delta テーブルでの
SHOW CREATE TABLE
実行の出力に影響するバグを修正しました。 Union
演算に影響するバグを修正しました。
- Delta テーブルでの
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不適切な制約の推論は正しくない結果を返す。
- [SPARK-25402][SQL] BooleanSimplification での Null 処理。
- Avro データ ソースの
NotSerializableException
を修正しました。
2018 年 9 月 11 日
- [SPARK-25214][SS]
failOnDataLoss=false
のときに Kafka v2 ソースが重複したレコードを返す可能性がある問題を修正。 - [SPARK-24987][SS] articlePartition の新しいオフセットがない場合の Kafka コンシューマー リークを修正。
- フィルターを減らすには null 値を正しく処理する必要があります。
- [SPARK-25214][SS]
2018 年 8 月 28 日
- Delta Lake Delete コマンドで、条件が null と評価された行が誤って削除されるバグを修正しました。
- [SPARK-25084]複数の列で "distribute by" を使用する (角かっこで囲む) と、codegen の問題が発生する可能性があります。
- [SPARK-25114]2 つのワード間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正。
2018 年 8 月 23 日
- Delta スナップショットの NoClassDefError を修正しました。
- [SPARK-24957][SQL] 10 進数を含む平均の後に集計が続くと、間違った結果が返されます。 AVERAGE の正しくない結果が返される場合があります。 Divide の結果がキャスト先と同じ型である場合、Average 演算子で追加された CAST がバイパスされます。
- Parquet リーダーでの null 許容マップの問題を修正しました。
- [SPARK-24934][SQL] メモリ内パーティション排除の上限または下限でサポートされる型を明示的に許可リストに載せる。 キャッシュされたデータに対するクエリ フィルターで複合データ型を使用すると、Spark では常に空の結果セットを返します。 複合型の上限または下限に対して null 値が設定されるため、インメモリ統計ベースの排除で正しくない結果が生成されます。 修正方法は、複合型に対してインメモリ統計ベースの排除を使用しないようにすることです。
- [SPARK-25081]スピル時にメモリの割り当てに失敗すると、ShuffleExternalSorter が解放されたメモリ ページにアクセスする可能性があるバグを修正しました。
- 一時的な読み取りエラーが発生する可能性がある Databricks Delta と Pyspark の間の相互作用を修正しました。
- コマンドが部分的に成功した場合のシークレット マネージャーの編集を修正しました
2018 年 8 月 2 日
- [SPARK-24613][SQL] UDF を含むキャッシュを後続の依存キャッシュと一致させることができませんでした。 プランが再度分析されないようにするため、CacheManager での実行プランのコンパイル用に論理プランを AnalysisBarrier でラップします。 これは Spark 2.3 の回帰でもあります。
- DateType データを書き込むためのタイムゾーン変換に影響する Synapse Analytics コネクタの問題を修正しました。
- デルタチェックポイント処理に影響する問題を修正しました。
mergeInto
コマンドが正しくない結果を生成する原因となり得る問題を修正しました。- [SPARK-24867][SQL] AnalysisBarrier を DataFrameWriter に追加。 DataFrameWriter を使用して UDF を含む DataFrame を記述する場合、SQL キャッシュは使用されません。 これは、一部の Analyzer ルールがべき等ではないために、AnalysisBarrier で行った変更によって発生する回帰です。
- [SPARK-24809]実行プログラムで LongHashedRelation をシリアル化すると、データエラーが発生する可能性があります。
2018 年 7 月 11 日
- 異なる有効桁数を持つ 10 進数列の集計によって、誤った結果が返される場合があるというクエリ実行のバグを修正しました。
- グループ化セットなどの高度な集計操作中にスローされた
NullPointerException
バグを修正しました。
2018年6月28日
- 述語で使用されているパーティション列の名前と、テーブルのスキーマ内のその列とで大文字と小文字の区別が異なる場合に、誤ったクエリ結果となる可能性のあるバグを修正しました。
2018 年 6 月 7 日
- Spark SQL 実行エンジンに影響するバグを修正した。
- コード生成に影響するバグを修正しました。
- Delta Lake に影響するバグ (
java.lang.NoClassDefFoundError
) を修正しました。 - Delta Lake でのエラー処理が改善されました。
2018 年 5 月 17 日
- 32 文字以上の文字列型の列に対して誤ったデータ スキッピング統計情報が収集される原因となっていたバグを修正しました。
Databricks Runtime 4.0 (EoS)
「Databricks Runtime 4.0 (EoS)」を参照してください。
2018 年 11 月 6 日
- [SPARK-25714]オプティマイザー規則 BooleanSimplification の Null 処理を修正。
2018 年 10 月 16 日
Union
演算に影響するバグを修正しました。
2018 年 9 月 25 日
- [SPARK-25368][SQL] 不適切な制約の推論は正しくない結果を返す。
- [SPARK-25402][SQL] BooleanSimplification での Null 処理。
- Avro データ ソースの
NotSerializableException
を修正しました。
2018 年 9 月 11 日
- フィルターを減らすには null 値を正しく処理する必要があります。
2018 年 8 月 28 日
- Delta Lake Delete コマンドで、条件が null と評価された行が誤って削除されるバグを修正しました。
2018 年 8 月 23 日
- Parquet リーダーでの null 許容マップの問題を修正しました。
- コマンドが部分的に成功した場合のシークレット マネージャーの編集を修正しました
- 一時的な読み取りエラーが発生する可能性がある Databricks Delta と Pyspark の間の相互作用を修正しました。
- [SPARK-25081]スピル時にメモリの割り当てに失敗すると、ShuffleExternalSorter が解放されたメモリ ページにアクセスする可能性があるバグを修正しました。
- [SPARK-25114]2 つのワード間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正。
2018 年 8 月 2 日
- [SPARK-24452]Int の加算または乗算でオーバーフローする可能性を回避します。
- [SPARK-24588][SS] ストリーミング結合では子からの HashClusteredPartitioning を要求する必要があります。
mergeInto
コマンドが正しくない結果を生成する原因となり得る問題を修正しました。- [SPARK-24867][SQL] AnalysisBarrier を DataFrameWriter に追加。 DataFrameWriter を使用して UDF を含む DataFrame を記述する場合、SQL キャッシュは使用されません。 これは、一部の Analyzer ルールがべき等ではないために、AnalysisBarrier で行った変更によって発生する回帰です。
- [SPARK-24809]実行プログラムで LongHashedRelation をシリアル化すると、データエラーが発生する可能性があります。
2018年6月28日
- 述語で使用されているパーティション列の名前と、テーブルのスキーマ内のその列とで大文字と小文字の区別が異なる場合に、誤ったクエリ結果となる可能性のあるバグを修正しました。
2018 年 6 月 7 日
- Spark SQL 実行エンジンに影響するバグを修正した。
- Delta Lake でのエラー処理が改善されました。
2018 年 5 月 17 日
- Databricks シークレット管理のバグ修正。
- Azure Data Lake Store に格納されているデータの読み取りの安定性が向上しました。
- RDD キャッシュに影響するバグを修正しました。
- Spark SQL の Null 安全等号に影響するバグを修正しました。
2018 年 4 月 24 日
- Azure Data Lake Store へのアクセスの安定性を向上させるために、Azure Data Lake Store SDK を 2.0.11 から 2.2.8 にアップグレードしました。
spark.databricks.io.hive.fastwriter.enabled
がfalse
の場合 にパーティション分割された Hive テーブルへの上書きの挿入に影響するバグを修正しました。- タスクのシリアル化に失敗した問題を修正しました。
- Delta Lake の安定性が向上しました。
2018 年 3 月 14 日
- Delta Lake への書き込み時に不要なメタデータの更新を防止します。
- まれに一部出力ファイルの喪失を招く可能性のある競合状態が原因で発生する問題を修正しました。
Databricks Runtime 3.5 LTS (EoS)
「Databricks Runtime 3.5 LTS (EoS)」を参照してください。
2019 年 11 月 7 日
- [SPARK-29743][SQL] 子の needCopyresult が true の場合、サンプルの needCopyresult も true に設定する必要がある
2019 年 10 月 8 日
- サーバー側の変更により、結果のフェッチ中に接続エラーが発生した後に、Simba Apache Spark ODBC ドライバーを再接続して続行できるようになりました (Simba Apache SPARK ODBC ドライバーをバージョン 2.6.10 に更新する必要があります)。
2019 年 9 月 10 日
- [SPARK-28699][SQL] パーティション再分割の場合に ShuffleExchangeExec に対する基数並べ替えの使用を無効にする
2019 年 4 月 9 日
- [SPARK-26665][CORE] BlockTransferService.fetchBlockSync がいつまでもハングする可能性があるバグを修正しました。
2019 年 2 月 12 日
- 暗号化を有効にして大きい RPC エラー メッセージを送信するときに (
spark.network.crypto.enabled
が true に設定されている場合) Spark の低レベル ネットワーク プロトコルが壊れる可能性がある問題を修正しました。
- 暗号化を有効にして大きい RPC エラー メッセージを送信するときに (
2019 年 1 月 30 日
- UDT を含む
df.rdd.count()
が特定のケースに対して正しくない回答を返す原因となる可能性がある問題を修正しました。
- UDT を含む
2018 年 12 月 18 日
spark.sql.files.ignoreCorruptFiles
またはspark.sql.files.ignoreMissingFiles
フラグが有効になっている場合は、1 回以上の再試行後に破損 ファイルのみを無視します。- 特定の自己 Union クエリに影響する問題を修正しました。
2018 年 11 月 20 日
- [SPARK-25816]入れ子になった抽出子の属性解決を修正。
2018 年 11 月 6 日
- [SPARK-25714]オプティマイザー規則 BooleanSimplification の Null 処理を修正。
2018 年 10 月 16 日
Union
演算に影響するバグを修正しました。
2018 年 9 月 25 日
- [SPARK-25402][SQL] BooleanSimplification での Null 処理。
- Avro データ ソースの
NotSerializableException
を修正しました。
2018 年 9 月 11 日
- フィルターを減らすには null 値を正しく処理する必要があります。
2018 年 8 月 28 日
- Delta Lake Delete コマンドで、条件が null と評価された行が誤って削除されるバグを修正しました。
- [SPARK-25114]2 つのワード間の減算が Integer.MAX_VALUE で割り切れる場合の RecordBinaryComparator を修正。
2018 年 8 月 23 日
- [SPARK-24809]実行プログラムで LongHashedRelation をシリアル化すると、データエラーが発生する可能性があります。
- Parquet リーダーでの null 許容マップの問題を修正しました。
- [SPARK-25081]スピル時にメモリの割り当てに失敗すると、ShuffleExternalSorter が解放されたメモリ ページにアクセスする可能性があるバグを修正しました。
- 一時的な読み取りエラーが発生する可能性がある Databricks Delta と Pyspark の間の相互作用を修正しました。
2018年6月28日
- 述語で使用されているパーティション列の名前と、テーブルのスキーマ内のその列とで大文字と小文字の区別が異なる場合に、誤ったクエリ結果となる可能性のあるバグを修正しました。
2018年6月28日
- 述語で使用されているパーティション列の名前と、テーブルのスキーマ内のその列とで大文字と小文字の区別が異なる場合に、誤ったクエリ結果となる可能性のあるバグを修正しました。
2018 年 6 月 7 日
- Spark SQL 実行エンジンに影響するバグを修正した。
- Delta Lake でのエラー処理が改善されました。
2018 年 5 月 17 日
- Azure Data Lake Store に格納されているデータの読み取りの安定性が向上しました。
- RDD キャッシュに影響するバグを修正しました。
- Spark SQL の Null 安全等号に影響するバグを修正しました。
- ストリーミング クエリの特定の集計に影響するバグを修正しました。
2018 年 4 月 24 日
- Azure Data Lake Store へのアクセスの安定性を向上させるために、Azure Data Lake Store SDK を 2.0.11 から 2.2.8 にアップグレードしました。
spark.databricks.io.hive.fastwriter.enabled
がfalse
の場合 にパーティション分割された Hive テーブルへの上書きの挿入に影響するバグを修正しました。- タスクのシリアル化に失敗した問題を修正しました。
2018 年 3 月 9 日
- まれに一部出力ファイルの喪失を招く可能性のある競合状態が原因で発生する問題を修正しました。
2018 年 3 月 1 日
- 停止に長時間かかる可能性があるストリームの処理効率が向上しました。
- Python のオートコンプリートに影響する問題を修正しました。
- Ubuntu セキュリティパッチを適用しました。
- Python UDF とウィンドウ関数を使用する特定のクエリに影響を与える問題を修正しました。
- テーブルアクセス制御が有効になっているクラスターでの UDF の使用に影響する問題を修正しました。
2018 年 1 月 29 日
- Azure Blob ストレージに格納されているテーブルの操作に影響する問題を修正しました。
- 空の DataFrame での dropDuplicates 後の集計を修正しました。
Databricks Runtime 3.4 (EoS)
「Databricks Runtime 3.4 (EoS)」を参照してください。
2018 年 6 月 7 日
- Spark SQL 実行エンジンに影響するバグを修正した。
- Delta Lake でのエラー処理が改善されました。
2018 年 5 月 17 日
- Azure Data Lake Store に格納されているデータの読み取りの安定性が向上しました。
- RDD キャッシュに影響するバグを修正しました。
- Spark SQL の Null 安全等号に影響するバグを修正しました。
2018 年 4 月 24 日
spark.databricks.io.hive.fastwriter.enabled
がfalse
の場合 にパーティション分割された Hive テーブルへの上書きの挿入に影響するバグを修正しました。
2018 年 3 月 9 日
- まれに一部出力ファイルの喪失を招く可能性のある競合状態が原因で発生する問題を修正しました。
2017 年 12 月 13 日
- Scala の UDF に影響する問題を修正しました。
- 非 DBFS パスに格納されているデータソーステーブルのデータ スキップ インデックスの使用に影響する問題を修正しました。
2017 年 12 月 7 日
- シャッフルの安定性が向上しました。
サポート対象外の Databricks Runtime リリース
元のリリース ノートについては、小見出しの下にあるリンクに従ってください。