次に予定されているもの
今後の Azure Databricks リリースについて説明します。
バリアント データ型を操作するための動作の変更
Azure Databricks では、次の演算子と句における比較で、バリアント データ型のフィールドを使用するサポートが制限されています。
DISTINCT
INTERSECT
EXCEPT
UNION
DISTRIBUTE BY
これらの DataFrame 関数も同じです。
df.dropDuplicates()
df.repartition()
Azure Databricks では、バリアント データ型の比較でこれらの演算子と関数はサポートされていません。これは、非決定論的な結果が生成されるためです。
これらの式は、Databricks Runtime 16.1 以降でバリアントを使用するとブロックされます。 メンテナンス リリースでは、Databricks Runtime 15.3 以降でのサポートがブロックされます。
Azure Databricks のワークロードまたはテーブルで VARIANT
の種類を使用する場合は、次の推奨されるアクションを実行します。
- リストされている演算子のいずれかでバリアントを使用するクエリを検索します。
- バリアント値を非バリアント型に明示的にキャストする推奨パターンを使用して、これらのクエリを更新します。
次の表に、既存の意図しない機能と推奨される回避策の例を示します。
意図しない使用 | 推奨される使用 |
---|---|
SELECT distinct(variant_expr) FROM ... |
SELECT distinct(variant_expr?::string) FROM ... |
SELECT variant_expr FROM ... EXCEPT SELECT variant_expr FROM ... |
SELECT variant_expr?::string FROM ... EXCEPT SELECT variant_expr?::string FROM ... |
手記
比較または個別の操作に使用するフィールドについては、バリアント列からこれらのフィールドを抽出し、バリアント以外の型を使用して格納することをお勧めします。
クエリバリアントデータを参照してください。 追加のサポートまたはアドバイスが必要な場合は、Databricks アカウントの担当者にお問い合わせください。
Databricks Marketplace と Partner Connect UI の更新
Partner Connect と Marketplace を単一の Marketplace リンクにマージすることで、サイドバーを簡略化しています。 新しい Marketplace リンクがサイドバーの上に表示されます。
IPYNB ノートブックは、2024 年 12 月に Azure Databricks の既定のノートブック形式になります
現在、Databricks では、既定で "Databricks ソース形式" のすべての新しいノートブックが作成されます。 2024 年 12 月、新しい既定のノートブック形式は IPYNB (.ipynb
) になります。 この新しい既定値は、Databricks ソース形式を使用する場合は、ワークスペース ユーザー 設定 ペインのユーザーが変更できます。
ワークスペース ファイルは、2025 年 2 月 1 日にすべての Azure Databricks ワークスペースで有効になります
Databricks では、2025 年 2 月 1 日にすべての Azure Databricks ワークスペース のワークスペース ファイルが有効になります。 この変更により、ワークスペース ユーザーは新しいワークスペース ファイル機能を使用できなくなります。 2025 年 2 月 1 日以降、Azure Databricks PATCH workspace-conf/setstatus REST API で enableWorkspaceFilesystem
プロパティを使用してワークスペース ファイルを無効にすることはできません。 ワークスペース ファイルの詳細については、「ワークスペース ファイルとは」を参照してください。.
Delta Sharingでは、テーブルはデフォルトで履歴と共有されます。
Databricks では、Delta Sharing 機能を使用して共有されるテーブルの既定の設定を、履歴を含むように変更する予定です。 以前は、履歴の共有は既定で無効でした。 テーブル履歴を共有すると、読み取りパフォーマンスが向上し、高度なデルタ最適化が自動的にサポートされます。
すべての新しい Azure Databricks アカウントで既定で有効になっている予測最適化
11 月 11 日、Databricks では、すべての new Azure Databricks アカウントの既定値として予測最適化が有効になります。 以前は、既定では無効になっており、アカウント管理者が有効にできました。 予測最適化が有効になっている場合、Azure Databricks は Unity カタログのマネージド テーブルのメンテナンス操作を自動的に実行します。 予測最適化の詳細については、「 Unity カタログのマネージド テーブルの予測最適化」を参照してください。
コストの削減と、ワークフロー ワークロードのサーバーレス コンピューティングのパフォーマンスとコストの制御の向上
現在サポートされている自動パフォーマンス最適化に加えて、ワークフロー最適化機能のサーバーレス コンピューティングの機能強化により、ワークロードがパフォーマンスとコストのどちらに最適化されているかをより詳細に制御できます。 詳細については、「 ノートブック、ジョブ、パイプラインのサーバーレス コンピューティングでのコスト削減を参照してください。
従来のダッシュボード バージョンのサポートに対する変更
Databricks では、AI/BI ダッシュボード (旧称 Lakeview ダッシュボード) を使用することを推奨しています。 以前のバージョンのダッシュボード (以前は Databricks SQL ダッシュボードと呼ばられていた) は、 legacy ダッシュボードと呼ばれるようになりました。 Databricks は、新しいレガシ ダッシュボードの作成を推奨していません。 AI/BI ダッシュボードでは、AI 支援の作成、ドラフトモードと公開モード、クロスフィルタリングなど、従来のダッシュボードと比較して改善された機能が提供されます。
最新バージョンへの移行に役立つアップグレード ツールは、ユーザー インターフェイスと API の両方で使用できます。 UI で組み込みの移行ツールを使用する方法については、「 従来のダッシュボードを AI/BI ダッシュボードに組み込む」を参照してください。 REST API を使用したダッシュボードの作成と管理に関するチュートリアルについては、「 Azure Databricks API を使用してダッシュボードを管理する。
サーバーレス コンピューティング ワークロードの帰属の変更
現在、課金対象の使用状況システム テーブルには、run_as
、job_id
、job_run_id
、notebook_id
が null 値のサーバーレス SKU 課金レコードが含まれる場合があります。 これらのレコードは、特定のワークロードに直接起因しない共有リソースに関連するコストを表しています。
コストのレポートを簡素化するために、Databricks ではまもなく、これらの共有コストが発生元の特定のワークロードに帰属するようになります。 ワークロードの識別子フィールドが null 値の課金レコードは表示されなくなります。 サーバーレス コンピューティングの使用量を増やし、さらにワークロードを追加すると、請求書におけるこれらの共有コストの割合が減少します。より多くのワークロード間で共有されることになるためです。
サーバーレス コンピューティング コストの監視について詳しくは、「サーバーレス コンピューティングのコストを監視する」を参照してください。
監査ログの sourceIpAddress フィールドにポート番号が含まれなくなる
バグにより、特定の承認および認証監査ログの sourceIPAddress
フィールドに IP に加えてポート番号が含まれます (たとえば、"sourceIPAddress":"10.2.91.100:0"
)。 ポート番号 (0
としてログに記録される) は、実際の値を示すものではなく、Databricks 監査ログのその他の部分と矛盾します。 監査ログの一貫性を高めるために、Databricks では、これらの監査ログ イベントの IP アドレスの形式を変更する予定です。 この変更は、2024 年 8 月上旬から徐々にロールアウトされます。
監査ログに sourceIpAddress
という 0.0.0.0
が含まれている場合、Databricks はログ記録を停止する可能性があります。
レガシ Git 統合が 1 月 31 日に EOL になります
2024 年 1 月 31 日以降、Databricks はレガシ ノートブック Git 統合を削除します。 この機能は 2 年以上前からレガシ状態であり、2023 年 11 月以降は製品 UI に非推奨の通知が表示されています。
レガシ Git 統合から Databricks Git フォルダー (旧称 Repos) への移行の詳細については、「レガシ Git 統合から Databricks Repos への切り替え」を参照してください。 この削除により影響を受けて、拡張機能が必要になる場合は、Databricks アカウント チームにお問い合わせください。
JDK8 と JDK11 がサポート対象外に
Azure Databricks では、Spark 4.0 リリース時の、次のメジャー Databricks Runtime バージョンにおいて JDK 8 をサポート対象外とする予定です。 Azure Databricks では、Databricks Runtime 14.x の次の LTS バージョンで JDK 11 サポートを削除する予定です。
Unity Catalog を新しいワークスペースで自動的に有効化する
Databricks では、新しいワークスペースに対する Unity Catalog の自動的な有効化を開始しました。 自動有効化により、ワークスペースの作成後にアカウント管理者が Unity Catalog を構成する必要はなくなります。 ロールアウトは、アカウント間で徐々に進めています。
sqlite-jdbc のアップグレード
Databricks Runtime では、すべての Databricks Runtime メンテナンス リリースで sqlite-jdbc バージョンを 3.8.11.2 から 3.42.0.0 にアップグレードする予定です。 バージョン 3.42.0.0 の API は、3.8.11.2 と完全に互換性がありません。 メソッドと戻り値の型がバージョン 3.42.0.0 を使用していることを確認します。
コードで sqlite-jdbc を使用している場合は、sqlite-jdbc 互換性レポートを確認してください。