Fabric Runtime 1.3 (GA)
Fabric ランタイムは、Azure とのシームレスな統合を提供します。 Apache Spark を使用するデータ エンジニアリング プロジェクトとデータ サイエンス プロジェクトの両方に高度な環境を提供します。 この記事では、ビッグ データ計算用の最新のランタイムである Fabric ランタイム 1.3 の重要な機能とコンポーネントの概要について説明します。
Microsoft Fabric Runtime 1.3 は最新の GA ランタイム バージョンであり、データ処理機能を強化するために設計された次のコンポーネントとアップグレードが組み込まれています。
- Apache Spark 3.5
- オペレーティング システム: Mariner 2.0
- Java: 11
- Scala: 2.12.17
- Python: 3.11
- Delta Lake: 3.2
- R: 4.4.1
ヒント
Fabric Runtime 1.3 には、ネイティブ実行エンジンのサポートが含まれており、追加コストなしでパフォーマンスを大幅に向上させることができます。 環境内のすべてのジョブとノートブックでネイティブ実行エンジンを有効にするには、環境設定に移動して Spark コンピューティングを選び、[アクセラレーション] タブに移動して、[ネイティブ実行エンジンを有効にする] をオンにします。 保存して発行した後、この設定は環境全体に適用されるため、新しいジョブとノートブックはすべてそれを自動的に継承し、向上したパフォーマンス機能からの恩恵を得ます。
次の手順に従って、ランタイム 1.3 をワークスペースに統合し、その新機能を使用します。
- Fabric ワークスペース内の [ワークスペース設定] タブに移動します。
- [データ エンジニアリング/サイエンス] に進み、[Spark の設定] を選択します。
- [環境] タブを選択します。
- [ランタイム バージョン] の下のドロップダウンを展開します。
- [1.3 (Spark 3.5、Delta 3.2)] を選んで、変更を保存します。 このアクションにより、ワークスペースのデフォルトのランタイムとして 1.3 が設定されます。
これで、Fabric Runtime 1.3 (Spark 3.5 と Delta Lake 3.2) で導入された最新の向上と機能を使い始めることができます。
主な注目点
Apache Spark 3.5
Apache Spark 3.5.0 は、3.x シリーズの 6 番目のバージョンです。 このバージョンは、オープンソース コミュニティ内の広範なコラボレーションの製品であり、Jira に記録されている 1,300 件を超える問題に対処しています。
このバージョンでは、構造化ストリーミングの互換性がアップグレードされています。 さらに、このリリースでは、PySpark と SQL 内の機能が広がります。 SQL 識別子句、SQL 関数呼び出しの名前付き引数、HyperLogLog の近似集計に SQL 関数を含めるなどの機能が追加されます。 その他の新機能には、Python ユーザー定義テーブル関数、DeepSpeed による分散トレーニングの簡略化、ウォーターマーク伝達や dropDuplicatesWithinWatermark 操作などの新規構造化ストリーミング機能も含まれます。
完全な一覧と詳細な変更については、https://spark.apache.org/releases/spark-release-3-5-0.html をチェックしてください。
Delta Spark
Delta Lake 3.2 では、Delta Lake を複数の形式で相互運用可能にし、操作しやすくして、パフォーマンスを高めるための一連の取り組みが行われています。 Delta Spark 3.2 は、Apache Spark™ 3.5 を基にして構築されています。 Delta Spark Maven アーティファクトの名前が delta-core から delta-spark に変更されました。
完全な一覧と詳細な変更については、https://docs.delta.io/3.2.0/index.html をチェックしてください。
ヒント
最新の情報、変更の詳細な一覧、および Fabric ランタイムの特定のリリース ノートについては、Spark ランタイムのリリースと更新を確認しサブスクライブしてください。