次の方法で共有


Fabric Runtime 1.3 (GA)

Fabric ランタイムは、Azure とのシームレスな統合を提供します。 Apache Spark を使用するデータ エンジニアリング プロジェクトとデータ サイエンス プロジェクトの両方に高度な環境を提供します。 この記事では、ビッグ データ計算用の最新のランタイムである Fabric ランタイム 1.3 の重要な機能とコンポーネントの概要について説明します。

Microsoft Fabric Runtime 1.3 は最新の GA ランタイム バージョンであり、データ処理機能を強化するために設計された次のコンポーネントとアップグレードが組み込まれています。

  • Apache Spark 3.5
  • オペレーティング システム: Mariner 2.0
  • Java: 11
  • Scala: 2.12.17
  • Python: 3.11
  • Delta Lake: 3.2
  • R: 4.4.1

ヒント

Fabric Runtime 1.3 には、ネイティブ実行エンジンのサポートが含まれており、追加コストなしでパフォーマンスを大幅に向上させることができます。 環境内のすべてのジョブとノートブックでネイティブ実行エンジンを有効にするには、環境設定に移動して Spark コンピューティングを選び、[アクセラレーション] タブに移動して、[ネイティブ実行エンジンを有効にする] をオンにします。 保存して発行した後、この設定は環境全体に適用されるため、新しいジョブとノートブックはすべてそれを自動的に継承し、向上したパフォーマンス機能からの恩恵を得ます。

次の手順に従って、ランタイム 1.3 をワークスペースに統合し、その新機能を使用します。

  1. Fabric ワークスペース内の [ワークスペース設定] タブに移動します。
  2. [データ エンジニアリング/サイエンス] に進み、[Spark の設定] を選択します。
  3. [環境] タブを選択します。
  4. [ランタイム バージョン] の下のドロップダウンを展開します。
  5. [1.3 (Spark 3.5、Delta 3.2)] を選んで、変更を保存します。 このアクションにより、ワークスペースのデフォルトのランタイムとして 1.3 が設定されます。

ランタイム バージョンを選択する場所を示すスクリーンショット。

これで、Fabric Runtime 1.3 (Spark 3.5 と Delta Lake 3.2) で導入された最新の向上と機能を使い始めることができます。

主な注目点

Apache Spark 3.5

Apache Spark 3.5.0 は、3.x シリーズの 6 番目のバージョンです。 このバージョンは、オープンソース コミュニティ内の広範なコラボレーションの製品であり、Jira に記録されている 1,300 件を超える問題に対処しています。

このバージョンでは、構造化ストリーミングの互換性がアップグレードされています。 さらに、このリリースでは、PySpark と SQL 内の機能が広がります。 SQL 識別子句、SQL 関数呼び出しの名前付き引数、HyperLogLog の近似集計に SQL 関数を含めるなどの機能が追加されます。 その他の新機能には、Python ユーザー定義テーブル関数、DeepSpeed による分散トレーニングの簡略化、ウォーターマーク伝達や dropDuplicatesWithinWatermark 操作などの新規構造化ストリーミング機能も含まれます。

完全な一覧と詳細な変更については、https://spark.apache.org/releases/spark-release-3-5-0.html をチェックしてください。

Delta Spark

Delta Lake 3.2 では、Delta Lake を複数の形式で相互運用可能にし、操作しやすくして、パフォーマンスを高めるための一連の取り組みが行われています。 Delta Spark 3.2 は、Apache Spark™ 3.5 を基にして構築されています。 Delta Spark Maven アーティファクトの名前が delta-core から delta-spark に変更されました。

完全な一覧と詳細な変更については、https://docs.delta.io/3.2.0/index.html をチェックしてください。

ヒント

最新の情報、変更の詳細な一覧、および Fabric ランタイムの特定のリリース ノートについては、Spark ランタイムのリリースと更新を確認しサブスクライブしてください。