U-SQL 開発者向けの Apache Spark について
重要
Azure Data Lake Analyticsは、2024 年 2 月 29 日に廃止されました。 詳細については、このお知らせを参照してください。
データ分析の場合、organizationは Azure Synapse Analytics または Microsoft Fabric を使用できます。
Microsoft では、Azure Databricks、Azure HDInsight、Azure Data Lake Analyticsなどの複数の Analytics サービスがサポートされています。 開発者は、分析パイプラインを構築するときに、はっきりと好みのオープンソース ソリューションがあると言っています。 このガイダンスでは、U-SQL 開発者が Apache Spark を理解するのに役立つ情報と、U-SQL のスクリプトを Apache Spark に変換する方法について説明します。
これには、実行できる手順と、いくつかの代替手段が含まれています。
U-SQL を Apache Spark に変換する手順
ジョブ オーケストレーション パイプラインを変換します。
Azure Data Factoryを使用して Azure Data Lake Analytics スクリプトを調整する場合は、それらを調整して新しい Spark プログラムを調整する必要があります。
U-SQL と Spark でデータを管理する方法の違いを理解します。
データを Azure Data Lake Storage Gen1 からAzure Data Lake Storage Gen2に移動する場合は、ファイル データとカタログ管理データの両方をコピーする必要があります。 Azure Data Lake Analytics では、Gen1 Azure Data Lake Storageのみがサポートされます。 詳細については、「 Spark データ形式について」を参照してください。
U-SQL スクリプトを Spark に変換します。
U-SQL スクリプトを変換する前に、分析サービスを選択する必要があります。 利用可能なコンピューティング サービスの一部を次に示します。
- Azure Data Factory データフロー: マッピング データ フローは、視覚的に設計されたデータ変換であり、データ エンジニアはコードを記述せずにグラフィカルなデータ変換ロジックを開発できます。 複雑なユーザー コードの実行には適していませんが、従来の SQL に似たデータフローの変換を簡単に表すことができます
- Azure HDInsight Hive: HDInsight 上の Apache Hive は、抽出、変換、読み込み (ETL) 操作に適しています。 つまり、U-SQL スクリプトを Apache Hive に変換します。
- Azure HDInsight Spark や Azure Databricks などの Apache Spark エンジン これは、U-SQL スクリプトを Spark に変換することを意味します。 詳しくは、Spark のデータ形式に関する記事をご覧ください
注意事項
Azure Databricks と Azure HDInsight Spark はどちらもクラスター サービスであり、Azure Data Lake Analytics のようなサーバーレス ジョブではありません。 適切なコスト/パフォーマンス比を得るためのクラスターのプロビジョニング方法と、コストを最小限に抑えるための有効期間の管理方法を、検討する必要があります。 これらのサービスには、.NET で記述されたユーザー コードとは異なるパフォーマンス特性があるため、ラッパーを作成するか、サポートされている言語でコードを書き直す必要があります。 詳細については、「Spark データ形式の理解」、U-SQL 開発者向けの Apache Spark コードの概念の理解、.NET for Apache Spark に関するページを参照してください。
次のステップ
- U-SQL 開発者向けの Spark データ形式について
- U-SQL 開発者向けの Spark コードの概念について
- ビッグ データ分析ソリューションを Azure Data Lake Storage Gen1 から Azure Data Lake Storage Gen2 にアップグレードする
- .NET for Apache Spark
- Azure Data Factory で Hadoop Hive アクティビティを使用してデータを変換する
- Azure Data Factory での Spark アクティビティを使用したデータの変換
- Apache Spark とは - Azure HDInsight