Azure でのデータ パイプライン オーケストレーション テクノロジの選択
ほとんどのビッグ データ ソリューションは、ワークフローにカプセル化された繰り返されるデータ処理操作で構成されます。 パイプライン オーケストレーターは、これらのワークフローを自動化するのに役立つツールです。 オーケストレーターは、ジョブのスケジュール設定、ワークフローの実行、およびタスク間の依存関係を調整できます。
データ パイプライン オーケストレーションのオプションとは
Azure では、次のサービスとツールがパイプライン オーケストレーション、制御フロー、およびデータ移動のコア要件を満たしています。
これらのサービスとツールは、単独で使用することも、一緒に使用してハイブリッド ソリューションを作成することもできます。 たとえば、Azure Data Factory V2 の Integration Runtime (IR) は、管理対象の Azure コンピューティング環境で SSIS パッケージをネイティブに実行できます。 これらのサービスの機能には重複がありますが、大きな違いはほとんどありません。
主要な選択条件
選択肢を絞り込むために、まず次の質問に答えてください。
データを移動して変換するためにビッグ データの機能が必要ですか。 通常、これは、数ギガバイトから数テラバイトのデータがあることを意味します。 「はい」の場合は、ビッグ データに最適なものにオプションを絞りです。
大規模に操作できる管理対象サービスが必要ですか。 「はい」の場合は、ローカルな処理能力によって制限されないクラウド ベースのサービスのいずれかを選択します。
データ ソースの一部がオンプレミスに配置されていますか。 「はい」の場合は、クラウドとオンプレミスのデータ ソースまたは変換先の両方で機能できるオプションを探します。
ソース データは、HDFS ファイル システムの BLOB ストレージに格納されていますか。 該当する場合は、Hive クエリをサポートするオプションを選択します。
機能のマトリックス
次の表は、機能の主な相違点をまとめたものです。
一般的な機能
機能 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight での Oozie |
---|---|---|---|
マネージド | はい | いいえ | はい |
クラウド ベース | はい | いいえ (ローカル) | はい |
前提条件 | Azure サブスクリプション | SQL Server | Azure サブスクリプション、HDInsight クラスター |
管理ツール | Azure Portal、PowerShell、CLI、.NET SDK | SSMS、PowerShell | Bash シェル、Oozie REST API、Oozie web UI |
価格 | 使用した分を支払う | ライセンス/機能の料金を支払う | HDInsight クラスターでの実行に対する追加料金なし |
パイプラインの機能
機能 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight での Oozie |
---|---|---|---|
データをコピーする | はい | イエス | はい |
カスタム変換 | はい | はい | はい (MapReduce、Pig、および Hive ジョブ) |
Azure Machine Learning のスコア付け | はい | はい (スクリプト使用) | いいえ |
HDInsight On-Demand | はい | いいえ | いいえ |
Azure Batch | はい | いいえ | いいえ |
Pig、Hive、MapReduce | はい | いいえ | はい |
Spark | はい | いいえ | いいえ |
SSIS パッケージの実行 | はい | はい | いいえ |
制御フロー | はい | イエス | はい |
オンプレミスのデータへのアクセス | はい | はい | いいえ |
スケーラビリティ機能
機能 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight での Oozie |
---|---|---|---|
スケールアップ | はい | いいえ | いいえ |
スケール アウト | はい | いいえ | はい (クラスターへの worker ノードの追加) |
ビッグ データに合わせて最適化 | はい | いいえ | はい |
共同作成者
この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。
プリンシパル作成者:
- Zoiner Tejada | CEO 兼アーキテクト
次のステップ
- Azure Data Factory と Azure Synapse Analytics のパイプラインとアクティビティ
- Azure Data Factory に Azure-SSIS Integration Runtime をプロビジョニングする
- HDInsight での Oozie