Azure でデータ パイプライン オーケストレーション テクノロジを選択する
ほとんどのビッグ データ ソリューションは、ワークフローにカプセル化された繰り返しのデータ処理操作で構成されています。 パイプライン オーケストレーターは、これらのワークフローを自動化するのに役立つツールです。 オーケストレーターは、ジョブのスケジュール設定、ワークフローの実行、タスク間の依存関係の調整を行うことができます。
データ パイプライン オーケストレーションのオプションは何ですか?
Azure では、次のサービスとツールが、パイプライン オーケストレーション、制御フロー、およびデータ移動のコア要件を満たします。
これらのサービスとツールは、互いに独立して使用することも、ハイブリッド ソリューションを作成するために一緒に使用することもできます。 たとえば、Azure Data Factory V2 の統合ランタイム (IR) は、マネージド Azure コンピューティング環境で SSIS パッケージをネイティブに実行できます。 これらのサービス間の機能にはいくつかの重複がありますが、いくつかの重要な違いがあります。
キー選択基準
選択肢を絞り込むには、まず次の質問に答えます。
データの移動と変換にビッグ データ機能が必要ですか? 通常、これは数ギガバイトからテラバイトのデータを意味します。 "はい" の場合は、ビッグ データに最適なオプションに絞り込まれます。
大規模に動作できるマネージド サービスが必要ですか? "はい" の場合は、ローカルの処理能力によって制限されないクラウドベースのサービスのいずれかを選択します。
データ ソースの一部はオンプレミスにありますか? "はい" の場合は、クラウドとオンプレミスの両方のデータ ソースまたは変換先で使用できるオプションを探します。
ソース データは HDFS ファイルシステム上の Blob Storage に格納されていますか? その場合は、Hive クエリをサポートするオプションを選択します。
機能マトリックス
次の表は、機能の主な違いをまとめたものです。
一般的な機能
能力 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight での Oozie |
---|---|---|---|
管理対象 | はい | いいえ | はい |
クラウドベース | はい | いいえ (ローカル) | はい |
前提 | Azure サブスクリプション | SQL Server | Azure サブスクリプション、HDInsight クラスター |
管理ツール | Azure Portal、PowerShell、CLI、.NET SDK | SSMS、PowerShell | Bash シェル、Oozie REST API、Oozie Web UI |
価格設定 | 使用量ごとの支払い | 機能のライセンス/支払い | HDInsight クラスターの実行に加えて追加料金は発生しません |
パイプライン機能
能力 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight での Oozie |
---|---|---|---|
データのコピー | はい | はい | はい |
カスタム変換 | はい | はい | はい (MapReduce、Pig、および Hive ジョブ) |
Azure Machine Learning 評価 | はい | はい (スクリプトを使用) | いいえ |
HDInsight オンデマンド | はい | いいえ | いいえ |
Azure Batch | はい | いいえ | いいえ |
Pig、Hive、MapReduce | はい | いいえ | はい |
火花 | はい | いいえ | いいえ |
SSIS パッケージの実行 | はい | はい | いいえ |
制御フロー | はい | はい | はい |
オンプレミスのデータにアクセスする | はい | はい | いいえ |
スケーラビリティ機能
能力 | Azure Data Factory | SQL Server Integration Services (SSIS) | HDInsight での Oozie |
---|---|---|---|
規模を拡大する | はい | いいえ | いいえ |
スケール アウト | はい | いいえ | はい (クラスターにワーカー ノードを追加する) |
ビッグ データ用に最適化 | はい | いいえ | はい |
貢献者
この記事は Microsoft によって管理されています。 もともとは次の共同作成者によって作成されました。
主著者:
- ゾイナー・テハダ |CEO およびアーキテクト
次の手順
- Azure Data Factory と Azure Synapse Analytics でのパイプラインとアクティビティ
- Azure Data Factory で Azure-SSIS 統合ランタイムをプロビジョニングする
- HDInsight での Oozie