Azure Data Factory での変換方法について説明する
Azure Data Factory では、データを取り込むためのさまざまな方法が用意されているのと同様に、変換を行うための多くの方法も用意されています。 自分のチームのスキルセットに一致する方法を選択することも、既にデータ資産で使用している既存のテクノロジを活用することもできます。 また、マッピング データ フローを使用して、コードをまったく書くことなく、変換を実行することもできます。
マッピング データ フローを使用してデータを変換する
マッピング データ フローは、コードを使用せずに、さまざまなデータ変換を視覚的に構築するための環境を提供します。 作成したデータ フローは、その後、マッピング データ フローを実行すると自動的にプロビジョニングされる、スケールアウトされた Apache Spark クラスター上で実行されます。 マッピング データ フローには、変換の進行状況を確認できるように変換の実行を監視したり、発生する可能性のあるエラーを把握したりするための機能もあります
コンピューティング リソースを使用してデータを変換する
Azure Data Factory では、コンピューティング リソースを呼び出し、ジョブにより適していると思われるデータ プラットフォーム サービスによってデータを変換することもできます。 たとえば、Azure Data Factory では、Azure Synapse Analytics インスタンス内の Spark プールなどの分析データ プラットフォームへのパイプラインを作成し、Python を使用して複雑な計算を実行できます。 別の例として、Transact-SQL を使用してストアド プロシージャを実行するために、Azure SQL データベース インスタンスにデータを送信することも可能です。 次の表に示すように、さまざまなコンピューティング リソースと、それらが関連付けられていて実行できるアクティビティがあります。
Compute 環境 | activities |
---|---|
On-demand HDInsight クラスターまたは独自の HDInsight クラスター | Hive、Pig、Spark、MapReduce、Hadoop Streaming |
Azure Batch | カスタム アクティビティ |
Azure Machine Learning スタジオ マシン | 学習アクティビティ: バッチ実行とリソース更新 |
Azure Machine Learning | Azure Machine Learning 実行パイプライン |
Azure Data Lake Analytics | Data Lake Analytics U-SQL |
Azure SQL、Azure SQL Data Warehouse、SQL Server | ストアド プロシージャ |
Azure Databricks | Notebook、Jar、Python |
Azure 関数 | Azure Functions アクティビティ |
SQL Server Integration Services (SSIS) パッケージを使用してデータを変換する
多くの組織は、オンプレミスとクラウドのデータ ストアからのインジェストと変換両方のロジックを含む SSIS パッケージに、数十年にわたり開発投資を行っています。 Azure Data Factory には、SSIS パッケージをネイティブに実行するための Azure-SSIS Integration Runtime を作成することによって、既存の SSIS ワークロードをリフト アンド シフトする機能があります。 Azure-SSIS Integration Runtime を使用すると、オンプレミスで SSIS を使用する場合と同様に、SQL Server Data Tools (SSDT) や SQL Server Management Studio (SSMS) などの使い慣れたツールを使用して、変更をほとんど、またはまったく加えずに、既存の SSIS パッケージをデプロイして管理することができます。