Azure Data Factory のパブリック プレビューを発表: 情報生成パイプラインの構築と管理のためのソリューション
このポストは、10 月 29 日に投稿された Data Factory Public Preview – build and manage information production pipelines の翻訳です。
データ処理はかつてないほど多様化しており、各地に分散して存在するオンプレミスやクラウドに蓄積されたさまざま種類や規模のデータを処理するようになっています。このため開発者には、大量のカスタム ロジックを作成し、こうしたデータやデータ処理を十全に管理し連携できる情報生成システムを実現することが求められています。
マイクロソフトはこのたび Azure Data Factory のプレビューをリリースしました。Data Factory はデータの保管、処理、移行を行うサービスからマネージド データ生成パイプラインを作成するマネージド サービスであり、現在既に提供を開始しています。使用方法としては、Azure ポータルから数クリックで、またはコマンドラインを実行して簡単に新規の Data Factory を作成し、データや処理リソースにリンクできます。このプレビュー版では SQL Server のオンプレミス データや Azure の Blob、Table、Database サービスのクラウド データも利用できます。プレビュー版に対する皆様のフィードバックをもとに、さらに必要なソースを追加していく予定です。データ管理ゲートウェイを通じてオンプレミス データにアクセスできるので、オンプレミスの SQL Server への接続の構成や管理も簡単です。
データ処理は Hive、Pig や C# のカスタム アクティビティを通じて行います。これらのアクティビティを使用して、データのクリーニング、データ項目のマスク、データの変換を幅広い種類の複雑な方法で行うことができます。Hive と Pig のアクティビティは、作成した HDInsight クラスターで実行できます。また、Data Factory に Hadoop クラスターのライフサイクル管理を完全に任せることもできます。作成したアクティビティをまとめてパイプラインを作成し、実行スケジュールを設定すれば完了です。Hadoop クラスターのセットアップや管理は必要ありません。Data Factory には最新型の監視ダッシュボードが備わっており、データ パイプラインをデプロイするとすぐに監視ダッシュボードに表示されます。
パイプラインを作成して Data Factory にデプロイすると、エンドツーエンドのデータ パイプラインの状態の評価、問題の特定、必要な対応をすばやく行うことができます。Azure プレビュー ポータルにはパイプラインやデータの入出力のレイアウトが視覚的に表示されます。データ パイプラインの関係や依存関係をすべてのデータ ソースについて確認できるので、データがどこで生成され、どこへ移動するのかを常に把握できます。ジョブ実行履歴やデータの生成状況、システムの状態を単一の監視ダッシュボードでチェックできます。
また、データ パイプラインを使用して、変換したクラウドのデータをオンプレミスの SQL Server データベースに自動的に送信したり、クラウド ストレージ ソースに保管して BI やアナリティクス用のツールやアプリケーションで利用したりすることができます。
利用を開始する際は、以下のことを実行してください。
- ステップバイステップのチュートリアル (英語) に従って最初のパイプラインを構築する
- Data Factory の関連資料を参照して知識を深める
- Data Factory GitHub リポジトリ (英語) で、豊富なサンプルを入手したり、機能を強化したり、独自のサンプルを追加してみる
- MSDN フォーラムで、Data Factory についての疑問点を質問する
今回、Data Factory を公開できたことをたいへん嬉しく思っています。ぜひお試しいただき、Data Factory に追加すべき機能や変更すべき機能、ご意見やご感想、アイデアをこちら (英語) にお寄せください。