Azure Data Factory とは何ですか。
最初に、Azure Data Factory がデータの整理とビジネス分析情報の作成に適した選択肢であるかどうかを判断するのに役立つように、その概要について説明します。
Azure Data Factory は、クラウドベースの抽出、変換、読み込み (ETL) およびデータ統合サービスであり、次のことを行うデータ駆動型ワークフローを作成できます。
- データ移動を調整する。
- 大規模なデータを変換する。
Note
"データ駆動型ワークフロー" は、パイプラインとも呼ばれます。
Azure Data Factory を使うと、生データを意味のあるデータ ストアとデータ レイクに再編成でき、より良いビジネス上の意思決定を行うための基盤が得られます。
データ分析とは
データ分析は、生データを収集して調査し、そこから結論を引き出すプロセスです。 このプロセスは、データが複数の場所にあると (たとえば、ホストされたデータベースとオンプレミスの場所)、難しい場合があります。
ヒント
"生データ" とは、ソースから収集され、処理されていないデータのことです。 "未整理データ" と呼ばれることもあります。
Azure には、組織のデータ分析を支援するために実装できる、次のような複数のテクノロジがあります。
- Azure Synapse Analytics
- Azure Blob Storage
- Azure Data Lake Storage
- Azure Data Lake Analytics
- Azure Analysis Services
- Azure HDInsight
- Azure Databricks
- Azure Machine Learning
必要に応じて、これらのサービスの一部またはすべてを使用して、組織のデータを分析できます。 しかしながら、これらのサービスはいずれもデータ統合に対応していません。 "データ統合" を行うと、複数のソースからデータを収集し、この結合データをデータ分析に適した場所に読み込むことができます。 必要であれば、この処理中にデータを変換することができます。 これらのタスクは手動で実行できますが、Azure Data Factory の使用を検討することができます。
Azure Data Factory の定義
Azure Data Factory は、次の表で説明するように、2 つの特定のコミュニティのニーズに対応するように設計されたクラウドベースのデータ統合サービスです。
コミュニティ | コミュニティのニーズの説明 |
---|---|
ビッグ データ コミュニティ | このコミュニティは、大量の多様なデータを管理するテクノロジに依存します。 これらの方たちに向けて、Azure Data Factory には、クラウドにパイプラインを作成して実行する手段が用意されています。 これらのパイプラインから、クラウドとオンプレミスの両方のデータ サービスにアクセスできます。 これらのパイプラインは、通常、Azure Synapse Analytics、Azure BLOB、Azure Data Lak などのテクノロジと連携して動作します。 また、Azure HDInsight、Azure Databricks、Azure Machine Learning もそうです。 |
リレーショナル データ ウェアハウス コミュニティ | このコミュニティは、通常、Microsoft SQL Server などのテクノロジに依存します。 SQL Server Integration Services (SSIS) は、SSIS パッケージの作成によく使用されます。 Azure Data Factory は、このコミュニティに Azure で SSIS パッケージを実行する機能を提供し、クラウドとオンプレミスの両方のデータ サービスにアクセスできるようにします。 |
Note
"パッケージ" は、Azure Data Factory パイプラインに似ています。 パッケージごとに、データを抽出、読み込み、変換、またはその他の方法で処理するプロセスを定義します。
主なポイントは、Azure Data Factory が、データ統合のための単一のクラウド サービスであるということです。 すべてのデータ統合用に単一のツール セットと共通の管理インターフェイスを提供し、存在する場所に関係なくすべてのデータ ソースをサポートします。
- Azure
- オンプレミス
- サードパーティのパブリック クラウド プラットフォーム
データ分析に役立つ Azure Data Factory
Azure Data Factory を使用して、以下を実行できます。
複雑な ETL プロセスを構築します。 これらのプロセスでは、データ フローまたは次のようなコンピューティング サービスのいずれかを使用して、データを視覚的に変換できます。
- Azure HDInsight Hadoop
- Azure Databricks
- Azure SQL データベース
この変換したデータをデータ ストアに公開して、ビジネス インテリジェンス アプリで使用できるようにします。
次の図では、外部データ ソースが Azure Data Factory に接続されています。 データの取り込みにストレージ BLOB が使用され、ストレージとして Azure Synapse Analytics が使用されています。 これらの要素によって、オーケストレーションが行われます。 また、分析および視覚化コンポーネントの Azure Analysis Service と Power BI も Azure Data Factory に接続されています。
ヒント
Azure Data Factory には、90 個を超えるメンテナンス不要の組み込みコネクタが用意されています。