ソース データ ストアからターゲット データ ストアにデータを増分読み込みする
適用対象: Azure Data Factory Azure Synapse Analytics
ヒント
企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。
データ統合ソリューションでは、初回のフル データ読み込みの後、増分 (または差分) データを読み込む手法が広く利用されています。 このセクションの各チュートリアルでは、Azure Data Factory を使用して、データを増分読み込みするさまざまな方法を紹介しています。
基準値を使用してデータベースから差分データを読み込む
このケースでは、ソース データベースにおける基準値を定義します。 基準値とは、最終更新タイムスタンプやインクリメントされるキーを格納する列のことです。 差分読み込みソリューションでは、古い基準値から新しい基準値までの間に生じた変更済みのデータが読み込まれます。 このアプローチのワークフローを表したのが次の図です。
具体的な手順については、次のチュートリアルを参照してください。
- Azure SQL Database 内の 1 つのテーブルから Azure BLOB ストレージにデータを増分コピーする
- SQL Server インスタンスにある複数のテーブルから Azure SQL Database にデータを増分コピーする
テンプレートについては、以下を参照してください。
Change Tracking テクノロジを使用して SQL DB から差分データを読み込む
Change Tracking テクノロジは、SQL Server と Azure SQL Database において、アプリケーションのための効率的な変更追跡メカニズムとなる軽量ソリューションです。 挿入、更新、削除されたデータをアプリケーションから簡単に特定することができます。
このアプローチのワークフローを表したのが次の図です。
詳細な手順については、次のチュートリアルを参照してください。
LastModifiedDate を使用して新しいファイルと変更済みのファイルを読み込む
LastModifiedDate を使用して、新しいファイルと変更されたファイルのみをターゲット ストアにコピーすることができます。 ADF はソース ストアのすべてのファイルをスキャンし、LastModifiedDate に基づいてファイル フィルターを適用して、前回以降の新しいファイルと更新されたファイルのみをターゲット ストアにコピーします。 ADF で大量のファイルをスキャンするが、数個のファイルしかコピー先にコピーしない場合、ファイルのスキャン プロセスがあるため、やはり長い時間がかかることに注意してください。
詳細な手順については、次のチュートリアルを参照してください。
テンプレートについては、以下を参照してください。
時間でパーティション分割されたフォルダーまたはファイルの名前を使用して新しいファイルを読み込む
ファイルまたはフォルダーが時間 (ファイル名またはフォルダー名に含まれるタイムスライス情報) でパーティション分割されているときに (例: /yyyy/mm/dd/file.csv)、新しいファイルのみをコピーすることができます。 これは、新しいファイルを増分読み込みする場合に最も効率のよいアプローチです。
詳細な手順については、次のチュートリアルを参照してください。
関連するコンテンツ
次のチュートリアルに進みます。