データのコピー ツールを使用し LastModifiedDate に基づいて新しいファイルおよび変更されたファイルを増分コピーする
適用対象: Azure Data Factory Azure Synapse Analytics
ヒント
企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。
このチュートリアルでは、Azure portal を使用してデータ ファクトリを作成します。 次に、データのコピー ツールを使用して、新しいファイルおよび変更されたファイルのみを Azure Blob Storage から Azure Blob Storage に増分的にコピーするパイプラインを作成します。 LastModifiedDate
を使用して、どのファイルをコピーするかを決定します。
ここで説明した手順を完了すると Azure Data Factory によってソース ストア内のすべてのファイルがスキャンされ、LastModifiedDate
によってファイル フィルターが適用されます。また、新しいファイルまたは前回以降に更新されたファイルのみがコピー先ストアにコピーされます。 Data Factory によって多数のファイルがスキャンされる場合は、継続時間が長くなると予想されることに注意してください。 コピーされるデータ量を減らしても、ファイルのスキャンには時間がかかります。
Note
Data Factory を初めて使用する場合は、「Azure Data Factory の概要」を参照してください。
このチュートリアルでは、以下のタスクを完了します。
- データ ファクトリを作成します。
- データのコピー ツールを使用してパイプラインを作成します。
- パイプラインとアクティビティの実行を監視します。
前提条件
- Azure サブスクリプション:Azure サブスクリプションをお持ちでない場合は、開始する前に 無料アカウント を作成してください。
- Microsoft Azure Storage アカウント:Blob ストレージをソースおよびシンク データ ストアとして使用します。 Azure Storage アカウントがない場合は、ストレージ アカウントの作成に関するページの手順に従ってください。
Blob ストレージに 2 つのコンテナーを作成する
次の手順を実行して、チュートリアル用の Blob ストレージを準備します。
source という名前のコンテナーを作成します。 この作業は、Azure Storage Explorer などのさまざまなツールを使用して実行できます。
destination という名前のコンテナーを作成します。
Data Factory の作成
左側のウィンドウで、 [リソースの作成] を選びます。 [統合]>[Data Factory] を選択します。
[新しいデータ ファクトリ] ページで、 [名前] に「ADFTutorialDataFactory」と入力します。
データ ファクトリの名前はグローバルに一意にする必要があります。 このエラー メッセージが表示されることもあります。
データ ファクトリの名前の値に関するエラー メッセージが表示された場合は、別の名前を入力してください。 たとえば、yournameADFTutorialDataFactory という名前を使用します。 Data Factory アーティファクトの名前付け規則については、Data Factory の名前付け規則に関する記事をご覧ください。
[サブスクリプション] で、新しいデータ ファクトリの作成先となる Azure サブスクリプションを選択します。
[リソース グループ] で、次の手順のいずれかを行います。
[既存のものを使用] を選択し、一覧から既存のリソース グループを選択します。
[新規作成] を選択し、リソース グループの名前を入力します。
リソース グループの詳細については、リソース グループを使用した Azure のリソースの管理に関するページを参照してください。
[バージョン] で、 [V2] を選択します。
[場所] で、データ ファクトリの場所を選択します。 サポートされている場所のみがこの一覧に表示されます。 データ ファクトリで使用されるデータ ストア (Azure Storage、Azure SQL Database など) やコンピューティング (Azure HDInsight など) は、他の場所やリージョンに存在していてもかまいません。
[作成] を選択します
データ ファクトリが作成されるとデータ ファクトリのホーム ページが表示されます。
別のタブで Azure Data Factory のユーザー インターフェイス (UI) を開くには、 [Open Azure Data Factory Studio]\(Azure Data Factory Studio を開く\) タイルで [開く] を選択します。
データのコピー ツールを使用してパイプラインを作成する
Azure Data Factory のホーム ページで [取り込む] タイルを選択して、データ コピー ツールを開きます。
[プロパティ] ページで、次の手順を行います。
[タスクの種類] で [Built-in copy task]\(組み込みコピー タスク\) を選択します。
[Task cadence or task schedule]\(タスクの周期またはタスクのスケジュール\) で、 [Tumbling window]\(タンブリング ウィンドウ\) を選択します。
[Recurrence]\(繰り返し\) で、15 分と指定します。
[次へ] を選びます。
[ソース データ ストア] ページで、次の手順を実行します。
[+ 新しい接続] を選択して、接続を追加します。
ギャラリーから [Azure Blob Storage] を選び、 [続行] を選択します。
[新しい接続 (Azure Blob Storage)] ページで、 [Azure サブスクリプション] の一覧から自分の Azure サブスクリプションを選択し、 [ストレージ アカウント名] の一覧から自分のストレージ アカウントを選択します。 接続をテストし、 [作成] を選択します。
[接続] ブロックで新しく作成した接続を選択します。
[ファイルまたはフォルダー] セクションで、 [参照] を選択して source フォルダーを選択し、 [OK] を選択します。
[File loading behavior]\(ファイル読み込み動作\) で、 [Incremental load: LastModifiedDate]\(増分読み込み: LastModifiedDate\) を選択して、 [Binary copy]\(バイナリ コピー\) を選択します。
[次へ] を選びます。
[Destination data store]\(コピー先データ ストア\) ページで、次の手順のようにします。
作成した AzureBlobStorage 接続を選択します。 これは、コピー元データ ストアと同じストレージ アカウントです。
[フォルダー パス] セクションで、destination フォルダーを見つけて選択し、 [OK] を選択します。
[次へ] を選びます。
[設定] ページの [タスク名] に「DeltaCopyFromBlobPipeline」と入力し、 [次へ] を選択します。 指定したタスク名のパイプラインが Data Factory によって作成されます。
[Summary]\(概要\) ページで設定を確認し、 [次へ] を選択します。
[デプロイ] ページで [監視] を選択してパイプライン (タスク) を監視します。
左側の [監視] タブが自動的に選択されたことがわかります。 アプリケーションの [監視] タブに切り替えます。パイプラインの状態が表示されます。 [最新の情報に更新] を選択して、一覧を更新します。 [パイプライン名] の下にあるリンクを選択して、アクティビティの実行の詳細を表示するか、パイプラインを再実行します。
パイプラインにはアクティビティ (コピー アクティビティ) が 1 つしかないため、エントリが 1 つだけ表示されます。 コピー操作の詳細を確認するには、 [アクティビティの実行] ページで、 [アクティビティ名] 列の [詳細] リンク (眼鏡アイコン) を選択します。 プロパティの詳細については、コピー アクティビティの概要に関するページを参照してください。
BLOB ストレージ アカウントの source コンテナーにはファイルがないので、そのアカウントの destination コンテナーにコピーされたファイルは表示されません。
空のテキスト ファイルを作成し、file1.txt という名前を付けます。 このテキスト ファイルを、ストレージ アカウントの source コンテナーにアップロードします。 この作業は、Azure Storage Explorer をはじめとするさまざまなツールを使用して実行できます。
[パイプラインの実行] ビューに戻るには、 [アクティビティの実行] ページの階層リンク メニューで [すべてのパイプラインの実行] を選択し、同じパイプラインが再び自動的にトリガーされるまで待ちます。
2 番目のパイプラインの実行が完了したら、前述と同じ手順に従って、アクティビティの実行の詳細を確認します。
BLOB ストレージ アカウントの source コンテナーから destination コンテナーに 1 つのファイル (file1.txt) がコピーされたことが表示されます。
空のテキスト ファイルをもう 1 つ作成し、file2.txt という名前を付けます。 このテキスト ファイルを BLOB ストレージ アカウントの source コンテナーにアップロードします。
2 つ目のテキスト ファイルに対してステップ 11 と 12 を繰り返します。 このパイプライン実行中に、ストレージ アカウントの source コンテナーから destination コンテナーに新しいファイル (file2.txt) だけがコピーされたことがわかります。
Azure Storage Explorer を使用してファイルをスキャンすることにより、1 つのファイルだけがコピーされたことを確認することもできます。
関連するコンテンツ
次のチュートリアルに進み、Azure 上の Apache Spark クラスターを使ってデータを変換する方法を学習します。