次の方法で共有


変更データ キャプチャ リソースを使用して、Azure Data Lake Storage Gen2 から Azure SQL Database に変更されたデータをキャプチャする

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。

この記事では、Azure Data Factory ユーザー インターフェイスを使用して、変更データ キャプチャ (CDC) リソースを作成します。 このリソースは、Azure Data Lake Storage Gen2 ソースから変更されたデータを取得し、それをリアルタイムで Azure SQL Database に追加します。

この記事では、次のことについて説明します。

  • CDC リソースを作成します。
  • CDC アクティビティを監視します。

この記事では、構成パターンを変更および展開できます。

前提条件

この記事の手順を実行する前に、次のリソースがあることを確認してください。

  • Azure サブスクリプション。 Azure のサブスクリプションがない場合は、Azure の無料アカウントを作成します。
  • SQL データベース。 ソース データ ストアとして Azure SQL Database を使用します。 SQL データベースがない場合は、Azure portal に作成します。
  • ストレージ アカウント。 Azure Data Lake Storage Gen2 に格納されている Delta Lake をターゲット データ ストアとして使用します。 ストレージ アカウントがない場合の作成手順については、「ストレージ アカウントの作成」を参照してください。

CDC 成果物を作成する

  1. データ ファクトリの [作成者] ペインに移動します。 [パイプライン] の下に、[変更データ キャプチャ (プレビュー)] という新しい最上位レベルの成果物が表示されます。

    [ファクトリのリソース] ペインに表示される変更データ キャプチャに対する新しい最上位レベルの成果物のスクリーンショット。

  2. 3 つのドットが表示されるまで、変更データ キャプチャ (プレビュー) の上にカーソルを合わせます。 その後、[Change Data Capture (preview) Actions] (変更データ キャプチャ (プレビュー) アクション) を選択します。

    新しい最上位レベルの成果物上に表示される変更データ キャプチャ アクション ボタンのスクリーンショット。

  3. [New CDC (preview)](新しい CDC (プレビュー)) を選択します。 これにより、ガイド付きプロセスを開始するためのポップアップが開きます。

    変更データ キャプチャのアクションの一覧を示すスクリーンショット。

  4. CDC リソースの名前を指定するように求められます。 既定では、名前は "adfcdc" で、数値は 1 ずつ増加します。 この既定の名前は、選択した名前に置き換えることができます。

    リソースの名前を更新するためのテキスト ボックスのスクリーンショット。

  5. ドロップダウン リストを使用して、データ ソースを選択します。 この記事では、「DelimitedText」を選択します。

    候補リストにソース オプションが表示された、ガイド付きプロセスのポップアップのスクリーンショット。

  6. リンク サービスを選択するように求められます。 新しいリンク サービスを作成するか、既存のものを選択します。

    リンク サービスを選択または新規作成するためのボックスのスクリーンショット。

  7. 必要に応じて、[ソース設定] 領域を使用して、列および行の区切り文字を含む高度なソース構成をオプションで設定します。

    区切り記号を設定するための高度なソース設定のスクリーンショット。

    これらのソース設定を手動で編集しない場合は、既定値に設定されます。

  8. 参照ボタンを使用して、ソース データのフォルダーを選択します。

    フォルダー パスを参照するためのフォルダー アイコンのスクリーンショット。

  9. フォルダー パスを選択したら、[続行] を選択してデータ ターゲットを設定します。

    データ ターゲットの選択に進む、ガイド付きプロセスの [続行] ボタンのスクリーンショット。

    プラス (+) ボタンを使用すると複数のソース フォルダーを追加できます。 他のソースでも、既に選択したものと同じリンク サービスを使用する必要があります。

  10. 候補リストを使用して、[ターゲットの種類] の値を選択します。 この記事では、[Azure SQL Database] を選択します。

    すべてのデータ ターゲットの種類を示すドロップダウン メニューのスクリーンショット。

  11. リンク サービスを選択するように求められます。 新しいリンク サービスを作成するか、既存のものを選択します。

    データ ターゲットへのリンク サービスを選択または新規作成するためのボックスのスクリーンショット。

  12. [ターゲット テーブル] では、新しいターゲット テーブルを作成するか、既存のテーブルを選択できます。

    • ターゲット テーブルを作成するには、[新しいエンティティ] タブを選択し、[新しいテーブルの編集] を選択します。

      ターゲットの新しいテーブルを作成するタブのスクリーンショット。

    • 既存のテーブルを選択するには、[既存のエンティティ] タブを選択し、チェックボックスを使用してテーブルを選択します。 [プレビュー] ボタンを使用して、テーブル データを表示します。

      ターゲットのテーブルを選択するタブのスクリーンショット。

    ターゲットの既存のテーブルの名前が一致する場合、既定で [既存のエンティティ] で選択されます。 そうでない場合は、一致する名前を持つ新しいテーブルが [新しいエンティティ] の下に作成されます。 さらに、[新しいテーブルの編集] ボタンを使用して新しいテーブルを編集できます。

  13. チェックボックスを使用して、SQL データベースから複数のターゲット テーブルを選択できます。 ターゲットテーブルの選択が完了したら、[続行] を選択します。

    次の手順に進む、ガイド付きプロセスの [続行] ボタンのスクリーンショット。

  14. 変更データをキャプチャするための新しいタブが表示されます。 このタブは CDC Studio で、新しいリソースを構成できます。

    変更データ キャプチャ スタジオのスクリーンショット。

    新しいマッピングが自動的に作成されます。 候補リストを使用して、マッピングのソース テーブルターゲット テーブルの選択を更新できます。

    変更データ キャプチャ スタジオのソースとターゲットのマッピングのスクリーンショット。

  15. テーブルを選択すると、列は既定でマップされ、[自動マップ] トグルがオンになります。 自動マップでは、シンク内の名前によって列が自動的にマッピングされ、ソース スキーマが展開したときに新しい列の変更が取得され、サポートされているシンクの種類にこの情報が送られます。

    自動マップを使用し、列マッピングを変更しない場合は、ステップ 18 に直接進みます。

    自動マップを有効にするトグルのスクリーンショット。

    列マッピングを有効にする場合は、マッピングを選択し、[自動マップ] トグルをオフにします。 次に、[列マッピング] ボタンを選択して、マッピングを表示します。

    マッピングの選択、自動マッピングのトグルがオフになっている、列マッピングのボタンのスクリーンショット。

    [自動マップ] トグルをオンにすると、いつでも自動マッピングに戻すことができます。

  16. 列マッピングを表示します。 ドロップダウン リストを使用して、[マッピング方法][ソース列][ターゲット列] で列マッピングを編集します。

    列マッピングを編集するためのページのスクリーンショット。

    このページからは、次のことを行うことができます。

    • [新しいマッピング] ボタンを使用して、列マッピングを追加します。 ドロップダウン リストを使用して、[マッピング方法][ソース列][ターゲット列] を選択します。
    • サポートされているシンク タイプの削除操作を追跡する場合は、[キー] 列を選択します。
    • [データ プレビュー] の下にある [更新] ボタンを選択して、ターゲットでデータがどのように見えるかを視覚化します。

    列マッピングを追加するボタン、マッピング方法のドロップダウン リスト、キー列、[更新] ボタンのスクリーンショット。

  17. マッピングが完了したら、矢印ボタンを選択してメインの CDC キャンバスに戻ります。

    テーブル マッピング ページに戻るボタンのスクリーンショット。

  18. 1 つの CDC 成果物でターゲット マッピングにソースを追加できます。 [編集] ボタンを使用して、追加のデータ ソースとターゲットを追加します。 その後に、[新しいマッピング] を選択し、ドロップダウン リストを使用して新しいソースとターゲットを設定します。 これらのマッピングごとに、自動マップを個別にオンまたはオフにできます。

    新しいソースを追加するボタンと、新しいソースからターゲットへのマッピングを設定するボタンのスクリーンショット。

  19. マッピングが完了したら、[待機時間の設定] ボタンを使用して CDC の待機時間を設定します。

    キャンバスの上部にある [Set Latency] (待機時間の設定) ボタンのスクリーンショット。

  20. CDC の待機時間を選択し、[適用] を選択して変更を行います。

    既定では、待機時間は 15 分に設定されています。 この記事の例では、待機時間に [リアルタイム] オプションを使用します。 リアルタイムの待機時間は、ソース データの変更を 1 分未満の間隔で継続的に取得し続けます。

    その他の待機時間 (たとえば、15 分を選択した場合)、変更データ キャプチャでソース データが処理され、最後に処理された時刻以降に変更されたデータが取得されます。

    待機時間を設定するためのオプションのスクリーンショット。

    Note

    サポートがストリーミング データ統合 (Azure Event Hubs および Kafka データ ソース) に拡張される場合、待機時間は既定で [リアルタイム] に設定されます。

  21. CDC の構成が完了したら、[すべてを公開] を選択して変更を公開します。

    キャンバスの上部にある公開ボタンのスクリーンショット。

    Note

    変更を公開しない場合、CDC リソースを開始できません。 次の手順の [開始] ボタンは使用できなくなります。

  22. [開始] を選択して、変更データ キャプチャの実行を開始します。

    キャンバスの上部にある [開始] ボタンのスクリーンショット。

変更データ キャプチャを監視する

  1. 次のいずれかの方法を使用して、[監視] ペインを開きます。

    • Azure portal で、[監視] を選択します。

      Azure portal の [監視] ボタンのスクリーンショット。

    • CDC デザイナーから監視アイコンを選択します。

      CDC キャンバスの上部にある監視アイコンのスクリーンショット。

  2. [変更データ キャプチャ (プレビュー)] を選択して、CDC リソースを表示します。

    [変更データ キャプチャ] ボタンのスクリーンショット。

    [変更データ キャプチャ] ペインには、変更データ キャプチャのソースターゲット状態最後に処理された情報が表示されます。

    変更データ キャプチャの監視ページの概要を示すスクリーンショット。

  3. CDC の名前を選択すると、詳細が表示されます。 読み書きされた変更 (挿入、更新、または削除) の数とその他の診断情報を確認できます。

    選択した変更データ キャプチャの詳細な監視内容のスクリーンショット。

    変更データ キャプチャで複数のマッピングを設定した場合、各マッピングは異なる色で表示されます。 バーを選択して各マッピングの特定の詳細を表示するか、ペインの下部にある診断情報を使用します。

    複数のソースからターゲットへのマッピングを使用した変更データ キャプチャの詳細な監視情報のスクリーンショット。

    変更データ キャプチャ成果物の各マッピングの詳細な内訳のスクリーンショット。