変更データ キャプチャ リソースを使用して、Azure Data Lake Storage Gen2 から Azure SQL Database に変更されたデータをキャプチャする
適用対象: Azure Data Factory Azure Synapse Analytics
ヒント
企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータ サイエンス、リアルタイム分析、ビジネス インテリジェンス、レポートまで、あらゆるものをカバーしています。 無料で新しい試用版を開始する方法について説明します。
この記事では、Azure Data Factory ユーザー インターフェイスを使用して、変更データ キャプチャ (CDC) リソースを作成します。 このリソースは、Azure Data Lake Storage Gen2 ソースから変更されたデータを取得し、それをリアルタイムで Azure SQL Database に追加します。
この記事では、次のことについて説明します。
- CDC リソースを作成します。
- CDC アクティビティを監視します。
この記事では、構成パターンを変更および展開できます。
前提条件
この記事の手順を実行する前に、次のリソースがあることを確認してください。
- Azure サブスクリプション。 Azure のサブスクリプションがない場合は、Azure の無料アカウントを作成します。
- SQL データベース。 ソース データ ストアとして Azure SQL Database を使用します。 SQL データベースがない場合は、Azure portal に作成します。
- ストレージ アカウント。 Azure Data Lake Storage Gen2 に格納されている Delta Lake をターゲット データ ストアとして使用します。 ストレージ アカウントがない場合の作成手順については、「ストレージ アカウントの作成」を参照してください。
CDC 成果物を作成する
データ ファクトリの [作成者] ペインに移動します。 [パイプライン] の下に、[変更データ キャプチャ (プレビュー)] という新しい最上位レベルの成果物が表示されます。
3 つのドットが表示されるまで、変更データ キャプチャ (プレビュー) の上にカーソルを合わせます。 その後、[Change Data Capture (preview) Actions] (変更データ キャプチャ (プレビュー) アクション) を選択します。
[New CDC (preview)](新しい CDC (プレビュー)) を選択します。 これにより、ガイド付きプロセスを開始するためのポップアップが開きます。
CDC リソースの名前を指定するように求められます。 既定では、名前は "adfcdc" で、数値は 1 ずつ増加します。 この既定の名前は、選択した名前に置き換えることができます。
ドロップダウン リストを使用して、データ ソースを選択します。 この記事では、「DelimitedText」を選択します。
リンク サービスを選択するように求められます。 新しいリンク サービスを作成するか、既存のものを選択します。
必要に応じて、[ソース設定] 領域を使用して、列および行の区切り文字を含む高度なソース構成をオプションで設定します。
これらのソース設定を手動で編集しない場合は、既定値に設定されます。
参照ボタンを使用して、ソース データのフォルダーを選択します。
フォルダー パスを選択したら、[続行] を選択してデータ ターゲットを設定します。
プラス (+) ボタンを使用すると複数のソース フォルダーを追加できます。 他のソースでも、既に選択したものと同じリンク サービスを使用する必要があります。
候補リストを使用して、[ターゲットの種類] の値を選択します。 この記事では、[Azure SQL Database] を選択します。
リンク サービスを選択するように求められます。 新しいリンク サービスを作成するか、既存のものを選択します。
[ターゲット テーブル] では、新しいターゲット テーブルを作成するか、既存のテーブルを選択できます。
ターゲット テーブルを作成するには、[新しいエンティティ] タブを選択し、[新しいテーブルの編集] を選択します。
既存のテーブルを選択するには、[既存のエンティティ] タブを選択し、チェックボックスを使用してテーブルを選択します。 [プレビュー] ボタンを使用して、テーブル データを表示します。
ターゲットの既存のテーブルの名前が一致する場合、既定で [既存のエンティティ] で選択されます。 そうでない場合は、一致する名前を持つ新しいテーブルが [新しいエンティティ] の下に作成されます。 さらに、[新しいテーブルの編集] ボタンを使用して新しいテーブルを編集できます。
チェックボックスを使用して、SQL データベースから複数のターゲット テーブルを選択できます。 ターゲットテーブルの選択が完了したら、[続行] を選択します。
変更データをキャプチャするための新しいタブが表示されます。 このタブは CDC Studio で、新しいリソースを構成できます。
新しいマッピングが自動的に作成されます。 候補リストを使用して、マッピングのソース テーブルとターゲット テーブルの選択を更新できます。
テーブルを選択すると、列は既定でマップされ、[自動マップ] トグルがオンになります。 自動マップでは、シンク内の名前によって列が自動的にマッピングされ、ソース スキーマが展開したときに新しい列の変更が取得され、サポートされているシンクの種類にこの情報が送られます。
自動マップを使用し、列マッピングを変更しない場合は、ステップ 18 に直接進みます。
列マッピングを有効にする場合は、マッピングを選択し、[自動マップ] トグルをオフにします。 次に、[列マッピング] ボタンを選択して、マッピングを表示します。
[自動マップ] トグルをオンにすると、いつでも自動マッピングに戻すことができます。
列マッピングを表示します。 ドロップダウン リストを使用して、[マッピング方法]、[ソース列]、[ターゲット列] で列マッピングを編集します。
このページからは、次のことを行うことができます。
- [新しいマッピング] ボタンを使用して、列マッピングを追加します。 ドロップダウン リストを使用して、[マッピング方法]、[ソース列]、[ターゲット列] を選択します。
- サポートされているシンク タイプの削除操作を追跡する場合は、[キー] 列を選択します。
- [データ プレビュー] の下にある [更新] ボタンを選択して、ターゲットでデータがどのように見えるかを視覚化します。
マッピングが完了したら、矢印ボタンを選択してメインの CDC キャンバスに戻ります。
1 つの CDC 成果物でターゲット マッピングにソースを追加できます。 [編集] ボタンを使用して、追加のデータ ソースとターゲットを追加します。 その後に、[新しいマッピング] を選択し、ドロップダウン リストを使用して新しいソースとターゲットを設定します。 これらのマッピングごとに、自動マップを個別にオンまたはオフにできます。
マッピングが完了したら、[待機時間の設定] ボタンを使用して CDC の待機時間を設定します。
CDC の待機時間を選択し、[適用] を選択して変更を行います。
既定では、待機時間は 15 分に設定されています。 この記事の例では、待機時間に [リアルタイム] オプションを使用します。 リアルタイムの待機時間は、ソース データの変更を 1 分未満の間隔で継続的に取得し続けます。
その他の待機時間 (たとえば、15 分を選択した場合)、変更データ キャプチャでソース データが処理され、最後に処理された時刻以降に変更されたデータが取得されます。
Note
サポートがストリーミング データ統合 (Azure Event Hubs および Kafka データ ソース) に拡張される場合、待機時間は既定で [リアルタイム] に設定されます。
CDC の構成が完了したら、[すべてを公開] を選択して変更を公開します。
Note
変更を公開しない場合、CDC リソースを開始できません。 次の手順の [開始] ボタンは使用できなくなります。
[開始] を選択して、変更データ キャプチャの実行を開始します。
変更データ キャプチャを監視する
次のいずれかの方法を使用して、[監視] ペインを開きます。
[変更データ キャプチャ (プレビュー)] を選択して、CDC リソースを表示します。
[変更データ キャプチャ] ペインには、変更データ キャプチャのソース、ターゲット、状態、最後に処理された情報が表示されます。
CDC の名前を選択すると、詳細が表示されます。 読み書きされた変更 (挿入、更新、または削除) の数とその他の診断情報を確認できます。
変更データ キャプチャで複数のマッピングを設定した場合、各マッピングは異なる色で表示されます。 バーを選択して各マッピングの特定の詳細を表示するか、ペインの下部にある診断情報を使用します。