次の方法で共有


Copy アクティビティを使用してデータをコピーする方法

データ パイプラインでは、Copy アクティビティを使用してクラウド内のデータ ストア間でデータをコピーできます。

データをコピーした後は、他のアクティビティを使用してさらに変換および分析できます。 また、コピー アクティビティを使用して、変換や分析の結果を発行し、ビジネス インテリジェンス (BI) やアプリケーションで使用することもできます。

ソースからコピー先にデータをコピーするために、Copy アクティビティを実行するサービスで次の手順が実行されます。

  1. ソース データ ストアからデータを読み取る。
  2. シリアル化/逆シリアル化、圧縮/圧縮解除、列マッピングなどを実行する。 これらの操作は構成に基づいて実行されます。
  3. コピー先データ ストアにデータを書き込む。

前提条件

開始するには、次の前提条件を満たしている必要があります。

  • アクティブなサブスクリプションを持つ Microsoft Fabric テナント アカウント。 無料でアカウントを作成できます。

  • Microsoft Fabric 対応ワークスペースがあることを確認します。

コピー アシスタントを使用して Copy アクティビティを追加する

コピー アシスタントを使用して Copy アクティビティを設定するには、次の手順に従います。

コピー アシスタントを開始する

  1. 既存のデータ パイプラインを開くか、新規データ パイプラインを作成します。

  2. キャンバス上の [データのコピー] を選び、コピー アシスタント ツールを開いて作業を開始します。 または、リボンの [アクティビティ] タブの [データのコピー] ドロップ ダウン リストから [コピー アシスタントを使用する] を選びます。

    コピー アシスタントを開くオプションを示すスクリーンショット。

ソースを構成する

  1. カテゴリからデータ ソースの種類を選びます。 例として Azure Blob Storage を使用します。 [Azure Blob Storage] を選び、[次へ] を選びます。

    [データ ソースを選択する] スクリーンのスクリーンショット。

  2. [新規接続を作成する] を選んで、データ ソースへの接続を作成します。

    [新規接続] を選ぶ場所を示すスクリーンショット。

    [新規接続を作成する] を選んだら、必要な接続情報を入力し、[次へ] を選びます。 データ ソースの種類ごとの接続の作成の詳細については、各コネクタに関する記事をご覧ください。

    既存の接続がある場合は、[既存の接続] を選び、ドロップダウン リストから接続を選びます。

    既存の接続を示すスクリーンショット。

  3. このソース構成手順で、コピーするファイルまたはフォルダーを選び、[次へ] を選びます。

    コピーするデータを選ぶ場所を示すスクリーンショット。

コピー先を構成する

  1. カテゴリからデータ ソースの種類を選びます。 例として Azure Blob Storage を使用します。 前のセクションの手順に従って、新規 Azure Blob Storage アカウントにリンクする新規接続を作成するか、[接続] ドロップダウン リストから既存の接続を使用できます。 [テスト接続][編集] の機能は、選んだ各接続で使用できます。

    Azure Blob Storage を選ぶ方法を示すスクリーンショット。

  2. ソース データを構成し、コピー先にマップします。 次に、[次へ] を選んでコピー先の構成を完了します。

    [コピー先にマップする] スクリーンのスクリーンショット。

    [データのコピー先に接続する] のスクリーンショット。

    Note

    同じCopy アクティビティ内で使用できるオンプレミス データ ゲートウェイは 1 つだけです。 ソースとシンクの両方がオンプレミスのデータ ソースである場合は、同じゲートウェイを使用する必要があります。 異なるゲートウェイを持つオンプレミスのデータ ソース間でデータを移動するには、1 つのCopy アクティビティで最初のゲートウェイを使用して中間クラウド ソースにコピーする必要があります。 次に、別のCopy アクティビティを使用して、2 番目のゲートウェイを使用して中間クラウド ソースからコピーできます。

Copy アクティビティの確認と作成

  1. 前の手順で行った Copy アクティビティの設定を確認し、[OK] を選んで完了します。 または、必要に応じてツールで前の手順に戻って、設定を編集することもできます。

    [確認と作成] スクリーンを示すスクリーンショット。

完了すると、Copy アクティビティがデータ パイプライン キャンバスに追加されます。 この Copy アクティビティのすべての設定 (詳細設定を含む) は、タブを選ぶと使用できます。

データ パイプライン キャンバス上の Copy アクティビティを示すスクリーンショット。

これで、この 1 つの Copy アクティビティでデータ パイプラインを保存するか、データ パイプラインを引き続き設計できます。

Copy アクティビティを直接追加する

Copy アクティビティを直接追加するには、次の手順に従います。

Copy アクティビティを追加する

  1. 既存のデータ パイプラインを開くか、新規データ パイプラインを作成します。

  2. [パイプライン アクティビティの追加]>[Copy アクティビティ] を選ぶか、[アクティビティ] タブにある [データのコピー]>[キャンバスに追加] を選んで、Copy アクティビティを追加します。

    Copy アクティビティを追加する 2 つの方法を示すスクリーンショット。

[全般] タブで全般設定を構成する

全般設定を構成する方法については、全般に関する記事をご覧ください。

[ソース] タブでソースを構成する

  1. [接続] の横にある [+ 新規] を選んで、データ ソースへの接続を作成します。

    [+ 新規] を選ぶ場所を示すスクリーンショット。

    1. ポップアップ ウィンドウからデータ ソースの種類を選びます。 例として Azure SQL Database を使用します。 [Azure SQL Database] を選び、 [続行] を選びます。

      データ ソースを選ぶ方法を示すスクリーンショット。

    2. 接続の作成ページに移動します。 パネルで必要な接続情報を入力して、[作成] を選びます。 データ ソースの種類ごとの接続の作成の詳細については、各コネクタに関する記事をご覧ください。

      [新規接続] ページを示すスクリーンショット。

    3. 接続が正常に作成されると、データ パイプライン ページに戻ります。 次に、[更新] を選んで、作成した接続をドロップダウン リストからフェッチします。 以前に作成した場合は、ドロップダウンから既存の Azure SQL Database 接続を直接選ぶこともできます。 [テスト接続][編集] の機能は、選んだ各接続で使用できます。 次に、[接続の種類] で [Azure SQL Database] を選びます。

      接続を更新する場所を示すスクリーンショット。

  2. コピーするテーブルを指定します。 [データのプレビュー] を選んで、ソース テーブルをプレビューします。 [クエリ][ストアド プロシージャ] を使用して、ソースからデータを読み取ることもできます。

    ソース テーブルの設定オプションを示すスクリーンショット。

  3. [詳細設定] を展開して、より高度な設定を行います。

    詳細設定のスクリーンショット。

[コピー先] タブでコピー先を構成する

  1. コピー先の種類を選びます。 これは、ワークスペースの内部ファースト クラスのデータ ストア (レイクハウスなど) か、外部データ ストアのどちらかです。 例として、レイクハウスを使用します。

    コピー先の種類を選ぶ場所を示すスクリーンショット。

  2. [ワークスペースのデータ ストアの種類][レイクハウス] の使用を選びます。 [+ 新規] を選ぶと、レイクハウスの作成ページに移動します。 レイクハウス名を指定し、[作成] を選びます。

    レイクハウスの作成を示すスクリーンショット。

  3. 接続が正常に作成されると、データ パイプライン ページに戻ります。 次に、[更新] を選んで、作成した接続をドロップダウン リストからフェッチします。 以前に作成した場合は、ドロップダウンから既存のレイクハウス接続を直接選ぶこともできます。

    接続の選択を示すスクリーンショット。

  4. テーブルを指定するか、ファイル パスを設定して、ファイルまたはフォルダーをコピー先として定義します。 ここで [テーブル] を選び、データを書き込むテーブルを指定します。

    [テーブル] 設定の場所を示すスクリーンショット。

  5. [詳細設定] を展開して、より高度な設定を行います。

    [詳細] オプションのスクリーンショット。

これで、この 1 つの Copy アクティビティでデータ パイプラインを保存するか、データ パイプラインを引き続き設計できます。

[マッピング] タブでマッピングを構成する

適用するコネクタでマッピングがサポートされている場合、[マッピング] タブに移動してマッピングを構成できます。

  1. [スキーマのインポート] を選んでデータ スキーマをインポートします。

    マッピング設定 1 のスクリーンショット。

  2. 自動マッピングが表示されています。 [ソース] 列と [コピー先] 列を指定します。 コピー先に新規テーブルを作成する場合、ここで [コピー先] 列名をカスタマイズできます。 既存のコピー先テーブルにデータを書き込む場は、既存の [コピー先] 列名を変更することはできません。 [ソース] 列と [コピー先] 列の [種類] を確認することもできます。

    マッピング設定 2 のスクリーンショット。

さらに、[+ 新規マッピング] を選んで新規マッピングの追加、[解除] を選んですべてのマッピング設定の解除、[リセット] を選んですべてのマッピング [ソース] 列のリセットができます。

[設定] タブで他の設定を構成する

[設定] タブには、パフォーマンス、ステージングなどの設定が含まれています。

[設定] タブのスクリーンショット。

各セクションの説明については、次の表をご覧ください。

設定 説明 JSON スクリプト プロパティ
インテリジェントなスループットの最適化 指定してスループットを最適化します。 次の項目から選択できます:
自動
標準
バランス
最大

[自動] を選ぶと、ソースとコピー先のペアとデータ パターンに基づいて、最適な設定が動的に適用されます。 スループットをカスタマイズすることもできます。カスタム値は 2 から 256 まで設定できます。値を大きくすると、効果を高めることができます。
dataIntegrationUnits
コピーの並列処理 データ読み込みで使用される並列処理の次数を指定します。 parallelCopies
フォールト トレランス このオプションを選ぶと、コピー プロセスの途中で発生した一部のエラーを無視できます。 たとえば、ソース ストアとコピー先ストア間で行に互換性がないことや、データ移動中にファイルが削除されたことなどです。 • enableSkipIncompatibleRow
• skipErrorFile:
   fileMissing
   fileForbidden
   invalidFileName
ログ記録を有効化する このオプションを選ぶと、コピーされたファイル、スキップされたファイルや行をログに記録できます。 /
ステージングの有効化 中間ステージング ストアを経由してデータをコピーするかどうかを指定します。 有益なシナリオに対してのみステージングを有効にします。 enableStaging
データ ストアの種類 ステージングを有効にすると、[ワークスペース][外部] をデータ ストアの種類として選択できます。 /
ワークスペースの場合
ワークスペース 組み込みのステージング ストレージを使用するように指定します。 /
外部の場合
ステージング アカウント接続 Azure Blob Storage または Azure Data Lake Storage Gen2 の接続を指定します。これは、中間ステージング ストアとして使用する Storage のインスタンスを示します。 ステージング接続を作成します (ない場合)。 connection (externalReferences の下)
ストレージ パス ステージング データを格納するパスを指定します。 パスを指定しないと、一時データを格納するコンテナーがサービスによって作成されます。 パスを指定するのは、Shared Access Signature を持つ Storage を使用する場合、または一時データを特定の場所に保存する必要がある場合のみです。 path
圧縮を有効にする データをコピーする前に圧縮するかどうかを指定します。 この設定により、転送するデータの量が減ります。 enableCompression
Preserve データのコピー中にメタデータ/ACL を保存するかどうかを指定します。 preserve

Note

圧縮を有効にしてステージング コピーを使用する場合、ステージング BLOB 接続でのサービス プリンシパル認証はサポートされません。

Copy アクティビティでパラメーターを構成する

パラメーターを使って、パイプラインとそのアクティビティの動作を制御できます。 [動的なコンテンツの追加] を使って、Copy アクティビティのプロパティのパラメーターを指定できます。 レイクハウス、データ ウェアハウス、KQL データベースを例として指定することで、その使い方を見てみましょう。

  1. コピー元またはコピー先で、データ ストアの種類として [ワークスペース] を選び、ワークスペース データ ストアの種類として/[レイクハウス][データ ウェアハウス]、または/[KQL データベース] を指定した後、[レイクハウス] または [Data Warehouse] または [KQL データベース] のドロップダウン リストで [動的なコンテンツの追加] を選びます。

  2. ポップアップした [動的なコンテンツの追加] ペインの [パラメーター] タブで、[+] を選びます。

    [動的コンテンツの追加] ページを示すスクリーンショット。

  3. パラメーターの名前を指定し、必要な場合はデフォルト値を指定します。または、パイプラインで [実行] 選んだ後でパラメーターの値を指定することもできます。

    新規パラメーターの作成を示すスクリーンショット。

    パラメーターの値は、レイクハウス、データ ウェアハウス、または KQL データベースのオブジェクト ID でなければならないことに注意してください。 レイクハウス、データ ウェアハウス、KQL データベースのオブジェクト ID を取得するには、ワークスペースでレイクハウス、データ ウェアハウス、または KQL データベースを開きます。ID は URL の /lakehouses/ または /datawarehouses/ または /databases/ の後にあります。

    • レイクハウスのオブジェクト ID:

      レイクハウス オブジェクト ID を示すスクリーンショット。

    • データ ウェアハウスのオブジェクト ID:

      Data Warehouse オブジェクト ID を示すスクリーンショット。

    • KQL データベースのオブジェクト ID:

      KQL データベース オブジェクト ID を示すスクリーンショット。

  4. [保存] を選んで、[動的なコンテンツの追加] ペインに戻ります。 次に、パラメーターを選んで式ボックスに表示します。 [OK] をクリックします。 パイプライン ページに戻ると、レイクハウス オブジェクト/IDデータ ウェアハウス オブジェクト/IDKQL データベース オブジェクト ID の後にパラメーター式が指定されていることがわかります。

    パラメーターの選択を示すスクリーンショット。