Copy アクティビティを使用してデータをコピーする方法

[アーティクル]
08/05/2024

データパイプラインでは、Copy アクティビティを使用してクラウド内のデータストア間でデータをコピーできます。

データをコピーした後は、他のアクティビティを使用してさらに変換および分析できます。また、コピーアクティビティを使用して、変換や分析の結果を発行し、ビジネスインテリジェンス (BI) やアプリケーションで使用することもできます。

ソースからコピー先にデータをコピーするために、Copy アクティビティを実行するサービスで次の手順が実行されます。

ソースデータストアからデータを読み取る。
シリアル化/逆シリアル化、圧縮/圧縮解除、列マッピングなどを実行する。これらの操作は構成に基づいて実行されます。
コピー先データストアにデータを書き込む。

前提条件

開始するには、次の前提条件を満たしている必要があります。

アクティブなサブスクリプションを持つ Microsoft Fabric テナントアカウント。無料でアカウントを作成できます。
Microsoft Fabric 対応ワークスペースがあることを確認します。

コピーアシスタントを使用して Copy アクティビティを追加する

コピーアシスタントを使用して Copy アクティビティを設定するには、次の手順に従います。

コピーアシスタントを開始する

既存のデータパイプラインを開くか、新規データパイプラインを作成します。
キャンバス上の [データのコピー] を選び、コピーアシスタント ツールを開いて作業を開始します。または、リボンの [アクティビティ] タブの [データのコピー] ドロップダウンリストから [コピーアシスタントを使用する] を選びます。

ソースを構成する

カテゴリからデータソースの種類を選びます。例として Azure Blob Storage を使用します。 [Azure Blob Storage] を選び、[次へ] を選びます。
[新規接続を作成する] を選んで、データソースへの接続を作成します。

[新規接続を作成する] を選んだら、必要な接続情報を入力し、[次へ] を選びます。データソースの種類ごとの接続の作成の詳細については、各コネクタに関する記事をご覧ください。

既存の接続がある場合は、[既存の接続] を選び、ドロップダウンリストから接続を選びます。
このソース構成手順で、コピーするファイルまたはフォルダーを選び、[次へ] を選びます。

コピー先を構成する

カテゴリからデータソースの種類を選びます。例として Azure Blob Storage を使用します。前のセクションの手順に従って、新規 Azure Blob Storage アカウントにリンクする新規接続を作成するか、[接続] ドロップダウンリストから既存の接続を使用できます。 [テスト接続] と [編集] の機能は、選んだ各接続で使用できます。
ソースデータを構成し、コピー先にマップします。次に、[次へ] を選んでコピー先の構成を完了します。

Note

同じCopy アクティビティ内で使用できるオンプレミスデータゲートウェイは 1 つだけです。ソースとシンクの両方がオンプレミスのデータソースである場合は、同じゲートウェイを使用する必要があります。異なるゲートウェイを持つオンプレミスのデータソース間でデータを移動するには、1 つのCopy アクティビティで最初のゲートウェイを使用して中間クラウドソースにコピーする必要があります。次に、別のCopy アクティビティを使用して、2 番目のゲートウェイを使用して中間クラウドソースからコピーできます。

Copy アクティビティの確認と作成

前の手順で行った Copy アクティビティの設定を確認し、[OK] を選んで完了します。または、必要に応じてツールで前の手順に戻って、設定を編集することもできます。

完了すると、Copy アクティビティがデータパイプラインキャンバスに追加されます。この Copy アクティビティのすべての設定 (詳細設定を含む) は、タブを選ぶと使用できます。

これで、この 1 つの Copy アクティビティでデータパイプラインを保存するか、データパイプラインを引き続き設計できます。

Copy アクティビティを直接追加する

Copy アクティビティを直接追加するには、次の手順に従います。

Copy アクティビティを追加する

既存のデータパイプラインを開くか、新規データパイプラインを作成します。
[パイプラインアクティビティの追加]>[Copy アクティビティ] を選ぶか、[アクティビティ] タブにある [データのコピー]>[キャンバスに追加] を選んで、Copy アクティビティを追加します。

[全般] タブで全般設定を構成する

全般設定を構成する方法については、全般に関する記事をご覧ください。

[ソース] タブでソースを構成する

[接続] の横にある [+ 新規] を選んで、データソースへの接続を作成します。
1. ポップアップウィンドウからデータソースの種類を選びます。例として Azure SQL Database を使用します。 [Azure SQL Database] を選び、 [続行] を選びます。
2. 接続の作成ページに移動します。パネルで必要な接続情報を入力して、[作成] を選びます。データソースの種類ごとの接続の作成の詳細については、各コネクタに関する記事をご覧ください。
3. 接続が正常に作成されると、データパイプラインページに戻ります。次に、[更新] を選んで、作成した接続をドロップダウンリストからフェッチします。以前に作成した場合は、ドロップダウンから既存の Azure SQL Database 接続を直接選ぶこともできます。 [テスト接続] と [編集] の機能は、選んだ各接続で使用できます。次に、[接続の種類] で [Azure SQL Database] を選びます。
コピーするテーブルを指定します。 [データのプレビュー] を選んで、ソーステーブルをプレビューします。 [クエリ] と [ストアドプロシージャ] を使用して、ソースからデータを読み取ることもできます。
[詳細設定] を展開して、より高度な設定を行います。

[コピー先] タブでコピー先を構成する

コピー先の種類を選びます。これは、ワークスペースの内部ファーストクラスのデータストア (レイクハウスなど) か、外部データストアのどちらかです。例として、レイクハウスを使用します。
[ワークスペースのデータストアの種類] で [レイクハウス] の使用を選びます。 [+ 新規] を選ぶと、レイクハウスの作成ページに移動します。レイクハウス名を指定し、[作成] を選びます。
接続が正常に作成されると、データパイプラインページに戻ります。次に、[更新] を選んで、作成した接続をドロップダウンリストからフェッチします。以前に作成した場合は、ドロップダウンから既存のレイクハウス接続を直接選ぶこともできます。
テーブルを指定するか、ファイルパスを設定して、ファイルまたはフォルダーをコピー先として定義します。ここで [テーブル] を選び、データを書き込むテーブルを指定します。
[詳細設定] を展開して、より高度な設定を行います。

これで、この 1 つの Copy アクティビティでデータパイプラインを保存するか、データパイプラインを引き続き設計できます。

[マッピング] タブでマッピングを構成する

適用するコネクタでマッピングがサポートされている場合、[マッピング] タブに移動してマッピングを構成できます。

[スキーマのインポート] を選んでデータスキーマをインポートします。
自動マッピングが表示されています。 [ソース] 列と [コピー先] 列を指定します。コピー先に新規テーブルを作成する場合、ここで [コピー先] 列名をカスタマイズできます。既存のコピー先テーブルにデータを書き込む場は、既存の [コピー先] 列名を変更することはできません。 [ソース] 列と [コピー先] 列の [種類] を確認することもできます。

さらに、[+ 新規マッピング] を選んで新規マッピングの追加、[解除] を選んですべてのマッピング設定の解除、[リセット] を選んですべてのマッピング [ソース] 列のリセットができます。

[設定] タブで他の設定を構成する

[設定] タブには、パフォーマンス、ステージングなどの設定が含まれています。

各セクションの説明については、次の表をご覧ください。

設定	説明	JSON スクリプトプロパティ
インテリジェントなスループットの最適化	指定してスループットを最適化します。次の項目から選択できます: • 自動 • 標準 • バランス • 最大 [自動] を選ぶと、ソースとコピー先のペアとデータパターンに基づいて、最適な設定が動的に適用されます。スループットをカスタマイズすることもできます。カスタム値は 2 から 256 まで設定できます。値を大きくすると、効果を高めることができます。	dataIntegrationUnits
コピーの並列処理	データ読み込みで使用される並列処理の次数を指定します。	parallelCopies
フォールトトレランス	このオプションを選ぶと、コピープロセスの途中で発生した一部のエラーを無視できます。たとえば、ソースストアとコピー先ストア間で行に互換性がないことや、データ移動中にファイルが削除されたことなどです。	• enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName
ログ記録を有効化する	このオプションを選ぶと、コピーされたファイル、スキップされたファイルや行をログに記録できます。	/
ステージングの有効化	中間ステージングストアを経由してデータをコピーするかどうかを指定します。有益なシナリオに対してのみステージングを有効にします。	enableStaging
データストアの種類	ステージングを有効にすると、[ワークスペース] と [外部] をデータストアの種類として選択できます。	/
ワークスペースの場合
ワークスペース	組み込みのステージングストレージを使用するように指定します。	/
外部の場合
ステージングアカウント接続	Azure Blob Storage または Azure Data Lake Storage Gen2 の接続を指定します。これは、中間ステージングストアとして使用する Storage のインスタンスを示します。ステージング接続を作成します (ない場合)。	connection (`externalReferences` の下)
ストレージパス	ステージングデータを格納するパスを指定します。パスを指定しないと、一時データを格納するコンテナーがサービスによって作成されます。パスを指定するのは、Shared Access Signature を持つ Storage を使用する場合、または一時データを特定の場所に保存する必要がある場合のみです。	path
圧縮を有効にする	データをコピーする前に圧縮するかどうかを指定します。この設定により、転送するデータの量が減ります。	enableCompression

Preserve	データのコピー中にメタデータ/ACL を保存するかどうかを指定します。	preserve

Note

圧縮を有効にしてステージングコピーを使用する場合、ステージング BLOB 接続でのサービスプリンシパル認証はサポートされません。

Copy アクティビティでパラメーターを構成する

パラメーターを使って、パイプラインとそのアクティビティの動作を制御できます。 [動的なコンテンツの追加] を使って、Copy アクティビティのプロパティのパラメーターを指定できます。レイクハウス、データウェアハウス、KQL データベースを例として指定することで、その使い方を見てみましょう。

コピー元またはコピー先で、データストアの種類として [ワークスペース] を選び、ワークスペースデータストアの種類として/[レイクハウス]、[データウェアハウス]、または/[KQL データベース] を指定した後、[レイクハウス] または [Data Warehouse] または [KQL データベース] のドロップダウンリストで [動的なコンテンツの追加] を選びます。
ポップアップした [動的なコンテンツの追加] ペインの [パラメーター] タブで、[+] を選びます。
パラメーターの名前を指定し、必要な場合はデフォルト値を指定します。または、パイプラインで [実行] 選んだ後でパラメーターの値を指定することもできます。

パラメーターの値は、レイクハウス、データウェアハウス、または KQL データベースのオブジェクト ID でなければならないことに注意してください。レイクハウス、データウェアハウス、KQL データベースのオブジェクト ID を取得するには、ワークスペースでレイクハウス、データウェアハウス、または KQL データベースを開きます。ID は URL の /lakehouses/ または /datawarehouses/ または /databases/ の後にあります。
- レイクハウスのオブジェクト ID:
- データウェアハウスのオブジェクト ID:
- KQL データベースのオブジェクト ID:
[保存] を選んで、[動的なコンテンツの追加] ペインに戻ります。次に、パラメーターを選んで式ボックスに表示します。 [OK] をクリックします。パイプラインページに戻ると、レイクハウスオブジェクト/ID、データウェアハウスオブジェクト/ID、KQL データベースオブジェクト ID の後にパラメーター式が指定されていることがわかります。

次の方法で共有

Copy アクティビティを使用してデータをコピーする方法

前提条件