Copy アクティビティを使用してデータをコピーする方法
データ パイプラインでは、Copy アクティビティを使用してクラウド内のデータ ストア間でデータをコピーできます。
データをコピーした後は、他のアクティビティを使用してさらに変換および分析できます。 また、コピー アクティビティを使用して、変換や分析の結果を発行し、ビジネス インテリジェンス (BI) やアプリケーションで使用することもできます。
ソースからコピー先にデータをコピーするために、Copy アクティビティを実行するサービスで次の手順が実行されます。
- ソース データ ストアからデータを読み取る。
- シリアル化/逆シリアル化、圧縮/圧縮解除、列マッピングなどを実行する。 これらの操作は構成に基づいて実行されます。
- コピー先データ ストアにデータを書き込む。
前提条件
開始するには、次の前提条件を満たしている必要があります。
アクティブなサブスクリプションを持つ Microsoft Fabric テナント アカウント。 無料でアカウントを作成できます。
Microsoft Fabric 対応ワークスペースがあることを確認します。
コピー アシスタントを使用して Copy アクティビティを追加する
コピー アシスタントを使用して Copy アクティビティを設定するには、次の手順に従います。
コピー アシスタントを開始する
既存のデータ パイプラインを開くか、新規データ パイプラインを作成します。
キャンバス上の [データのコピー] を選び、コピー アシスタント ツールを開いて作業を開始します。 または、リボンの [アクティビティ] タブの [データのコピー] ドロップ ダウン リストから [コピー アシスタントを使用する] を選びます。
ソースを構成する
カテゴリからデータ ソースの種類を選びます。 例として Azure Blob Storage を使用します。 [Azure Blob Storage] を選び、[次へ] を選びます。
[新規接続を作成する] を選んで、データ ソースへの接続を作成します。
[新規接続を作成する] を選んだら、必要な接続情報を入力し、[次へ] を選びます。 データ ソースの種類ごとの接続の作成の詳細については、各コネクタに関する記事をご覧ください。
既存の接続がある場合は、[既存の接続] を選び、ドロップダウン リストから接続を選びます。
このソース構成手順で、コピーするファイルまたはフォルダーを選び、[次へ] を選びます。
コピー先を構成する
カテゴリからデータ ソースの種類を選びます。 例として Azure Blob Storage を使用します。 前のセクションの手順に従って、新規 Azure Blob Storage アカウントにリンクする新規接続を作成するか、[接続] ドロップダウン リストから既存の接続を使用できます。 [テスト接続] と [編集] の機能は、選んだ各接続で使用できます。
ソース データを構成し、コピー先にマップします。 次に、[次へ] を選んでコピー先の構成を完了します。
Note
同じCopy アクティビティ内で使用できるオンプレミス データ ゲートウェイは 1 つだけです。 ソースとシンクの両方がオンプレミスのデータ ソースである場合は、同じゲートウェイを使用する必要があります。 異なるゲートウェイを持つオンプレミスのデータ ソース間でデータを移動するには、1 つのCopy アクティビティで最初のゲートウェイを使用して中間クラウド ソースにコピーする必要があります。 次に、別のCopy アクティビティを使用して、2 番目のゲートウェイを使用して中間クラウド ソースからコピーできます。
Copy アクティビティの確認と作成
完了すると、Copy アクティビティがデータ パイプライン キャンバスに追加されます。 この Copy アクティビティのすべての設定 (詳細設定を含む) は、タブを選ぶと使用できます。
これで、この 1 つの Copy アクティビティでデータ パイプラインを保存するか、データ パイプラインを引き続き設計できます。
Copy アクティビティを直接追加する
Copy アクティビティを直接追加するには、次の手順に従います。
Copy アクティビティを追加する
既存のデータ パイプラインを開くか、新規データ パイプラインを作成します。
[パイプライン アクティビティの追加]>[Copy アクティビティ] を選ぶか、[アクティビティ] タブにある [データのコピー]>[キャンバスに追加] を選んで、Copy アクティビティを追加します。
[全般] タブで全般設定を構成する
全般設定を構成する方法については、全般に関する記事をご覧ください。
[ソース] タブでソースを構成する
[接続] の横にある [+ 新規] を選んで、データ ソースへの接続を作成します。
ポップアップ ウィンドウからデータ ソースの種類を選びます。 例として Azure SQL Database を使用します。 [Azure SQL Database] を選び、 [続行] を選びます。
接続の作成ページに移動します。 パネルで必要な接続情報を入力して、[作成] を選びます。 データ ソースの種類ごとの接続の作成の詳細については、各コネクタに関する記事をご覧ください。
接続が正常に作成されると、データ パイプライン ページに戻ります。 次に、[更新] を選んで、作成した接続をドロップダウン リストからフェッチします。 以前に作成した場合は、ドロップダウンから既存の Azure SQL Database 接続を直接選ぶこともできます。 [テスト接続] と [編集] の機能は、選んだ各接続で使用できます。 次に、[接続の種類] で [Azure SQL Database] を選びます。
コピーするテーブルを指定します。 [データのプレビュー] を選んで、ソース テーブルをプレビューします。 [クエリ] と [ストアド プロシージャ] を使用して、ソースからデータを読み取ることもできます。
[詳細設定] を展開して、より高度な設定を行います。
[コピー先] タブでコピー先を構成する
コピー先の種類を選びます。 これは、ワークスペースの内部ファースト クラスのデータ ストア (レイクハウスなど) か、外部データ ストアのどちらかです。 例として、レイクハウスを使用します。
[ワークスペースのデータ ストアの種類] で [レイクハウス] の使用を選びます。 [+ 新規] を選ぶと、レイクハウスの作成ページに移動します。 レイクハウス名を指定し、[作成] を選びます。
接続が正常に作成されると、データ パイプライン ページに戻ります。 次に、[更新] を選んで、作成した接続をドロップダウン リストからフェッチします。 以前に作成した場合は、ドロップダウンから既存のレイクハウス接続を直接選ぶこともできます。
テーブルを指定するか、ファイル パスを設定して、ファイルまたはフォルダーをコピー先として定義します。 ここで [テーブル] を選び、データを書き込むテーブルを指定します。
[詳細設定] を展開して、より高度な設定を行います。
これで、この 1 つの Copy アクティビティでデータ パイプラインを保存するか、データ パイプラインを引き続き設計できます。
[マッピング] タブでマッピングを構成する
適用するコネクタでマッピングがサポートされている場合、[マッピング] タブに移動してマッピングを構成できます。
[スキーマのインポート] を選んでデータ スキーマをインポートします。
自動マッピングが表示されています。 [ソース] 列と [コピー先] 列を指定します。 コピー先に新規テーブルを作成する場合、ここで [コピー先] 列名をカスタマイズできます。 既存のコピー先テーブルにデータを書き込む場は、既存の [コピー先] 列名を変更することはできません。 [ソース] 列と [コピー先] 列の [種類] を確認することもできます。
さらに、[+ 新規マッピング] を選んで新規マッピングの追加、[解除] を選んですべてのマッピング設定の解除、[リセット] を選んですべてのマッピング [ソース] 列のリセットができます。
[設定] タブで他の設定を構成する
[設定] タブには、パフォーマンス、ステージングなどの設定が含まれています。
各セクションの説明については、次の表をご覧ください。
設定 | 説明 | JSON スクリプト プロパティ |
---|---|---|
インテリジェントなスループットの最適化 | 指定してスループットを最適化します。 次の項目から選択できます: • 自動 • 標準 • バランス • 最大 [自動] を選ぶと、ソースとコピー先のペアとデータ パターンに基づいて、最適な設定が動的に適用されます。 スループットをカスタマイズすることもできます。カスタム値は 2 から 256 まで設定できます。値を大きくすると、効果を高めることができます。 |
dataIntegrationUnits |
コピーの並列処理 | データ読み込みで使用される並列処理の次数を指定します。 | parallelCopies |
フォールト トレランス | このオプションを選ぶと、コピー プロセスの途中で発生した一部のエラーを無視できます。 たとえば、ソース ストアとコピー先ストア間で行に互換性がないことや、データ移動中にファイルが削除されたことなどです。 | • enableSkipIncompatibleRow • skipErrorFile: fileMissing fileForbidden invalidFileName |
ログ記録を有効化する | このオプションを選ぶと、コピーされたファイル、スキップされたファイルや行をログに記録できます。 | / |
ステージングの有効化 | 中間ステージング ストアを経由してデータをコピーするかどうかを指定します。 有益なシナリオに対してのみステージングを有効にします。 | enableStaging |
データ ストアの種類 | ステージングを有効にすると、[ワークスペース] と [外部] をデータ ストアの種類として選択できます。 | / |
ワークスペースの場合 | ||
ワークスペース | 組み込みのステージング ストレージを使用するように指定します。 | / |
外部の場合 | ||
ステージング アカウント接続 | Azure Blob Storage または Azure Data Lake Storage Gen2 の接続を指定します。これは、中間ステージング ストアとして使用する Storage のインスタンスを示します。 ステージング接続を作成します (ない場合)。 | connection (externalReferences の下) |
ストレージ パス | ステージング データを格納するパスを指定します。 パスを指定しないと、一時データを格納するコンテナーがサービスによって作成されます。 パスを指定するのは、Shared Access Signature を持つ Storage を使用する場合、または一時データを特定の場所に保存する必要がある場合のみです。 | path |
圧縮を有効にする | データをコピーする前に圧縮するかどうかを指定します。 この設定により、転送するデータの量が減ります。 | enableCompression |
Preserve | データのコピー中にメタデータ/ACL を保存するかどうかを指定します。 | preserve |
Note
圧縮を有効にしてステージング コピーを使用する場合、ステージング BLOB 接続でのサービス プリンシパル認証はサポートされません。
Copy アクティビティでパラメーターを構成する
パラメーターを使って、パイプラインとそのアクティビティの動作を制御できます。 [動的なコンテンツの追加] を使って、Copy アクティビティのプロパティのパラメーターを指定できます。 レイクハウス、データ ウェアハウス、KQL データベースを例として指定することで、その使い方を見てみましょう。
コピー元またはコピー先で、データ ストアの種類として [ワークスペース] を選び、ワークスペース データ ストアの種類として/[レイクハウス]、[データ ウェアハウス]、または/[KQL データベース] を指定した後、[レイクハウス] または [Data Warehouse] または [KQL データベース] のドロップダウン リストで [動的なコンテンツの追加] を選びます。
ポップアップした [動的なコンテンツの追加] ペインの [パラメーター] タブで、[+] を選びます。
パラメーターの名前を指定し、必要な場合はデフォルト値を指定します。または、パイプラインで [実行] 選んだ後でパラメーターの値を指定することもできます。
パラメーターの値は、レイクハウス、データ ウェアハウス、または KQL データベースのオブジェクト ID でなければならないことに注意してください。 レイクハウス、データ ウェアハウス、KQL データベースのオブジェクト ID を取得するには、ワークスペースでレイクハウス、データ ウェアハウス、または KQL データベースを開きます。ID は URL の
/lakehouses/
または/datawarehouses/
または/databases/
の後にあります。レイクハウスのオブジェクト ID:
データ ウェアハウスのオブジェクト ID:
KQL データベースのオブジェクト ID:
[保存] を選んで、[動的なコンテンツの追加] ペインに戻ります。 次に、パラメーターを選んで式ボックスに表示します。 [OK] をクリックします。 パイプライン ページに戻ると、レイクハウス オブジェクト/ID、データ ウェアハウス オブジェクト/ID、KQL データベース オブジェクト ID の後にパラメーター式が指定されていることがわかります。