Azure Data Factory と Azure Synapse Analytics の Copy アクティビティ

[アーティクル]
11/05/2024

適用対象: Azure Data Factory Azure Synapse Analytics

ヒント

企業向けのオールインワン分析ソリューション、Microsoft Fabric の Data Factory をお試しください。 Microsoft Fabric は、データ移動からデータサイエンス、リアルタイム分析、ビジネスインテリジェンス、レポートまで、あらゆるものをカバーしています。無料で新しい試用版を開始する方法について説明します。

Azure Data Factory と Synapse のパイプラインでは、Copy アクティビティを使用して、オンプレミスやクラウド内のデータストアの間でデータをコピーできます。データをコピーした後は、他のアクティビティを使用してさらに変換および分析できます。また、コピーアクティビティを使用して、変換や分析の結果を発行し、ビジネスインテリジェンス (BI) やアプリケーションで使用することもできます。

コピーアクティビティの役割

コピーアクティビティは、統合ランタイムで実行されます。さまざまなデータコピーのシナリオで、さまざまな種類の統合ランタイムを使用できます。

任意の IP からインターネット経由でパブリックにアクセスできる 2 つのデータストア間でデータをコピーする場合は、コピーアクティビティに Azure 統合ランタイムを使用できます。この統合ランタイムは、セキュリティで保護され、信頼性が高く、スケーラブルで、グローバルに利用できます。
オンプレミス、またはアクセス制御を使用するネットワーク (Azure 仮想ネットワークなど) に配置されているデータストアとの間でデータをコピーする場合は、セルフホステッド統合ランタイムを設定する必要があります。

統合ランタイムを各ソースおよびシンクデータストアに関連付ける必要があります。使用する統合ランタイムをコピーアクティビティで判別する方法の詳細については、「使用する IR の判別」を参照してください。

Note

同じ Copy アクティビティ内で複数のセルフホステッド統合ランタイムは使用できません。このアクティビティのソースとシンクは、同じセルフホステッド統合ランタイムを使用して接続されている必要があります。

ソースからシンクにデータをコピーするために、コピーアクティビティを実行するサービスでは次の手順が実行されます。

ソースデータストアからデータを読み取る。
シリアル化/逆シリアル化、圧縮/圧縮解除、列マッピングなどを実行する。この操作は、入力データセット、出力データセット、およびコピーアクティビティの構成に基づいて実行されます。
シンク/宛先データストアにデータを書き込む。

コピーアクティビティの概要

Note

Copy アクティビティ内でのソースまたはシンクデータストアでセルフホステッド統合ランタイムが使用されている場合、コピーアクティビティを正常に実行するには、統合ランタイムをホストしているサーバーからソースとシンクの両方にアクセスできる必要があります。

サポートされるデータストアと形式

カテゴリ	データストア	ソースとしてサポート	シンクとしてサポート	Azure IR がサポート	セルフホステッド IR がサポート
Azure	Azure BLOB Storage	✓	✓	✓	✓
	Azure AI Search インデックス		✓	✓	✓
	NoSQL 用 Azure Cosmos DB	✓	✓	✓	✓
	Azure Cosmos DB for MongoDB	✓	✓	✓	✓
	Azure Data Explorer	✓	✓	✓	✓
	Azure Data Lake Storage Gen1	✓	✓	✓	✓
	Azure Data Lake Storage Gen2	✓	✓	✓	✓
	Azure Database for MariaDB	✓		✓	✓
	Azure Database for MySQL	✓	✓	✓	✓
	Azure Database for PostgreSQL	✓	✓	✓	✓
	Azure Databricks Delta Lake	✓	✓	✓	✓
	Azure Files	✓	✓	✓	✓
	Azure SQL Database	✓	✓	✓	✓
	Azure SQL Managed Instance	✓	✓	✓	✓
	Azure Synapse Analytics	✓	✓	✓	✓
	Azure Table Storage	✓	✓	✓	✓
[データベース]	Amazon RDS for Oracle	✓		✓	✓
	Amazon RDS for SQL Server	✓		✓	✓
	Amazon Redshift	✓		✓	✓
	DB2	✓		✓	✓
	Drill	✓		✓	✓
	Google BigQuery	✓		✓	✓
	Greenplum	✓		✓	✓
	HBase	✓		✓	✓
	Hive	✓		✓	✓
	Apache Impala	✓		✓	✓
	Informix	✓	✓		✓
	MariaDB	✓		✓	✓
	Microsoft Access	✓	✓		✓
	MySQL	✓		✓	✓
	Netezza	✓		✓	✓
	Oracle	✓	✓	✓	✓
	Phoenix	✓		✓	✓
	PostgreSQL	✓		✓	✓
	Presto	✓		✓	✓
	Open Hub を介した SAP Business Warehouse	✓			✓
	MDX を介した SAP Business Warehouse	✓			✓
	SAP HANA	✓	ODBC Connector と SAP HANA ODBC ドライバーでのみサポートされるシンク		✓
	SAP テーブル	✓			✓
	Snowflake	✓	✓	✓	✓
	Spark	✓		✓	✓
	SQL Server	✓	✓	✓	✓
	Sybase	✓			✓
	Teradata	✓		✓	✓
	Vertica	✓		✓	✓
NoSQL	Cassandra	✓		✓	✓
	Couchbase (プレビュー)	✓		✓	✓
	MongoDB	✓	✓	✓	✓
	MongoDB Atlas	✓	✓	✓	✓
[最近使ったファイル]	Amazon S3	✓		✓	✓
	Amazon S3 互換ストレージ	✓		✓	✓
	ファイルシステム	✓	✓	✓	✓
	FTP	✓		✓	✓
	Google Cloud Storage	✓		✓	✓
	HDFS	✓		✓	✓
	Oracle Cloud Storage	✓		✓	✓
	SFTP	✓	✓	✓	✓
汎用プロトコル	汎用 HTTP	✓		✓	✓
	汎用 OData	✓		✓	✓
	汎用 ODBC	✓	✓		✓
	汎用 REST	✓	✓	✓	✓
サービスとアプリ	Amazon Marketplace Web Service (非推奨)
	Concur (プレビュー)	✓		✓	✓
	Dataverse	✓	✓	✓	✓
	Dynamics 365	✓	✓	✓	✓
	Dynamics AX	✓		✓	✓
	Dynamics CRM	✓	✓	✓	✓
	Google AdWords	✓		✓	✓
	HubSpot	✓		✓	✓
	Jira	✓		✓	✓
	Magento (プレビュー)	✓		✓	✓
	Marketo (プレビュー)	✓		✓	✓
	Microsoft 365	✓		✓	✓
	Oracle Eloqua (プレビュー)	✓		✓	✓
	Oracle Responsys (プレビュー)	✓		✓	✓
	Oracle Service Cloud (プレビュー)	✓		✓	✓
	Paypal (プレビュー)	✓		✓	✓
	QuickBooks (プレビュー)	✓		✓	✓
	Salesforce	✓	✓	✓	✓
	Salesforce Service Cloud	✓	✓	✓	✓
	Salesforce Marketing Cloud	✓		✓	✓
	SAP Cloud for Customer (C4C)	✓	✓	✓	✓
	SAP ECC	✓		✓	✓
	ServiceNow	✓		✓	✓
	SharePoint Online リスト	✓		✓	✓
	Shopify (プレビュー)	✓		✓	✓
	Square (プレビュー)	✓		✓	✓
	Web テーブル (HTML テーブル)	✓			✓
	Xero	✓		✓	✓
	Zoho (プレビュー)	✓		✓	✓

注意

"プレビュー" と記載されたコネクタは試用版です。フィードバックをお寄せください。ソリューションでプレビュー版コネクタの依存関係を取得したい場合、Azure サポートにお問い合わせください。

サポートされるファイル形式

Azure Data Factory では次のファイル形式がサポートされます。形式ベースの設定については、各記事を参照してください。

Avro 形式
バイナリ形式
区切りテキスト形式
Excel 形式
Iceberg 形式 (Azure Data Lake Storage Gen2 の場合のみ)
JSON 形式
ORC 形式
Parquet 形式
XML 形式

コピーアクティビティを使用すると、ファイルベースの 2 つのデータストア間でファイルをそのままコピーできます。その場合、データはシリアル化または逆シリアル化なしで効率的にコピーされます。また、特定の形式のファイルを解析または生成することもできます。たとえば、次のような操作を実行できます。

SQL Server データベースからデータをコピーし、Parquet 形式で Azure Data Lake Storage Gen2 に書き込む。
オンプレミスのファイルシステムからテキスト (CSV) 形式でファイルをコピーし、Azure BLOB ストレージに Avro 形式で書き込む。
オンプレミスのファイルシステムから zip 形式のファイルをコピーし、その場で圧縮解除して、抽出されたファイルを Azure Data Lake Storage Gen2 に書き込む。
Azure BLOB ストレージから Gzip 圧縮テキスト (CSV) 形式でデータをコピーし、Azure SQL Database に書き込む。
シリアル化/逆シリアル化または圧縮/展開を必要とする他の多くのアクティビティ。

サポートされているリージョン

コピーアクティビティが有効なサービスは、「統合ランタイムの場所」に記載されているリージョンと場所でグローバルに使うことができます。グローバルに使用できるトポロジでは効率的なデータ移動が保証されます。このデータ移動では、通常、リージョンをまたがるホップが回避されます。特定のリージョンで Data Factory、Synapse ワークスペース、データ移動を利用できるかどうかを確認するには、リージョン別の製品に関する記事を参照してください。

構成

パイプラインでコピーアクティビティを実行するには、次のいずれかのツールまたは SDK を使用します。

一般的に、Azure Data Factory または Synapse パイプラインで Copy アクティビティを使用するには、次のことを行う必要があります。

ソースデータストアとシンクデータストアのリンクされたサービスを作成します。 サポートされるコネクタの一覧については、この記事の「サポートされるデータストアと形式」セクションを参照してください。構成情報とサポートされるプロパティについては、コネクタの記事のリンクされたサービスのプロパティに関するセクションを参照してください。
ソースとシンクのデータセットを作成します。 構成情報とサポートされるプロパティについては、ソースとシンクコネクタの記事のデータセットのプロパティに関するセクションを参照してください。
コピーアクティビティを含むパイプラインを作成します。 次のセクションでは、例を示します。

構文

次のコピーアクティビティのテンプレートは、サポートされるすべてのプロパティの一覧を示しています。実際のシナリオに適したものを指定してください。

"activities":[
    {
        "name": "CopyActivityTemplate",
        "type": "Copy",
        "inputs": [
            {
                "referenceName": "<source dataset name>",
                "type": "DatasetReference"
            }
        ],
        "outputs": [
            {
                "referenceName": "<sink dataset name>",
                "type": "DatasetReference"
            }
        ],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                <properties>
            },
            "sink": {
                "type": "<sink type>"
                <properties>
            },
            "translator":
            {
                "type": "TabularTranslator",
                "columnMappings": "<column mapping>"
            },
            "dataIntegrationUnits": <number>,
            "parallelCopies": <number>,
            "enableStaging": true/false,
            "stagingSettings": {
                <properties>
            },
            "enableSkipIncompatibleRow": true/false,
            "redirectIncompatibleRowSettings": {
                <properties>
            }
        }
    }
]

構文の詳細

プロパティ	説明	必須
type	コピーアクティビティの場合は、`Copy` に設定します。	はい
inputs	ソースデータを指すように作成したデータセットを指定します。コピーアクティビティは、1 つの入力のみをサポートします。	はい
outputs	シンクデータを指すように作成したデータセットを指定します。コピーアクティビティは、1 つの出力のみをサポートします。	はい
typeProperties	コピーアクティビティを構成するプロパティを指定します。	はい
source	データを取得するためのコピーソースの種類と対応するプロパティを指定します。詳細については、「サポートされるデータストアと形式」に記載されているコネクタの記事のコピーアクティビティのプロパティに関するセクションを参照してください。	はい
sink	データを書き込むためのコピーシンクの種類と対応するプロパティを指定します。詳細については、「サポートされるデータストアと形式」に記載されているコネクタの記事のコピーアクティビティのプロパティに関するセクションを参照してください。	はい
translator	ソースからシンクへの明示的な列マッピングを指定します。このプロパティは、既定のコピー動作がニーズに合わない場合に適用されます。詳細については、「コピーアクティビティでのスキーママッピング」を参照してください。	いいえ
dataIntegrationUnits	Azure 統合ランタイムがデータのコピーに使用する機能の量を表す単位を指定します。これらの単位は、以前はクラウドデータ移動単位 (DMU) と呼ばれていました。詳細については、「データ統合単位」を参照してください。	いいえ
parallelCopies	ソースからのデータの読み取り時やシンクへのデータの書き込み時にコピーアクティビティで使用する並列処理を指定します。詳細については、「並列コピー」を参照してください。	いいえ
preserve	データのコピー中にメタデータ/ACL を保存するかどうかを指定します。詳細については、メタデータの保存に関する記事を参照してください。	いいえ
enableStaging stagingSettings	ソースからシンクにデータを直接コピーするのではなく、BLOB ストレージに中間データをステージングするかどうかを指定します。役に立つシナリオと構成の詳細については、「ステージングコピー」を参照してください。	いいえ
enableSkipIncompatibleRow redirectIncompatibleRowSettings	ソースからシンクにデータをコピーするときに互換性のない行を処理する方法を選択します。詳細については、「フォールトトレランス」を参照してください。	いいえ

監視

Azure Data Factory および Synapse パイプラインでは、Copy アクティビティの実行を、視覚的に監視することも、プログラムによって監視することも可能です。詳細については、「コピーアクティビティを監視する」を参照してください。

増分コピー

Data Factory および Synapse パイプラインを使用すると、ソースデータストアからシンクデータストアに差分データを増分コピーできます。詳細については、チュートリアルのデータの増分コピーに関する記事を参照してください。

パフォーマンスとチューニング

コピーアクティビティの監視エクスペリエンスは、コピーパフォーマンスの統計をアクティビティの実行ごとに示します。「Copy アクティビティのパフォーマンスとスケーラビリティに関するガイド」では、Copy アクティビティによるデータ移動のパフォーマンスに影響する主な要因が説明されています。また、テスト時に観察されるパフォーマンス値の一覧が示され、コピーアクティビティのパフォーマンスを最適化する方法も説明されます。

前回失敗した実行から再開する

コピーアクティビティでは、ファイルベースのストア間でバイナリ形式を使用してサイズの大きいファイルをそのままコピーする場合に、ソースからシンクへのフォルダー/ファイル階層を保持することを選択した場合 (Amazon S3 から Azure Data Lake Storage Gen2 にデータを移行する場合など)、前回失敗した実行からの再開をサポートします。これは、ファイルベースのコネクタ (Amazon S3、Amazon S3 Compatible Storage、Azure Blob、Azure Data Lake Storage Gen1、Azure Data Lake Storage Gen2、Azure Files、ファイルシステム、FTP、Google Cloud Storage、HDFS、Oracle Cloud Storage、SFTP) に適用されます。

コピーアクティビティの再開は、次の 2 つの方法で利用できます。

アクティビティレベルの再試行: コピーアクティビティに再試行回数を設定できます。パイプラインの実行中に、このコピーアクティビティの実行が失敗した場合、次の自動再試行は最後の試行の失敗ポイントから開始されます。
失敗したアクティビティから再実行する: パイプラインの実行完了後、ADF UI 監視ビューまたはプログラムによって失敗したアクティビティから再実行をトリガーすることもできます。失敗したアクティビティがコピーアクティビティの場合、パイプラインはそのアクティビティから再実行されるだけでなく、前の実行の失敗ポイントからも再開されます。

いくつかの注意点があります。

再開は、ファイルレベルで行われます。ファイルのコピー時にコピーアクティビティが失敗した場合、次回の実行時に、この特定のファイルが再コピーされます。
再開が正常に機能するには、再実行の間でコピーアクティビティの設定を変更しないでください。
Amazon S3、Azure BLOB、Azure Data Lake Storage Gen2、および Google Cloud Storage からデータをコピーする場合、コピーアクティビティは任意の数のコピーされたファイルから再開できます。ソースとしてのその他のファイルベースのコネクタの場合、現在のコピーアクティビティは、限られた数のファイルからの再開をサポートしています。通常は 1 万単位の範囲であり、ファイルパスの長さによって異なります。この数を超えるファイルが再実行中に再コピーされます。

バイナリファイルコピー以外の他のシナリオでは、コピーアクティビティの再実行は先頭から開始されます。

Note

セルフホステッド統合ランタイムによる最後に失敗した実行からの再開は、セルフホステッド統合ランタイムバージョン 5.43.8935.2 以降でのみサポートされるようになりました。

データと共にメタデータを保存する

ソースからシンクへデータをコピーするときに、データレイクの移行のようなシナリオでは、コピーアクティビティを使用して、メタデータと ACL をデータと共に保存することも選択できます。詳細については、メタデータの保存に関する記事を参照してください。

ファイルベースのシンクにメタデータタグを追加する

シンクが Azure Storage ベース (Azure Data Lake Storage または Azure Blob Storage) の場合は、ファイルにいくつかのメタデータを追加することを選択できます。これらのメタデータは、ファイルプロパティの一部としてキーと値のペアで表示されます。すべての種類のファイルベースのシンクに対して、パイプラインパラメータ、システム変数、関数、変数を使用して、動的コンテンツを含むメタデータを追加できます。これに加えて、バイナリファイルベースのシンクでは、キーワード $$LASTMODIFIED を使用して (ソースファイルの) Last Modified datetime を追加し、メタデータとしてカスタム値をシンクファイルに追加することもできます。

スキーマとデータ型のマッピング

コピーアクティビティによってソースデータがどのようにシンクにマップされるかについては、スキーマとデータ型のマッピングに関する記事を参照してください。

コピー中に列を追加する

ソースデータストアからシンクにデータをコピーするだけでなく、シンクにコピーする追加データ列を追加するように構成することもできます。次に例を示します。

ファイルベースのソースからコピーする場合は、相対ファイルパスを、データの取得元ファイルをトレースするための追加列として保存します。
指定されたソース列を別の列として複製します。
ADF 式を含む列を追加して、パイプライン名/パイプライン ID などの ADF システム変数をアタッチするか、上流アクティビティの出力から他の動的な値を保存します。
静的な値を持つ列を、下流の使用ニーズに応じて追加します。

コピーアクティビティソースタブの構成は次のとおりです。また、定義されている列名を使用して、通常どおりのコピーアクティビティスキーママッピングで追加の列をマッピングすることもできます。

コピーアクティビティで列を追加する

ヒント

この機能は、最新のデータセットモデルで動作します。 UI にこのオプションが表示されない場合は、新しいデータセットを作成してみてください。

これをプログラムによって構成するには、コピーアクティビティソースに additionalColumns プロパティを追加します。

プロパティ	内容	必須
additionalColumns	シンクにコピーするデータ列を追加します。 `additionalColumns` 配列の各オブジェクトは追加列を表します。 `name` は列名を定義します。また、`value` はその列のデータ値を示します。使用できるデータ値: - `$$FILEPATH` -予約済み変数。データセットで指定されたフォルダーパスへのソースファイルの相対パスが格納されることを示します。ファイルベースのソースに適用されます。 - `$$COLUMN:<source_column_name>` - 予約変数パターンは、指定されたソース列を別の列として複製することを示します - 式 - 静的な値	いいえ

例:

"activities":[
    {
        "name": "CopyWithAdditionalColumns",
        "type": "Copy",
        "inputs": [...],
        "outputs": [...],
        "typeProperties": {
            "source": {
                "type": "<source type>",
                "additionalColumns": [
                    {
                        "name": "filePath",
                        "value": "$$FILEPATH"
                    },
                    {
                        "name": "newColName",
                        "value": "$$COLUMN:SourceColumnA"
                    },
                    {
                        "name": "pipelineName",
                        "value": {
                            "value": "@pipeline().Pipeline",
                            "type": "Expression"
                        }
                    },
                    {
                        "name": "staticValue",
                        "value": "sampleValue"
                    }
                ],
                ...
            },
            "sink": {
                "type": "<sink type>"
            }
        }
    }
]

ヒント

追加の列を構成した後、[マッピング] タブで、それらを宛先シンクにマップすることを忘れないでください。

シンクテーブルの自動作成

SQL データベースまたは Azure Synapse Analytics にデータをコピーするときに、コピー先のテーブルが存在しない場合、コピーアクティビティではソースデータに基づいてデータが自動的に作成されます。これは、データの読み込みと SQL データベース/Azure Synapse Analytics の評価をすぐに開始できるようにすることを目的としています。データインジェストが完了したら、必要に応じて、シンクテーブルスキーマを確認して調整できます。

この機能は、任意のソースから以下のシンクデータストアにデータをコピーする際にサポートされます。このオプションは、ADF のオーサリング UI ->コピーアクティビティシンク ->[テーブル] オプション ->[Auto create table] (テーブルの自動作成) の順に選択するか、またはコピーアクティビティシンクペイロードの tableOption プロパティを使用して確認できます。

シンクテーブルの作成

フォールトトレランス

既定では、ソースデータ行がシンクデータ行と互換性がない場合、コピーアクティビティでデータのコピーが停止され、エラーが返されます。コピーを成功させるには、互換性のない行をスキップし、ログに記録し、互換性のあるデータのみをコピーするようにコピーアクティビティを構成します。詳細については、コピーアクティビティのフォールトトレランスに関する記事を参照してください。

データ整合性の検証

ソースからコピー先ストアにデータを移動するとき、Copy アクティビティでは、データがソースからコピー先ストアに正常にコピーされただけでなく、ソースとコピー先ストアの間の整合性も確保されていることを確認するための、追加のデータ整合性検証を行うこともできます。データの移動中に整合性のないファイルが検出されたら、コピーアクティビティを中止するか、またはフォールトトレランス設定を有効にして整合性のないファイルをスキップすることで、その他のデータをコピーし続けることができます。スキップされたファイル名を取得するには、コピーアクティビティでセッションログ設定を有効にします。詳細については、「コピーアクティビティでのデータ整合性の検証」を参照してください。

セッションログ

コピーされたファイル名をログに記録できます。これにより、コピーアクティビティのセッションログを確認することで、データがコピー元からコピー先ストアに正常にコピーされたことだけでなく、コピー元とコピー先ストアの間で一貫していることも確認できます。詳細については、「Copy アクティビティのセッションログ」を参照してください。

次のクイックスタート、チュートリアル、およびサンプルを参照してください。

次の方法で共有

Azure Data Factory と Azure Synapse Analytics の Copy アクティビティ

サポートされるデータストアと形式

サポートされるファイル形式

サポートされているリージョン

構成

構文

構文の詳細

監視

増分コピー

パフォーマンスとチューニング

前回失敗した実行から再開する

データと共にメタデータを保存する

ファイルベースのシンクにメタデータタグを追加する

スキーマとデータ型のマッピング

コピー中に列を追加する

シンクテーブルの自動作成

フォールトトレランス

データ整合性の検証

セッションログ

フィードバック

その他のリソース

次の方法で共有

Azure Data Factory と Azure Synapse Analytics の Copy アクティビティ

サポートされるデータ ストアと形式

サポートされるファイル形式

サポートされているリージョン

構成

構文

構文の詳細

監視

増分コピー

パフォーマンスとチューニング

前回失敗した実行から再開する

データと共にメタデータを保存する

ファイル ベースのシンクにメタデータ タグを追加する

スキーマとデータ型のマッピング

コピー中に列を追加する

シンク テーブルの自動作成

フォールト トレランス

データ整合性の検証

セッション ログ

関連するコンテンツ

フィードバック

その他のリソース

サポートされるデータストアと形式

ファイルベースのシンクにメタデータタグを追加する

シンクテーブルの自動作成

フォールトトレランス

セッションログ