Azure Data Factoryと Microsoft Purview を接続する方法
このドキュメントでは、データ系列の追跡とデータ ソースの取り込みを行うために、Azure Data Factory アカウントを Microsoft Purview アカウントに接続するために必要な手順について説明します。 また、このドキュメントでは、アクティビティ カバレッジ スコープとサポートされている系列パターンの詳細についても説明します。
Azure Data Factoryを Microsoft Purview に接続すると、サポートされているAzure Data Factory アクティビティが実行されるたびに、アクティビティのソース データ、出力データ、アクティビティに関するメタデータがMicrosoft Purview データ マップに自動的に取り込まれます。
データ ソースが既にスキャンされ、データ マップに存在する場合、インジェスト プロセスは、Azure Data Factoryからその既存のソースに系列情報を追加します。 ソースまたは出力がデータ マップに存在せず、Azure Data Factory系列でサポートされている場合、Microsoft Purview はルート コレクションの下のデータ マップにAzure Data Factoryからメタデータを自動的に追加します。
これは、ユーザーがAzure Data Factoryを使用して情報を移動および変換する際に、データ資産を監視するための優れた方法です。
既存の Data Factory 接続を表示する
複数の Azure Data Factory を 1 つの Microsoft Purview に接続して系列情報をプッシュできます。 現在の制限では、Microsoft Purview 管理センターから一度に最大 10 個の Data Factory アカウントを接続できます。 Microsoft Purview アカウントに接続されている Data Factory アカウントの一覧を表示するには、次の操作を行います。
左側のナビゲーション ウィンドウで [ 管理 ] を選択します。
[ 系列接続] で、[ Data Factory] を選択します。
Data Factory 接続の一覧が表示されます。
接続状態のさまざまな値に注目 してください。
- 接続済み: Data Factory は Microsoft Purview アカウントに接続されています。
- 切断済み: Data Factory はカタログにアクセスできますが、別のカタログに接続されています。 その結果、データ系列はカタログに自動的に報告されません。
- 不明: 現在のユーザーは Data Factory にアクセスできないため、接続状態は不明です。
注:
Data Factory 接続を表示するには、次のロールを割り当てる必要があります。 管理グループからのロールの継承はサポートされていません。 ルート コレクションのコレクション管理者ロール。
新しい Data Factory 接続を作成する
注:
Data Factory 接続を追加または削除するには、次のロールを割り当てる必要があります。 管理グループからのロールの継承はサポートされていません。 ルート コレクションのコレクション管理者ロール。
また、ユーザーはデータ ファクトリの "所有者" または "共同作成者" である必要があります。
データ ファクトリでは、システム割り当てマネージド ID が有効になっている必要があります。
既存のデータ ファクトリを Microsoft Purview アカウントに接続するには、次の手順に従います。 ADF から Data Factory を Microsoft Purview アカウントに接続することもできます。
左側のナビゲーション ウィンドウで [ 管理 ] を選択します。
[ 系列接続] で、[ Data Factory] を選択します。
[ Data Factory 接続 ] ページで、[ 新規] を選択します。
一覧から Data Factory アカウントを選択し、[ OK] を選択します。 サブスクリプション名でフィルター処理して、一覧を制限することもできます。
データ ファクトリが現在の Microsoft Purview アカウントに既に接続されているか、データ ファクトリにマネージド ID がない場合、一部の Data Factory インスタンスが無効になる可能性があります。
選択したデータ ファクトリのいずれかが既に他の Microsoft Purview アカウントに接続されている場合は、警告メッセージが表示されます。 [OK] を選択すると、他の Microsoft Purview アカウントとの Data Factory 接続が切断されます。 その他の確認は必要ありません。
注:
一度に最大 10 個のAzure Data Factoryアカウントを追加できます。 10 を超えるデータ ファクトリ アカウントを追加する場合は、複数のバッチで追加します。
認証のしくみ
データ ファクトリのマネージド ID は、データ ファクトリから Microsoft Purview への系列プッシュ操作を認証するために使用されます。 UI でデータ ファクトリを Microsoft Purview に接続すると、ロールの割り当てが自動的に追加されます。
Microsoft Purview ルート コレクションに対するデータ ファクトリのマネージド ID データ キュレーター ロールを付与します。 詳細については、「 Microsoft Purview でのアクセス制御 」および「 ロールの追加」および「コレクションを使用してアクセスを制限する」を参照してください。
Data Factory 接続を削除する
データ ファクトリ接続を削除するには、次の操作を行います。
[ Data Factory 接続 ] ページで、1 つ以上のデータ ファクトリ接続の横にある [削除 ] ボタンを選択します。
選択したデータ ファクトリ接続を削除するには、ポップアップで [ 確認 ] を選択します。
Data Factory リンクを監視する
Microsoft Purview ガバナンス ポータルでは、 Data Factory リンクを監視できます。
サポートされているAzure Data Factoryアクティビティ
Microsoft Purview は、次のAzure Data Factoryアクティビティからランタイム系列をキャプチャします。
重要
ソースまたは宛先がサポートされていないデータ ストレージ システムを使用している場合、Microsoft Purview は系列を削除します。
Data Factory と Microsoft Purview の統合では、次のセクションで説明するように、Data Factory がサポートするデータ システムのサブセットのみがサポートされます。
Copy アクティビティサポート
データ ストア | サポート |
---|---|
Azure Blob Storage | はい |
Azure Cognitive Search | はい |
Azure Cosmos DB for NoSQL * | はい |
Azure Cosmos DB for MongoDB * | はい |
Azure Data Explorer * | はい |
Azure Data Lake Storage Gen1 | はい |
Azure Data Lake Storage Gen2 | はい |
Azure Database for MariaDB * | はい |
Azure Database for MySQL * | はい |
Azure Database for PostgreSQL * | はい |
Azure Files | はい |
Azure SQL データベース * | はい |
Azure SQL Managed Instance * | はい |
Azure Synapse Analytics * | はい |
Azure Dedicated SQL プール (旧称 SQL DW) * | はい |
Azure Table Storage | はい |
Amazon S3 | はい |
巣箱* | はい |
オラクル* | はい |
SAP テーブル (SAP ECC または SAP S/4HANA に接続する場合) | はい |
SQL Server * | はい |
Teradata * | はい |
* Microsoft Purview は現在、系列またはスキャンのクエリまたはストアド プロシージャをサポートしていません。 系列はテーブルとビューのソースのみに制限されます。
セルフホステッド Integration Runtimeを使用する場合は、次の系列のサポートがある最小バージョンに注意してください。
- 任意のユース ケース: バージョン 5.9.7885.3 以降
- Oracle からのデータのコピー: バージョン 5.10 以降
- COPY コマンドまたは PolyBase を使用した Azure Synapse Analytics へのデータのコピー: バージョン 5.10 以降
コピー アクティビティ系列に関する制限事項
現在、次のコピー アクティビティ機能を使用する場合、系列はまだサポートされていません。
- バイナリ形式を使用Azure Data Lake Storage Gen1 にデータをコピーします。
- バイナリ、区切りテキスト、Excel、JSON、XML ファイルの圧縮設定。
- Azure SQL Database、Azure SQL Managed Instance、Azure Synapse Analytics、SQL Server、SAP Table のソース パーティション オプション。
- ファイルごとに最大行数を設定して、ファイル ベースのシンクにデータをコピーします。
- ソース/シンクが リソース セットの場合、列レベルの系列はコピー アクティビティでは現在サポートされていません。
系列に加えて、次のコネクタのデータ資産スキーマ ([資産 - > スキーマ] タブに表示) が報告されます。
- Azure Blob、Azure Files、ADLS Gen1、ADLS Gen2、Amazon S3 上の CSV ファイルと Parquet ファイル
- Azure Data Explorer、Azure SQL Database、Azure SQL Managed Instance、Azure Synapse Analytics、SQL Server、Teradata
Data Flowサポート
データ ストア | サポート |
---|---|
Azure Blob Storage | はい |
Azure Cosmos DB for NoSQL * | はい |
Azure Data Lake Storage Gen1 | はい |
Azure Data Lake Storage Gen2 | はい |
Azure Database for MySQL * | はい |
Azure Database for PostgreSQL * | はい |
Azure SQL データベース * | はい |
Azure SQL Managed Instance * | はい |
Azure Synapse Analytics * | はい |
Azure Dedicated SQL プール (旧称 SQL DW) * | はい |
* Microsoft Purview は現在、系列またはスキャンのクエリまたはストアド プロシージャをサポートしていません。 系列はテーブルとビューのソースのみに制限されます。
データ フロー系列に関する制限事項
- データ フロー系列は、関連するファイルを表示せずにフォルダー レベル のリソース セット を生成する場合があります。
- ソース/シンクが リソース セットの場合、列レベルの系列は現在サポートされていません。
- データ フロー アクティビティの系列については、Microsoft Purview では、関連するソースとシンクの表示のみがサポートされます。 データ フロー変換の詳細な系列はまだサポートされていません。
- フローレットがデータフローの一部である場合、系列はサポートされません。
- 現在、Purview では Synapse テーブルの系列レポートはサポートされていません (LakeHouse DB/Workspace DB)
SSIS パッケージのサポートの実行
サポートされているデータ ストアを参照してください。
セキュリティで保護された Microsoft Purview アカウントにアクセスする
Microsoft Purview アカウントがファイアウォールによって保護されている場合は、Microsoft Purview プライベート エンドポイントを介して セキュリティで保護された Microsoft Purview アカウント に Data Factory がアクセスできるようにする方法について説明します。
Data Factory 系列を Microsoft Purview に取り込む
エンド ツー エンドのチュートリアルについては、「 チュートリアル: Data Factory 系列データを Microsoft Purview にプッシュする」に従ってください。
サポートされている系列パターン
Microsoft Purview でサポートされる系列には、いくつかのパターンがあります。 生成された系列データは、Data Factory アクティビティで使用されるソースとシンクの種類に基づいています。 Data Factory では 80 を超えるソースとシンクがサポートされていますが、「サポートされているAzure Data Factory アクティビティ」に記載されているように、Microsoft Purview ではサブセットのみがサポートされます。
系列情報を送信するように Data Factory を構成するには、「系列 の概要」を参照してください。
系列ビューで情報を検索するその他の方法としては、次のようなものがあります。
- [ 系列 ] タブで図形にマウス ポインターを合わせて、ツールヒントのアセットに関する追加情報をプレビューします。
- ノードまたはエッジを選択して、属している資産の種類を確認したり、資産を切り替えたりします。
- データセットの列は、[ 系列 ] タブの左側に表示されます。列レベルの系列の詳細については、「 データセット列系列」を参照してください。
1:1 操作のデータ系列
データ系列をキャプチャするための最も一般的なパターンは、1 つの入力データセットから 1 つの出力データセットにデータを移動し、その間にプロセスを入れる方法です。
このパターンの例を次に示します。
- 1 ソース/入力: Customer (SQL テーブル)
- 1 つのシンク/出力: Customer1.csv (Azure Blob)
- 1 つのプロセス: CopyCustomerInfo1#Customer1.csv (Data Factory Copy アクティビティ)
1:1 系列とワイルドカードをサポートするデータ移動
系列をキャプチャするためのもう 1 つの一般的なシナリオは、ワイルドカードを使用して、単一の入力データセットから 1 つの出力データセットにファイルをコピーすることです。 ワイルドカードを使用すると、コピー アクティビティは、ファイル名の共通部分を使用してコピーする複数のファイルと一致させることができます。 Microsoft Purview は、対応するコピー アクティビティによってコピーされた個々のファイルごとに、ファイル レベルの系列をキャプチャします。
このパターンの例を次に示します。
- ソース/入力: CustomerCall*.csv (ADLS Gen2 パス)
- シンク/出力: CustomerCall*.csv (Azure BLOB ファイル)
- 1 つのプロセス: CopyGen2ToBlob#CustomerCall.csv (Data Factory Copy アクティビティ)
n:1 系列でのデータ移動
Data Flow アクティビティを使用して、マージ、結合などのデータ操作を実行できます。 ターゲット データセットを生成するには、複数のソース データセットを使用できます。 この例では、Microsoft Purview は、個々の入力ファイルのファイル レベルの系列を、Data Flow アクティビティの一部である SQL テーブルにキャプチャします。
このパターンの例を次に示します。
- 2 つのソース/入力: Customer.csv、 Sales.parquet (ADLS Gen2 パス)
- 1 シンク/出力: 会社データ (Azure SQL テーブル)
- 1 つのプロセス: DataFlowBlobsToSQL (Data Factory Data Flow アクティビティ)
リソース セットの系列
リソース セットは、基になるストレージ内の多数のパーティション ファイルを表すカタログ内の論理オブジェクトです。 詳細については、「 リソース セットについて」を参照してください。 Microsoft Purview は、Azure Data Factoryから系列をキャプチャするときに、ルールを適用して個々のパーティション ファイルを正規化し、1 つの論理オブジェクトを作成します。
次の例では、Azure Blob から Azure Data Lake Gen2 リソース セットが生成されます。
- 1 つのソース/入力: Employee_management.csv (Azure Blob)
- 1 つのシンク/出力: Employee_management.csv (Azure Data Lake Gen 2)
- 1 つのプロセス: CopyBlobToAdlsGen2_RS (Data Factory Copy アクティビティ)