データマップに接続するデータソース

[アーティクル]
03/05/2025

この記事では、Microsoft Purview データマップでサポートされているデータソース、ファイルの種類、スキャンの概念の一覧を示します。

データソースの一覧 (種類別)

次の表は、Microsoft Purview データマップで使用可能な技術メタデータを持つすべてのデータソースと、サポートされているその他の機能を示しています。そのソースをデータマップに接続する手順については、 データソース 列でデータソース名を選択します。

Microsoft Azure
データベース
ファイル
サービスとアプリ

Azure

Azure リソースは、各データソースのページで特に明記されていない限り、Microsoft Purview アカウントと同じテナントでのみ使用できます。

データソース	分類を自動的に適用できます	Data Map アセットに秘密度ラベルを適用できます	ポリシーを適用できます	データ系統	ライブビューでアクセス可能
接続とスキャン手順のリンクを選択します。	スキャン手順については、[ はい ] を選択します。スキャン中に分類がどのように適用されるかについて説明します。	秘密度ラベル付け (プレビュー) について説明します。	[ はい] を* 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービスアクセス、保護などです。*	詳細については、[はい* ] を選択します。*	ライブビューについて説明します。
複数のソース	はい	ソース依存	はい	いいえ	制限付き
Azure Blob ストレージ	○	はい	はい (プレビュー)	狹*	はい
Azure Cosmos DB (NoSQL 用 API)	はい	いいえ	不要	いいえ*	不要
Azure Data Explorer	はい	いいえ	不要	いいえ*	不要
Azure Data Factory	不要	不要	不要	はい	いいえ
Azure Data Lake Storage Gen2	○	はい	はい (プレビュー)	狹*	はい
Azure Data Share	不要	不要	不要	はい	いいえ
Azure Database for MySQL	はい	いいえ	不要	いいえ*	不要
Azure Database for PostgreSQL	はい	いいえ	不要	いいえ*	不要
Azure Databricks Hive メタストア	不要	不要	不要	はい	いいえ
Azure Databricks Unity Catalog	はい	いいえ	不要	不要	不要
Azure 専用 SQL プール (旧称 SQL DW)	はい	いいえ	不要	いいえ*	不要
Azure Files	○	はい	不要	狹*	不要
Azure Machine Learning	不要	不要	不要	はい	いいえ
Azure SQL データベース	○	はい	はい	はい (プレビュー)	はい
Azure SQL Managed Instance	はい	いいえ	はい	いいえ*	不要
Azure Synapse Analytics (ワークスペース)	はい	いいえ	不要	はい - Synapse パイプライン	不要

* データソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。

Database

データソース	分類を自動的に適用できます	Data Map アセットに秘密度ラベルを適用できます	ポリシーを適用できます	データ系統	ライブビューでアクセス可能
接続とスキャン手順のリンクを選択します。	スキャン手順については、[ はい ] を選択します。スキャン中に分類がどのように適用されるかについて説明します。	秘密度ラベル付け (プレビュー) について説明します。	[ はい] を* 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービスアクセス、保護などです。*	詳細については、[はい* ] を選択します。*	ライブビューについて説明します。
Amazon RDS	はい	いいえ	不要	不要	不要
Amazon Redshift	不要	不要	不要	不要	不要
Cassandra	不要	不要	不要	はい	いいえ
Db2	不要	不要	不要	はい	いいえ
Google BigQuery	不要	不要	不要	はい	いいえ
Hive メタストアデータベース	不要	不要	不要	はい*	不要
MongoDB	不要	不要	不要	不要	不要
MySQL	不要	不要	不要	はい	いいえ
Oracle	はい	いいえ	不要	はい*	不要
PostgreSQL	不要	不要	不要	はい	いいえ
SAP ビジネスウェアハウス	不要	不要	不要	不要	不要
SAP HANA	不要	不要	不要	不要	不要
Snowflake	はい	いいえ	不要	はい	いいえ
SQL Server	はい	いいえ	不要	いいえ*	不要
Azure-Arc でのSQL Server	はい	いいえ	はい	いいえ*	不要
Teradata	はい	いいえ	不要	はい*	不要

File

データソース	分類を自動的に適用できます	Data Map アセットに秘密度ラベルを適用できます	ポリシーを適用できます	データ系統	ライブビューでアクセス可能
接続とスキャン手順のリンクを選択します。	スキャン手順については、[ はい ] を選択します。スキャン中に分類がどのように適用されるかについて説明します。	秘密度ラベル付け (プレビュー) について説明します。	[ はい] を* 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービスアクセス、保護などです。*	詳細については、[はい* ] を選択します。*	ライブビューについて説明します。
Amazon S3	はい	いいえ	不要	狹*	不要
Hadoop 分散ファイルシステム (HDFS)	はい	いいえ	不要	不要	不要

サービスとアプリ

データソース	分類を自動的に適用できます	Data Map アセットに秘密度ラベルを適用できます	ポリシーを適用できます	データ系統	ライブビューでアクセス可能
接続とスキャン手順のリンクを選択します。	スキャン手順については、[ はい ] を選択します。スキャン中に分類がどのように適用されるかについて説明します。	秘密度ラベル付け (プレビュー) について説明します。	[ はい] を* 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービスアクセス、保護などです。*	詳細については、[はい* ] を選択します。*	ライブビューについて説明します。
通気	不要	不要	不要	はい	いいえ
Dataverse	はい	いいえ	不要	不要	不要
Erwin	不要	不要	不要	はい	いいえ
生地	不要	不要	不要	はい	はい
Looker	不要	不要	不要	はい	いいえ
Power BI	いいえ	不要	不要	はい	はい**
Qlik Sense	不要	不要	不要	不要	不要
Salesforce	不要	不要	不要	不要	不要
SAP ECC	不要	不要	不要	はい*	不要
SAP S/4HANA	不要	不要	不要	はい*	不要
Tableau	不要	不要	不要	不要	不要

** Fabric テナント内の Power BI 項目は、ライブビューを使用して使用できます。

注:

現在、Microsoft Purview データマップは、その名前に/、\、または#を持つ資産をスキャンできません。スキャンのスコープを設定し、資産名に文字が含まれる資産のスキャンを回避するには、「Azure SQL データベースの登録とスキャン」の例を使用します。

重要

セルフホステッド統合ランタイムの使用を計画している場合、一部のデータソースをスキャンするには、セルフホステッド統合ランタイムコンピューターで追加のセットアップが必要です。たとえば、JDK、Visual C++ 再頒布可能パッケージ、または特定のドライバーなどです。ソースについては、 前提条件の詳細については、各ソースの記事を参照してください。 すべての要件は、「 前提条件 」セクションに記載されています。

データマップスキャナーリージョン

次に、Microsoft Purview データマップスキャナーを実行するすべての Azure データソース (データセンター) リージョンの一覧を示します。 Azure データソースがこのリストの外部のリージョンにある場合、スキャナーは Microsoft Purview インスタンスのリージョンで実行されます。

オーストラリア東部
オーストラリア南東部
ブラジル南部
カナダ中部
カナダ東部
インド中部
中国北部 3
東アジア
米国東部
米国東部 2
フランス中部
ドイツ中西部
東日本
韓国中部
米国中央北部
北ヨーロッパ
カタール中部
南アフリカ北部
米国中央南部
東南アジア
スイス北部
アラブ首長国連邦北部
英国南部
USGov バージニア
米国中央西部
西ヨーロッパ
米国西部
米国西部 2
米国西部 3

スキャンでサポートされるファイルの種類

以下に示すファイルの種類は、スキャン、スキーマ抽出、および該当する場合の分類でサポートされています。さらに、Data Map では、カスタムファイル拡張子とカスタムパーサーがサポートされています。

拡張機能でサポートされる構造化ファイル形式には、スキャン、スキーマ抽出、資産レベルと列レベルの分類が含まれます。

AVRO
CSV
GZIP
JSON
オーク
寄木細工
PSV
SSV
TSV
TXT
XML

拡張機能でサポートされるドキュメントファイル形式には、スキャンと資産レベルの分類が含まれます。

ドキュメント
DOCM
DOCX
点
ODP
ODS
ODT
PDF
鍋
PPS
PPSX
PPT
PPTM
PPTX
XLC
XLS
XLSB
XLSM
XLSX
XLT

注:

既知の制限事項:

Microsoft Purview データマップスキャナーでは、上記の構造化ファイルの種類のスキーマ抽出のみがサポートされます。
AVRO、ORC、PARQUET ファイルの種類の場合、スキャナーでは、複雑なデータ型 (MAP、LIST、STRUCT など) を含むファイルのスキーマ抽出はサポートされていません。
スキャナーは、スキーマの抽出と分類のためのスナップ圧縮 PARQUET 型のスキャンをサポートします。
GZIP ファイルの種類の場合、GZIP は内の 1 つの csv ファイルにマップする必要があります。 Gzip ファイルは、システムおよびカスタム分類規則の対象となります。現在、複数のファイルにマップされた gzip ファイル、または csv 以外のファイルの種類のスキャンはサポートされていません。
区切られたファイルの種類 (CSV、PSV、SSV、TSV、TXT) の場合:
- 列が 1 つだけの区切りファイルは CSV ファイルと判断できないため、スキーマがありません。
- データ型の検出はサポートされていません。データ型は、すべての列の "文字列" として一覧表示されます。
- コンマ(',')、セミコロン(';')、縦棒('|')、tab('\t') のみが区切り記号としてサポートされています。
- 3 行未満の区切りファイルは、カスタム区切り記号を使用している場合、CSV ファイルと見なすことはできません。たとえば、~ 区切り記号と 3 行未満のファイルは、CSV ファイルと判断できません。
- フィールドに二重引用符が含まれている場合、二重引用符はフィールドの先頭と末尾にのみ表示でき、一致する必要があります。フィールドの中央に表示される、または先頭と末尾に表示されるが一致しない二重引用符は、不適切なデータとして認識され、ファイルから解析されるスキーマはありません。ヘッダー行とは列の数が異なる行は、エラー行として判断されます。 (エラー行数/サンプリングされた行数) は 0.1 未満にする必要があります。
Parquet ファイルの場合、セルフホステッド統合ランタイムを使用している場合は、IR マシンに 64 ビット JRE 11 (Java ランタイム環境) または OpenJDK をインストールする必要があります。インストールガイドについては、ページの下部にある Java ランタイム環境に関するセクションを確認してください。
現在、デルタ形式はサポートされていません。 Azure Data Lake Storage (ADLS Gen2) などのストレージデータソースから差分形式を直接スキャンする場合は、「リソースセットについて」で説明されているように、デルタ形式の Parquet ファイルのセットが解析され、リソースセットとして処理されます。また、パーティション分割に使用される列は、リソースセットのスキーマの一部として認識されません。

スキーマの抽出

スキャン中のスキーマ抽出をサポートするデータソースの場合、資産スキーマは列の数で直接切り捨てられません。

入れ子になったデータ

入れ子になったデータは、JSON コンテンツでのみサポートされます。システムでサポートされているすべてのファイルの種類について、列に入れ子になった JSON コンテンツがある場合、スキャナーは入れ子になった JSON データを解析し、アセットの [スキーマ] タブ内に表示します。

入れ子になったデータまたは入れ子になったスキーマ解析は、SQL ではサポートされていません。入れ子になったデータを含む列が報告され、そのまま分類され、サブデータは解析されません。

分類用のサンプリングデータ

Data Map の用語では、

L1 スキャン: ファイル名、サイズ、完全修飾名などの基本情報とメタデータを抽出します
L2 スキャン: 構造化ファイルの種類とデータベーステーブルのスキーマを抽出します
L3 スキャン: 該当する場合にスキーマを抽出し、サンプリングされたファイルをシステムおよびカスタム分類規則に従います

スキャンレベルのカスタマイズの詳細については、こちらをご覧ください。

すべての構造化ファイル形式の場合、Microsoft Purview データマップスキャナーは次のようにファイルをサンプリングします。

構造化ファイルの種類の場合は、各列の上位 128 行、または最初の 1 MB のいずれか低い方をサンプリングします。
ドキュメントファイル形式の場合は、各ファイルの最初の 20 MB をサンプリングします。
- ドキュメントファイルが 20 MB を超える場合、ディープスキャンの対象になりません (分類の対象)。その場合、Microsoft Purview では、ファイル名や完全修飾名などの基本的なメタデータのみがキャプチャされます。
表形式データソース (SQL) の場合、上位 128 行をサンプリングします。
Azure Cosmos DB for NoSQL の場合、コンテナー内の最初の 10 個のドキュメントから最大 300 個の個別のプロパティがスキーマ用に収集され、プロパティごとに最大 128 個のドキュメントまたは最初の 1 MB の値がサンプリングされます。

リソースセットのファイルサンプリング

フォルダーまたはパーティションファイルのグループは、システムリソースセットポリシーまたは顧客定義のリソースセット ポリシーと一致する場合、Microsoft Purview データマップでリソースセットとして検出されます。リソースセットが検出された場合、スキャナーは、そのリソースセットに含まれる各フォルダーをサンプリングします。リソースセットの詳細については、こちらを参照してください。

ファイルの種類別のリソースセットのファイルサンプリング:

区切られたファイル (CSV、PSV、SSV、TSV) - "リソースセット" と見なされるパーティションファイルのフォルダーまたはグループ内で、100 ファイルに 1 個のファイルがサンプリング (L3 スキャン) されます
Data Lake ファイルの種類 (Parquet、Avro、Orc) - "リソースセット" と見なされるパーティションファイルのフォルダーまたはグループ内で、18446744073709551615 (最大長) ファイルの 1 がサンプリング (L3 スキャン) されます
その他の構造化ファイルの種類 (JSON、XML、TXT) - 100 個のファイルに 1 個がサンプリングされます (L3 スキャン) は、"リソースセット" と見なされるパーティションファイルのフォルダーまたはグループ内でサンプリングされます
SQL オブジェクトと Azure Cosmos DB エンティティ - 各ファイルが L3 スキャンされます。
ドキュメントファイルの種類 - 各ファイルが L3 スキャンされます。リソースセットパターンは、これらのファイルの種類には適用されません。

次の方法で共有

データマップに接続するデータソース

データソースの一覧 (種類別)

Azure

Database

File

サービスとアプリ

データマップスキャナーリージョン

スキャンでサポートされるファイルの種類

スキーマの抽出

入れ子になったデータ

分類用のサンプリングデータ

リソースセットのファイルサンプリング

次の手順

フィードバック

その他のリソース

次の方法で共有

データ マップに接続するデータ ソース

データ ソースの一覧 (種類別)

Azure

Database

File

サービスとアプリ

データ マップ スキャナーリージョン

スキャンでサポートされるファイルの種類

スキーマの抽出

入れ子になったデータ

分類用のサンプリング データ

リソース セット のファイル サンプリング

次の手順

フィードバック

その他のリソース

データマップに接続するデータソース

データソースの一覧 (種類別)

データマップスキャナーリージョン

分類用のサンプリングデータ

リソースセットのファイルサンプリング