データ マップに接続するデータ ソース
この記事では、Microsoft Purview データ マップでサポートされているデータ ソース、ファイルの種類、スキャンの概念の一覧を示します。
データ ソースの一覧 (種類別)
次の表は、Microsoft Purview データ マップで使用可能な技術メタデータを持つすべてのデータ ソースと、サポートされているその他の機能を示しています。 そのソースをデータ マップに接続する手順については、 データ ソース 列でデータ ソース名を選択します。
Azure
Azure リソースは、各データ ソースのページで特に明記されていない限り、Microsoft Purview アカウントと同じテナントでのみ使用できます。
データ ソース | 分類を自動的に適用できます | Data Map アセットに秘密度ラベルを適用できます | ポリシーを適用できます | データ系統 | ライブ ビューでアクセス可能 |
---|---|---|---|---|---|
接続とスキャン手順のリンクを選択します。 | スキャン手順については、[ はい ] を選択します。 スキャン中に分類がどのように適用されるかについて説明します。 | 秘密度ラベル付け (プレビュー) について説明します。 | [ はい] を 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービス アクセス、保護などです。 | 詳細 については、[はい ] を選択します。 | ライブ ビューについて説明します。 |
複数のソース | はい | ソース依存 | はい | いいえ | 制限付き |
Azure Blob ストレージ | ○ | はい | はい (プレビュー) | 狹* | はい |
Azure Cosmos DB (NoSQL 用 API) | はい | いいえ | 不要 | いいえ* | 不要 |
Azure Data Explorer | はい | いいえ | 不要 | いいえ* | 不要 |
Azure Data Factory | 不要 | 不要 | 不要 | はい | いいえ |
Azure Data Lake Storage Gen2 | ○ | はい | はい (プレビュー) | 狹* | はい |
Azure Data Share | 不要 | 不要 | 不要 | はい | いいえ |
Azure Database for MySQL | はい | いいえ | 不要 | いいえ* | 不要 |
Azure Database for PostgreSQL | はい | いいえ | 不要 | いいえ* | 不要 |
Azure Databricks Hive メタストア | 不要 | 不要 | 不要 | はい | いいえ |
Azure Databricks Unity Catalog | はい | いいえ | 不要 | 不要 | 不要 |
Azure 専用 SQL プール (旧称 SQL DW) | はい | いいえ | 不要 | いいえ* | 不要 |
Azure Files | ○ | はい | 不要 | 狹* | 不要 |
Azure Machine Learning | 不要 | 不要 | 不要 | はい | いいえ |
Azure SQL データベース | ○ | はい | はい | はい (プレビュー) | はい |
Azure SQL Managed Instance | はい | いいえ | はい | いいえ* | 不要 |
Azure Synapse Analytics (ワークスペース) | はい | いいえ | 不要 | はい - Synapse パイプライン | 不要 |
* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。
Database
データ ソース | 分類を自動的に適用できます | Data Map アセットに秘密度ラベルを適用できます | ポリシーを適用できます | データ系統 | ライブ ビューでアクセス可能 |
---|---|---|---|---|---|
接続とスキャン手順のリンクを選択します。 | スキャン手順については、[ はい ] を選択します。 スキャン中に分類がどのように適用されるかについて説明します。 | 秘密度ラベル付け (プレビュー) について説明します。 | [ はい] を 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービス アクセス、保護などです。 | 詳細 については、[はい ] を選択します。 | ライブ ビューについて説明します。 |
Amazon RDS | はい | いいえ | 不要 | 不要 | 不要 |
Amazon Redshift | 不要 | 不要 | 不要 | 不要 | 不要 |
Cassandra | 不要 | 不要 | 不要 | はい | いいえ |
Db2 | 不要 | 不要 | 不要 | はい | いいえ |
Google BigQuery | 不要 | 不要 | 不要 | はい | いいえ |
Hive メタストア データベース | 不要 | 不要 | 不要 | はい* | 不要 |
MongoDB | 不要 | 不要 | 不要 | 不要 | 不要 |
MySQL | 不要 | 不要 | 不要 | はい | いいえ |
Oracle | はい | いいえ | 不要 | はい* | 不要 |
PostgreSQL | 不要 | 不要 | 不要 | はい | いいえ |
SAP ビジネス ウェアハウス | 不要 | 不要 | 不要 | 不要 | 不要 |
SAP HANA | 不要 | 不要 | 不要 | 不要 | 不要 |
Snowflake | はい | いいえ | 不要 | はい | いいえ |
SQL Server | はい | いいえ | 不要 | いいえ* | 不要 |
Azure-Arc でのSQL Server | はい | いいえ | はい | いいえ* | 不要 |
Teradata | はい | いいえ | 不要 | はい* | 不要 |
* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。
File
データ ソース | 分類を自動的に適用できます | Data Map アセットに秘密度ラベルを適用できます | ポリシーを適用できます | データ系統 | ライブ ビューでアクセス可能 |
---|---|---|---|---|---|
接続とスキャン手順のリンクを選択します。 | スキャン手順については、[ はい ] を選択します。 スキャン中に分類がどのように適用されるかについて説明します。 | 秘密度ラベル付け (プレビュー) について説明します。 | [ はい] を 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービス アクセス、保護などです。 | 詳細 については、[はい ] を選択します。 | ライブ ビューについて説明します。 |
Amazon S3 | はい | いいえ | 不要 | 狹* | 不要 |
Hadoop 分散ファイル システム (HDFS) | はい | いいえ | 不要 | 不要 | 不要 |
* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。
サービスとアプリ
データ ソース | 分類を自動的に適用できます | Data Map アセットに秘密度ラベルを適用できます | ポリシーを適用できます | データ系統 | ライブ ビューでアクセス可能 |
---|---|---|---|---|---|
接続とスキャン手順のリンクを選択します。 | スキャン手順については、[ はい ] を選択します。 スキャン中に分類がどのように適用されるかについて説明します。 | 秘密度ラベル付け (プレビュー) について説明します。 | [ はい] を 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービス アクセス、保護などです。 | 詳細 については、[はい ] を選択します。 | ライブ ビューについて説明します。 |
通気 | 不要 | 不要 | 不要 | はい | いいえ |
Dataverse | はい | いいえ | 不要 | 不要 | 不要 |
Erwin | 不要 | 不要 | 不要 | はい | いいえ |
生地 | 不要 | 不要 | 不要 | はい | はい |
Looker | 不要 | 不要 | 不要 | はい | いいえ |
Power BI | いいえ | 不要 | 不要 | はい | はい** |
Qlik Sense | 不要 | 不要 | 不要 | 不要 | 不要 |
Salesforce | 不要 | 不要 | 不要 | 不要 | 不要 |
SAP ECC | 不要 | 不要 | 不要 | はい* | 不要 |
SAP S/4HANA | 不要 | 不要 | 不要 | はい* | 不要 |
Tableau | 不要 | 不要 | 不要 | 不要 | 不要 |
* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。
** Fabric テナント内の Power BI 項目は、ライブ ビューを使用して使用できます。
注:
現在、Microsoft Purview データ マップは、その名前に/
、\
、または#
を持つ資産をスキャンできません。 スキャンのスコープを設定し、資産名に文字が含まれる資産のスキャンを回避するには、「Azure SQL データベースの登録とスキャン」の例を使用します。
重要
セルフホステッド統合ランタイムの使用を計画している場合、一部のデータ ソースをスキャンするには、セルフホステッド統合ランタイム コンピューターで追加のセットアップが必要です。 たとえば、JDK、Visual C++ 再頒布可能パッケージ、または特定のドライバーなどです。 ソースについては、 前提条件の詳細については、各ソースの記事を参照してください。 すべての要件は、「 前提条件 」セクションに記載されています。
データ マップ スキャナーリージョン
次に、Microsoft Purview データ マップ スキャナーを実行するすべての Azure データ ソース (データ センター) リージョンの一覧を示します。 Azure データ ソースがこのリストの外部のリージョンにある場合、スキャナーは Microsoft Purview インスタンスのリージョンで実行されます。
- オーストラリア東部
- オーストラリア南東部
- ブラジル南部
- カナダ中部
- カナダ東部
- インド中部
- 中国北部 3
- 東アジア
- 米国東部
- 米国東部 2
- フランス中部
- ドイツ中西部
- 東日本
- 韓国中部
- 米国中央北部
- 北ヨーロッパ
- カタール中部
- 南アフリカ北部
- 米国中央南部
- 東南アジア
- スイス北部
- アラブ首長国連邦北部
- 英国南部
- USGov バージニア
- 米国中央西部
- 西ヨーロッパ
- 米国西部
- 米国西部 2
- 米国西部 3
スキャンでサポートされるファイルの種類
以下に示すファイルの種類は、スキャン、スキーマ抽出、および該当する場合の分類でサポートされています。 さらに、Data Map では、 カスタム ファイル拡張子とカスタム パーサーがサポートされています。
拡張機能でサポートされる構造化ファイル形式には、スキャン、スキーマ抽出、資産レベルと列レベルの分類が含まれます。
- AVRO
- CSV
- GZIP
- JSON
- オーク
- 寄木細工
- PSV
- SSV
- TSV
- TXT
- XML
拡張機能でサポートされるドキュメント ファイル形式には、スキャンと資産レベルの分類が含まれます。
- ドキュメント
- DOCM
- DOCX
- 点
- ODP
- ODS
- ODT
- 鍋
- PPS
- PPSX
- PPT
- PPTM
- PPTX
- XLC
- XLS
- XLSB
- XLSM
- XLSX
- XLT
注:
既知の制限事項:
- Microsoft Purview データ マップ スキャナーでは、上記の構造化ファイルの種類のスキーマ抽出のみがサポートされます。
- AVRO、ORC、PARQUET ファイルの種類の場合、スキャナーでは、複雑なデータ型 (MAP、LIST、STRUCT など) を含むファイルのスキーマ抽出はサポートされていません。
- スキャナーは、スキーマの抽出と分類のためのスナップ圧縮 PARQUET 型のスキャンをサポートします。
- GZIP ファイルの種類の場合、GZIP は内の 1 つの csv ファイルにマップする必要があります。 Gzip ファイルは、システムおよびカスタム分類規則の対象となります。 現在、複数のファイルにマップされた gzip ファイル、または csv 以外のファイルの種類のスキャンはサポートされていません。
-
区切られたファイルの種類 (CSV、PSV、SSV、TSV、TXT) の場合:
- 列が 1 つだけの区切りファイルは CSV ファイルと判断できないため、スキーマがありません。
- データ型の検出はサポートされていません。 データ型は、すべての列の "文字列" として一覧表示されます。
- コンマ(',')、セミコロン(';')、縦棒('|')、tab('\t') のみが区切り記号としてサポートされています。
- 3 行未満の区切りファイルは、カスタム区切り記号を使用している場合、CSV ファイルと見なすことはできません。 たとえば、~ 区切り記号と 3 行未満のファイルは、CSV ファイルと判断できません。
- フィールドに二重引用符が含まれている場合、二重引用符はフィールドの先頭と末尾にのみ表示でき、一致する必要があります。 フィールドの中央に表示される、または先頭と末尾に表示されるが一致しない二重引用符は、不適切なデータとして認識され、ファイルから解析されるスキーマはありません。 ヘッダー行とは列の数が異なる行は、エラー行として判断されます。 (エラー行数/サンプリングされた行数) は 0.1 未満にする必要があります。
- Parquet ファイルの場合、セルフホステッド統合ランタイムを使用している場合は、IR マシンに 64 ビット JRE 11 (Java ランタイム環境) または OpenJDK をインストールする必要があります。 インストール ガイドについては、 ページの下部にある Java ランタイム環境に 関するセクションを確認してください。
- 現在、デルタ形式はサポートされていません。 Azure Data Lake Storage (ADLS Gen2) などのストレージ データ ソースから差分形式を直接スキャンする場合は、「リソース セットについて」で説明されているように、デルタ形式の Parquet ファイルのセットが解析され、リソース セットとして処理されます。 また、パーティション分割に使用される列は、リソース セットのスキーマの一部として認識されません。
スキーマの抽出
スキャン中のスキーマ抽出をサポートするデータ ソースの場合、資産スキーマは列の数で直接切り捨てられません。
入れ子になったデータ
入れ子になったデータは、JSON コンテンツでのみサポートされます。 システムでサポートされているすべてのファイルの種類について、列に入れ子になった JSON コンテンツがある場合、スキャナーは入れ子になった JSON データを解析し、アセットの [スキーマ] タブ内に表示します。
入れ子になったデータまたは入れ子になったスキーマ解析は、SQL ではサポートされていません。 入れ子になったデータを含む列が報告され、そのまま分類され、サブデータは解析されません。
分類用のサンプリング データ
Data Map の用語では、
- L1 スキャン: ファイル名、サイズ、完全修飾名などの基本情報とメタデータを抽出します
- L2 スキャン: 構造化ファイルの種類とデータベース テーブルのスキーマを抽出します
- L3 スキャン: 該当する場合にスキーマを抽出し、サンプリングされたファイルをシステムおよびカスタム分類規則に従います
スキャン レベルのカスタマイズの詳細については、こちらをご覧ください。
すべての構造化ファイル形式の場合、Microsoft Purview データ マップ スキャナーは次のようにファイルをサンプリングします。
- 構造化ファイルの種類の場合は、各列の上位 128 行、または最初の 1 MB のいずれか低い方をサンプリングします。
- ドキュメント ファイル形式の場合は、各ファイルの最初の 20 MB をサンプリングします。
- ドキュメント ファイルが 20 MB を超える場合、ディープ スキャンの対象になりません (分類の対象)。 その場合、Microsoft Purview では、ファイル名や完全修飾名などの基本的なメタデータのみがキャプチャされます。
- 表形式データ ソース (SQL) の場合、上位 128 行をサンプリングします。
- Azure Cosmos DB for NoSQL の場合、コンテナー内の最初の 10 個のドキュメントから最大 300 個の個別のプロパティがスキーマ用に収集され、プロパティごとに最大 128 個のドキュメントまたは最初の 1 MB の値がサンプリングされます。
リソース セット のファイル サンプリング
フォルダーまたはパーティション ファイルのグループは、システム リソース セット ポリシーまたは顧客定義のリソース セット ポリシーと一致する場合、Microsoft Purview データ マップでリソース セットとして検出されます。 リソース セットが検出された場合、スキャナーは、そのリソース セットに含まれる各フォルダーをサンプリングします。 リソース セットの詳細については 、こちらを参照してください。
ファイルの種類別のリソース セットのファイル サンプリング:
- 区切られたファイル (CSV、PSV、SSV、TSV) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、100 ファイルに 1 個のファイルがサンプリング (L3 スキャン) されます
- Data Lake ファイルの種類 (Parquet、Avro、Orc) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、18446744073709551615 (最大長) ファイルの 1 がサンプリング (L3 スキャン) されます
- その他の構造化ファイルの種類 (JSON、XML、TXT) - 100 個のファイルに 1 個がサンプリングされます (L3 スキャン) は、"リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内でサンプリングされます
- SQL オブジェクトと Azure Cosmos DB エンティティ - 各ファイルが L3 スキャンされます。
- ドキュメント ファイルの種類 - 各ファイルが L3 スキャンされます。 リソース セット パターンは、これらのファイルの種類には適用されません。