次の方法で共有


データ マップに接続するデータ ソース

この記事では、Microsoft Purview データ マップでサポートされているデータ ソース、ファイルの種類、スキャンの概念の一覧を示します。

データ ソースの一覧 (種類別)

次の表は、Microsoft Purview データ マップで使用可能な技術メタデータを持つすべてのデータ ソースと、サポートされているその他の機能を示しています。 そのソースをデータ マップに接続する手順については、 データ ソース 列でデータ ソース名を選択します。

Azure

Azure リソースは、各データ ソースのページで特に明記されていない限り、Microsoft Purview アカウントと同じテナントでのみ使用できます。

データ ソース 分類を自動的に適用できます Data Map アセットに秘密度ラベルを適用できます ポリシーを適用できます データ系統 ライブ ビューでアクセス可能
接続とスキャン手順のリンクを選択します。 スキャン手順については、[ はい ] を選択します。 スキャン中に分類がどのように適用されるかについて説明します。 秘密度ラベル付け (プレビュー) について説明します。 [ はい] を 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービス アクセス、保護などです。 詳細 については、[はい ] を選択します。 ライブ ビューについて説明します。
複数のソース はい ソース依存 はい いいえ 制限付き
Azure Blob ストレージ はい はい (プレビュー) 狹* はい
Azure Cosmos DB (NoSQL 用 API) はい いいえ 不要 いいえ* 不要
Azure Data Explorer はい いいえ 不要 いいえ* 不要
Azure Data Factory 不要 不要 不要 はい いいえ
Azure Data Lake Storage Gen2 はい はい (プレビュー) 狹* はい
Azure Data Share 不要 不要 不要 はい いいえ
Azure Database for MySQL はい いいえ 不要 いいえ* 不要
Azure Database for PostgreSQL はい いいえ 不要 いいえ* 不要
Azure Databricks Hive メタストア 不要 不要 不要 はい いいえ
Azure Databricks Unity Catalog はい いいえ 不要 不要 不要
Azure 専用 SQL プール (旧称 SQL DW) はい いいえ 不要 いいえ* 不要
Azure Files はい 不要 狹* 不要
Azure Machine Learning 不要 不要 不要 はい いいえ
Azure SQL データベース はい はい はい (プレビュー) はい
Azure SQL Managed Instance はい いいえ はい いいえ* 不要
Azure Synapse Analytics (ワークスペース) はい いいえ 不要 はい - Synapse パイプライン 不要

* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。

Database

データ ソース 分類を自動的に適用できます Data Map アセットに秘密度ラベルを適用できます ポリシーを適用できます データ系統 ライブ ビューでアクセス可能
接続とスキャン手順のリンクを選択します。 スキャン手順については、[ はい ] を選択します。 スキャン中に分類がどのように適用されるかについて説明します。 秘密度ラベル付け (プレビュー) について説明します。 [ はい] を 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービス アクセス、保護などです。 詳細 については、[はい ] を選択します。 ライブ ビューについて説明します。
Amazon RDS はい いいえ 不要 不要 不要
Amazon Redshift 不要 不要 不要 不要 不要
Cassandra 不要 不要 不要 はい いいえ
Db2 不要 不要 不要 はい いいえ
Google BigQuery 不要 不要 不要 はい いいえ
Hive メタストア データベース 不要 不要 不要 はい* 不要
MongoDB 不要 不要 不要 不要 不要
MySQL 不要 不要 不要 はい いいえ
Oracle はい いいえ 不要 はい* 不要
PostgreSQL 不要 不要 不要 はい いいえ
SAP ビジネス ウェアハウス 不要 不要 不要 不要 不要
SAP HANA 不要 不要 不要 不要 不要
Snowflake はい いいえ 不要 はい いいえ
SQL Server はい いいえ 不要 いいえ* 不要
Azure-Arc でのSQL Server はい いいえ はい いいえ* 不要
Teradata はい いいえ 不要 はい* 不要

* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。

File

データ ソース 分類を自動的に適用できます Data Map アセットに秘密度ラベルを適用できます ポリシーを適用できます データ系統 ライブ ビューでアクセス可能
接続とスキャン手順のリンクを選択します。 スキャン手順については、[ はい ] を選択します。 スキャン中に分類がどのように適用されるかについて説明します。 秘密度ラベル付け (プレビュー) について説明します。 [ はい] を 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービス アクセス、保護などです。 詳細 については、[はい ] を選択します。 ライブ ビューについて説明します。
Amazon S3 はい いいえ 不要 狹* 不要
Hadoop 分散ファイル システム (HDFS) はい いいえ 不要 不要 不要

* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。

サービスとアプリ

データ ソース 分類を自動的に適用できます Data Map アセットに秘密度ラベルを適用できます ポリシーを適用できます データ系統 ライブ ビューでアクセス可能
接続とスキャン手順のリンクを選択します。 スキャン手順については、[ はい ] を選択します。 スキャン中に分類がどのように適用されるかについて説明します。 秘密度ラベル付け (プレビュー) について説明します。 [ はい] を 選択して、サポートされているポリシーを表示します。たとえば、データ所有者、セルフサービス アクセス、保護などです。 詳細 については、[はい ] を選択します。 ライブ ビューについて説明します。
通気 不要 不要 不要 はい いいえ
Dataverse はい いいえ 不要 不要 不要
Erwin 不要 不要 不要 はい いいえ
生地 不要 不要 不要 はい はい
Looker 不要 不要 不要 はい いいえ
Power BI いいえ 不要 不要 はい はい**
Qlik Sense 不要 不要 不要 不要 不要
Salesforce 不要 不要 不要 不要 不要
SAP ECC 不要 不要 不要 はい* 不要
SAP S/4HANA 不要 不要 不要 はい* 不要
Tableau 不要 不要 不要 不要 不要

* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。

** Fabric テナント内の Power BI 項目は、ライブ ビューを使用して使用できます。

注:

現在、Microsoft Purview データ マップは、その名前に/\、または#を持つ資産をスキャンできません。 スキャンのスコープを設定し、資産名に文字が含まれる資産のスキャンを回避するには、「Azure SQL データベースの登録とスキャン」の例を使用します。

重要

セルフホステッド統合ランタイムの使用を計画している場合、一部のデータ ソースをスキャンするには、セルフホステッド統合ランタイム コンピューターで追加のセットアップが必要です。 たとえば、JDK、Visual C++ 再頒布可能パッケージ、または特定のドライバーなどです。 ソースについては、 前提条件の詳細については、各ソースの記事を参照してください。 すべての要件は、「 前提条件 」セクションに記載されています。

データ マップ スキャナーリージョン

次に、Microsoft Purview データ マップ スキャナーを実行するすべての Azure データ ソース (データ センター) リージョンの一覧を示します。 Azure データ ソースがこのリストの外部のリージョンにある場合、スキャナーは Microsoft Purview インスタンスのリージョンで実行されます。

  • オーストラリア東部
  • オーストラリア南東部
  • ブラジル南部
  • カナダ中部
  • カナダ東部
  • インド中部
  • 中国北部 3
  • 東アジア
  • 米国東部
  • 米国東部 2
  • フランス中部
  • ドイツ中西部
  • 東日本
  • 韓国中部
  • 米国中央北部
  • 北ヨーロッパ
  • カタール中部
  • 南アフリカ北部
  • 米国中央南部
  • 東南アジア
  • スイス北部
  • アラブ首長国連邦北部
  • 英国南部
  • USGov バージニア
  • 米国中央西部
  • 西ヨーロッパ
  • 米国西部
  • 米国西部 2
  • 米国西部 3

スキャンでサポートされるファイルの種類

以下に示すファイルの種類は、スキャン、スキーマ抽出、および該当する場合の分類でサポートされています。 さらに、Data Map では、 カスタム ファイル拡張子とカスタム パーサーがサポートされています

拡張機能でサポートされる構造化ファイル形式には、スキャン、スキーマ抽出、資産レベルと列レベルの分類が含まれます。

  • AVRO
  • CSV
  • GZIP
  • JSON
  • オーク
  • 寄木細工
  • PSV
  • SSV
  • TSV
  • TXT
  • XML

拡張機能でサポートされるドキュメント ファイル形式には、スキャンと資産レベルの分類が含まれます。

  • ドキュメント
  • DOCM
  • DOCX
  • ODP
  • ODS
  • ODT
  • PDF
  • PPS
  • PPSX
  • PPT
  • PPTM
  • PPTX
  • XLC
  • XLS
  • XLSB
  • XLSM
  • XLSX
  • XLT

注:

既知の制限事項:

  • Microsoft Purview データ マップ スキャナーでは、上記の構造化ファイルの種類のスキーマ抽出のみがサポートされます。
  • AVRO、ORC、PARQUET ファイルの種類の場合、スキャナーでは、複雑なデータ型 (MAP、LIST、STRUCT など) を含むファイルのスキーマ抽出はサポートされていません。
  • スキャナーは、スキーマの抽出と分類のためのスナップ圧縮 PARQUET 型のスキャンをサポートします。
  • GZIP ファイルの種類の場合、GZIP は内の 1 つの csv ファイルにマップする必要があります。 Gzip ファイルは、システムおよびカスタム分類規則の対象となります。 現在、複数のファイルにマップされた gzip ファイル、または csv 以外のファイルの種類のスキャンはサポートされていません。
  • 区切られたファイルの種類 (CSV、PSV、SSV、TSV、TXT) の場合:
    • 列が 1 つだけの区切りファイルは CSV ファイルと判断できないため、スキーマがありません。
    • データ型の検出はサポートされていません。 データ型は、すべての列の "文字列" として一覧表示されます。
    • コンマ(',')、セミコロン(';')、縦棒('|')、tab('\t') のみが区切り記号としてサポートされています。
    • 3 行未満の区切りファイルは、カスタム区切り記号を使用している場合、CSV ファイルと見なすことはできません。 たとえば、~ 区切り記号と 3 行未満のファイルは、CSV ファイルと判断できません。
    • フィールドに二重引用符が含まれている場合、二重引用符はフィールドの先頭と末尾にのみ表示でき、一致する必要があります。 フィールドの中央に表示される、または先頭と末尾に表示されるが一致しない二重引用符は、不適切なデータとして認識され、ファイルから解析されるスキーマはありません。 ヘッダー行とは列の数が異なる行は、エラー行として判断されます。 (エラー行数/サンプリングされた行数) は 0.1 未満にする必要があります。
  • Parquet ファイルの場合、セルフホステッド統合ランタイムを使用している場合は、IR マシンに 64 ビット JRE 11 (Java ランタイム環境) または OpenJDK をインストールする必要があります。 インストール ガイドについては、 ページの下部にある Java ランタイム環境に 関するセクションを確認してください。
  • 現在、デルタ形式はサポートされていません。 Azure Data Lake Storage (ADLS Gen2) などのストレージ データ ソースから差分形式を直接スキャンする場合は、「リソース セットについて」で説明されているように、デルタ形式の Parquet ファイルのセットが解析され、リソース セットとして処理されます。 また、パーティション分割に使用される列は、リソース セットのスキーマの一部として認識されません。

スキーマの抽出

スキャン中のスキーマ抽出をサポートするデータ ソースの場合、資産スキーマは列の数で直接切り捨てられません。

入れ子になったデータ

入れ子になったデータは、JSON コンテンツでのみサポートされます。 システムでサポートされているすべてのファイルの種類について、列に入れ子になった JSON コンテンツがある場合、スキャナーは入れ子になった JSON データを解析し、アセットの [スキーマ] タブ内に表示します。

入れ子になったデータまたは入れ子になったスキーマ解析は、SQL ではサポートされていません。 入れ子になったデータを含む列が報告され、そのまま分類され、サブデータは解析されません。

分類用のサンプリング データ

Data Map の用語では、

  • L1 スキャン: ファイル名、サイズ、完全修飾名などの基本情報とメタデータを抽出します
  • L2 スキャン: 構造化ファイルの種類とデータベース テーブルのスキーマを抽出します
  • L3 スキャン: 該当する場合にスキーマを抽出し、サンプリングされたファイルをシステムおよびカスタム分類規則に従います

スキャン レベルのカスタマイズの詳細については、こちらをご覧ください。

すべての構造化ファイル形式の場合、Microsoft Purview データ マップ スキャナーは次のようにファイルをサンプリングします。

  • 構造化ファイルの種類の場合は、各列の上位 128 行、または最初の 1 MB のいずれか低い方をサンプリングします。
  • ドキュメント ファイル形式の場合は、各ファイルの最初の 20 MB をサンプリングします。
    • ドキュメント ファイルが 20 MB を超える場合、ディープ スキャンの対象になりません (分類の対象)。 その場合、Microsoft Purview では、ファイル名や完全修飾名などの基本的なメタデータのみがキャプチャされます。
  • 表形式データ ソース (SQL) の場合、上位 128 行をサンプリングします。
  • Azure Cosmos DB for NoSQL の場合、コンテナー内の最初の 10 個のドキュメントから最大 300 個の個別のプロパティがスキーマ用に収集され、プロパティごとに最大 128 個のドキュメントまたは最初の 1 MB の値がサンプリングされます。

リソース セット のファイル サンプリング

フォルダーまたはパーティション ファイルのグループは、システム リソース セット ポリシーまたは顧客定義のリソース セット ポリシーと一致する場合、Microsoft Purview データ マップでリソース セットとして検出されます。 リソース セットが検出された場合、スキャナーは、そのリソース セットに含まれる各フォルダーをサンプリングします。 リソース セットの詳細については 、こちらを参照してください

ファイルの種類別のリソース セットのファイル サンプリング:

  • 区切られたファイル (CSV、PSV、SSV、TSV) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、100 ファイルに 1 個のファイルがサンプリング (L3 スキャン) されます
  • Data Lake ファイルの種類 (Parquet、Avro、Orc) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、18446744073709551615 (最大長) ファイルの 1 がサンプリング (L3 スキャン) されます
  • その他の構造化ファイルの種類 (JSON、XML、TXT) - 100 個のファイルに 1 個がサンプリングされます (L3 スキャン) は、"リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内でサンプリングされます
  • SQL オブジェクトと Azure Cosmos DB エンティティ - 各ファイルが L3 スキャンされます。
  • ドキュメント ファイルの種類 - 各ファイルが L3 スキャンされます。 リソース セット パターンは、これらのファイルの種類には適用されません。

次の手順