サポートされているデータ ソースとファイルの種類
この記事では、Microsoft Purview データ マップで現在サポートされているデータ ソース、ファイルの種類、スキャンの概念について説明します。
使用可能なデータ ソースのMicrosoft Purview データ マップ
次の表は、Microsoft Purview で利用可能な技術メタデータを持つすべてのソースを示しています。 詳細については、データ ソースを選択してください。 テーブルには、各データ ソースでサポートされているその他の機能も一覧表示されており、詳細については、この機能を選択できます。
Azure
Azure リソースは、サポートされているデータ ストア ページに特に記載されていない限り、Microsoft Purview アカウントと同じテナントでのみ使用できます。
サポートされているデータ ストア | スキャン | 分類 | ラベル付け | ポリシー | 系統 | ライブ ビュー |
---|---|---|---|---|---|---|
複数のソース | ○ | はい | ソース依存 | はい | いいえ | 制限付き |
Azure Blob ストレージ | ○ | ○ | はい | はい (プレビュー) | 狹* | はい |
Azure Cosmos DB (NoSQL 用 API) | ○ | はい | いいえ | いいえ | いいえ* | いいえ |
Azure Data Explorer | ○ | はい | いいえ | いいえ | いいえ* | いいえ |
Azure Data Factory | はい | いいえ | いいえ | いいえ | はい | いいえ |
Azure Data Lake Storage Gen2 | ○ | ○ | はい | はい (プレビュー) | 狹* | はい |
Azure Data Share | はい | いいえ | いいえ | いいえ | はい | いいえ |
Azure Database for MySQL | ○ | はい | いいえ | いいえ | いいえ* | いいえ |
Azure Database for PostgreSQL | ○ | はい | いいえ | いいえ | いいえ* | いいえ |
Azure Databricks Hive メタストア | はい | いいえ | いいえ | いいえ | はい | いいえ |
Azure Databricks Unity Catalog | ○ | はい | いいえ | いいえ | いいえ | いいえ |
Azure 専用 SQL プール (旧称 SQL DW) | ○ | はい | いいえ | いいえ | いいえ* | いいえ |
Azure Files | ○ | ○ | はい | いいえ | 狹* | いいえ |
Azure Machine Learning | はい | いいえ | いいえ | いいえ | はい | いいえ |
Azure SQL データベース | ○ | ○ | ○ | はい | はい (プレビュー) | はい |
Azure SQL Managed Instance | ○ | はい | いいえ | はい | いいえ* | いいえ |
Azure Synapse Analytics (ワークスペース) | ○ | はい | いいえ | いいえ | はい - Synapse パイプライン | いいえ |
* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。
Database
サポートされているデータ ストア | サポートされているデータ ストア | 分類 | ラベル付け | アクセス ポリシー | 系統 | ライブ ビュー |
---|---|---|---|---|---|---|
Amazon RDS | ○ | はい | いいえ | いいえ | いいえ | いいえ |
Amazon Redshift | はい | いいえ | いいえ | いいえ | いいえ | いいえ |
Cassandra | はい | いいえ | いいえ | いいえ | はい | いいえ |
Db2 | はい | いいえ | いいえ | いいえ | はい | いいえ |
Google BigQuery | はい | いいえ | いいえ | いいえ | はい | いいえ |
Hive メタストア データベース | はい | いいえ | いいえ | いいえ | はい* | いいえ |
MongoDB | はい | いいえ | いいえ | いいえ | いいえ | いいえ |
MySQL | はい | いいえ | いいえ | いいえ | はい | いいえ |
Oracle | ○ | はい | いいえ | いいえ | はい* | いいえ |
PostgreSQL | はい | いいえ | いいえ | いいえ | はい | いいえ |
SAP ビジネス ウェアハウス | はい | いいえ | いいえ | いいえ | いいえ | いいえ |
SAP HANA | はい | いいえ | いいえ | いいえ | いいえ | いいえ |
Snowflake | ○ | はい | いいえ | いいえ | はい | いいえ |
SQL Server | ○ | はい | いいえ | いいえ | いいえ* | いいえ |
Azure-Arc でのSQL Server | ○ | はい | いいえ | はい | いいえ* | いいえ |
Teradata | ○ | はい | いいえ | いいえ | はい* | いいえ |
* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。
File
サポートされているデータ ストア | サポートされているデータ ストア | 分類 | ラベル付け | アクセス ポリシー | 系統 | ライブ ビュー |
---|---|---|---|---|---|---|
Amazon S3 | ○ | はい | いいえ | いいえ | 狹* | いいえ |
HDFS | ○ | はい | いいえ | いいえ | いいえ | いいえ |
* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。
サービスとアプリ
サポートされているデータ ストア | サポートされているデータ ストア | 分類 | ラベル付け | アクセス ポリシー | 系統 | ライブ ビュー |
---|---|---|---|---|---|---|
通気 | はい | いいえ | いいえ | いいえ | はい | いいえ |
Dataverse | ○ | はい | いいえ | いいえ | いいえ | いいえ |
Erwin | はい | いいえ | いいえ | いいえ | はい | いいえ |
生地 | はい | いいえ | いいえ | いいえ | はい | はい |
Looker | はい | いいえ | いいえ | いいえ | はい | いいえ |
Power BI | はい | いいえ | いいえ | いいえ | はい | はい** |
Qlik Sense | はい | いいえ | いいえ | いいえ | いいえ | いいえ |
Salesforce | はい | いいえ | いいえ | いいえ | いいえ | いいえ |
SAP ECC | はい | いいえ | いいえ | いいえ | はい* | いいえ |
SAP S/4HANA | はい | いいえ | いいえ | いいえ | はい* | いいえ |
Tableau | はい | いいえ | いいえ | いいえ | いいえ | いいえ |
* データ ソース内の資産の系列に加えて、データセットが Data Factory または Synapse パイプラインのソース/シンクとして使用されている場合は、系列もサポートされます。
** Fabric テナント内の Power BI 項目は、ライブ ビューを使用して使用できます。
注:
現在、Microsoft Purview データ マップは、その名前に/
、\
、または#
を持つ資産をスキャンできません。 スキャンのスコープを設定し、資産名に文字が含まれる資産のスキャンを回避するには、「Azure SQL データベースの登録とスキャン」の例を使用します。
重要
セルフホステッド統合ランタイムの使用を計画している場合、一部のデータ ソースをスキャンするには、セルフホステッド統合ランタイム コンピューターで追加のセットアップが必要です。 たとえば、JDK、Visual C++ 再頒布可能パッケージ、または特定のドライバーなどです。 ソースについては、 前提条件の詳細については、各ソースの記事を参照してください。 要件は、「 前提条件」 セクションに一覧表示されます。
領域をスキャンする
次に、Microsoft Purview データ マップ スキャナーを実行するすべての Azure データ ソース (データ センター) リージョンの一覧を示します。 Azure データ ソースがこのリストの外部のリージョンにある場合、スキャナーは Microsoft Purview インスタンスのリージョンで実行されます。
Microsoft Purview データ マップ スキャナーリージョン
- オーストラリア東部
- オーストラリア南東部
- ブラジル南部
- カナダ中部
- カナダ東部
- インド中部
- 中国北部 3
- 東アジア
- 米国東部
- 米国東部 2
- フランス中部
- ドイツ中西部
- 東日本
- 韓国中部
- 米国中央北部
- 北ヨーロッパ
- カタール中部
- 南アフリカ北部
- 米国中央南部
- 東南アジア
- スイス北部
- アラブ首長国連邦北部
- 英国南部
- USGov バージニア
- 米国中央西部
- 西ヨーロッパ
- 米国西部
- 米国西部 2
- 米国西部 3
スキャンでサポートされるファイルの種類
スキャン、スキーマ抽出、および該当する場合の分類では、次のファイルの種類がサポートされています。
- 拡張機能でサポートされる構造化ファイル形式には、スキャン、スキーマ抽出、資産と列レベルの分類が含まれます。AVRO、ORC、PARQUET、CSV、JSON、PSV、SSV、TSV、TXT、XML、GZIP
- 拡張子でサポートされるドキュメント ファイル形式には、スキャンと資産レベルの分類が含まれます:DOC、DOCM、DOCX、DOT、ODP、ODS、ODT、PDF、POT、PPSX、PPT、PPTM、PPTM、PPTX、XLC、XLSB、XLSM、XLSX、XLT
- Microsoft Purview データ マップでは、カスタム ファイル拡張子とカスタム パーサーもサポートされています。
注:
既知の制限事項:
- Microsoft Purview データ マップ スキャナーでは、上記の構造化ファイルの種類のスキーマ抽出のみがサポートされます。
- AVRO、ORC、PARQUET ファイルの種類の場合、スキャナーでは、複雑なデータ型 (MAP、LIST、STRUCT など) を含むファイルのスキーマ抽出はサポートされていません。
- スキャナーは、スキーマの抽出と分類のためのスナップ圧縮 PARQUET 型のスキャンをサポートします。
- GZIP ファイルの種類の場合、GZIP は内の 1 つの csv ファイルにマップする必要があります。 Gzip ファイルは、システムおよびカスタム分類規則の対象となります。 現在、複数のファイルにマップされた gzip ファイル、または csv 以外のファイルの種類のスキャンはサポートされていません。
-
区切られたファイルの種類 (CSV、PSV、SSV、TSV、TXT) の場合:
- 列が 1 つだけの区切りファイルは CSV ファイルと判断できないため、スキーマがありません。
- データ型の検出はサポートされていません。 データ型は、すべての列の "文字列" として一覧表示されます。
- コンマ(',')、セミコロン(';')、縦棒('|')、tab('\t') のみが区切り記号としてサポートされています。
- 3 行未満の区切りファイルは、カスタム区切り記号を使用している場合、CSV ファイルと見なすことはできません。 たとえば、~ 区切り記号と 3 行未満のファイルは、CSV ファイルと判断できません。
- フィールドに二重引用符が含まれている場合、二重引用符はフィールドの先頭と末尾にのみ表示でき、一致する必要があります。 フィールドの中央に表示される、または先頭と末尾に表示されるが一致しない二重引用符は、不適切なデータとして認識され、ファイルから解析されるスキーマはありません。 ヘッダー行とは列の数が異なる行は、エラー行として判断されます。 (エラー行数/サンプリングされた行数) は 0.1 未満にする必要があります。
- Parquet ファイルの場合、セルフホステッド統合ランタイムを使用している場合は、IR マシンに 64 ビット JRE 11 (Java ランタイム環境) または OpenJDK をインストールする必要があります。 インストール ガイドについては、 ページの下部にある Java ランタイム環境に 関するセクションを確認してください。
- 現在、デルタ形式はサポートされていません。 Azure Data Lake Storage (ADLS Gen2) などのストレージ データ ソースから差分形式を直接スキャンする場合は、「リソース セットについて」で説明されているように、デルタ形式の Parquet ファイルのセットが解析され、リソース セットとして処理されます。 また、パーティション分割に使用される列は、リソース セットのスキーマの一部として認識されません。
スキーマの抽出
スキャン中のスキーマ抽出をサポートするデータ ソースの場合、資産スキーマは列の数で直接切り捨てられません。
入れ子になったデータ
現在、入れ子になったデータは JSON コンテンツでのみサポートされています。
システムでサポートされているすべてのファイルの種類について、列に入れ子になった JSON コンテンツがある場合、スキャナーは入れ子になった JSON データを解析し、アセットの [スキーマ] タブ内に表示します。
入れ子になったデータまたは入れ子になったスキーマ解析は、SQL ではサポートされていません。 入れ子になったデータを含む列が報告され、そのまま分類され、サブデータは解析されません。
分類用のサンプリング データ
Microsoft Purview データ マップ用語では、
- L1 スキャン: ファイル名、サイズ、完全修飾名などの基本情報とメタデータを抽出します
- L2 スキャン: 構造化ファイルの種類とデータベース テーブルのスキーマを抽出します
- L3 スキャン: 該当する場合にスキーマを抽出し、サンプリングされたファイルをシステムおよびカスタム分類規則に従います
スキャン レベルのカスタマイズの詳細については、こちらをご覧ください。
すべての構造化ファイル形式の場合、Microsoft Purview データ マップ スキャナーは次のようにファイルをサンプリングします。
- 構造化ファイルの種類の場合は、各列の上位 128 行、または最初の 1 MB のいずれか低い方をサンプリングします。
- ドキュメント ファイル形式の場合は、各ファイルの最初の 20 MB をサンプリングします。
- ドキュメント ファイルが 20 MB を超える場合、ディープ スキャンの対象になりません (分類の対象)。 その場合、Microsoft Purview では、ファイル名や完全修飾名などの基本的なメタデータのみがキャプチャされます。
- 表形式データ ソース (SQL) の場合、上位 128 行をサンプリングします。
- Azure Cosmos DB for NoSQL の場合、コンテナー内の最初の 10 個のドキュメントから最大 300 個の個別のプロパティがスキーマ用に収集され、プロパティごとに最大 128 個のドキュメントまたは最初の 1 MB の値がサンプリングされます。
リソース セット のファイル サンプリング
フォルダーまたはパーティション ファイルのグループは、システム リソース セット ポリシーまたは顧客定義のリソース セット ポリシーと一致する場合、Microsoft Purview データ マップでリソース セットとして検出されます。 リソース セットが検出された場合、スキャナーは、そのリソース セットに含まれる各フォルダーをサンプリングします。 リソース セットの詳細については 、こちらを参照してください。
ファイルの種類別のリソース セットのファイル サンプリング:
- 区切られたファイル (CSV、PSV、SSV、TSV) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、100 ファイルに 1 個のファイルがサンプリング (L3 スキャン) されます
- Data Lake ファイルの種類 (Parquet、Avro、Orc) - "リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内で、18446744073709551615 (最大長) ファイルの 1 がサンプリング (L3 スキャン) されます
- その他の構造化ファイルの種類 (JSON、XML、TXT) - 100 個のファイルに 1 個がサンプリングされます (L3 スキャン) は、"リソース セット" と見なされるパーティション ファイルのフォルダーまたはグループ内でサンプリングされます
- SQL オブジェクトと Azure Cosmos DB エンティティ - 各ファイルが L3 スキャンされます。
- ドキュメント ファイルの種類 - 各ファイルが L3 スキャンされます。 リソース セット パターンは、これらのファイルの種類には適用されません。