線上到數據對應的數據來源
本文列出 Microsoft Purview 資料對應 中支持的數據源、檔類型和掃描概念。
依類型列出的數據源
下表顯示在 Microsoft Purview 資料對應 中提供技術元數據的所有數據源,以及其他支援的功能。 在 [數據 源] 資料 行中選取數據源名稱,以取得將該來源連接到數據對應的指示。
Azure
除非在每個數據源的頁面上另有註明,否則 Azure 資源只能在您Microsoft Purview 帳戶的相同租使用者中使用。
資料來源 | 可以自動套用分類 | 可以將敏感度標籤套用至數據對應資產 | 可以套用原則 | 資料譜系 | 可在即時檢視中存取 |
---|---|---|---|---|---|
選取連線和掃描指示的連結。 | 選取 [是 ] 以取得掃描指示。 瞭解如何 在掃描期間套用分類。 | 瞭解 (預覽) 的敏感度標籤 。 | 選取 [是 ] 以查看支持的原則;例如,數據擁有者、自助式存取或保護。 | 選取 [是 ] 以取得詳細數據。 | 了解 實時檢視。 |
多個來源 | 是 | 來源相依 | 是 | 否 | 受限 |
Azure Blob 儲存體 | 是 | 是 | 是 (預覽) | 受限* | 是 |
適用於 NoSQL 的 Azure Cosmos DB (API) | 是 | 否 | 否 | 不* | 否 |
Azure 資料總管 | 是 | 否 | 否 | 不* | 否 |
Azure Data Factory | 否 | 否 | 否 | 是 | 否 |
Azure Data Lake Storage Gen2 | 是 | 是 | 是 (預覽) | 受限* | 是 |
Azure Data Share | 否 | 否 | 否 | 是 | 否 |
適用於 MySQL 的 Azure 資料庫 | 是 | 否 | 否 | 不* | 否 |
適用於 PostgreSQL 的 Azure 資料庫 | 是 | 否 | 否 | 不* | 否 |
Azure Databricks Hive 中繼存放區 | 否 | 否 | 否 | 是 | 否 |
Azure Databricks Unity 目錄 | 是 | 否 | 否 | 否 | 否 |
Azure 專用 SQL 集區 (先前稱為 SQL DW) | 是 | 否 | 否 | 不* | 否 |
Azure 檔案 | 是 | 是 | 否 | 受限* | 否 |
Azure 機器學習 | 否 | 否 | 否 | 是 | 否 |
Azure SQL Database | 是 | 是 | 是 | 是 (預覽) | 是 |
Azure SQL 受控執行個體 | 是 | 否 | 是 | 不* | 否 |
Azure Synapse Analytics (工作區) | 是 | 否 | 否 | 是 - Synapse 管線 | 否 |
* 除了數據源內資產的譜系之外,如果在 Data Factory或 Synapse 管線中使用資料集做為來源/接收器,也支援譜系。
Database
資料來源 | 可以自動套用分類 | 可以將敏感度標籤套用至數據對應資產 | 可以套用原則 | 資料譜系 | 可在即時檢視中存取 |
---|---|---|---|---|---|
選取連線和掃描指示的連結。 | 選取 [是 ] 以取得掃描指示。 瞭解如何 在掃描期間套用分類。 | 瞭解 (預覽) 的敏感度標籤 。 | 選取 [是 ] 以查看支持的原則;例如,數據擁有者、自助式存取或保護。 | 選取 [是 ] 以取得詳細數據。 | 了解 實時檢視。 |
Amazon RDS | 是 | 否 | 否 | 否 | 否 |
Amazon Redshift | 否 | 否 | 否 | 否 | 否 |
Cassandra | 否 | 否 | 否 | 是 | 否 |
Db2 | 否 | 否 | 否 | 是 | 否 |
Google BigQuery | 否 | 否 | 否 | 是 | 否 |
蜂巢中繼存放區資料庫 | 否 | 否 | 否 | 是的* | 否 |
MongoDB | 否 | 否 | 否 | 否 | 否 |
MySQL | 否 | 否 | 否 | 是 | 否 |
Oracle | 是 | 否 | 否 | 是的* | 否 |
PostgreSQL | 否 | 否 | 否 | 是 | 否 |
SAP 商務倉儲 | 否 | 否 | 否 | 否 | 否 |
SAP HANA | 否 | 否 | 否 | 否 | 否 |
Snowflake | 是 | 否 | 否 | 是 | 否 |
SQL Server | 是 | 否 | 否 | 不* | 否 |
Azure-Arc 上的 SQL Server | 是 | 否 | 是 | 不* | 否 |
Teradata | 是 | 否 | 否 | 是的* | 否 |
* 除了數據源內資產的譜系之外,如果在 Data Factory或 Synapse 管線中使用資料集做為來源/接收器,也支援譜系。
檔案
資料來源 | 可以自動套用分類 | 可以將敏感度標籤套用至數據對應資產 | 可以套用原則 | 資料譜系 | 可在即時檢視中存取 |
---|---|---|---|---|---|
選取連線和掃描指示的連結。 | 選取 [是 ] 以取得掃描指示。 瞭解如何 在掃描期間套用分類。 | 瞭解 (預覽) 的敏感度標籤 。 | 選取 [是 ] 以查看支持的原則;例如,數據擁有者、自助式存取或保護。 | 選取 [是 ] 以取得詳細數據。 | 了解 實時檢視。 |
Amazon S3 | 是 | 否 | 否 | 受限* | 否 |
Hadoop 分散式文件系統 (HDFS) | 是 | 否 | 否 | 否 | 否 |
* 除了數據源內資產的譜系之外,如果在 Data Factory或 Synapse 管線中使用資料集做為來源/接收器,也支援譜系。
服務和應用程式
資料來源 | 可以自動套用分類 | 可以將敏感度標籤套用至數據對應資產 | 可以套用原則 | 資料譜系 | 可在即時檢視中存取 |
---|---|---|---|---|---|
選取連線和掃描指示的連結。 | 選取 [是 ] 以取得掃描指示。 瞭解如何 在掃描期間套用分類。 | 瞭解 (預覽) 的敏感度標籤 。 | 選取 [是 ] 以查看支持的原則;例如,數據擁有者、自助式存取或保護。 | 選取 [是 ] 以取得詳細數據。 | 了解 實時檢視。 |
氣流 | 否 | 否 | 否 | 是 | 否 |
Dataverse | 是 | 否 | 否 | 否 | 否 |
Erwin | 否 | 否 | 否 | 是 | 否 |
織物 | 否 | 否 | 否 | 是 | 是 |
Looker | 否 | 否 | 否 | 是 | 否 |
Power BI | 否 | 否 | 否 | 是 | 是的** |
Qlik Sense | 否 | 否 | 否 | 否 | 否 |
Salesforce | 否 | 否 | 否 | 否 | 否 |
SAP ECC | 否 | 否 | 否 | 是的* | 否 |
SAP S/4HANA | 否 | 否 | 否 | 是的* | 否 |
Tableau | 否 | 否 | 否 | 否 | 否 |
* 除了數據源內資產的譜系之外,如果在 Data Factory或 Synapse 管線中使用資料集做為來源/接收器,也支援譜系。
** 網狀架構租使用者中的 Power BI 專案可使用即時檢視來使用。
注意事項
目前,Microsoft Purview 資料對應 無法掃描名稱/
中有 、 \
或 #
的資產。 若要設定掃描範圍,並避免掃描資產名稱中有這些字元的資產,請使用註冊和掃描 Azure SQL 資料庫中的範例。
重要事項
如果您打算使用自我裝載整合運行時間,掃描某些數據源需要在自我裝載整合運行時間計算機上進行額外的設定。 例如,JDK、C++ 可轉散發套件 或特定驅動程式。 For your source, refer to each source article for prerequisite details. Any requirements are listed in the Prerequisites section.
數據對應掃描器區域
以下是 Microsoft Purview 資料對應 掃描器執行所在區域 (數據中心) 所有 Azure 數據源的清單。 如果您的 Azure 資料源位於此清單以外的區域,掃描器將會在您Microsoft Purview 實例的區域中執行。
- 澳大利亞東部
- 澳大利亞東南部
- 巴西南部
- 加拿大中部
- 加拿大東部
- 印度中部
- 中國北部 3
- 東亞
- 美國東部
- 美國東部 2
- 法國中部
- 德國中西部
- 日本東部
- 南韓中部
- 美國中北部
- 北歐
- 卡達中部
- 南非北部
- 美國中南部
- 東南亞
- 瑞士北部
- 阿拉伯聯合大公國北部
- 英國南部
- USGov 維吉尼亞州
- 美國中西部
- 西歐
- 美國西部
- 美國西部 2
- 美國西部 3
支援掃描的文件類型
下列檔類型支援掃描、架構擷取,以及適用的分類。 此外,數據對應支援 自定義擴展名和自定義剖析器。
擴充名稱支援的結構化檔案格式包括掃描、架構擷取,以及資產和數據行層級分類:
- AVRO
- CSV
- GZIP
- JSON
- ORC
- 木條鑲花之地板
- PSV
- SSV
- TSV
- TXT
- XML
擴充名稱所支援的檔案檔案格式包括掃描和資產層級分類:
- 醫生
- DOCM
- DOCX
- 點
- ODP
- ODS
- ODT
- 罐
- PPS
- PPSX
- PPT
- PPTM
- PPTX
- XLC
- XLS
- XLSB
- XLSM
- XLSX
- XLT
注意事項
已知限制:
- Microsoft Purview 資料對應 掃描器僅支援上述結構化檔類型的架構擷取。
- 針對AVRO、ORC和 PARQUET 檔案類型,掃描器不支援針對包含複雜資料類型的檔案進行架構擷取 (例如 MAP、LIST、STRUCT) 。
- 掃描器支援掃描 snappy 壓縮的 PARQUET 類型,以進行架構擷取和分類。
- 針對 GZIP 檔類型,GZIP 必須對應至其中的單一 csv 檔案。 Gzip 檔案受限於系統和自定義分類規則。 我們目前不支援掃描對應至內多個檔案的 gzip 檔案,或 csv 以外的任何文件類型。
-
針對 CSV、PSV、SSV、TSV、TXT) (分隔的檔類型 :
- 只有 1 個數據行的分隔檔案無法判斷為 CSV 檔案,而且沒有架構。
- 我們不支援數據類型偵測。 數據類型會列為所有數據行的「字串」。
- 我們只支援逗號 (',') ,分號 (';') ,垂直橫條 ('|') 和索引標籤 ('\t ) 為分隔符。
- 如果分隔符使用自定義分隔符,則無法將小於三個數據列的分隔檔案判斷為 CSV 檔案。 例如:具有 ~ 分隔符且少於三個數據列的檔案將無法判斷為 CSV 檔案。
- 如果字段包含雙引號,雙引號只能出現在字段的開頭和結尾,而且必須相符。 雙引號出現在欄位中間或出現在開頭和結尾,但不相符,將會辨識為不正確的數據,而且不會從檔案剖析架構。 與標頭數據列具有不同數據行數目的數據列,將會視為錯誤數據列。 (取樣 ) 的錯誤數據列數目/數據列數目必須小於 0.1。
- 針對 Parquet 檔案,如果您使用自我裝載整合運行時間,則必須在 IR 計算機上安裝 64 位 JRE 11 (Java 運行時間環境) 或 OpenJDK 。 如需安裝指南,請參閱 頁面底部的 Java 運行時間環境一節 。
- 目前不支持差異格式。 如果您直接從記憶體數據源掃描差異格式,例如 Azure Data Lake Storage (ADLS Gen2) ,則會剖析差異格式的 parquet 檔案集,並以了解資源集所述的方式處理為資源集。 除了用於數據分割的數據列之外,將無法辨識為資源集架構的一部分。
架構擷取
對於在掃描期間支持架構擷取的數據源,資產架構不會被數據行數目直接截斷。
巢狀數據
只有 JSON 內容才支援巢狀數據。 針對所有 系統支援的檔類型,如果數據行中有巢狀 JSON 內容,則掃描器會剖析巢狀 JSON 數據,並將其呈現在資產的架構索引卷標內。
SQL 不支援巢狀資料或巢狀架構剖析。 具有巢狀數據的數據行會依原狀報告並分類,且不會剖析子數據。
分類的取樣數據
在數據對應術語中,
- L1 掃描:擷取基本資訊和元數據,例如檔名、大小和完整名稱
- L2 掃描:擷取結構化檔類型和資料庫數據表的架構
- L3 掃描:在適用的情況下擷取架構,並將取樣的檔案主體化為系統和自定義分類規則
深入瞭解 自定義掃描層級。
針對所有結構化檔案格式,Microsoft Purview 資料對應 掃描器會以下列方式取樣檔案:
- 針對結構化檔類型,它會取樣每個數據行的前128個數據列或前1 MB,以較低者為準。
- 針對檔案檔案格式,它會取樣每個檔案的前 20 MB。
- 如果檔檔案大於 20 MB,則不會受到深度掃描 (受分類) 。 在此情況下,Microsoft Purview 只會擷取基本元數據,例如檔名和完整名稱。
- 針對 SQL) (表格式數據源 ,它會取樣前 128 個數據列。
- 針對 適用於 NoSQL 的 Azure Cosmos DB,最多會針對架構收集容器中前 10 份檔的 300 個相異屬性,而針對每個屬性,則會取樣最多 128 份檔或前 1 MB 的值。
資源集檔案取樣
如果資料夾或數據分割檔案群組符合系統資源集原則或客戶定義的資源集原則,則會在 Microsoft Purview 資料對應 中偵測為資源集。 如果偵測到資源集,則掃描器會取樣其包含的每個資料夾。 在這裡深入了解資源集。
依檔案類型對資源集進行檔案取樣:
- CSV、PSV、SSV、TSV) (分隔的檔案 - 在被視為「資源集」的資料夾或分割區檔案群組內, (L3 掃描) 取出 100 個檔案中的 1 個
- Parquet、Avro、Orc) (Data Lake 檔類型 - 18446744073709551615 (长最大) 檔案中為 1,會在被視為「資源集」的資料夾或分割區檔案群組內 (L3 掃描) 進行取樣
- 其他結構化檔類型 (JSON、XML、TXT) - 100 個檔案中有 1 個是在被視為「資源集」的資料夾或分割區檔案群組內 (L3 掃描) 取樣
- SQL 物件和 Azure Cosmos DB 實體 - 每個檔案都會掃描 L3。
- 檔案檔案類型 - 每個檔案都會掃描 L3。 資源集模式不適用於這些文件類型。