如何從 Azure Synapse Analytics 到 Microsoft Purview
本文件說明將 Azure Synapse 工作區與 Microsoft Purview 帳戶連線以追蹤數據譜系和內嵌數據源所需的步驟。 檔也會深入瞭解活動涵蓋範圍和支援的譜系功能。
當您將 Azure Synapse Analytics 連線到 Microsoft Purview 時,每當執行支援的管線活動時,活動源數據、輸出數據和活動的相關元數據都會自動內嵌到 Microsoft Purview 資料對應 中。
如果數據源已掃描且存在於數據對應中,則擷取程式會將歷程資訊從 Azure Synapse Analytics 新增至該現有來源。 如果數據對應中不存在來源或輸出,且 Azure Synapse Analytics 譜系支援,Microsoft 則 Purview 會自動將其元數據從 Synapse Analytics 新增至預設網域根集合下的數據對應。
當使用者使用 Azure Synapse Analytics 移動和轉換資訊時,這可以是監視數據資產的絕佳方式。
支援的 Azure Synapse 功能
目前,Microsoft Purview 會從下列 Azure Synapse 管線活動擷取運行時間譜系:
重要事項
Microsoft如果來源或目的地使用不支持的數據儲存系統,Purview 就會卸除譜系。
複製活動支援
數據存放區 | 支援 |
---|---|
Azure Blob 儲存體 | 是 |
Azure 認知搜尋 | 是 |
適用於 NoSQL 的 Azure Cosmos DB * | 是 |
適用於 MongoDB 的 Azure Cosmos DB * | 是 |
Azure Data Explorer * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
適用於 MariaDB 的 Azure 資料庫 * | 是 |
適用於 MySQL 的 Azure 資料庫 * | 是 |
適用於 PostgreSQL 的 Azure 資料庫 * | 是 |
Azure 檔案 | 是 |
Azure SQL 資料庫 * | 是 |
Azure SQL 受控執行個體 * | 是 |
Azure Synapse 分析 * | 是 |
Azure 專用 SQL 集區 (先前稱為 SQL DW) * | 是 |
Azure 資料表記憶體 | 是 |
Amazon S3 | 是 |
蜂房* | 是 |
神諭* | 是 |
連線到 SAP ECC 或 SAP S/4HANA) 時的 SAP 資料表 ( | 是 |
SQL Server * | 是 |
Teradata * | 是 |
* Microsoft Purview 目前不支援歷程或掃描的查詢或預存程式。 譜系僅限於數據表和檢視來源。
如果您使用自我裝載 Integration Runtime,請注意具有下列服務支援的最低版本:
- 任何使用案例:5.9.7885.3 版或更新版本
- 從 Oracle 複製數據:5.10 版或更新版本
- 透過 COPY 命令或 PolyBase 將資料複製到 Azure Synapse Analytics:5.10 版或更新版本
複製活動譜系的限制
目前,如果您使用下列複製活動功能,則尚不支援譜系:
- 使用二進位格式將數據複製到 Azure Data Lake Storage Gen1。
- 二進位、分隔文字、Excel、JSON 和 XML 檔案的壓縮設定。
- Azure SQL Database、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server 和 SAP 數據表的源數據分割選項。
- 將資料複製到檔案型接收,並設定每個檔案的最大數據列數。
- 當來源/接收已 設定資源時,複製活動目前不支持數據行層級譜系。
除了譜系外,也會針對下列連接器報告 [資產 -> 架構] 索引標籤) 中所顯示的數據資產架構 (:
- Azure Blob、Azure 檔案儲存體、ADLS Gen1、ADLS Gen2 和 Amazon S3 上的 CSV 和 Parquet 檔案
- Azure Data Explorer、Azure SQL Database、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server、Teradata
數據流支援
數據存放區 | 支援 |
---|---|
Azure Blob 儲存體 | 是 |
適用於 NoSQL 的 Azure Cosmos DB * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
適用於 MySQL 的 Azure 資料庫 * | 是 |
適用於 PostgreSQL 的 Azure 資料庫 * | 是 |
Azure SQL 資料庫 * | 是 |
Azure SQL 受控執行個體 * | 是 |
Azure Synapse 分析 * | 是 |
Azure 專用 SQL 集區 (先前稱為 SQL DW) * | 是 |
* Microsoft Purview 目前不支援歷程或掃描的查詢或預存程式。 譜系僅限於數據表和檢視來源。
數據流譜系的限制
- 數據流譜系可能會產生資料夾層級 資源集 ,而不會看到涉及的檔案。
- 當來源/接收已 設定資源時,目前不支持數據行層級譜系。
- 針對數據流活動的歷程,Microsoft Purview 僅支持顯示所涉及的來源和接收。 尚不支援數據流轉換的詳細譜系。
- 當 Flowlet 是數據流的一部分時,就不支援譜系。
- Purview 目前不支援 LakeHouse DB/工作區 DB (Synapse 數據表的譜系報告)
存取保護Microsoft Purview 帳戶
如果您Microsoft Purview 帳戶受到防火牆保護,請瞭解如何讓 Azure Synapse 透過 Microsoft Purview 私人端點存取受保護的 Microsoft Purview 帳戶。
將 Azure Synapse 譜帶入 purview Microsoft
步驟 1:將 Azure Synapse 工作區連線到Microsoft Purview 帳戶
您可以將 Azure Synapse 工作區連線到 Microsoft Purview,而連線可讓 Azure Synapse 將歷程資訊推送至 Microsoft Purview。 請遵循 將 Synapse 工作區連線到 Microsoft Purview 中的步驟。 多個 Azure Synapse 工作區可以連線到單一Microsoft Purview 帳戶,以進行整體歷程追蹤。
步驟 2:在 Azure Synapse 工作區中執行管線
您可以在 Azure Synapse 工作區中建立具有 複製活動 的管線。 您不需要任何其他設定來擷取歷程數據。 在活動執行期間,系統會自動擷取歷程數據。
步驟 3:監視譜系報告狀態
執行 Azure Synapse 管線之後,您可以在 Synapse 管線監視檢視中選取下列 [譜系狀態] 按鈕來檢查歷程報告狀態。 活動輸出 JSON ->reportLineageToPurvew
區段中也提供相同的資訊。
步驟 4:檢視 Microsoft Purview 帳戶中的歷程資訊
在您的 Microsoft Purview 帳戶中,您可以瀏覽資產並選擇類型 「Azure Synapse Analytics」。 您也可以使用關鍵詞來搜尋 資料目錄。
選取 Synapse 帳戶 -> 管線 -> 活動,您可以檢視歷程資訊。
監視 Azure Synapse 分析連結
在 Microsoft Purview 治理入口網站中,您可以監視 Azure Synapse Analytics 連結。