如何連線 Azure Data Factory和Microsoft Purview
本文件說明將 Azure Data Factory 帳戶與 Microsoft Purview 帳戶連線以追蹤數據譜系和內嵌數據源所需的步驟。 檔也會深入瞭解活動涵蓋範圍範圍和支援的譜系模式。
當您將 Azure Data Factory 連線到 Microsoft Purview 時,每當執行支援的 Azure Data Factory 活動時,活動源數據、輸出數據和活動的相關元數據都會自動內嵌到 Microsoft Purview 資料對應 中。
如果數據源已掃描並存在於數據對應中,則擷取程式會將歷程資訊從 Azure Data Factory 新增至該現有來源。 如果來源或輸出不存在於數據對應中,而且受到 Azure Data Factory 譜系的支援,Microsoft Purview 會自動將其元數據從 Azure Data Factory 新增至根集合下的數據對應。
當使用者使用 Azure Data Factory 移動和轉換資訊時,這可以是監視數據資產的絕佳方式。
檢視現有的 Data Factory 連線
多個 Azure Data Factory 可以連線到單一Microsoft Purview 來推送歷程資訊。 目前的限制可讓您一次從 Microsoft Purview 管理中心連線最多 10 個 Data Factory 帳戶。 若要顯示連線到您 Microsoft Purview 帳戶的 Data Factory 帳戶清單,請執行下列動作:
選取左側瀏覽窗格上的 [ 管理 ]。
在 [譜系連線] 下,選取 [Data Factory]。
Data Factory 連線清單隨即出現。
請注意連線 狀態的各種值:
- 已連線:Data Factory 已連線至 Microsoft Purview 帳戶。
- 已中斷連線:Data Factory 可存取目錄,但已連線到另一個目錄。 因此,數據譜系不會自動回報給目錄。
- 未知:目前的用戶無法存取 Data Factory,因此連線狀態不明。
注意事項
若要檢視 Data Factory 連線,您必須獲指派下列角色。 不支援從管理群組繼承角色。 根集合上的集合管理員 角色。
建立新的 Data Factory 連線
注意事項
若要新增或移除 Data Factory 連線,您必須獲指派下列角色。 不支援從管理群組繼承角色。 根集合上的集合管理員 角色。
此外,也需要使用者成為數據處理站的「擁有者」或「參與者」。
您的數據處理站必須啟用系統指派的受控識別。
請遵循下列步驟,將現有的數據處理站連線到Microsoft Purview 帳戶。 您也可以 從 ADF 將 Data Factory 連線到 Microsoft Purview 帳戶。
選取左側瀏覽窗格上的 [ 管理 ]。
在 [譜系連線] 下,選取 [Data Factory]。
在 [ Data Factory 連線] 頁面上,選取 [ 新增]。
從清單中選取您的 Data Factory 帳戶,然後選取 [ 確定]。 您也可以依訂用帳戶名稱進行篩選,以限制您的清單。
如果 Data Factory 已連線到目前Microsoft Purview 帳戶,或 Data Factory 沒有受控識別,則可能會停用某些 Data Factory 實例。
如果任何選取的 Data Factory 已連線到其他 Microsoft Purview 帳戶,則會顯示警告訊息。 當您選取 [確定] 時,Data Factory 與其他 Microsoft Purview 帳戶的連線將會中斷連線。 不需要其他確認。
注意事項
我們支援一次新增最多 10 個 Azure Data Factory 帳戶。 如果您想要新增10個以上的Data Factory 帳戶,請分批執行此動作。
驗證的運作方式
Data Factory 的受控識別可用來驗證從 Data Factory 到 Microsoft Purview 的歷程推送作業。 當您將數據處理站連線到UI上的 Microsoft Purview 時,它會自動新增角色指派。
在 Purview 根集合Microsoft授與數據處理站的受控識別數據管理員角色。 深入瞭解 Microsoft Purview 和新增角色中的訪問控制, 並透過集合限制存取。
拿掉 Data Factory 連線
若要移除 Data Factory 連線,請執行下列動作:
監視 Data Factory 連結
在 Microsoft Purview 治理入口網站中,您可以 監視 Data Factory 連結。
支援的 Azure Data Factory 活動
Microsoft Purview 會從下列 Azure Data Factory 活動擷取運行時間歷程:
重要事項
Microsoft如果來源或目的地使用不支持的數據儲存系統,Purview 就會卸除譜系。
Data Factory 與 Microsoft Purview 之間的整合僅支援 Data Factory 支援的一部分數據系統,如下列各節所述。
複製活動支援
數據存放區 | 支援 |
---|---|
Azure Blob 儲存體 | 是 |
Azure 認知搜尋 | 是 |
適用於 NoSQL 的 Azure Cosmos DB * | 是 |
適用於 MongoDB 的 Azure Cosmos DB * | 是 |
Azure Data Explorer * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
適用於 MariaDB 的 Azure 資料庫 * | 是 |
適用於 MySQL 的 Azure 資料庫 * | 是 |
適用於 PostgreSQL 的 Azure 資料庫 * | 是 |
Azure 檔案 | 是 |
Azure SQL 資料庫 * | 是 |
Azure SQL 受控執行個體 * | 是 |
Azure Synapse 分析 * | 是 |
Azure 專用 SQL 集區 (先前稱為 SQL DW) * | 是 |
Azure 資料表記憶體 | 是 |
Amazon S3 | 是 |
蜂房* | 是 |
神諭* | 是 |
連線到 SAP ECC 或 SAP S/4HANA) 時的 SAP 資料表 ( | 是 |
SQL Server * | 是 |
Teradata * | 是 |
* Microsoft Purview 目前不支援歷程或掃描的查詢或預存程式。 譜系僅限於數據表和檢視來源。
如果您使用自我裝載 Integration Runtime,請注意具有下列服務支援的最低版本:
- 任何使用案例:5.9.7885.3 版或更新版本
- 從 Oracle 複製數據:5.10 版或更新版本
- 透過 COPY 命令或 PolyBase:5.10 版或更新版本,將數據複製到 Azure Synapse Analytics
複製活動譜系的限制
目前,如果您使用下列複製活動功能,則尚不支援譜系:
- 使用二進位格式將數據複製到 Azure Data Lake Storage Gen1。
- 二進位、分隔文字、Excel、JSON 和 XML 檔案的壓縮設定。
- Azure SQL Database、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server 和 SAP 數據表的源數據分割選項。
- 將資料複製到檔案型接收,並設定每個檔案的最大數據列數。
- 當來源/接收已 設定資源時,複製活動目前不支持數據行層級譜系。
除了譜系外,也會針對下列連接器報告 [資產 -> 架構] 索引標籤) 中所顯示的數據資產架構 (:
- Azure Blob、Azure 檔案儲存體、ADLS Gen1、ADLS Gen2 和 Amazon S3 上的 CSV 和 Parquet 檔案
- Azure Data Explorer、Azure SQL Database、Azure SQL 受控執行個體、Azure Synapse Analytics、SQL Server、Teradata
數據流支援
數據存放區 | 支援 |
---|---|
Azure Blob 儲存體 | 是 |
適用於 NoSQL 的 Azure Cosmos DB * | 是 |
Azure Data Lake Storage Gen1 | 是 |
Azure Data Lake Storage Gen2 | 是 |
適用於 MySQL 的 Azure 資料庫 * | 是 |
適用於 PostgreSQL 的 Azure 資料庫 * | 是 |
Azure SQL 資料庫 * | 是 |
Azure SQL 受控執行個體 * | 是 |
Azure Synapse 分析 * | 是 |
Azure 專用 SQL 集區 (先前稱為 SQL DW) * | 是 |
* Microsoft Purview 目前不支援歷程或掃描的查詢或預存程式。 譜系僅限於數據表和檢視來源。
數據流譜系的限制
- 數據流譜系可能會產生資料夾層級 資源集 ,而不會看到涉及的檔案。
- 當來源/接收已 設定資源時,目前不支持數據行層級譜系。
- 針對數據流活動的歷程,Microsoft Purview 僅支持顯示所涉及的來源和接收。 尚不支援數據流轉換的詳細譜系。
- 當 Flowlet 是數據流的一部分時,就不支援譜系。
- Purview 目前不支援 LakeHouse DB/工作區 DB (Synapse 數據表的譜系報告)
執行 SSIS 套件支援
請參閱 支持的數據存放區。
存取保護Microsoft Purview 帳戶
如果您Microsoft Purview 帳戶受到防火牆保護,請瞭解如何讓 Data Factory 透過 Microsoft Purview 私人端點存 取受保護的 Microsoft Purview 帳戶 。
將 Data Factory 譜系帶入 Purview Microsoft
如需端對端逐步解說,請遵循 教學課程:將 Data Factory 譜系數據推送至 Microsoft Purview。
支援的譜系模式
Purview 支援數種Microsoft譜系模式。 產生的譜系數據是以 Data Factory 活動中所使用的來源和接收類型為基礎。 雖然 Data Factory 支援超過 80 個來源和接收器,Microsoft Purview 僅支援子集,如支援的 Azure Data Factory 活動中所列。
若要設定 Data Factory 以傳送歷程資訊,請參閱 開始使用譜系。
在譜系檢視中尋找資訊的一些其他方式包括:
- 在 [ 譜系] 索引 標籤中,將滑鼠停留在圖形上,以預覽工具提示中資產的其他相關信息。
- 選取節點或邊緣以查看其所屬的資產類型,或切換資產。
- 數據集的數據行會顯示在 [ 譜系] 索引 標籤的左側。如需數據行層級譜系的詳細資訊,請 參閱數據集數據行譜系。
1:1 作業的數據譜系
擷取數據譜系的最常見模式是將數據從單一輸入數據集移至單一輸出數據集,並在兩者之間進行程式。
此模式的範例如下:
- 1 個來源/輸入: 客戶 (SQL 數據表)
- 1 個接收/輸出: Customer1.csv (Azure Blob)
- 1 個進程:CopyCustomerInfo1#Customer1.csv (Data Factory 複製活動)
具有 1:1 譜系和通配符支援的數據移動
擷取譜系的另一個常見案例是使用通配符,將檔案從單一輸入數據集複製到單一輸出數據集。 通配符可讓複製活動比對多個檔案,以便使用檔名的一般部分進行複製。 Microsoft Purview 會針對對應複製活動所複製的每個個別檔案,擷取檔案層級譜系。
此模式的範例如下:
- 來源/輸入: (ADLS Gen2 路徑 .csvCustomerCall* )
- 接收/輸出: (Azure Blob 檔案 .csvCustomerCall* )
- 1 個程式:CopyGen2ToBlob#CustomerCall.csv (Data Factory 複製活動)
具有 n:1 譜系的數據移動
您可以使用資料流活動來執行合併、聯結等數據作業。 可以使用多個源數據集來產生目標數據集。 在此範例中,Microsoft Purview 會將個別輸入檔案的檔案層級譜系擷取到屬於數據流活動的 SQL 數據表。
此模式的範例如下:
- 2 個來源/輸入: Customer.csv、 Sales.parquet (ADLS Gen2 路徑)
- 1 個接收/輸出:公司數據 (Azure SQL 數據表)
- 1 個程式: DataFlowBlobsToSQL (Data Factory 數據流活動)
資源集的譜系
資源集是目錄中的邏輯物件,代表基礎記憶體中的許多分割區檔案。 如需詳細資訊,請 參閱瞭解資源集。 當 Microsoft Purview 從 Azure Data Factory 擷取譜系時,它會套用規則來正規化個別的分割區檔案,並建立單一邏輯物件。
在下列範例中,會從 Azure Blob 產生 Azure Data Lake Gen2 資源集:
- 1 個來源/輸入: Employee_management.csv (Azure Blob)
- 1 個接收/輸出: Employee_management.csv (Azure Data Lake Gen 2)
- 1 個程式:CopyBlobToAdlsGen2_RS (Data Factory 複製活動)