設定數據源連線以連接數據源以進行數據質量評估
數據源聯機會設定分析數據以取得統計快照集所需的驗證,或掃描數據以取得數據品質異常和評分。
設定數據源聯機是數據資產數據品質生命週期中 的第四 個步驟。 先前的步驟如下:
- 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
- 在您的 Microsoft Purview 資料對應 中註冊和掃描數據源。
- 將您的數據資產新增至數據產品
必要條件
- 若要建立數據資產的連線,您的用戶必須是 數據品質管理人角色。
- 您至少需要您要設定連線之數據源的讀取許可權。
支援的多重雲端數據源
- Azure Data Lake Storage Gen2
- 檔類型:Delta Parquet 和 Parquet
- Azure SQL Database
- OneLake 中的網狀架構數據資產,包括快捷方式和鏡像數據資產。 只有 Lakehouse 差異資料表和 Parquet 檔案才支援資料質量掃描。
- 鏡像數據資產:Cosmos DB、Snowflake、Azure SQL
- 快捷方式數據資產:AWS S3、GCS、AdlsG2
- Azure Synapse 無伺服器和數據倉儲
- Azure Databricks Unity 目錄
- Snowflake
- Google Big Query (私人預覽)
目前,Microsoft Purview 只能使用受 控識別作為驗證選項來執行數據質量掃描。 數據質量服務會在 Apache Spark 3.4 和 Delta Lake 2.4 上執行。
重要事項
若要存取這些來源,您必須將 Azure 記憶體來源設定為具有開放式防火牆、允許信任的 Azure 服務,或使用私人端點,請遵循數據品質受控虛擬網路設定指南中所述的指導方針。
設定數據源連線
在 [整合式目錄] 中,選取 [健康情況管理],然後選取 [數據品質]。
從清單中選取治理網域。
從 [管理] 下拉式清單中,選取 [Connections] 以開啟連線頁面。
選取 [新增 ] 為治理網域的數據產品和數據資產建立新的連線。
在右面板中,輸入下列資訊:
- 顯示名稱
- 描述
選取 [來源類型],然後選取其中一個數據源。
根據數據源,輸入存取詳細數據。
如果測試連線成功,請 提交 聯機組態以完成連線設定。
提示
您也可以使用私人端點和 Microsoft Purview 資料品質 受控虛擬網路來建立資源連線。 如需詳細資訊,請參閱 受控虛擬網路一文。
原生連接器的連線設定步驟各不相同。 檢查原生連接器文件的連線設定步驟,以設定 Azure Databricsks、Snowflake、GoogBigQuery 和 synapse 連接器的連線。
授與Microsoft來源的 Purview 許可權
建立連線之後,為了能夠掃描數據源,Microsoft Purview 受控識別將需要數據源的許可權:
若要掃描 Azure Data Lake Storage Gen2,必須將記憶體 Blob 資料讀取器角色指派給 Microsoft Purview 受控識別。 您可以遵循來源頁面上的步驟來指派受控識別許可權。
若要掃描 Azure SQL 資料庫,請將db_datareader角色指派給 Microsoft Purview 受控識別。 您可以遵循來源頁面上的步驟來指派受控識別許可權。
相關內容
- Fabric 數據資產的數據品質
- Fabric 鏡像數據源的數據品質
- Fabric 快捷方式數據源的數據品質
- Azure Synapse 無伺服器和數據倉儲的數據品質
- Azure Databricks Unity 目錄的數據品質
- Snowflake 數據源的數據品質
- Google Big Query 的數據品質
後續步驟
- 設定及執行數據源中資產的數據分析。
- 根據分析結果設定數據質量規則,並將其套用至您的數據資產。
- 在數據產品上設定並執行數據質量掃描 ,以評估數據產品中所有支援資產的品質。
- 檢閱掃描結果 ,以評估數據產品的目前數據品質。