Fabric Lakehouse 數據資產的數據品質 (預覽)
Fabric OneLake 是整個組織的單一、統一邏輯數據湖。 Data Lake 會處理來自各種來源的大量數據。 與 OneDrive 一樣,OneLake 會自動隨附於每個 Microsoft Fabric 租使用者,並設計為您所有分析數據的單一位置。 OneLake 為客戶帶來:
- 整個組織的一個數據湖
- 一份用於多個分析引擎的數據複本
OneLake 旨在為您提供單一數據複本中最大價值,而不需要數據移動或重複。 您不再需要複製數據,只要將數據與另一個引擎搭配使用,或是細分尋址接收器,即可使用來自其他來源的數據來分析數據。 您可以使用 Microsoft Purview 來編目網狀架構數據資產,並測量數據品質來治理和推動改進動作。
您可以使用快捷方式來參考儲存在其他檔案位置的數據。 這些檔案位置可以位於相同的工作區或不同工作區內、OneLake 內或 OneLake 外部,Azure Data Lake Storage (ADLS) 、AWS S3 或 Dataverse,即將推出更多目標位置。 數據源位置並不重要,OneLake 快捷方式會讓檔案和資料夾看起來像是儲存在本機。 當小組在不同的工作區中獨立工作時,快捷方式可讓您將不同商務群組和網域的數據結合成虛擬數據產品,以符合使用者的特定需求。
您可以使用鏡像將各種來源的數據整合到 Fabric 中的網狀架構鏡像,這是低成本且低延遲的解決方案,可將來自各種系統的數據整合到單一分析平臺中。 您可以持續將現有的數據資產直接復寫到 Fabric 的 OneLake,包括來自 Azure SQL Database、Azure Cosmos DB 和 Snowflake 的數據。 使用 OneLake 中可查詢格式的最最新數據,您現在可以在 Fabric 中使用所有不同的服務。 例如,使用Spark執行分析、執行筆記本、資料工程、透過Power BI報表可視化等等。 然後,Delta 數據表可在 Fabric 的任何地方使用,讓用戶能夠加速其進入 Fabric 的旅程。
設定數據對應掃描
若要設定數據對應掃描,您必須註冊想要掃描的數據源。
註冊網狀架構 OneLake
掃描 Fabric 工作區時,將網狀架構租用戶註冊為數據源的現有體驗沒有任何變更。 若要在 Microsoft Purview 整合式目錄 中註冊新的數據源,請遵循下列步驟:
- 在 Microsoft Purview 治理入口網站中,流覽至您的 Microsoft Purview 帳戶。
- 選取左側導覽窗格上的 [數據對應]。
- 選取 [註冊]
- 在 [註冊來源] 上,選取 [網狀架構]
設定數據對應掃描
若要掃描 Lakehouse 子藝術師,Purview 中現有的體驗不會有任何變更可設定掃描。 還有另一個步驟可授與在 Fabric 工作區中至少具有 參與者 角色的掃描認證,以從支援的檔格式擷取架構資訊。
目前僅支援服務主體作為驗證方法。 MSI 支援仍在待處理專案中。
設定 Fabric Lakehouse 掃描的連線
將 Fabric Lakehouse 註冊為來源之後,您可以從已註冊的數據源清單中選取 [網狀架構],然後選取 [ 新增掃描]。 新增連線詳細數據,如下列螢幕快照所示。
- 建立安全組和服務主體
- 請務必將此服務主體和 Purview 受控識別新增至此安全組,然後提供此安全組。
- 建立安全組與 Fabric 租用戶的關聯
- 登入網狀架構管理入口網站。
- 選取 [租用戶設定] 頁面。 您必須是 Fabric 管理員 才能查看租使用者設定頁面。
- 選 管理員 API 設定 > 允許服務主體使用唯讀系統管理員 API。
- 選取 [特定安全組]。
- 選取 [管理員 API 設定 > 使用詳細元數據增強系統管理員 API 回應],並使用 DAX 和混搭表達>式增強系統管理員 API 回應 啟用切換以允許 Microsoft Purview 資料對應 在其掃描過程中自動探索 Fabric 數據集的詳細元數據。 更新網狀架構租使用者上的 管理員 API 設定之後,請等候大約 15 分鐘,然後再註冊掃描和測試連線。
- 為此安全組提供 管理員 API 設定唯讀 API 許可權。
- 將 SPN 新增至 [認證] 欄 位。
- 新增 Azure 資源名稱。
- 新增 租用戶標識碼。
- 新增 服務主體標識碼。
- 新增 金鑰保存庫 連線。
- 新增 秘密名稱。
完成數據對應掃描之後,請從 整合式目錄 找到 Lakehouse 實例。
透過數據表類別目錄流覽 Lakehouse 資料表 。
Fabric Lakehouse 資料質量掃描必要條件
- 快捷方式、鏡像或以差異格式將數據載入 Fabric Lakehouse。
重要事項
如果您已透過 Morroring 或快捷方式,將新的數據表、檔案或新數據集新增至 Fabric Lakehouse,則必須先執行數據對應範圍掃描,以將這些新數據集編目,再將這些數據資產新增至數據產品以進行數據質量評估。
- 授與 Purview MSI 工作區的參與者許可權
- 將已掃描的數據資產從 Lakehouse 新增至治理網域的數據產品。 數據分析和 DQ 掃描只能針對與控管網域下的數據產品相關聯的數據資產進行。
對於數據分析和數據品質掃描,我們需要建立數據源連線,因為我們使用不同的連接器來連接數據源,以及掃描數據以擷取數據品質事實和維度。 若要設定連線:
在 整合式目錄 中,選取 [健康情況管理],然後選取 [數據品質]。
選取治理網域,然後從 [管理] 下拉式清單中選取 [Connections]。
選 取 [新增 ] 以開啟聯機組態頁面。
新增連線顯示名稱和描述。
新增來源類型 Fabric。
新增 租用戶標識碼。
新增 Credential - Microsoft Purview MSI。
測試連線以確定已設定的連線成功。
重要事項
- 針對 DQ 掃描,Purview MSI 必須具有 Fabric 工作區的參與者存取權,才能連線到 Fabric 工作區。 若要授與參與者存取權,請開啟您的 Fabric 工作區,選取三個點 (...) ,依序選 取 [工作區存取權]、[ 新增人員或群組],然後新增 Purview MSI 作為 參與者。
- 網狀架構數據表必須是差異格式或 iceberg 格式。
分析和數據品質 (DQ) 在 Fabric Lakehouse 中掃描數據
成功完成連線設定之後,您可以分析、建立和套用規則,以及執行 Data Quality (DQ) Fabric Lakehouse 中的數據掃描。 請遵循下列所述的逐步指導方針:
- 將 Lakehouse 數據表與數據產品建立關聯,以進行策劃、探索和訂閱。 如需詳細資訊,請遵循檔 -如何建立和管理數據產品
- 配置檔網狀架構 Lakehouse 數據表。 如需詳細資訊,請遵循檔 -如何設定和執行數據的數據分析
- 設定並執行數據質量掃描,以測量 Fabric Lakehouse 數據表的數據品質。 如需詳細資訊,請遵循檔 - 如何設定和執行數據質量掃描
重要事項
- 請確定您的數據是差異格式或 iceberg 格式。
- 如果未成功執行,請確定數據對應掃描已成功執行,然後重新執行數據對應掃描。
限制
Parquet 檔案的數據質量是設計來支援:
- 具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 請確定我們在目錄/子目錄結構中沒有 {n} 模式,而必須是導致 {SparkPartitions} 的直接 FQN。 - 具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
這兩個基本案例都支持呈現一致的 parquet 數據集架構。 限制:它不是設計成或不支援使用 Parquet 檔案的 N 個任意目錄階層。 我們建議客戶以 (1) 或 (2) 建構結構呈現數據。 因此,建議客戶遵循支援的 parquet 標準,或將其數據 遷移至 ACID 相容的差異格式。
提示
針對數據對應
- 確定SPN具有工作區許可權。
- 請確定掃描連線使用SPN。
- 如果您是第一次設定 Lakehouse 掃描,建議您執行完整掃描。
- 檢查內嵌的資產是否已更新/重新整理
整合式目錄
- DQ 連線需要使用 MSI 認證。
- 最好是第一次測試 Lakehouse 數據 DQ 掃描時建立新的數據產品
- 新增內嵌的數據資產,檢查數據資產是否已更新。
- 嘗試執行配置檔,如果成功,請嘗試執行 DQ 規則。 如果失敗,請嘗試重新整理資產架構 (架構> 管理匯入架構)
- 有些使用者也必須建立新的 Lakehouse 和範例數據,才能檢查一切從頭開始運作。 在某些情況下,使用先前在數據對應中擷取的資產時,體驗並不一致。