共用方式為


Fabric Lakehouse 數據資產的數據品質 (預覽)

Fabric OneLake 是整個組織的單一、統一邏輯數據湖。 Data Lake 會處理來自各種來源的大量數據。 與 OneDrive 一樣,OneLake 會自動隨附於每個 Microsoft Fabric 租使用者,並設計為您所有分析數據的單一位置。 OneLake 為客戶帶來:

  • 整個組織的一個數據湖
  • 一份用於多個分析引擎的數據複本

OneLake 旨在為您提供單一數據複本中最大價值,而不需要數據移動或重複。 您不再需要複製數據,只要將數據與另一個引擎搭配使用,或是細分尋址接收器,即可使用來自其他來源的數據來分析數據。 您可以使用 Microsoft Purview 來編目網狀架構數據資產,並測量數據品質來治理和推動改進動作。

您可以使用快捷方式來參考儲存在其他檔案位置的數據。 這些檔案位置可以位於相同的工作區或不同工作區內、OneLake 內或 OneLake 外部,Azure Data Lake Storage (ADLS) 、AWS S3 或 Dataverse,即將推出更多目標位置。 數據源位置並不重要,OneLake 快捷方式會讓檔案和資料夾看起來像是儲存在本機。 當小組在不同的工作區中獨立工作時,快捷方式可讓您將不同商務群組和網域的數據結合成虛擬數據產品,以符合使用者的特定需求。

您可以使用鏡像將各種來源的數據整合到 Fabric 中的網狀架構鏡像,這是低成本且低延遲的解決方案,可將來自各種系統的數據整合到單一分析平臺中。 您可以持續將現有的數據資產直接復寫到 Fabric 的 OneLake,包括來自 Azure SQL Database、Azure Cosmos DB 和 Snowflake 的數據。 使用 OneLake 中可查詢格式的最最新數據,您現在可以在 Fabric 中使用所有不同的服務。 例如,使用Spark執行分析、執行筆記本、資料工程、透過Power BI報表可視化等等。 然後,Delta 數據表可在 Fabric 的任何地方使用,讓用戶能夠加速其進入 Fabric 的旅程。

設定數據對應掃描

若要設定數據對應掃描,您必須註冊想要掃描的數據源。

註冊網狀架構 OneLake

掃描 Fabric 工作區時,將網狀架構租用戶註冊為數據源的現有體驗沒有任何變更。 若要在 Microsoft Purview 整合式目錄 中註冊新的數據源,請遵循下列步驟:

  • 在 Microsoft Purview 治理入口網站中,流覽至您的 Microsoft Purview 帳戶。
  • 選取左側導覽窗格上的 [數據對應]。
  • 選取 [註冊]
  • 在 [註冊來源] 上,選取 [網狀架構]

如需設定指示,請參閱 相同的租 使用者和 跨租使用者

設定數據對應掃描

若要掃描 Lakehouse 子藝術師,Purview 中現有的體驗不會有任何變更可設定掃描。 還有另一個步驟可授與在 Fabric 工作區中至少具有 參與者 角色的掃描認證,以從支援的檔格式擷取架構資訊。

目前僅支援服務主體作為驗證方法。 MSI 支援仍在待處理專案中。

如需設定指示,請參閱 相同的租 使用者和 跨租使用者

設定 Fabric Lakehouse 掃描的連線

將 Fabric Lakehouse 註冊為來源之後,您可以從已註冊的數據源清單中選取 [網狀架構],然後選取 [ 新增掃描]。 新增連線詳細數據,如下列螢幕快照所示。

網狀架構掃描設定。

  1. 建立安全組和服務主體
  2. 請務必將此服務主體和 Purview 受控識別新增至此安全組,然後提供此安全組。
  3. 建立安全組與 Fabric 租用戶的關聯
    1. 登入網狀架構管理入口網站。
    2. 選取 [租用戶設定] 頁面。 您必須是 Fabric 管理員 才能查看租使用者設定頁面。
    3. 選 管理員 API 設定 > 允許服務主體使用唯讀系統管理員 API。
    4. 選取 [特定安全組]。
    5. 選取 [管理員 API 設定 > 使用詳細元數據增強系統管理員 API 回應],並使用 DAX 和混搭表達>式增強系統管理員 API 回應 啟用切換以允許 Microsoft Purview 資料對應 在其掃描過程中自動探索 Fabric 數據集的詳細元數據。 更新網狀架構租使用者上的 管理員 API 設定之後,請等候大約 15 分鐘,然後再註冊掃描和測試連線。
  4. 為此安全組提供 管理員 API 設定唯讀 API 許可權。
  5. SPN 新增至 [認證] 欄 位。
  6. 新增 Azure 資源名稱。

網狀架構數據圖掃描第1頁

  1. 新增 租用戶標識碼
  2. 新增 服務主體標識碼
  3. 新增 金鑰保存庫 連線
  4. 新增 秘密名稱

網狀架構數據圖掃描第 2 頁

完成數據對應掃描之後,請從 整合式目錄 找到 Lakehouse 實例。

顯示在 整合式目錄 中瀏覽網狀架構 Lakehouse 的螢幕快照

透過數據表類別目錄流覽 Lakehouse 資料表

顯示流覽網狀架構 lakehouse 數據表的螢幕快照 整合式目錄

Fabric Lakehouse 資料質量掃描必要條件

  1. 快捷方式、鏡像或以差異格式將數據載入 Fabric Lakehouse。

顯示網狀架構差異數據表的螢幕快照。

重要事項

如果您已透過 Morroring 或快捷方式,將新的數據表、檔案或新數據集新增至 Fabric Lakehouse,則必須先執行數據對應範圍掃描,以將這些新數據集編目,再將這些數據資產新增至數據產品以進行數據質量評估。

  1. 授與 Purview MSI 工作區的參與者許可權

顯示如何授與參與者存取權的螢幕快照。

  1. 將已掃描的數據資產從 Lakehouse 新增至治理網域的數據產品。 數據分析和 DQ 掃描只能針對與控管網域下的數據產品相關聯的數據資產進行。

顯示已新增至數據產品的 Lakehouse 數據資產螢幕快照。

對於數據分析和數據品質掃描,我們需要建立數據源連線,因為我們使用不同的連接器來連接數據源,以及掃描數據以擷取數據品質事實和維度。 若要設定連線:

  • 在 整合式目錄 中,選取 [健康情況管理],然後選取 [數據品質]

  • 選取治理網域,然後從 [管理] 下拉式清單中選取 [Connections]

  • 取 [新增 ] 以開啟聯機組態頁面。

  • 新增連線顯示名稱和描述。

  • 新增來源類型 Fabric

  • 新增 租用戶標識碼

  • 新增 Credential - Microsoft Purview MSI

  • 測試連線以確定已設定的連線成功。

    顯示如何設定網狀架構連線的螢幕快照。

重要事項

  • 針對 DQ 掃描,Purview MSI 必須具有 Fabric 工作區的參與者存取權,才能連線到 Fabric 工作區。 若要授與參與者存取權,請開啟您的 Fabric 工作區,選取三個點 (...) ,依序選 取 [工作區存取權]、[ 新增人員或群組],然後新增 Purview MSI 作為 參與者
  • 網狀架構數據表必須是差異格式或 iceberg 格式。

分析和數據品質 (DQ) 在 Fabric Lakehouse 中掃描數據

成功完成連線設定之後,您可以分析、建立和套用規則,以及執行 Data Quality (DQ) Fabric Lakehouse 中的數據掃描。 請遵循下列所述的逐步指導方針:

  1. 將 Lakehouse 數據表與數據產品建立關聯,以進行策劃、探索和訂閱。 如需詳細資訊,請遵循檔 -如何建立和管理數據產品

顯示將 Lakehouse 數據表與數據產品建立關聯的螢幕快照。

  1. 配置檔網狀架構 Lakehouse 數據表。 如需詳細資訊,請遵循檔 -如何設定和執行數據的數據分析

顯示 Lakehouse 數據表配置檔的螢幕快照。

  1. 設定並執行數據質量掃描,以測量 Fabric Lakehouse 數據表的數據品質。 如需詳細資訊,請遵循檔 - 如何設定和執行數據質量掃描

顯示掃描 Lakehouse 資料表的螢幕快照。

重要事項

  • 請確定您的數據是差異格式或 iceberg 格式。
  • 如果未成功執行,請確定數據對應掃描已成功執行,然後重新執行數據對應掃描。

限制

Parquet 檔案的數據質量是設計來支援:

  • 具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循 https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}。 請確定我們在目錄/子目錄結構中沒有 {n} 模式,而必須是導致 {SparkPartitions} 的直接 FQN。
  • 具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}

這兩個基本案例都支持呈現一致的 parquet 數據集架構。 限制:它不是設計成或不支援使用 Parquet 檔案的 N 個任意目錄階層。 我們建議客戶以 (1) 或 (2) 建構結構呈現數據。 因此,建議客戶遵循支援的 parquet 標準,或將其數據 遷移至 ACID 相容的差異格式。

提示

針對數據對應

  • 確定SPN具有工作區許可權。
  • 請確定掃描連線使用SPN。
  • 如果您是第一次設定 Lakehouse 掃描,建議您執行完整掃描。
  • 檢查內嵌的資產是否已更新/重新整理

整合式目錄

  • DQ 連線需要使用 MSI 認證。
  • 最好是第一次測試 Lakehouse 數據 DQ 掃描時建立新的數據產品
  • 新增內嵌的數據資產,檢查數據資產是否已更新。
  • 嘗試執行配置檔,如果成功,請嘗試執行 DQ 規則。 如果失敗,請嘗試重新整理資產架構 (架構> 管理匯入架構)
  • 有些使用者也必須建立新的 Lakehouse 和範例數據,才能檢查一切從頭開始運作。 在某些情況下,使用先前在數據對應中擷取的資產時,體驗並不一致。

參考檔