設定及執行數據資產的數據分析
數據分析是檢查不同數據來源中可用數據,以及收集有關此數據之統計數據和資訊的程式。 數據分析有助於根據定義的目標集來評估數據的品質層級。 如果數據品質不佳,或是在無法整合以符合企業需求的結構中進行管理,則商務程式和決策制定會受到影響。 數據分析可讓您了解數據的可信度和品質,這是制定數據驅動決策以提升收益並促進成長的必要條件。
必要條件
- 若要執行和排程數據品質評估掃描,您的使用者必須是 數據質量負責人角色。
- 目前,Microsoft Purview 帳戶可以設定為允許公用存取或受控 vNet 存取,以便執行數據質量掃描。
數據品質生命週期
數據分析是數據資產數據品質生命週期的第五個步驟。 先前的步驟如下:
- 在 整合式目錄 中指派使用者 () 資料品質管理人許可權,以使用所有數據品質功能。
- 在您的 Microsoft Purview 資料對應 中註冊和掃描數據源。
- 將您的數據資產新增至數據產品
- 設定數據源連線,以準備您的來源以進行數據質量評估。
支援的多重雲端數據源
- Azure Data Lake Storage (ADLS Gen2)
- 檔類型:Delta Parquet 和 Parquet
- Azure SQL Database
- OneLake 中的網狀架構數據資產包括快捷方式和鏡像數據資產。 只有 Lakehouse 差異數據表和 Parquet 檔案才支援數據分析。
- 鏡像數據資產:Cosmos DB、Snowflake、Azure SQL
- 快捷方式數據資產:AWS S3、GCS、AdlsG2 和 Dataverse
- Azure Synapse 無伺服器和數據倉儲
- Azure Databricks Unity 目錄
- Snowflake
- Google Big Query (私人預覽)
重要事項
Parquet 檔案的數據質量是設計來支援:
- 具有 Parquet 元件檔案的目錄。 例如: ./Sales/{Parquet Part Files}。 完整名稱必須遵循
https://(storage account).dfs.core.windows.net/(container)/path/path2/{SparkPartitions}
。 請確定我們在目錄/子目錄結構中沒有 {n} 模式,而必須是導致 {SparkPartitions} 的直接 FQN。 - 具有數據分割 Parquet 檔案的目錄,由數據集內的數據行分割,例如依年份和月份分割的銷售數據。 例如: ./Sales/{Year=2018}/{Month=Dec}/{Parquet Part Files}。
這兩個基本案例都支持呈現一致的 parquet 數據集架構。
限度: 它不是設計成或不支援具有 Parquet 檔案之目錄的 N 個任意階層。
我們建議客戶以 (1) 或 (2) 建構結構呈現數據。
支援的驗證方法
目前,Microsoft Purview 只能使用受 控識別作為驗證選項來執行數據質量掃描。 數據質量服務會在 Apache Spark 3.4 和 Delta Lake 2.4 上執行。 如需支援區域的詳細資訊,請參閱 數據品質概觀。
重要事項
如果數據源上的架構已更新,則必須先重新執行數據對應掃描,再執行數據分析。
設定數據分析作業的步驟
從 [Microsoft Purview 整合式目錄],選取 [健全狀況管理] 功能表和 [數據品質] 子功能表。
在數據品質子功能表中,選取 [ 控管 ] 網域以進行數據分析。
選取 數據產品 來分析連結至該產品 的數據資產 。
選取數據資產以流覽至數據品質 [概觀 ] 頁面以進行分析。
選取 [配置檔] 按鈕,針對選取的數據資產執行分析作業。
AI 建議引擎會建議執行數據分析的可能重要數據行。 您可以取消選取建議的數據行和/或選取要分析的更多數據行。
選取相關資料行之後,請選取 [ 執行配置檔]。
當作業正在執行時, 您可以從治理網域中的數據品質監視頁面追蹤其進度。
作業完成時,從資產數據品質頁面的左側功能表中選取 [ 配置檔 ] 索引標籤,以列出流覽分析結果和統計快照集。 視您的數據資產有多少數據行而定,可能會有數個配置文件結果頁面。
流覽每個數據行的分析結果和統計量值。
重要事項
如果格式在來源系統中為標準且正確,則大部分會自動偵測差異格式。 若要分析 Parquet 或 iceberg 檔案格式,您必須將數據資產類型變更為 Parquet 或 iceberg。 如下列螢幕快照所示,如果您的數據資產檔格式不是差異,請變更預設數據資產類型 Parquet 或其他支援的格式。 在設定分析作業之前,必須先完成這項變更。
相關內容
- Fabric 數據資產的數據品質
- Fabric 鏡像數據源的數據品質
- Fabric 快捷方式數據源的數據品質
- Azure Synapse 無伺服器和數據倉儲的數據品質
- Azure Databricks Unity 目錄的數據品質
- Snowflake 數據源的數據品質
- Google Big Query 的數據品質
後續步驟
- 根據分析結果設定數據質量規則,並將其套用至您的數據資產。
- 在數據產品上設定並執行數據質量掃描 ,以評估數據產品中所有支援資產的品質。
- 檢閱掃描結果 ,以評估數據產品的目前數據品質。