數據控管的範例設定
Microsoft以 Microsoft Purview 整合式目錄 和 Microsoft Purview 資料對應 為特徵的 Purview 數據控管,提供全面的可見度、數據信賴度和負責任的創新,協助組織在 AI 紀元達到更高的商業價值。 使用管理健康情況數據的範例,請遵循本文中的步驟,協助您瞭解如何設定 整合式目錄,並使用其功能為您的組織建立健全的數據控管實務。
步驟 1:在 整合式目錄 中設定治理網域
治理網域是為您的數據建立責任的關鍵,有助於將該數據的治理同盟到整個公司。 當您建立治理網域時,從適當的擁有者開始,可確保您能夠有效地識別數據資產中所有數據並與專家共同作業。 治理網域可以是許多不同的類型,以配合將管理該數據之小組的數據界限類型。 例如:功能性網域 (財務、人力資源、銷售) 或數據網域 (產品、客戶、健康情況) 。
必要條件
- 您需要 整合式目錄 的數據控管系統管理員角色。
授與許可權並建置第一個治理網域
使用指派 角色管理 角色的系統管理員帳戶認證登入 Microsoft Purview 入口網站 (例如,Purview 系統管理員) 。 移至 [設定 > 角色及範圍] 以檢視及管理。
選取 [角色群組]。
在 [ Microsoft Purview 解決方案的角色群組 ] 頁面上,選取 [數據控管 ] 角色群組。
在 角色群組的 [編輯成員 ] 頁面上,選取 [選擇使用者 ] 或 [選擇群組]。
選取您要新增至角色群組之所有使用者或群組的複選框。
選 取 [選取]。
在 整合式目錄 中,選取 [目錄管理],然後選取 [治理網域]。
在 [ 治理網域 ] 頁面上,您可以設定目錄的其餘部分,讓其他人能夠同盟數據的擁有權、讓小組建置其知識,以及建立數據的商業價值。
- 從選取 [新增治理網域] 開始。
- 您可以更新控管網域的名稱,但在此,我們可以將它命名為「 (教學課程) 個人健康情況」,併為其描述「個人健康情況數據是指在醫療保健部門內收集並使用的個人實體或身心健康情況的任何相關信息。 這可能包括各種數據類型,例如醫療記錄、治療歷程記錄、診斷影像和實驗室測試結果。 它通常會受到各種法律和法規的保護,以確保隱私權和機密性。
- 選取類型作為 「數據域」。
- 將父系保留空白 (如果這是目錄中的第一個治理網域,就不需要在此處選取任何專案)
- 選取 [建立]
- 現在,請自行建立兩個網域。 這些是您組織中共同作業和治理的同盟重點,因此,當您實作 Microsoft Purview 整合式目錄 時,請考慮誰可能是您網域的擁有者。
- 您可以遵循下列範例:
- 公司功能網域代表整個公司所使用的高度控制資產和詞彙。
- Sales 是大部分組織都會擁有且為公司子域的功能網域。
- 從選取 [新增治理網域] 開始。
選取建立的治理網域。
選取治理網域的 [ 角色 ] 索引標籤。
根據預設,當您建立治理網域時,系統會將您新增至治理網域中的所有角色。 身為控管網域擁有者,您可以在網域) 中新增數據管理人 (商務專家,以及數據產品擁有者 (知道哪些數據資產最適合其他人取用) 。
切換回 [ 詳細數據] 索引標籤 。
選取 [ 管理原則] 按鈕以套用網域層級原則。 此原則會套用至網域中的所有數據產品,啟用原則的自動應用可確保數據專家也不必是原則專家。
在 [ 管理存取原則] 索引 標籤中,選取 [ 允許數據複製] 旁的複選框。 藉由選取此原則選項,它會自動套用證明,要求所有要求存取您數據產品的使用者,證明他們瞭解您數據的數據複製原則。
選 取 [儲存變更 ] 以確認控管網域已設定原則。
選 取治理 網域上的 [發佈]。 [ 發佈] 按鈕會發佈網域內的所有其他概念。
建立詞彙
將詞彙新增至治理領域,可讓其他人進一步了解企業如何使用及了解數據。 詞彙也可確保深入解析會使用通用詞彙,而且通常會在您的治理領域中運用您的知識。
在治理網域的頁面上,尋找 [詞彙] 卡片,然後選 取 [檢視全部]。
在 [ 詞彙] 頁面上,選取 [ 新增字詞]。
輸入詳細資料:
- 名稱:'暴地'
- 描述:已影響或可能影響大部分母體的疾病。
- 您目前可以將其餘部分保留空白,但有要收集的欄位:負責為公司定義字詞的字詞擁有者、用來共用一般名稱的縮寫,也稱為字詞名稱,最後您可以提供資源的連結,以取得該字詞的詳細資訊。
選取 [建立]
選取 [ 管理原則] 按鈕。 類似於網域層級原則,您可以建立字詞層級原則,以套用在使用中字詞的任何地方。
核取 [ 需要管理員核准] 旁的方塊。 當要求存取數據產品時,這會強制由 Microsoft Entra ID 中列出的用戶進行次要核准。
選 取 [發行 ] 作為建立的 [暴發] 字詞。 已發佈的字詞可在 整合式目錄 中篩選,並確保使用詞彙描述其數據產品的其他人,在瀏覽數據產品時,能夠在 整合式目錄 中看到該描述。
現在再建立兩個字詞。 這次,針對您建立的字詞,選取 「暴發」字詞作為父系字詞。 請嘗試在任一字詞的相關索引卷標中建立這些子字詞之間的關聯性,以協助建立這些字詞如何一起運作的網路,以說明主題的全部內容。
- 疾病:全球性疾病的暴發,會影響多個國家或大陸上的大量人員。
- 家庭:國家/地區或區域性疾病的暴發,其具有高感染性並影響大部分的人口。
請嘗試在您稍早建立的任何其他網域中建立一些其他字詞。 如果您不確定要新增什麼,請嘗試 [ 取得建議的字詞 ] 按鈕,讓 GenAI 根據您已提供的網域描述和名稱,提出一些建議。
新增OKR
現在,為您的個人健康狀態網域新增OKR (目標和關鍵結果) ,以協助其他人了解數據的商業價值。 這會在您的數據和它所提供的商業價值之間建立直接連線。
從治理網域頁面選取 [確定] 方塊。
選 取 [新增 OKR]。
請先輸入目標的詳細資料:
- 目標:藉由啟用有效的患者病患擴大功能,以降低病患風險。
- 擁有者:輸入您的名稱
- 目標日期:'2024-12-31'
選取 [建立]
將關鍵結果新增至目標可確保目標可測量,而且目標的進度會受到監視。 選 取 [+ 新增索引鍵結果]。
輸入金鑰結果詳細資料:
- 主要結果:確保 80% 的年長年齡群組 (>65 歲) 最有可能受到 2024 年日曆年度結束時的全面性威脅。
- 進度狀態:在追蹤中
- 進度量:70
- 目標金額:80
- 最大數量:100
選取 [建立]。
選取 [發佈]。
建立重要數據元素
最後,在 [個人健康情況] 中 (CDE) 建立重要數據元素,以確保數據的最重要數據行具有一致的定義、瞭解,而且它們一律符合商務上對於該數據形成和儲存方式的期望。
- 從已選取 [個人健康情況] 網域的 [治理網域] 頁面,選取 [ 重要數據元素] 方塊。
- 選 取 [新增關鍵數據元素]。
- 輸入基本 CDE 元資料:
- 名稱:年齡群組
- 描述:用來確保所需分析報告的常見人員年齡群組會遵循其他人可以相依的參考,並移除個別年齡,以改善數據的匿名性。 年齡群組分成8個群組; <2年、2-4年、5-11年、12-17年、18-24年、25-49年、50-64 年、65 年以上。
- 擁有者:輸入您的名稱
- 預期的數據類型:文字
- 選取 [建立]
CDE 的實際功能是直接對應到儲存此數據的實體數據行。 此連線可確保共同瞭解並大規模評估數據品質規則和原則。
從您剛才建立的 CDE 中,選取 [ + 新增數據行]。
從數據湖的金級容器中搜尋 Covid 19 分析和案例趨勢 數據資產
選取 Covid 19 致和案例趨勢 資產的方塊,而不是名稱。
提示
如果您選取資產的藍色名稱,它會在 Purview 中開啟新視窗Microsoft顯示資產詳細數據。
選取 AgeGroupVacc 數據行旁邊的單選按鈕。
選取 新增。
選取您剛才建立之 CDE 頂端的 [ 資料品質 ] 索引標籤,將數據質量規則套用至 CDE。 這類似於您為詞彙和治理領域新增原則的方式。
選 取新規則
選 取資料類型相符專案
輸入規則名稱:確認年齡群組格式
選取 [建立]
在 CDE 上選取 [發佈 ]
此 CDE 現在會自動將數據質量規則套用至每個使用 Covid 19 分析和案例趨勢資產的數據產品,我們將在下一節中逐步解說。
- 請嘗試在其他網域中建立一些其他 CDE。 以下是一些想法:
- 銷售:收益和賣方名稱
- 公司:產品標識碼
步驟 2:在數據對應中設定和註冊您的數據
如果您沒有可供掃描的數據源,您可以遵循下列步驟來完整部署 #DE9F561356CE94959ACB740CFEA795D80 (ADLS Gen2) 範例。
提示
如果您的租用戶已經與 Microsoft Purview 帳戶位於相同的租使用者中,請繼續進行本節的下一個部分,以掃描您的資產。
在實際數據資產中,您會發現許多不同的系統用於不同的數據應用程式。 有一些報表環境,例如 Fabric 和 Snowflake,小組會在其中使用數據復本來建置分析解決方案,並支援其報表和儀錶板。 有一些作數據系統可讓應用程式小組或客戶使用來完成商務程式,以根據程式期間所做的決策來收集或新增數據。
若要建立更實際的數據資產,建議您在目錄中顯示許多數據源,其中可以涵蓋任何公司可能擁有的不同數據使用範圍。 支援使用案例所需的數據類型可能與需要報表和儀錶板的商務使用者大致不同,分析師需要符合規範的維度和事實來建置報表,數據科學家或數據工程師需要直接來自收集所有這些數據的系統原始源數據,而更多數據可讓不同的使用者查看尋找的重要性, 在相同位置瞭解和存取數據。
如需將數據新增至資產的一些其他教學課程,您可以遵循下列指南:
- Fabric Lakehouse 教學課程 – 提供報告環境的基礎
- Azure SQL 資料庫 (範例) – 提供結構良好的作數據存放區範例
必要條件
- Azure 中的訂用 帳戶:今天建立您的 Azure 免費帳戶
- 租使用者的 Microsoft Entra ID:Microsoft Entra ID 控管
- Microsoft Purview 帳戶
- 管理員 存取 Microsoft Purview 帳戶 (如果您已建立 Microsoft Purview 帳戶,則這是預設值。新Microsoft Purview 入口網站預覽中的許可權 |Microsoft Learn)
- 所有資源;Microsoft Purview、您的數據源和 Microsoft Entra ID 必須位於相同的雲端租使用者中。
設定您的數據資產
答: 建立並填入記憶體帳戶
- 請遵循本指南來建立記憶體帳戶:建立適用於 Azure Data Lake Storage Gen2的記憶體帳戶
- 為新的 Data Lake 建立容器:
- 瀏覽至記憶體帳戶的 [概觀] 頁面。
- 選取 [資料 記憶體] 區段下的 [容器] 索引標籤。
- 選取 [+ 容器] 按鈕
- 將名稱命名為 'bronze',然後選取 [ 建立] 按鈕
- 重複這些步驟以建立「金級」容器
- 從 data.gov 下載一些 CSV 數據範例:Covid-19 依年齡群組區分的年齡和案例趨勢,美國
- 將 CSV 上傳至您所建立記憶體帳戶中名為 'bronze' 的容器。
- 選取名為 'bronze' 的容器,然後選取 [ 上傳 ] 按鈕。
- 瀏覽您儲存 CSV 的位置,然後選取 Covid-19_Vaccination_Case _Trends 檔案。
- 選取 [上傳]。
B. 建立 Azure Data Factory
此步驟將示範數據如何在徽章數據湖層之間移動,並確保數據是取用者預期使用的標準化格式,這是執行數據品質的必要步驟。
請遵循本指南來建立 Azure Data Factory:建立 Azure Data Factory
使用此 Azure Data Factory 指南:使用對應數據流轉換數據,將數據從 'bronze' 容器中的 CSV 複製到 'gold' 容器作為 Delta 格式數據表
選取所建立ADF資源 [概觀] 索引標籤上的 [啟動工作室] 按鈕,從 Azure 入口網站 開啟 Azure Data Factory (ADF) 體驗。
選取 ADF Studio 中的 [ 作者] 索引標籤。
選取按鈕, + 然後從下拉功能表中挑選 [數據流 ]。
將數據流命名為 『CSVtoDeltaC19VaxTrends』。
選取空白方塊中的 [ 新增來源 ]。
將 [來源設定] 設定為:
- 輸出資料流名稱:『C19csv』
- 描述:保留空白
- 來源類型:內嵌
- 內嵌數據集類型:分隔文字
- 鏈接服務:選取您儲存 csv 的數據湖
將 [來源選項] 設定為:
- 檔案模式:檔案
- 檔案路徑:/bronze/ Covid-19_Vaccination_Case _Trends
- 不允許找到任何檔案:保持未核取狀態
- 異動數據擷取:保持未核取
- 壓縮類型:無
- 編碼:預設 (UTF-8)
- 數據行分隔符:逗號 (,)
- 數據列分隔符:預設 (\r、\n 或\r\n)
- 引號字元:雙引號 (“)
- 逸出字元:反斜杠 ()
- 第一個數據列作為標頭:CHECKED
- 將其餘部分保留為預設值
選取所建立來源 旁邊的小 + 下 方,然後選取 [接收]
建立接收器,其中儲存數據的格式和位置,以將數據從 'bronze' 中的 csv 移至 'gold' 中的差異數據表。
- 設定 Sink 值 (保留所有設定為預設值,除非指定)
- 接收類型:內嵌
- 內嵌數據集類型:Delta
- 鏈接服務:與來源中使用的相同數據湖,因為我們將儲存在不同的容器中。
設定 [設定] 值 (保留所有設定為預設值,除非指定)
- 資料夾路徑:gold/Covid19 分析和案例趨勢
您必須輸入值,因為此名稱是我們想要儲存數據的方式,而且不存在才能選取。
選 取 [驗證],這會檢查您的數據流,並提供修正任何錯誤的指示。
選取 [全部發佈]。
選取按鈕, + 然後從下拉功能表中選取管線
將您的管線命名為「CSV 至 Delta C19 Vax 趨勢」
選取先前步驟中建立的數據流 CSV 至 Delta (C19VaxTrends) ,然後將它拖放在開啟的管線索引卷標上。
選取 [驗證]
選取 [發佈]
選 取 [偵 錯 (使用活動運行時間) 來執行管線。
提示
如果您遇到差異格式的空格或不適當的字元錯誤:請開啟下載的 CSV 並進行更正。 然後在銅級區域中重新上傳並覆寫 CSV。 然後重新執行管線。
流覽至 Data Lake 中的金級容器,您現在應該會看到在管線期間建立的新 Delta 數據表。
掃描您的資產
如果您尚未將數據資產掃描到 Microsoft Purview 資料對應,則可以遵循下列步驟來填入您的數據對應。
掃描數據資產中的來源會自動收集這些來源中數據資產 (數據表、檔案、資料夾、報表等 ) 的元數據。 藉由註冊數據源並建立掃描,您可以對目錄中顯示的來源和資產建立技術擁有權,並確保您可以控制誰可以存取 Microsoft Purview 中的哪些元數據。 藉由在網域層級註冊和儲存來源和資產,它會儲存在最高層級的存取階層。 通常最好建立一些集合,以便掃描資產元數據,併為該數據建立正確的存取階層。
-
提供 Microsoft Purview 受控識別的讀取器存取權 (MSI) 至您的數據湖或其他數據存放區。
提示
MSI 是 Microsoft Purview 實例的帳戶名稱。
如果您已選擇使用 Microsoft Fabric 或 SQL,您可以使用下列指南來提供存取權:
註冊您的 Data Lake 並掃描您的資產
在 [網域] 索引標籤下的 [Microsoft Purview 資料對應] 中,選取網域的角色指派 (它將會是 Microsoft Purview 帳戶的名稱) :
- 將您自己新增為數據源管理員和數據編者至網域。
- 選取角色 [ 數據源管理員] 旁邊的人員圖示。
- 搜尋您在 Microsoft Entra ID 中的名稱, (可能需要您輸入與 Microsoft Entra ID) 中完全相同的完整名稱。
- 選取 [確定]。
- 針對數據編者重複這些步驟。
- 將您自己新增為數據源管理員和數據編者至網域。
註冊數據湖:
- 選取 [ 數據源] 索引 標籤。
- 選取 [登錄]。
- 選取 Azure Data Lake Storage Gen2記憶體類型。
提供要連線的詳細資料:
- 訂用帳戶 (選擇性)
- 數據源名稱 (這會是ADLS Gen2來源的名稱)
- 資產元數據應該儲存 (選擇性) 的集合
- 選取 [註冊]
數據源註冊完成後,您可以設定掃描。 註冊表示 Microsoft Purview 已連線到數據源,並將它放在正確的擁有權集合中。 然後掃描會從來源讀取元數據,並在數據對應中填入資產。
選取您在數據源索引標籤註冊的來源
選取新的掃描並提供詳細資料:
- 使用此掃描的預設整合運行時間
- 認證應Microsoft Purview MSI (系統)
- 掃描層級為自動偵測
- 選取集合或使用網域 (集合必須是註冊數據源的相同集合或子集合)
- 選取 [繼續]
提示
此時Microsoft Purview 將會測試連線,以驗證掃描是否可以完成。 如果您尚未授與數據源的 Microsoft Purview MSI 讀取器存取權,則會失敗。 如果您不是數據源擁有者,或有使用者存取參與者,掃描將會失敗,因為它預期您有建立連線的授權。
現在只選取容器 『gold』,我們將差異數據表放在教學課程的建置數據區段中。 這可防止掃描數據存放區中的任何其他數據資產。
- 金級旁邊應該只有一個藍色的勾選,您可以在所有專案旁邊留下檢查,因為它會掃描完整的來源,並仍然建立我們將使用的資產等等。
- 選取 [繼續]
在 [選取掃描規則集] 畫面中,您應該使用預設掃描規則集。
選取 [繼續]
在設定掃描觸發程式中,您將設定掃描的頻率,如此一來,當您繼續將數據資產新增至湖的金級容器時,它會繼續填入數據對應。 選 取 [一次]。
選取 [繼續]。
選 取 [儲存並執行]。 這會建立掃描,只讀取 Data Lake 之 gold 容器的元數據,並填入我們將在後續章節中 Microsoft Purview 整合式目錄 中使用的數據表。 如果您只選取 [儲存],它將不會執行掃描,而且您不會看到資產。 掃描執行之後,您會看到您建立的掃描具有 [ 上次執行 ] 狀態為 [已排入佇列]。 當掃描讀取完成時,您的資產便已準備好進行下一節。 視來源中有多少資產而定,這可能需要幾分鐘或數小時的時間。
步驟 3:發佈您的數據產品
建立數據產品是確保組織能夠探索正確數據的必要專案。 數據產品有助於防止過度管理數據資產中低或沒有值的數據,因為它沒有使用或有限值。 確保您的數據專家即將發佈數據產品,將會啟用您最有價值的數據,並根據該價值建立正確的治理層級。 策劃技術小組不知道其商務用途的資產,或嘗試控管複雜且不斷成長的數據資產中的所有專案,將會造成額外的時間,並使生產力損失,進而降低可能永遠不會使用的數據詳細數據,或只是從資產中移除。 而是將焦點放在具有價值的數據片段,以及人們需要探索和建置更多價值的數據片段。 當小組使用更多數據並進一步瞭解需要什麼或可以建立更實用的數據產品來滿足這些需求時,治理可以調整,以確保其一律會根據數據的價值和敏感度維持正確的大小。
必要條件
- 必須是您所使用 治理網域的數據產品擁有者 。
- 數據對應中必須有數據資產。 如果沒有,請參閱 本教學課程的第 2 節 以新增一些專案。
- 必須發佈治理網域,才能發佈數據產品。 如果您沒有,請參閱 本教學課程的第 1 節 來建立一個。
建立和發佈數據產品
選取 [整合式目錄]。
選 取 [目錄管理 ],然後選取 [ 治理網域]。
從 [ 治理網域] 頁面,選取 [個人健康情況] 網域
選取 [商務概念] 底下的 [移至數據產品] 連結
在這裡,名為數據產品擁有者的數據專家會識別您組織中其他人想要取用的數據資產,並提供必要的資訊讓它們可供使用。
選 取 [新增數據產品]
提供數據產品的詳細數據
- 名稱:'Covid-19 依年齡變化和案例趨勢'
- 描述:「此數據來自 CDC,作為美國健康 & 人力資源部的一部分。 數據報含美國國家層級依年齡群組排序之群體和案例的趨勢。 數據至少經過一次擷取並完全供氣。 數據也代表所有同盟合作夥伴,包括管轄區合作夥伴臨床、零售商家、長期照護設施、診斷中心、聯邦緊急管理機構和健全狀況資源與服務管理合作夥伴網站,以及聯邦實體設施。
- 類型:數據集
- 選取 [下一步]。
- 使用案例:「此數據是提供供大眾使用,目的是協助您瞭解不同年齡群組的接受趨勢和新案例。 年齡分成兩個群組,範圍從 <2歲到65歲以上。 同樣地,趨勢會以每日數位提供,依年齡群組提供新案例的七天平均值。」
- 標示為 已核取的 [已背書 ]。
- 選取 [儲存]。
現在您已建置數據產品的基底元數據。接下來,新增一些屬性,並從數據對應對應對應資產。
選取 [ + 新增數據資產] 按鈕。
您會看到已掃描到數據對應中的資產,這會包含數據源的所有資料夾和圖層。
搜尋您新增至數據湖之金級容器的 Covid19分析和案例趨勢 資產,然後選取此資源集。
選取 新增。 您可以為數據產品選取所需數量的資產,但這裡只需要一個資產。
提示
請嘗試 [取得建議] 按鈕,讓 GenAI 協助從數據對應中的資產中挑選,然後從縮減的結果清單中選取 [Covid19 分析和案例趨勢]。
您現在可以看到已新增至數據產品的資產。
選取詞彙標題旁邊的 [+ 新增 字詞]
選取稍早建立的 [叢集] 字詞,然後選取 [ 新增]
您現在應該會看到年齡群組的重要數據元素,從對應至數據產品的資產。
選 取 [確定] 標題旁邊的 [+ 新增 OKR ]
選取 [藉由啟用有效的病患病患擴大],以降低病患風險。 這是我們 在第一節中建立的目標。
管理數據產品存取要求原則
在頁面頂端,發佈數據產品前的最後一個步驟是選取 [管理原則 ] 按鈕。 在這裡,存取原則和要求存取工作流程的設定方式是選取並提供名稱以供核准。 您也可以使用 [ 繼承的原則 ] 索引標籤,查看我們稍早套用的數據複製證明所套用的控管網域原則。 它與來自「暴發」詞彙所需的經理 核准 相同。
選取 [ 管理原則] 索引標籤 。
在 [ 存取時間限制] 下,提供需要更新之前,存取要求良好時間長度的詳細數據。 我們會將此設定為授與存取權最多一年。
在方塊中,放入 1。
在下拉式清單中選取 [年]。
在核准需求下,在核准者方塊中提供您的名稱。 (需要在 Microsoft Entra ID) 中註冊的名稱
注意事項
您不需要檢查主管核准,因為該原則繼承自暴發詞彙。
選取 [預覽要求表單 ] 按鈕,以查看目錄取用者在要求存取時會檢視的內容。 您會看到所需的數據複製證明和管理員核准,因為它們是由治理網域和詞彙所設定。
選取 [儲存變更]。
對應數據資產並設定存取原則之後,您就可以將數據產品發佈至目錄。
在數據產品上選取 [發佈 ]。
嘗試在您稍早建立的其他網域中建立收益報表
- 收益報表,類型:儀錶板/報表。
- 產品主圖形,類型:Maser 數據和參考數據。
注意事項
您可以將許多資產新增至這些資產,並查看具有許多資產的數據產品的外觀,以及數據產品可能符合任何網域中的詞彙,以查看詞彙如何使用一組一致的詞彙來描述數據。
步驟 4:執行數據品質
現在您已在目錄中取得數據產品,執行數據品質規則會告訴所有人數據處於良好狀態並可供使用。 如已深入瞭解,您可以新增新的數據質量規則,以確保它適合所有使用案例。 確保數據產品具有最高品質,將有助於建立數據的信任,並告知其他人其受到監視的改善。 當數據的價值增加時,該數據的質量必須受到更密切的監視和控制,因為如果管理不良,數據質量問題可能會造成大量影響。
必要條件
- 數據質量規則只能在ADLS Gen2和 Microsoft Fabric 的差異格式資料表上執行。
- 必須啟用來自 Microsoft Purview 的受控識別,才能讀取數據源,因為它是目前唯一支援的數據質量認證。
- 您必須在執行資料品質的控管網域中擁有 數據品質管理角色 。
- 您必須是擁有者,或具有使用者存取系統管理員存取您要連線數據品質掃描的數據源,以確保適當的安全性授權來掃描數據。
- 您必須具有 數據配置檔管理人角色 ,才能在數據上執行配置檔。
建立和執行數據質量規則
選取 [整合式目錄]。
選取 [數據管理] 底下的 [ 數據品質 ] 索引標籤。
選取第 1節中建立的個人健康狀態網域。
選取 [管理] 按鈕,然後從功能表中挑選 Connections。 建置此連線可確保您能夠在該治理網域中的數據源上執行數據質量掃描,防止小組在沒有適當授權的情況下存取數據的知識。
在連線畫面上選取 [ 新增 ],以建立新的連線:
- 提供顯示名稱 『Personal Health ADLSg2 DQ』。
- 選取 Azure Data Lake Storage Gen2 的來源類型。
- 提供 在第 2 節中建立之數據源的詳細數據。
注意事項
認證必須Microsoft數據質量連線的 Purview MSI (系統)
- 選 取測試連線
- 測試連線之後,選取 [ 提交]
- 提供 在第 2 節中建立之數據源的詳細數據。
建立連線之後,您就可以開始執行配置檔並開始建置數據質量規則。 這可確保知道商務規則和適當規則的專家會在最重要的數據產品上執行。
- 返回 至 [資料品質] 頁面。
- 選取 [個人健康情況] 治理網域。
- 選取第 3 節內建的 Covid-19 依年齡變化和案例趨勢數據產品。
- 選取已新增至數據產品的資產。 (必須是 第 2 節 的差異格式,否則數據品質將不會執行) 。
- 將資料品質規則套用至資料的數據行,以測量其是否符合您對質量的預期:
- 選取所選資產上的 [規則 ] 索引標籤。
- 選取 [新增規則]。
- 選取 [空白/空白欄位規則]。
- 提供詳細資料:
- 從數據行下拉式清單中選取 AgeGroupVacc 資料行
- 規則名稱:確認保留年齡群組存在
- 選取 [建立]。
- 選取 [新增規則]。
- 選 取 [數據類型相符專案]。
- 提供詳細數據。
- 選取 [日期][系統管理的數據行]。
- 選取 [建立]。
- 選 取 [執行數據質量掃描]。
分析數據
建立數據的配置檔,以查看每個數據行的高階靜態,並探索任何可能有新規則的異常狀況。
- 在 [整合式目錄 中,選取 [健康情況管理],然後選取 [數據品質]。
- 選 取配置檔數據
- 核取 [ 數據行名稱 ] 旁的頂端方塊,以分析所有數據行。 Microsoft Purview 會建議要分析哪些數據行,而且您可以選取您知道值得分析的數據行,以協助防止高度敏感數據的配置檔或您知道的數據會以疏鬆方式填入。
- 選 取 [執行配置檔]
掃描完成時,您將能夠檢閱新數據產品的數據品質分數和配置檔,而且目錄的所有使用者都能使用數據品質分數,以確保所有使用者都知道數據的狀態。
建立資料質量掃描的排程,以確保您持續監視數據質量問題。 設定警示,以確保您在取用者受到影響之前,先解決數據質量問題。
- 在 [ 健康情況管理] 下,選取 [數據品質]。
- 選取我們設定數據品質規則的個人健康狀態網域。
- 從 [ 管理] 下拉式清單中,選取 [ 排程掃描]。
- 在 [ 排程掃描] 頁面上,選取 [ 新增]。
- 新增 概觀 詳細數據
- 名稱:個人健康情況 DQ 每月評估
- 描述:每月掃描 DQ 規則以持續改進。
- 選取 [繼續]
- 選取掃描範圍
- 核取 [Covid-19 依年齡的趨勢] 數據產品旁的方塊
- 選取 [繼續]
- 排程掃描以確保在每個月的最後一天執行
- 選取 [週期性]
- 週期:每隔一個月
- 月份天數:上次
- 排程 UTC) (掃描時間:12:00:00
- 在UTC) (開始週期:保留為預設值
- 選取 [繼續]
- 檢閱掃描的詳細數據,以查看您是否想要在儲存之前進行任何變更。
- 選取 [儲存]。 因為我們稍早觸發了手動掃描,我們現在不需要觸發另一個掃描,但如果需要新的掃描,請選取 [ 儲存並執行]。
設定警示
一旦數據品質已排程掃描,系統就會觸發警示,讓主管知道數據質量問題或掃描失敗是否需要有問題或需要注意。 針對失敗的掃描以及分數降低超過 5% 時,設定資料品質警示。
- 返回 至 [數據品質] 頁面上的 [個人健康情況] 網域。
- 從 [ 管理] 下拉式清單中,選取 [ 警示]。
- 選取 [新增]。
- 輸入警示詳細數據
- 顯示名稱:個人健康情況 DQ 每月掃描
- 描述:確保最低 DQ 閾值符合取用者的期望。
- 目標:分數減少超過
- 閾值:5
- 關閉通知:保持未核取狀態
- 開啟失敗質量掃描的通知:保持核取狀態
- 收件者:輸入您的名稱
- 選取 [繼續]。
提示
在您的 整合式目錄 實作時,您會想要將警示傳送給監管人,以通知取用者問題,並與數據的技術擁有者合作進行更正。
在本節結束時,您現在會有一個運作中 整合式目錄 作業數據品質,以管理您提供給組織數據取用者的數據。 一切都是為了取得消費者最有價值的數據,並建立其所使用數據的信任。 隨著數據的價值成長和新的數據策略出現,下一節將協助示範如何管理整個目錄,或使用主數據更深入瞭解特定的數據管理。
步驟 5:主要數據管理
主要數據管理是符合最重要的數據實體的作法,這些實體必須精確、唯一且一致地套用到企業的所有領域,因為此數據中的錯誤和問題可能會影響整個企業。 透過我們的其中一個 MDM 合作夥伴,您將能夠整合您選擇的 Master 資料管理 (MDM) 解決方案與 Microsoft Purview,以啟用數據整合、標準化和清理,以建立黃金記錄,並將主數據發行為數據產品。
請遵循這裡的教學課程,以取得您選擇的解決方案: Microsoft Purview 中的主要數據管理
步驟 6:管理數據健康情況
在 Microsoft Purview 數據資產健康情況中,中央數據辦公室和其他數據管理員能夠根據其公司標準評估數據的狀態,並有效地管理其策略的進度。 若要確保公司中的每個人都知道可以做什麼來提升其數據的價值,必須讓整個組織瞭解和調整標準,而不需要讓每個人都成為數據控管專家。 從 Microsoft Purview 每個數據辦公室中現成可用的業界標準控件集開始,並自定義控件以符合其期望,並確保其符合其數據目標。 這些控制件的有效性關鍵不只在於這些標準的測量,也可確保負責數據的人員能夠自行採取動作,並負責進行影響數據價值的改善。 在 [數據資產健康情況] 中,您可以設定和管理所有這些重要功能。
必要條件
- Microsoft Purview 整合式目錄 中發佈的數據產品、詞彙和其他商務概念。 您可以遵循先前的章節來建立下列專案:
- 數據產品策劃後至少 24 小時。
- 您在 整合式目錄 中必須具有數據健康情況擁有者角色。
使用數據資產健康情況評估您的數據控管
選取 [整合式目錄]。
在左側導覽的 [ 數據資產健康情況] 底下,選取 [ 健康情況控制]。
選取 [值建立] 控件群組旁邊的 [>取] 方塊。
將滑鼠停留在控件標題上時,選取鉛筆圖示以編輯控件。 藉由編輯控件,您可以變更控件的臨界值,以設定分數的預期,並設定色彩評分來示範進度階段。
詳細數據可讓您提供控制項的描述及其對組織的意義,並設定特定控件的擁有者。
選取控件的 [ 規則] 索引標籤以變更閾值。 這示範其具有高目標,如果狀況不良,請務必追蹤。
- 繼承自群組:切換為關閉 (應該會將灰色) 。
- 目標分數:90
- 選取 [新增規則]。
- 將分數旁邊的方塊設定為 GreaterThanOrEqual
- 將百分比設定為90
- 狀態 = 健康情況 (綠色)
- Else Box Status = 嚴重 (紫色)
- 選取 [儲存]。
在 [數據資產健康情況] 底下,選取 [ 元數據品質]。
您可以在這裡變更或新增規則,以建立控件的分數。 在這裡,我們想要變更實 值建立 動作的嚴重性,以確保所有使用者都知道此動作的重要性。
- 選 取 [設定嚴重性]
- 選取 [值建立 ] 控件群組
- 選取 商務OKR對齊控件 標題
- 將 [嚴重性] 從 [中] 變更為 [高],然後選取 [ 儲存]
- 選取 [ 健康情況動作] 索引 標籤
- 篩選指派給: 至您的名稱
- 選取動作,您可以在其中查看動作擁有者需要執行哪些動作,以確保符合治理期望,或指派新的擁有者,以取得最佳專家來提供其輸入。 另外還有一個狀態,可讓其他人知道正在進行的工作,以及其他動作可能需要優先順序的位置。
步驟 7:數據大眾化
讓使用者以抱怨方式尋找和存取所需的數據,是數據大眾化的本質,並確保人們可以找到建立商業價值所需的數據。 提供全新且簡易的探索數據體驗是 Microsoft Purview 整合式目錄 的目的,同時讓管理者能夠大規模更新和管理目錄中提供的數據。 在本節中,我們會逐步解說使用者如何尋找及要求數據的存取權,並確保適當的核准者能夠追蹤並提供這些存取要求的輸入。
必要條件
探索數據產品
- 在 [整合式目錄 中,選取 [探索],然後選取 [數據產品]。
- 在 [ 數據產品] 頁面上,使用搜尋列來搜尋依年齡分類的費率。
- 在這裡,您會看到您在第 2 節中發佈的數據產品。 這會示範如何只向使用者公開他們想要探索的數據,並防止用戶必須流覽高技術性數據資產。
- 選取 Covid-19 依年齡變化和案例趨勢 數據產品
- 在這裡,取用者可以看到您提供的元數據,以及安裝期間所設定的任何其他屬性。 數據品質分數也在這裡,因此取用者甚至會在取得數據存取權之前先知道品質。
- 選取資產,取用者即可在 數據資產中看到所有可用的數據行。
- 選取 [病變詞彙],取用者可以查看該字詞的描述和其他資訊,以深入了解數據。
- 一旦取用者確信自己想要使用該數據,就必須取得數據的核准存取權。
- 選 取 [要求存取]
- 填寫表單詳細數據以提交要求。
- 使用者:保留您的名稱
- 經理核准:自動要求並導向至 Microsoft Entra ID 管理員。
- 目的:選取目的
- 業務理由:OKR 監視
- 核取證明旁邊的方塊,表示您瞭解使用此數據的預期。
- 選 取 [傳送]。
存取要求現在會傳送至 Microsoft Entra ID 中列出的 Managed。 從這裡,管理員可以開啟電子郵件並選取連結,或進入 Microsoft Purview 來存取要求。 核准和管理存取權可直接在 purview Microsoft完成。
- 在 整合式目錄 中,選取 [目錄管理],然後選取 [要求]。
- 選取 [個人健康情況] 網 域。
- 選取您提交的要求。
- 現在核准者可以在要求上選取 [ 回應 ] 來核准或拒絕。