第2節:設定並註冊您的數據
如果您沒有可供掃描的數據源,則可以遵循下列步驟來完整部署 Azure Data Lake Stroage (ADLS Gen2) 範例。
提示
如果您的租用戶已經與 Microsoft Purview 帳戶位於相同的租使用者中,請繼續進行本節的下一個部分,以掃描您的資產。
在實際數據資產中,您會發現許多不同的系統用於不同的數據應用程式。 有一些報表環境,例如 Fabric 和 Snowflake,小組會在其中使用數據復本來建置分析解決方案,並支援其報表和儀錶板。 有一些操作數據系統可讓應用程式小組或客戶使用來完成商務程式,以根據程式期間所做的決策來收集或新增數據。
若要建立更實際的數據資產,建議您在目錄中顯示許多數據源,其中可以涵蓋任何公司可能擁有的不同數據使用範圍。 支援使用案例所需的數據類型可能與需要報表和儀錶板的商務使用者大致不同,分析師需要符合規範的維度和事實來建置報表,數據科學家或數據工程師需要直接來自收集所有這些數據的系統原始源數據,而更多數據可讓不同的使用者查看尋找的重要性, 在相同位置瞭解和存取數據。
如需將數據新增至資產的一些其他教學課程,您可以遵循下列指南:
- Fabric Lakehouse 教學課程 – 提供報告環境的基礎
- Azure SQL 資料庫 (範例) – 提供結構良好的操作數據存放區範例
必要條件
- Azure 中的訂用 帳戶:今天建立您的 Azure 免費帳戶
- 租使用者的 Microsoft Entra ID:Microsoft Entra ID 控管
- Microsoft Purview 帳戶
- 管理員 存取 Microsoft Purview 帳戶 (如果您已建立 Microsoft Purview 帳戶,則這是預設值。新Microsoft Purview 入口網站預覽中的許可權 |Microsoft Learn)
- 所有資源;Microsoft Purview、您的數據源和 Microsoft Entra ID 必須位於相同的雲端租使用者中。
設定數據資產的步驟
建立並填入記憶體帳戶
- 請遵循本指南來建立記憶體帳戶:建立適用於 Azure Data Lake Storage Gen2的記憶體帳戶
- 為新的 Data Lake 建立容器:
- 瀏覽至記憶體帳戶的 [概觀] 頁面。
- 選取 [資料 記憶體] 區段下的 [容器] 索引標籤。
- 選取 [+ 容器] 按鈕
- 將名稱命名為 'bronze',然後選取 [ 建立] 按鈕
- 重複這些步驟以建立「金級」容器
- 從 data.gov 下載一些 CSV 數據範例:Covid-19 依年齡群組的年齡和案例趨勢,美國
- 將 CSV 上傳至您所建立記憶體帳戶中名為 'bronze' 的容器。
- 選取名為 'bronze' 的容器,然後選取 [ 上傳 ] 按鈕。
- 瀏覽您儲存 CSV 的位置,然後選取 Covid-19_Vaccination_Case _Trends 檔案。
- 選取 [上傳]。
建立 Azure Data Factory
此步驟將示範數據如何在徽章數據湖層之間移動,並確保數據是取用者預期使用的標準化格式,這是執行數據品質的必要步驟。
請遵循本指南來建立 Azure Data Factory:建立 Azure Data Factory
使用此 Azure Data Factory 指南:使用對應數據流轉換數據,將 「銅」容器中的 CSV 資料複製到 「金級」容器作為差異格式數據表
從 Azure 入口網站 開啟 Azure Data Factory (ADF ) 體驗,方法是選取 ADF 資源 [概觀] 索引卷標上的 [啟動工作室] 按鈕。
選取 ADF Studio 中的 [ 作者] 索引標籤。
選取按鈕, + 然後從下拉功能表中挑選 [數據流 ]。
將數據流命名為 『CSVtoDeltaC19VaxTrends』。
選取空白方塊中的 [ 新增來源 ]。
將 [來源設定] 設定為:
- 輸出資料流名稱:『C19csv』
- 描述:保留空白
- 來源類型:內嵌
- 內嵌數據集類型:分隔文字
- 鏈接服務:選取您儲存 csv 的數據湖
將 [來源選項] 設定為:
- 檔案模式:檔案
- 檔案路徑:/bronze/ Covid-19_Vaccination_Case _Trends
- 不允許找到任何檔案:保持未核取狀態
- 異動數據擷取:保持未核取
- 壓縮類型:無
- 編碼:預設 (UTF-8)
- 數據行分隔符:逗號 (,)
- 數據列分隔符:預設 (\r、\n 或\r\n)
- 引號字元:雙引號 (“)
- 逸出字元:反斜杠 ()
- 第一個數據列作為標頭:CHECKED
- 將其餘部分保留為預設值
選取所建立來源 旁邊的小 + 下 方,然後選取 [接收]
建立接收器,其中儲存數據的格式和位置,以將數據從 'bronze' 中的 csv 移至 'gold' 中的差異數據表。
- 設定 Sink 值 (保留所有設定為預設值,除非指定)
- 接收類型:內嵌
- 內嵌數據集類型:Delta
- 鏈接服務:與來源中使用的相同數據湖,因為我們將儲存在不同的容器中。
設定 [設定] 值 (保留所有設定為預設值,除非指定)
- 資料夾路徑:gold/Covid19 分析和案例趨勢
您必須輸入值,因為此名稱是我們想要儲存數據的方式,而且不存在才能選取。
選 取 [驗證],這會檢查您的數據流,並提供修正任何錯誤的指示。
選取 [全部發佈]。
選取按鈕, + 然後從下拉功能表中選取管線
將您的管線命名為「CSV 至 Delta C19 Vax 趨勢」
選取先前步驟中建立的數據流 CSV 至 Delta (C19VaxTrends) ,然後將它拖放在開啟的管線索引卷標上。
選取 [驗證]
選取 [發佈]
選 取 [偵 錯 (使用活動運行時間) 來執行管線。
提示
如果您遇到差異格式的空格或不適當的字元錯誤:請開啟下載的 CSV 並進行更正。 然後,重載並覆寫銅級區域中的 CSV。 然後重新執行管線。
流覽至 Data Lake 中的金級容器,您現在應該會看到在管線期間建立的新 Delta 數據表。
掃描您的資產
如果您尚未將數據資產掃描到 Microsoft Purview 資料對應,則可以遵循下列步驟來填入您的數據對應。
掃描數據資產中的來源會自動收集這些來源中數據資產 (數據表、檔案、資料夾、報表等 ) 的元數據。 藉由註冊數據源並建立掃描,您可以對目錄中顯示的來源和資產建立技術擁有權,並確保您可以控制誰可以存取 Microsoft Purview 中的哪些元數據。 藉由在網域層級註冊和儲存來源和資產,它會儲存在最高層級的存取階層。 通常最好建立一些集合,以便掃描資產元數據,併為該數據建立正確的存取階層。
-
提供 Microsoft Purview 受控識別的讀取器存取權 (MSI) 至您的數據湖或其他數據存放區。
提示
MSI 是 Microsoft Purview 實例的帳戶名稱。
如果您已選擇使用 Microsoft Fabric 或 SQL,您可以使用下列指南來提供存取權:
註冊您的 Data Lake 並掃描您的資產
在 [Microsoft Purview 資料對應 網域] 索引標籤底下,選取網域的角色指派 (它會是 Microsoft Purview 帳戶的名稱) :
- 將您自己新增為數據源管理員和數據編者至網域。
- 選取角色 [ 數據源管理員] 旁邊的人員圖示。
- 在 Microsoft Entra ID 中搜尋您的名稱 (可能需要您輸入與 Microsoft Entra ID) 中完全相同的完整名稱。
- 選取 [確定]。
- 針對數據編者重複這些步驟。
- 將您自己新增為數據源管理員和數據編者至網域。
註冊數據湖:
- 選取 [ 數據源] 索引 標籤。
- 選取 [登錄]。
- 選取 Azure Data Lake Storage Gen2記憶體類型。
提供要連線的詳細資料:
- 訂用帳戶 (選擇性)
- 數據源名稱 (這會是ADLS Gen2來源的名稱)
- 資產元數據應該儲存 (選擇性) 的集合
- 選取 [註冊]
數據源註冊完成後,您可以設定掃描。 註冊表示 Microsoft Purview 已連線到數據源,並將它放在正確的擁有權集合中。 然後掃描會從來源讀取元數據,並在數據對應中填入資產。
選取您在數據源索引標籤註冊的來源
選取新的掃描並提供詳細資料:
- 使用此掃描的預設整合運行時間
- 認證應Microsoft Purview MSI (系統)
- 掃描層級為自動偵測
- 選取集合或使用網域 (集合必須是註冊數據源的相同集合或子集合)
- 選取 [繼續]
提示
此時Microsoft Purview 將會測試連線,以驗證掃描是否可以完成。 如果您尚未授與數據源的 Microsoft Purview MSI 讀取器存取權,則會失敗。 如果您不是數據源擁有者,或有使用者存取參與者,掃描將會失敗,因為它預期您有建立連線的授權。
現在只選取容器 『gold』,我們將差異數據表放在教學課程的建置數據區段中。 這可防止掃描數據存放區中的任何其他數據資產。
- 金級旁邊應該只有一個藍色的勾選,您可以在所有專案旁邊留下檢查,因為它會掃描完整的來源,並仍然建立我們將使用的資產等等。
- 選取 [繼續]
在 [選取掃描規則集] 畫面中,您應該使用預設掃描規則集。
選取 [繼續]
在設定掃描觸發程式中,您將設定掃描的頻率,如此一來,當您繼續將數據資產新增至湖的金級容器時,它會繼續填入數據對應。 選 取 [一次]。
選取 [繼續]。
選 取 [儲存並執行]。 這會建立掃描,只讀取 Data Lake 之 gold 容器的元數據,並填入我們將在後續章節中 Microsoft Purview 整合式目錄 中使用的數據表。 如果您只選取 [儲存],它將不會執行掃描,而且您不會看到資產。 掃描執行之後,您會看到您建立的掃描具有 [ 上次執行 ] 狀態為 [已排入佇列]。 當掃描讀取完成時,您的資產便已準備好進行下一節。 視來源中有多少資產而定,這可能需要幾分鐘或數小時的時間。