共用方式為


Microsoft Purview 掃描最佳做法

Microsoft Purview 治理解決方案 支援自動掃描內部部署、多重雲端和軟體即服務, (SaaS) 數據源。

執行 掃描 會叫用從已註冊數據源擷取元數據的程式。 掃描和策劃程序結束時所策劃的元數據包含技術元數據。 此元數據可以包含數據資產名稱,例如數據表名稱或檔名、檔案大小、數據行和數據譜系。 也會擷取結構化數據源的架構詳細數據。 關係資料庫管理系統是這種來源類型的範例。

游標程式會根據所設定的掃描規則集,在架構屬性上套用自動化分類標籤。 如果您的 Microsoft Purview 帳戶已連線到 Microsoft Purview 合規性入口網站,則會套用敏感度標籤。

重要事項

如果您有任何 Azure 原則 阻止 更新記憶體帳戶,這會造成 Purview 掃描程式Microsoft錯誤。 請遵循 Microsoft Purview 例外狀況標籤指南 ,為 Microsoft Purview 帳戶建立例外狀況。

為什麼您需要最佳做法來管理數據源?

最佳做法可讓您:

  • 優化成本。
  • 打造卓越營運。
  • 改善安全性合規性。
  • 提升效能效率。

註冊來源並建立連線

下列設計考慮和建議可協助您註冊來源並建立連線。

設計考量

  • 使用集合來建立符合組織策略的階層,例如地理、商務功能或數據源。 階層會定義要註冊和掃描的數據源。
  • 根據設計,您無法在相同的 Microsoft Purview 帳戶中多次註冊數據源。 此架構有助於避免將不同訪問控制指派給相同數據源的風險。

設計建議

  • 如果多個小組使用相同數據源的元數據,您可以在父集合註冊和管理數據源。 然後,您可以在每個子集合下建立對應的掃描。 如此一來,相關資產就會出現在每個子集合之下。 沒有父代的來源會分組在地圖檢視檢視中的虛線方塊中。 沒有箭頭可將它們連結至父系。

    顯示在父集合上註冊數據源Microsoft Purview 的螢幕快照。

  • 如果您需要在雲端中註冊多個來源,例如 Azure 訂用帳戶或資源群組,請使用 [Azure 多 重] 選項。 如需詳細資訊,請參閱下列檔:

  • 註冊數據源之後,您可能會掃描相同的來源多次,以防各種小組或業務單位以不同方式使用相同的來源。

如需如何定義用來註冊數據源之階層的詳細資訊,請參閱 集合架構的最佳做法

掃描

下列設計考慮和建議是根據掃描程式中所涉及的重要步驟來組織。

設計考量

  • 註冊數據源之後,請設定掃描來管理自動化且安全的元數據掃描和策劃。
  • 掃描設定包括設定掃描的名稱、掃描範圍、整合運行時間、掃描觸發程式頻率、掃描規則集,以及每個掃描頻率之每個數據源的唯一資源集。
  • 建立任何認證之前,請考慮您的數據源類型和網路需求。 此資訊可協助您決定案例所需的驗證方法和整合運行時間。

設計建議

在相關 集合中註冊來源之後,請規劃並遵循您設定掃描時顯示的順序。 此程序順序可協助您避免非預期的成本和重構。

顯示準備掃描時所要遵循順序的螢幕快照。

  1. 從系統內建的分類規則識別您的分類需求。 或者,您可以視需要建立特定的自定義分類規則。 以特定產業、商務或地區需求為基礎,這些需求並非現可用的:

  2. 設定掃描之前,請先建立掃描規則集。

    顯示 [數據對應] 底下 [掃描規則集] 的螢幕快照。

    當您建立掃描規則集時,請確定下列幾點:

    • 確認系統預設掃描規則集是否足以掃描數據源。 否則,請定義您的自訂掃描規則集。

    • 自訂掃描規則集可以同時包含系統預設值和自定義,因此請清除與所掃描數據資產無關的選項。

    • 必要時,請建立自定義規則集來排除不必要的分類標籤。 例如,系統規則集包含行星的一般政府程序代碼模式,而不只是 美國。 您的數據可能符合某些其他類型的模式,例如「比利時駕照號碼」。

    • 將自定義分類規則限制為 最重要相關的 標籤,以避免雜亂。 您不想要將太多標籤至資產。

    • 如果您修改自定義分類或掃描規則集,則會觸發完整掃描。 適當地設定分類和掃描規則集,以避免重構和昂貴的完整掃描。

      此螢幕快照顯示當您建立自定義掃描規則集時選取相關分類規則的選項。

      注意事項

      當您掃描記憶體帳戶時,Microsoft Purview 會使用一組定義的模式來判斷資產群組是否構成資源集。 您可以使用資源集模式規則來自定義或覆寫 Purview Microsoft偵測哪些資產群組為資源集的方式。 這些規則也會決定資產在目錄內的顯示方式。 如需詳細資訊,請 參閱建立資源集模式規則。 這項功能有成本考慮。 如需詳細資訊,請參閱 定價頁面

  3. 設定已註冊數據源的掃描。

    • 掃描名稱:根據預設,Microsoft Purview 會使用命名慣例 SCAN-[A-Z][a-z][a-z],這在您嘗試識別已執行的掃描時沒有説明。 請務必使用有意義的命名慣例。 例如,您可以將掃描 environment-source-frequency-time 命名為 DEVODS-Daily-0200。 此名稱代表每天 0200 小時的掃描。

    • 驗證:Microsoft Purview 會根據來源類型,提供各種驗證方法來掃描數據源。 它可以是 Azure 雲端或內部部署或第三方來源。 依照此喜好設定順序,遵循驗證方法的最低許可權原則:

      • Microsoft Purview MSI - 受控服務識別 (例如,針對 Azure Data Lake Storage Gen2 來源)
      • 使用者指派的受控識別
      • 服務主體
      • 例如,內部部署或 Azure SQL 來源的 SQL 驗證 ()
      • 例如,SAP S/4HANA 來源的帳戶密鑰或基本驗證 ()

      如需詳細資訊,請參閱 管理認證的操作指南。

      注意事項

      如果您已啟用記憶體帳戶的防火牆,則必須在設定掃描時使用受控識別驗證方法。 當您設定新的認證時,認證名稱只能包含 字母、數位、底線和連字元

    • 整合運行時間

      • 如需詳細資訊,請參閱 網路架構最佳做法
      • 如果刪除自我裝載整合運行時間 (SHIR) ,任何依賴 SHIR 的持續掃描都會失敗。
      • 當您使用 SHIR 時,請確定記憶體已足夠掃描數據源。 例如,當您使用 SHIR 掃描 SAP 來源時,如果您看到「記憶體不足錯誤」:
        • 確定 SHIR 機器有足夠的記憶體。 建議的金額為 128 GB。
        • 在掃描設定中,將可用的最大記憶體設定為一些適當的值,例如 100。
        • 如需詳細資訊,請參閱 掃描和管理 SAP ECC Microsoft Purview 中的必要條件。
    • 範圍掃描

      • 當您設定掃描的範圍時,請只選取與細微層級或父層級相關的資產。 此做法可確保掃描成本是最佳的,而且效能是有效率的。 如果父系已完整或部分檢查,則會自動選取特定父系下的所有未來資產。

      • 某些資料來源的一些範例:

        • 針對 Azure SQL 資料庫或 Data Lake Storage Gen2,您可以將掃描範圍限定在數據源的特定部分。 選取清單中的適當專案,例如資料夾、子資料夾、集合或架構。
        • 對於 Oracle、Hive 中繼存放區資料庫和 Teradata 來源,可以透過分號分隔值或架構名稱模式來指定要導出的特定架構清單。
        • 針對Google Big查詢,可以透過分號分隔值來指定要導出的特定資料集清單。
        • 當您建立整個 AWS 帳戶的掃描時,您可以選取要掃描的特定貯體。 當您建立特定 AWS S3 貯體的掃描時,您可以選取要掃描的特定資料夾。
        • 針對 Erwin,您可以提供以分號分隔的 Erwin 模型定位器字串清單來設定掃描範圍。
        • 針對 Cassandra,可以透過分號分隔值或透過索引鍵空格名稱模式來指定要導出的特定密鑰空間清單。
        • 針對 Looker,您可以提供以分號分隔的 Looker 專案清單來設定掃描範圍。
        • 針對 Power BI 租使用者,您可能只指定是否要包含或排除個人工作區。

        顯示設定掃描時設定掃描範圍選項的螢幕快照。

      • 一般而言,根據通配符 (,使用支持它們的「忽略模式」,例如,針對 data Lake) 排除暫存、配置檔、RDBMS 系統數據表,或備份或 STG 數據表。

      • 當您掃描檔或非結構化數據時,請避免掃描大量這類檔。 掃描會處理這類檔的前 20 MB,而且可能會導致較長的掃描持續時間。

    • 掃描規則集

      • 當您選取掃描規則集時,請務必設定稍早建立的相關系統或自定義掃描規則集。
      • 您可以建立自定義檔類型,並據此填入詳細數據。 目前,Microsoft Purview 只支援自定義分隔符中的一個字元。 如果您在實際數據中使用自定義分隔符,例如 ~,則需要建立新的掃描規則集。

      顯示設定掃描時掃描規則集選取項目的螢幕快照。

    • 掃描類型和排程

      • 掃描程式可以設定為執行完整或增量掃描。
      • 在非商務或離峰時間執行掃描,以避免來源上有任何處理多載。
      • 初始掃描是完整掃描,而每個後續掃描都是累加式掃描。 後續掃描可以排程為定期增量掃描。 深入了解支援的 排程選項
      • 掃描頻率應符合數據源或商務需求的變更管理排程。 例如:
        • 如果來源結構可能每周變更,掃描頻率應該會同步。變更包括資產內新增、修改或刪除的新資產或欄位。
        • 如果分類或敏感度標籤預期每周是最新的,或許基於法規原因,掃描頻率應該是每周。 例如,如果每周在源數據湖中新增分割區檔案,您可以排程每月掃描。 您不需要排程每周掃描,因為元數據沒有任何變更。 此建議假設沒有新的分類案例。
        • 掃描可以執行的最大持續時間是七天,可能是因為記憶體問題。 此時間週期會排除擷取程式。 如果進度在七天后尚未更新,掃描會標示為失敗。 擷取 (到目錄) 程式目前沒有任何這類限制。
    • 取消掃描

      • 目前,只有在掃描狀態在觸發掃描之後從「已排入佇列」轉換成「進行中」狀態時,才能取消或暫停掃描。
      • 不支援取消個別的子掃描。

要注意的點

  • 如果在執行掃描之後從來源系統移除字段或數據行、數據表或檔案,則只有在下次排程的完整或增量掃描之後,才會反映 (移除Microsoft Purview 中的) 。
  • 您可以使用資產名稱下的 [ 刪除 ] 圖示,從 Microsoft Purview 目錄中刪除資產。 此動作不會移除來源中的物件。 如果您在相同的來源上執行完整掃描,則會在目錄中重新擷取。 如果您改為執行增量掃描,除非在來源修改對象,否則將不會挑選已刪除的資產。 例如,如果在數據表中加入或移除數據行。
  • 若要瞭解透過 Microsoft Purview 治理入口網站 手動 編輯數據資產或基礎架構之後,後續掃描的行為,請參閱 目錄資產詳細數據
  • 如需詳細資訊,請參閱 如何檢視、編輯和刪除資產的教學課程。

後續步驟

管理資料來源