數據和 AI 治理的最佳做法
本文涵蓋數據與 AI 治理的最佳做法,由下列各節所列的架構原則所組織。
1.統一數據和 AI 管理
建立數據和 AI 治理程式
數據和 AI 治理是管理組織數據和 AI 資產的可用性、可用性、完整性和安全性。 藉由加強數據和 AI 治理,組織可以確保對精確分析和決策至關重要的資產質量,協助找出新機會、改善客戶滿意度,並最終增加營收。 它可協助組織遵守數據和 AI 隱私權法規,並改善安全性措施,降低數據外泄和處罰的風險。 有效的數據控管也會消除備援並簡化數據管理,進而節省成本並提升營運效率。
組織可能想要選擇最適合它們的治理模型:
- 在 集中式治理模型中,您的治理系統管理員是中繼存放區的擁有者,而且可以取得任何對象的擁有權,並授與和撤銷許可權。
- 在分散式治理模型中,目錄或一組目錄是數據域。 該目錄的擁有者可以建立並擁有所有資產,並管理該網域內的治理。 任何指定網域的擁有者都可以獨立於其他網域的擁有者運作。
數據和 AI 治理解決方案 Unity 目錄 已整合至 Databricks Data Intelligence Platform。 它同時支援治理模型,並協助順暢地管理任何雲端或平臺上的結構化和非結構化數據、ML 模型、筆記本、儀錶板和檔案。 Unity 目錄最佳做法可協助實作數據和 AI 治理。
在單一位置管理所有數據和 AI 資產的元數據
在單一位置管理所有資產元數據的優點與維護所有數據的單一事實來源的優點類似。 其中包括減少數據備援、提高數據完整性,以及因不同的定義或分類而消除誤解。 使用單一來源實作全域原則、標準和規則也比較容易。
最佳做法是使用 Unity 目錄,在單一帳戶中執行 Lakehouse。 Unity 目錄可以管理數據和磁碟區(任意檔案),以及功能與 AI 模型等 AI 資產。 Unity 目錄中物件的最上層容器是 中繼存放區。 它會儲存數據資產(例如數據表和檢視表)以及管理其存取權的許可權。 針對每個雲端區域使用單一中繼存放區,且不會跨區域存取中繼存放區,以避免延遲問題。
中繼存放區提供三層命名空間來建構數據、磁碟區和 AI 資產:
Databricks 建議使用 目錄來提供整個組織資訊架構的隔離。 這通常表示目錄可以對應至軟體開發環境範圍、小組或業務單位。
追蹤數據和 AI 譜系以推動數據的可見度
數據譜系是一項功能強大的工具,可協助數據領導者更瞭解和瞭解其組織中的數據。 數據譜系描述從來源到深入解析的轉換和精簡。 它包含擷取其整個生命週期中與數據相關聯的所有相關元數據和事件,包括數據集的來源、用來建立它的其他數據集、建立者,以及執行哪些轉換、其他數據集使用什麼,以及許多其他事件和屬性。
此外,當您在 Unity 目錄的數據表上定型模型時,您可以將 模型的譜系追蹤到其定型 和評估所在的上游數據集。
譜系可用於許多與數據相關的使用案例:
- 合規性和稽核整備程度:數據譜系可協助組織追蹤數據表和欄位的來源。 這對於滿足許多合規性法規的要求很重要,例如《一般數據保護條例》(GDPR)、加州消費者隱私法(CCPA)、健康保險可移植性和責任法(HIPAA)、巴塞爾銀行監督委員會(BCBS)239和薩班斯-奧克斯利法(SOX)。
- 影響分析/變更管理:數據會經歷從來源到最終商務就緒數據表的多個轉換。 從風險管理的觀點來看,瞭解數據變更對下游用戶的潛在影響會變得很重要。 您可以使用 Unity 目錄所擷取的數據譜系,輕鬆地判斷此影響。
- 數據質量保證:瞭解數據集來自何處,以及已套用的轉換可為數據科學家和分析師提供更好的內容,讓他們獲得更好且更精確的深入解析。
- 偵錯和診斷:如果發生非預期的結果,數據歷程可協助數據小組藉由追蹤錯誤回到其來源來執行根本原因分析。 這可大幅減少疑難解答時間。
Unity 目錄會跨在 Azure Databricks 上執行的查詢擷取運行時間 數據譜 系,以及 建立譜系模型。 所有語言都支援譜系,且譜系會擷取到資料行層級。 譜系資料包含與查詢相關的筆記本、工作和儀表板。 譜系可以在目錄總管中近乎即時地可視化,並使用 Databricks 的數據歷程 REST API 來存取。
將一致的描述新增至您的元數據
描述提供數據的基本內容。 其可協助使用者了解數據表和數據行的用途和內容。 這種清晰性可讓他們更輕鬆地探索、識別及篩選所需的數據,這對有效數據分析和決策制定至關重要。 描述可以包含數據敏感度和合規性資訊。 這有助於組織符合數據隱私權和安全性的法律和法規需求。 描述也應該包含有關數據來源、精確度和相關性的資訊。 這有助於確保數據完整性,並提升跨小組的更佳共同作業。
Unity 目錄中的兩個主要功能支援描述數據表和數據行。 Unity 目錄允許
以批註形式將批註 新增至數據表和數據行。
您也可以為 Unity 目錄所管理的任何資料表或資料表資料行新增 AI 產生的批注 ,以加速程式。 不過,AI 模型不一定正確,而且必須檢閱批注才能儲存。 Databricks 強烈建議人工檢閱 AI 產生的註解,以檢查是否有不準確之處。
將標籤 新增至 Unity 目錄中的任何安全性實體。 標籤是具有索引鍵和選擇性值的屬性,您可以套用至 Unity 目錄中的不同安全性實體物件。 標記對於組織及分類中繼存放區內的不同安全性實體物件很有用。 使用標籤也可讓您更輕鬆地搜尋和探索您的數據資產。
允許數據取用者輕鬆探索數據
輕鬆的數據探索可讓數據科學家、數據分析師和數據工程師快速探索和參考相關數據,並加快價值時間。
Databricks 目錄總 管提供使用者介面來探索和管理數據、架構(資料庫)、數據表和許可權、數據擁有者、外部位置和認證。 此外,您可以使用 [目錄總管] 中的 [深入解析] 索引卷標來 檢視 Unity 目錄中註冊之任何數據表的最新查詢 和使用者。
將 AI 資產與數據一起控管
數據控管與人工智慧(AI)之間的關係對於成功至關重要。 組織如何管理、保護及使用數據,直接影響 AI 實作的結果和考慮:您不需要質量數據就不能有 AI,而且沒有數據控管就不能有質量數據。
共同控管數據和 AI 可藉由確保順暢地存取高品質、最新的數據,進而改善精確度和更好的決策,以改善 AI 效能。 分解尋址接收器可藉由啟用更佳的共同作業和簡化工作流程來提升效率,進而提升生產力並降低成本。
改善的數據安全性是另一個優點,因為統一的治理方法會建立一致的數據處理做法、減少弱點,以及改善組織保護敏感性資訊的能力。 當數據與 AI 治理整合時,數據隱私權法規的合規性更容易維護,因為數據處理和 AI 程式符合法規需求。
整體來說,統一治理方法可促進專案關係人之間的信任,並藉由為數據和 AI 建立明確的原則和程式,確保 AI 決策流程的透明度。
在 Databricks Data Intelligence Platform 中,Unity 目錄是管理數據和 AI 資產的中央元件:
-
在已啟用 Unity 目錄的工作區中,數據科學家可以在 Unity 目錄中建立功能數據表。 這些功能數據表是 Unity 目錄所管理的 Delta 數據表 或 Delta Live Tables 。
-
Unity Catalog 中的模型會將 Unity Catalog 的優點延伸到 ML 模型,包括跨工作區的集中式存取控制、稽核、譜系和模型探索。 Unity 目錄中模型的主要功能包括模型治理、時間模型譜系、模型版本設定,以及透過別名進行模型部署。
2.統一數據和 AI 安全性
集中控制所有數據和 AI 資產
集中控制所有數據資產很重要,因為它藉由提供管理及稽核這些資產的集中位置,簡化數據和 AI 資產的安全性和治理。 這種方法有助於更有效率地管理數據和 AI 物件存取,確保強制執行隔離職責的作業需求,這對法規合規性和避免風險至關重要。
Databricks Data Intelligence Platform 提供數據存取控制方法,描述哪些群組或個人可以存取哪些數據。 這些是非常細微且特定的原則語句,可歸結至每個個別可存取的每個記錄定義。 或者,他們可以非常表達和廣泛,例如所有財務使用者可以看到所有的財務數據。
Unity 目錄會集中控制所有 支援的安全性物件 ,例如數據表、檔案、模型等等。 Unity Catalog 中的每個安全性實體物件都有擁有者。 對象的擁有者擁有物件的所有許可權,以及將安全性實體對象的許可權授與其他主體的能力。 Unity 目錄可讓您管理許可權,以及使用 SQL DDL 語句設定存取控制。
Unity 目錄會使用 數據列篩選和數據行遮罩 來進行更細緻的訪問控制。 數據列篩選可讓您將篩選套用至數據表,讓後續查詢只會傳回篩選述詞評估為 true 的數據列。 數據行遮罩可讓您將遮罩函式套用至數據表數據行。 遮罩函式會在查詢運行時間進行評估,並以遮罩函式的結果取代目標數據行的每個參考。
如需詳細資訊,請參閱 安全性、合規性和隱私權 - 使用最低許可權管理身分識別和存取權。
設定稽核記錄
稽核記錄很重要,因為它會提供系統活動的詳細帳戶(使用者動作、設定變更等等),可能會影響系統的完整性。 雖然標準系統記錄的設計目的是協助開發人員針對問題進行疑難解答,但稽核記錄會針對合規性和其他商務原則強制執行目的提供活動歷程記錄。 維護健全的稽核記錄有助於識別並確保面對威脅、缺口、詐騙和其他系統問題的備妥情況。
Databricks 可讓您存取 Databricks 使用者所執行活動的稽核記錄 ,讓您的組織能夠監視詳細的 Databricks 使用模式。 有兩種類型的記錄:具有工作區層級事件的工作區層級稽核記錄,以及具有帳戶層級事件的帳戶層級稽核記錄。
您也可以 啟用詳細資訊稽核記錄 ,這是在工作區中執行查詢或命令時記錄的其他稽核記錄。
稽核數據平臺事件
稽核記錄很重要,因為它會提供系統活動的詳細帳戶。 Data Intelligence Platform 具有元數據存取的稽核記錄(因此數據存取)和數據共用:
- Unity 目錄 會擷取針對中繼存放區執行的動作稽核記錄 。 這可讓系統管理員存取有關誰存取指定數據集的詳細數據,以及他們執行哪些動作。
- 針對與 Delta Sharing 的安全共用,Azure Databricks 會提供 稽核記錄來監視 Delta Sharing 事件,包括:
- 當某人建立、修改、更新或刪除共用或收件者時。
- 當收件者存取啟用連結並下載認證時。
- 當收件者存取共用或共享數據表中的數據時。
- 當收件者的認證輪替或到期時。
3.建立數據質量標準
Databricks Data Intelligence 平臺提供強大的數據品質管理,內建的品質控制、測試、監視和強制執行,以確保適用於下游 BI、分析和機器學習工作負載的精確且實用的數據。
實作詳細數據請參閱 可靠性 - 管理數據品質。
定義明確的數據質量標準
定義清楚且可採取動作的數據質量標準非常重要,因為它有助於確保用於分析、報告和決策的數據可靠且值得信任。 記錄這些標準有助於確保維持這些標準。 數據質量標準應以企業的特定需求為基礎,並應解決數據品質的維度,例如精確度、完整性、一致性、時程表和可靠性:
- 精確度:確保數據能準確地反映真實世界的值。
- 完整性:應該擷取所有必要的數據,而且不應遺漏任何重要數據。
- 一致性:所有系統上的數據都應該保持一致,而不會與其他數據相矛盾。
- 時程表:數據應以及時更新及提供。
- 可靠性:數據應以確保其可靠性的方式進行來源和處理。
使用資料品質工具來分析、清理、驗證和監視數據
利用資料品質工具來分析、清理、驗證和監視數據。 這些工具有助於自動化偵測和更正數據質量問題的程式,這對於跨 Data Lake 中典型的大型數據集調整數據質量計劃至關重要。
對於使用 DLT 的小組,您可以使用 預期 來定義數據集內容的數據品質條件約束。 預期可讓您保證傳送至資料表中的資料符合資料品質要求,並可讓您深入瞭解每次管線更新的資料品質。
實作並強制執行標準化的數據格式和定義
標準化的數據格式和定義有助於在所有系統中達成一致的數據表示法,以利數據整合和分析、降低成本,以及藉由加強跨小組和部門的溝通和共同作業來改善決策。 它也有助於提供建立和維護數據質量的結構。
開發並強制執行標準數據字典,其中包含整個組織使用之所有數據元素的定義、格式和可接受的值。
在所有資料庫和應用程式上使用一致的命名慣例、日期格式和度量單位,以防止差異和混淆。