什麼是數據網格?
數據網格是一種架構模式,用於在大型和複雜的組織中實作企業數據平臺。 數據網格可協助將分析採用規模調整到單一平臺和單一實作小組之外。
背景
分析的需求不是近期才出現的。 組織自成立以來一直需要評估商務效能,並利用計算機來達到此目的。 在 20 世紀 80 年代左右,組織開始使用特別用於決策支援的資料庫來建置數據倉儲解決方案。 這些數據倉儲解決方案長時間為組織提供服務。
不過,隨著商務變更併產生更多樣化的數據,使用關係資料庫的數據倉儲解決方案可能不一定是最佳解決方案。 在2000年代,巨量數據成為常見的術語。 企業採用新的解決方案,允許分析大量可能以極速產生的多樣化數據。 這些解決方案包括數據湖等技術,以及分析大量數據的向外延展解決方案。
近年來,許多組織都成功地使用結合數據倉儲技術和最新巨量數據技術的現代化架構和分析模式。
不過,有些組織在使用分析模式部署分析解決方案時遇到問題。 這些解決方案通常仍會實作為整合型解決方案,其中單一小組是平臺提供者,而小組正在執行數據整合。 從小組設定的觀點來看,具有高度集中化的小型組織和組織可以使用單一小組。 不過,只使用單一小組的大型組織通常會造成瓶頸。 此瓶頸會導致大量待辦專案,導致組織部分等候數據整合服務和分析解決方案。
隨著組織採用新式數據科學解決方案,這種模式變得更加常見。 許多新式數據科學解決方案需要比過去傳統的商業智慧解決方案更多的數據。
最近將微服務當做應用程式開發模式的切換,是數據整合方面長期待辦專案的另一個驅動程式,因為它會增加數據源的數目。
處理大型組織中單一平臺上所有數據擷取的單一小組也可能有問題。 一個小組很少針對每個數據源擁有專家。 大部分的組織都是從商務觀點分散和散發。 不同的業務單位和部門會處理不同業務作業的各個部分,因此數據專家通常會分散到各個部門。
引進了稱為數據網格的模式來解決這些問題。 數據網格的目標是讓分散式小組以分散且敏捷的方式處理和共享資訊。
數據網格是也需要組織變更的技術模式。 藉由實作發佈及取用數據產品的多紀律小組,即可達成數據網格方法的優點。
下列概念是了解數據網格架構的基礎:
- 資料網域
- 資料產品
- 自助平臺
- 同盟治理
資料網域
數據域是數據網格的基礎。 數據域的概念來自網域驅動開發 (DDD),這是一種經常用於軟體開發以建立複雜軟體解決方案模型的範例。 在數據網格中,數據域是定義企業數據界限的方法。 網域可能會因組織而異,在某些情況下,您可以定義組織周圍的網域。 在其他情況下,您可以選擇根據商務程式或來源系統來建立數據域的模型。
數據網域有三個層面:
您選擇的界限會自行呈現為長期擁有權。 它們存在很長一段時間,並已識別擁有者。
您的領域應該符合現實,而不僅僅是理論概念。
您的網域必須具有不可部分完成的完整性。 如果區域彼此沒有關聯性,請勿將它們結合在一個定義域中。
如需數據域及其定義方式的詳細資訊,請參閱 數據域。
資料產品
數據產品是數據網格的另一個重要元件。 數據產品的目標是將產品思維帶到數據的世界。 為了讓數據產品成功,它必須為預定的使用者提供長期的商業價值。 在數據網格中,數據產品牽涉到數據、程式代碼資產、元數據和相關原則。 數據產品可以當作數據湖中的 API、報表、數據表或數據集來傳遞。
成功的數據產品必須是:
- 可用: 您的產品必須在實時數據網域之外擁有使用者。
- 有價值: 您的產品必須持續一段時間才能維持價值。 如果它沒有長期值,就無法成功。
- 可行: 您的產品必須可行。 如果您無法實際建置它,產品就無法成功。 您的產品必須從數據可用性和技術觀點來看都是可行的。
數據產品的程式代碼資產包括產生它的程式代碼,以及提供它的程序代碼。 程式代碼資產也包含用來建立產品和產品最終報告的管線。
如需數據產品的詳細資訊,請參閱 Azure 中的雲端規模分析數據產品。
如需使用數據網格的特定指引,請參閱 什麼是數據產品?。
自助平臺
數據網格的核心是擁有一個平臺,可讓數據網域自行建置其數據產品。 數據網域需要使用與使用者相關的工具和程式來定義數據產品,而不需要對中央平臺或中央平臺小組有很強的相依性。 在數據網格中,您有自主小組開發和管理自主產品。
使用分散並配合瞭解您數據的商務使用者時,請記住也在您的平臺上工作的一般主義者。 因為您擁有一般主義者,因此不能有需要專業知識的特殊工具,才能作為網格型平臺的核心基礎。
您可以採用自助數據平台設計考慮中所述 的作法,成功實作自助平臺。
同盟治理
當您採用自助分散式數據平臺時,必須更加強調治理。 缺乏治理會導致數據域中的尋址接收器和數據重複。 將您的控管同盟,因為瞭解治理需求的人員存在於您的網域對齊小組和數據擁有者之間。
若要建立同盟治理,請針對平台和數據需求實作自動化原則。 使用高度自動化來測試和監視。 採用程式代碼優先實作策略,以程式代碼的形式處理標準、原則、數據產品和平臺部署。
如需實作同盟治理層面的詳細資訊,請參閱 數據控管概觀。
摘要
數據網格可以是實作企業數據平臺的有效方式,但並不是所有組織的最佳解決方案。 數據網格需要可獨立運作的自發小組。 數據網格在具有獨立業務單位且需要將分析採用規模調整為單一平臺和實作小組的大型複雜組織中效果最佳。
使用數據網格時,請在實作治理時特別小心,以免建立尋址接收器。 請務必在實作的核心保留數據的產品思維,以確保成功。