描述獎牌架構

已完成

Fabric 中的資料湖存放庫是以 Delta Lake 格式為基礎所建置,原生支援 ACID (不可部分完成性、一致性、隔離性、耐用性) 交易。 在此架構中,獎牌結構是用來以邏輯方式組織資料湖存放庫中資料的建議資料設計模式。 其旨在改善資料品質,因為資料品質會隨著不同層級移動。 此結構通常有三個層級 – 銅級 (原始)、銀級 (經過驗證),以及金級 (擴充),分別代表較高的資料品質等級。 有些人員也會將其稱為「多躍點」結構,這表示資料可以視需要在層級之間移動。

此結構可確保資料在經過各種檢查和變更時可靠且一致。 也保證資料會安全地儲存,以便更容易且更快速地進行分析。

獎牌結構可補充其他資料組織方法,而不是取代它們。 您可以將獎牌結構視為資料清理的架構,而不是資料結構或模型。 可確保企業在現有資料模型中採用其優點的相容性和彈性,讓您自訂資料解決方案並保留專業知識,同時在不斷變更的資料環境中維持適應性。

獎牌結構的圖表,其中資料從來源流向銅級、銀級和金級。

了解獎牌結構格式

銅級層

獎牌結構的銅級或原始層是資料湖存放庫的第一層。 這是所有資料的登陸區域,無論是結構化、半結構化或非結構化。 資料會以原始格式儲存,而且不會進行任何變更。

銀級層

銀級或已驗證層是資料湖存放庫的第二層。 這是您將會驗證和精簡資料的位置。 銀級層中的一般活動包括組合和合併資料,以及強制執行資料驗證規則,例如移除 Null 和重複資料刪除。 銀級層可視為整個組織或小組的中央存放庫,其中資料會以一致格式儲存,並可由多個小組存取。 在銀級層中,您會足夠地清理好資料,讓一切項目都位於一個位置,並準備好在金級層中精簡和模型化。

金級層

金級或擴充層是資料湖存放庫的第三層。 在金級層中,資料會進一步精簡,以符合特定的商務和分析需求。 這可能牽涉到將資料彙總至特定資料細微性,例如每日或每小時,或使用外部資訊來擴充資料。 一旦資料到達金級階段,就已準備好可供下游小組使用,包括分析、資料科學或 MLOps。

自訂您的獎牌結構

依據組織的特定使用案例而定,您可能需要更多層級。 例如,在將資料轉換成銅級層之前,您可能會有一個額外的「原始」層,以特定格式登陸資料。 或者,您可能有一個「白金級」層,可進一步精簡和擴充特定使用案例的資料。 不論名稱與層數為何,獎牌結構都是彈性的,可以量身打造以符合貴組織的特定需求。

在 Fabric 中跨層移動資料

跨獎牌層移動資料,可精簡、組織及準備下游資料活動。 在 Fabric 的資料湖存放庫中,有多種方式可在層級之間移動資料,以確保您可以選擇適用於小組的方法。

決定如何跨層級移動和轉換資料時,需要考慮一些事項。

  • 您使用多少資料?
  • 您需要進行多少轉換?
  • 您需要在層級之間移動資料的頻率為何?
  • 您最熟悉哪些工具?

了解資料轉換和資料協調流程之間的差異,可協助您為 Fabric 內的作業選取正確的工具。

資料轉換牽涉到改變資料的結構或內容,以符合特定需求。 Fabric 中的資料轉換工具包括資料流程 (Gen2) 和筆記本。 資料流程是較小語意模型和簡單轉換的絕佳選項。 筆記本是較大語意模型和較複雜轉換的更佳選項。 筆記本也可讓您將轉換的資料儲存為資料湖存放庫中的受控 Delta 資料表,以供報告使用。

資料協調流程是指多個資料相關程序的協調和管理,確保其一起運作以達到所需的結果。 Fabric 中資料協調流程的主要工具是管線。 管線是一系列的步驟,可將資料從某個位置移至另一個位置,在此案例中,從一層的獎牌結構移至下一層。 管線可以自動化,以依排程執行,或由事件觸發。