了解資料倉儲基本概念
建置新式資料倉儲的流程通常包括下列各項:
- 資料擷取 - 將資料從來源系統移至資料倉儲。
- 資料儲存體 - 以針對分析優化的格式儲存資料。
- 資料處理 - 將資料轉換成可供分析工具取用的格式。
- 資料分析和傳遞 - 分析資料以取得見解,並將這些見解傳遞給企業。
Microsoft Fabric 可讓資料工程師和分析師內嵌、儲存、轉換及視覺化資料,並同時具備低程式碼和傳統體驗的所有工具。
瞭解網狀架構的資料倉儲體驗
網狀架構的資料倉儲是關聯式資料倉儲 ,可支援企業資料倉儲所需的完整交易式 T-SQL 功能。 它是完全受控、可調整且高可用性的資料倉儲,可用來在 Lakehouse 中儲存和查詢資料。 使用資料倉儲,您可以完全控制使用 Fabric 入口網站或 T-SQL 命令建立資料表、載入、轉換和查詢資料。 您可以使用 SQL 來查詢和分析資料,或使用 Spark 來處理資料並建立機器學習模型。
Fabric 中的資料倉儲可協助資料工程師和資料分析師之間的共同作業,以相同的體驗共同作業。 資料工程師會在 Lakehouse 中的資料之上建置關係層,分析師可以使用 T-SQL 和 Power BI 來探索資料。
設計資料倉儲
與所有關系資料庫一樣,Fabric 的資料倉儲包含資料表,以便稍後儲存資料以供分析。 最常見的是,這些資料表會組織在針對多維度模型優化的架構中。 在這個方法中,與事件相關的數值資料(例如銷售訂單)會依不同的屬性分組(例如日期、客戶、商店)。 例如,您可以分析在特定日期或特定商店發生的銷售訂單所支付的總金額。
資料倉儲中的資料表
資料倉儲中的資料表通常會以支援對大量資料進行有效率且有效的分析的方式組織。 此組織通常稱為維度模型化,其牽涉到將資料表結構化成事實資料表和維度資料表。
事實資料表 包含您想要分析的數值資料。 事實資料表通常會有大量的資料列,而且是用來分析的主要資料來源。 例如,事實資料表可能包含在特定日期或特定商店發生的銷售訂單所支付的總金額。
維度資料表 包含事實資料表中資料的描述性資訊。 維度資料表通常有少量的資料列,可用來提供事實資料表中的資料內容。 例如,維度資料表可能包含銷售訂單的客戶相關資訊。
除了屬性資料行之外,維度資料表還包含唯一索引鍵資料行,可唯一識別資料表中的每個資料列。 事實上,維度資料表通常包含「兩個」索引鍵資料行:
- Surrogate 索引鍵 是維度資料表中每個資料列的唯一識別碼。 當新的資料列插入資料表時,通常是資料庫管理系統自動產生的整數值。
- 替代金鑰 通常是自然或商務金鑰,可識別交易來源系統中實體的特定實例,例如產品代碼或客戶識別碼。
您需要資料倉儲中的代理和替代索引鍵,因為它們有不同的用途。 代理金鑰是資料倉儲特有的,可協助維護資料的一致性和正確性。 另一方面,替代索引鍵是來源系統特有的,可協助維護資料倉儲與來源系統之間的可追蹤性。
特殊類型的維度資料表
特殊類型的維度會提供額外的內容,並啟用更全面的資料分析。
時間維度 會提供事件發生時間週期的相關資訊。 此資料表可讓資料分析師透過時態性間隔彙總資料。 例如,時間維度可能包含銷售訂單所在的年份、季、月和日資料行。
緩時變維度是追蹤一段時間維度屬性變更的維度 資料表,例如客戶位址或產品價格的變更。 它們在資料倉儲中很重要,因為它們可讓使用者分析及瞭解一段時間內資料的變更。 緩時變維度可確保資料保持最新且準確,這在做出良好的商務決策時勢在必行。
資料倉儲結構描述設計
在商務應用程式中所使用的大多數交易資料庫中,會將資料「正規化」以減少重複。 不過,在資料倉儲中,通常會將維度資料「取消正規化」,以減少查詢資料所需的聯結數目。
通常會將資料倉儲組織成「星型」結構描述,其中事實資料表會與維度資料表直接相關,如下列範例所示:
您可以使用某專案的屬性,將事實資料表中不同層級的數位分組在一起。 例如,您可以找到整個區域的總銷售收入,或只針對一個客戶。 每個層級的資訊都可以儲存在相同的維度資料表中。
提示
如需設計 Fabric 星狀架構的詳細資訊,請參閱 什麼是星型架構 ?
如果有許多層級或某些資訊是由不同的專案共用,則改用 雪花式架構 可能很合理。 以下是範例:
在此情況下, DimProduct 資料表已分割(正規化),為產品類別和供應商建立個別的維度資料表。
- DimProduct 資料表中的每個 資料列都包含 DimCategory 和 DimSupplier 資料表 中對應資料列的 索引鍵值。
已新增 DimGeography 資料表,其中包含客戶和商店所在位置的相關資訊。
- DimCustomer 和 DimStore 資料表中的每個 資料列都包含 DimGeography 資料表中對應資料列的 索引鍵值。