瞭解網狀架構中的資料倉儲

已完成

網狀架構的 Lakehouse 是檔案、資料夾、資料表和快捷方式的集合,就像資料庫在資料湖上的作用一樣。 它是由 Spark 引擎和 SQL 引擎用於巨量資料處理,而且在使用開放原始碼 Delta 格式化資料表時具有 ACID 交易的功能。

網狀架構的資料倉儲體驗可讓您從 Lakehouse (支援資料工程和 Apache Spark) 的湖檢視轉換到傳統資料倉儲可提供的 SQL 體驗。 Lakehouse 可讓您讀取資料表並使用 SQL 分析端點,而資料倉儲可讓您操縱資料。

在資料倉儲體驗中,您將使用資料表和檢視建立資料模型、執行 T-SQL 以查詢資料倉儲和 Lakehouse 的資料、使用 T-SQL 對資料倉儲內的資料執行 DML 作業,以及提供 Power BI 等報表層。

在您已了解關聯式資料倉儲結構描述的基本架構準則之後,現在讓我們來探索如何建立資料倉儲。

在網狀架構中描述資料倉儲

在 Fabric 的資料倉儲體驗中,您可以在 Lakehouse 中的實體資料之上建置關聯層,並將其公開給分析和報告工具。 您可以從建立中樞工作區,直接在 Fabric 中建立資料倉儲。 建立空的倉儲之後,您可以將物件新增至其中。

Fabric UI 有箭頭指向建立中樞的螢幕擷取畫面。

建立倉儲之後,您可以使用 T-SQL 直接在網狀架構介面中建立資料表。

將資料內嵌至您的資料倉儲

有幾種方式可將資料內嵌至網狀架構資料倉儲,包括 管線資料流程跨資料庫查詢,以及 COPY INTO 命令。 內嵌之後,資料會變成可供多個商務群組分析,這些群組可以使用跨資料庫查詢和共用等功能來存取資料。

建立表格

若要在資料倉儲中建立資料表,您可以使用 SQL Server Management Studio (SSMS) 或其他 SQL 用戶端來連線到資料倉儲並執行 CREATE TABLE 陳述式。 您也可以直接在網狀架構 UI 中建立資料表。

您可以使用 COPY INTO 語法,將資料從外部位置複製到資料倉儲中的資料表。 例如:

COPY INTO dbo.Region 
FROM 'https://mystorageaccountxxx.blob.core.windows.net/private/Region.csv' WITH ( 
            FILE_TYPE = 'CSV'
            ,CREDENTIAL = ( 
                IDENTITY = 'Shared Access Signature'
                , SECRET = 'xxx'
                )
            ,FIRSTROW = 2
            )
GO

此 SQL 查詢會將儲存在 Azure Blob 儲存體的 CSV 檔案的資料載入網狀架構資料倉儲中稱為「區域」的資料表。

SQL 查詢編輯器有一個查詢開啟的螢幕擷取畫面。

複製資料表

您可以在資料倉儲中建立以最低儲存空間成本建立零複製資料表複製品。 這些複製品基本上是透過複製中繼資料所建立資料表的複本,同時仍參考 OneLake 中的相同資料檔案。 這表示儲存為 parquet 檔案的基礎資料不會重複,這有助於節省儲存空間成本。

資料表複製品在數個案例中特別有用。

  • 開發與測試:複製品可讓開發人員和測試人員在較低環境中建立資料表的複本,協助處理開發、偵錯、測試和驗證程序。
  • 資料復原:如果發生發行失敗或資料損毀,資料表複製品可以保留先前的資料狀態,以啟用資料復原。
  • 歷史報告:它們可協助建立歷史報告,以反映特定時間點的資料狀態,並保留特定商務里程碑的資料。

您可以使用 CREATE TABLE AS CLONE OF T-SQL 命令來建立資料表複製品。

若要深入了解資料表複製品,請參閱教學課程:在 Microsoft Fabric 中使用 T-SQL 複製資料表

資料表考量

在資料倉儲中建立資料表之後,請務必考慮將資料載入這些資料表的流程。 常見的方法是使用暫存表格。 在 Fabric 中,您可以使用 T-SQL 命令將資料從檔案載入資料倉儲中的暫存表格。

暫存表格是暫存資料表,可用來執行資料清理、資料轉換和資料驗證。 您也可以使用暫存表格,將資料從多個來源載入至單一目的地資料表。

通常,資料載入會以定期批次程序來執行,其中插入和更新到資料倉儲會協調至於固定間隔進行 (例如,每日、每週或每月)。

一般而言,您應該實作以下列循序執行工作的資料倉儲載入流程:

  1. 內嵌要載入至資料湖的新資料,並視需要套用預先載入清理或轉換。
  2. 將資料從檔案載入關聯式資料倉儲中的暫存表格。
  3. 從暫存表格中的維度資料載入維度資料表、更新現有的資料列或插入新的資料列,並在必要時產生替代索引鍵值。
  4. 從暫存表格中的事實資料載入事實資料表,查閱相關維度的適當替代索引鍵。
  5. 藉由更新索引和資料表散發統計資料來執行載入後最佳化。

如果您有資料表放在湖存放庫中,而且想要在自己的倉儲中透過 Fabric 資料倉儲進行查詢,但不進行變更,則不需要將資料從湖存放庫複製到資料倉儲。 您可以使用跨資料庫查詢,直接從資料倉儲查詢 Lakehouse 中的資料。

重要

在網狀架構資料倉儲中使用資料表目前有一些限制。 如需詳細資訊,請參閱 Microsoft Fabric 中的資料倉儲資料表