載入資料倉儲資料表
在基本層級中,通常會藉由將資料湖中新的檔案資料新增至資料倉儲中的資料表,來達到載入資料倉儲。 COPY
陳述式是完成這項工作的有效方式,如下列範例所示:
COPY INTO dbo.StageProducts
(ProductID, ProductName, ProductCategory, Color, Size, ListPrice, Discontinued)
FROM 'https://mydatalake.blob.core.windows.net/data/stagedfiles/products/*.parquet'
WITH
(
FILE_TYPE = 'PARQUET',
MAXERRORS = 0,
IDENTITY_INSERT = 'OFF'
);
設計資料倉儲載入流程的考量
載入資料倉儲最常見的模式之一是將資料從來源系統傳輸到資料湖中的檔案,將檔案資料內嵌到暫存資料表,然後使用 SQL 陳述式來將資料從暫存表格載入維度和事實資料表。 通常,資料載入會以定期批次程序來執行,其中插入和更新到資料倉儲會定期 (例如,每日、每週或每月) 進行協調。
在大部分情況下,您應該實作以下列循序執行工作的資料倉儲載入流程:
- 內嵌要載入至資料湖的新資料,並視需要套用預先載入清理或轉換。
- 將資料從檔案載入關聯式資料倉儲中的暫存表格。
- 從暫存表格中的維度資料載入維度資料表、更新現有的資料列或插入新的資料列,並在必要時產生替代索引鍵值。
- 從暫存表格中的事實資料載入事實資料表,查閱相關維度的適當替代索引鍵。
- 藉由更新索引和資料表散發統計資料來執行載入後最佳化。
使用 COPY
陳述式將資料載入暫存表格之後,您可以使用 INSERT
、UPDATE
、MERGE
和 CREATE TABLE AS SELECT
(CTAS) 陳述式的組合,將暫存的資料載入維度和事實資料表。
注意
實作有效的資料倉儲載入解決方案需要仔細考量如何管理代理索引鍵、緩慢變更維度,以及關聯式資料倉儲結構描述中固有的其他複雜度。 若要深入了解載入資料倉儲的技術,請考慮完成將資料載入關聯式資料倉儲課程模組。