Načtení tabulek datového skladu
Na základní úrovni se načítání datového skladu obvykle dosahuje přidáním nových dat ze souborů v datovém jezeře do tabulek v datovém skladu. Příkaz COPY
je efektivní způsob, jak tuto úlohu provést, jak je znázorněno v následujícím příkladu:
COPY INTO dbo.StageProducts
(ProductID, ProductName, ProductCategory, Color, Size, ListPrice, Discontinued)
FROM 'https://mydatalake.blob.core.windows.net/data/stagedfiles/products/*.parquet'
WITH
(
FILE_TYPE = 'PARQUET',
MAXERRORS = 0,
IDENTITY_INSERT = 'OFF'
);
Důležité informace o návrhu procesu načítání datového skladu
Jedním z nejběžnějších vzorů při načítání datového skladu je přenos dat ze zdrojových systémů do souborů v datovém jezeře, příjem dat souboru do pracovních tabulek a následné načtení dat z pracovních tabulek do tabulek dimenzí a faktů pomocí příkazů SQL. Načítání dat se obvykle provádí jako pravidelný dávkový proces, ve kterém se vkládání a aktualizace datového skladu koordinuje v pravidelných intervalech (například denně, týdně nebo měsíčně).
Ve většině případů byste měli implementovat proces načítání datového skladu, který provádí úlohy v následujícím pořadí:
- Ingestování nových dat, která se mají načíst do datového jezera, použití čištění před načtením nebo transformace podle potřeby.
- Načtěte data ze souborů do pracovních tabulek v relačním datovém skladu.
- Načtěte tabulky dimenzí z dat dimenzí v pracovních tabulkách, aktualizujte existující řádky nebo vložte nové řádky a podle potřeby vygenerujte náhradní hodnoty klíče.
- Načtěte tabulky faktů z dat faktů v pracovních tabulkách a vyhledejte odpovídající náhradní klíče pro související dimenze.
- Proveďte optimalizaci po načtení aktualizací indexů a statistik distribuce tabulek.
Po použití COPY
příkazu k načtení dat do pracovních tabulek můžete použít kombinaci INSERT
příkazů , UPDATE
, MERGE
a CREATE TABLE AS SELECT
(CTAS) k načtení fázovaných dat do dimenzí a tabulek faktů.
Poznámka:
Implementace efektivního řešení načítání datového skladu vyžaduje pečlivé zvážení správy náhradních klíčů, pomalu se měnících dimenzí a dalších složitostí, které jsou součástí schématu relačního datového skladu. Další informace o technikách načítání datového skladu najdete v tématu Načtení dat do modulu relačního datového skladu .