Ładowanie tabel magazynu danych
Na poziomie podstawowym ładowanie magazynu danych jest zwykle osiągane przez dodanie nowych danych z plików w usłudze Data Lake do tabel w magazynie danych. Instrukcja COPY
jest skutecznym sposobem wykonania tego zadania, jak pokazano w poniższym przykładzie:
COPY INTO dbo.StageProducts
(ProductID, ProductName, ProductCategory, Color, Size, ListPrice, Discontinued)
FROM 'https://mydatalake.blob.core.windows.net/data/stagedfiles/products/*.parquet'
WITH
(
FILE_TYPE = 'PARQUET',
MAXERRORS = 0,
IDENTITY_INSERT = 'OFF'
);
Zagadnienia dotyczące projektowania procesu ładowania magazynu danych
Jednym z najpopularniejszych wzorców ładowania magazynu danych jest transferowanie danych z systemów źródłowych do plików w usłudze Data Lake, pozyskiwanie danych plików do tabel przejściowych, a następnie ładowanie danych z tabel przejściowych do tabel wymiarów i faktów przy użyciu instrukcji SQL. Zwykle ładowanie danych jest wykonywane jako okresowy proces wsadowy, w którym operacje wstawiania i aktualizacji magazynu danych są koordynowane w regularnych odstępach czasu (na przykład codziennie, co tydzień lub co miesiąc).
W większości przypadków należy zaimplementować proces ładowania magazynu danych, który wykonuje zadania w następującej kolejności:
- Pozyskaj nowe dane do załadowania do magazynu typu data lake, stosując czyszczenie przed obciążeniem lub przekształcenia zgodnie z potrzebami.
- Załaduj dane z plików do tabel przejściowych w relacyjnym magazynie danych.
- Załaduj tabele wymiarów z danych wymiarów w tabelach przejściowych, aktualizując istniejące wiersze lub wstawiając nowe wiersze i generując w razie potrzeby wartości klucza zastępczego.
- Załaduj tabele faktów z danych faktów w tabelach przejściowych, wyszukując odpowiednie klucze zastępcze dla powiązanych wymiarów.
- Przeprowadź optymalizację po załadowaniu, aktualizując indeksy i statystyki dystrybucji tabel.
Po użyciu instrukcji COPY
w celu załadowania danych do tabel przejściowych można użyć kombinacji INSERT
instrukcji , UPDATE
, MERGE
i CREATE TABLE AS SELECT
(CTAS), aby załadować dane etapowe do tabel wymiarów i faktów.
Uwaga
Zaimplementowanie efektywnego rozwiązania do ładowania magazynu danych wymaga starannego rozważenia sposobu zarządzania kluczami zastępczymi, wolno zmieniających się wymiarów i innych złożoności związanych ze schematem relacyjnego magazynu danych. Aby dowiedzieć się więcej na temat technik ładowania magazynu danych, rozważ ukończenie modułu Ładowanie danych do relacyjnego magazynu danych.