Ładowanie tabel magazynu danych

Ukończone

Na poziomie podstawowym ładowanie magazynu danych jest zwykle osiągane przez dodanie nowych danych z plików w usłudze Data Lake do tabel w magazynie danych. Instrukcja COPY jest skutecznym sposobem wykonania tego zadania, jak pokazano w poniższym przykładzie:

COPY INTO dbo.StageProducts
    (ProductID, ProductName, ProductCategory, Color, Size, ListPrice, Discontinued)
FROM 'https://mydatalake.blob.core.windows.net/data/stagedfiles/products/*.parquet'
WITH
(
    FILE_TYPE = 'PARQUET',
    MAXERRORS = 0,
    IDENTITY_INSERT = 'OFF'
);

Zagadnienia dotyczące projektowania procesu ładowania magazynu danych

Jednym z najpopularniejszych wzorców ładowania magazynu danych jest transferowanie danych z systemów źródłowych do plików w usłudze Data Lake, pozyskiwanie danych plików do tabel przejściowych, a następnie ładowanie danych z tabel przejściowych do tabel wymiarów i faktów przy użyciu instrukcji SQL. Zwykle ładowanie danych jest wykonywane jako okresowy proces wsadowy, w którym operacje wstawiania i aktualizacji magazynu danych są koordynowane w regularnych odstępach czasu (na przykład codziennie, co tydzień lub co miesiąc).

W większości przypadków należy zaimplementować proces ładowania magazynu danych, który wykonuje zadania w następującej kolejności:

  1. Pozyskaj nowe dane do załadowania do magazynu typu data lake, stosując czyszczenie przed obciążeniem lub przekształcenia zgodnie z potrzebami.
  2. Załaduj dane z plików do tabel przejściowych w relacyjnym magazynie danych.
  3. Załaduj tabele wymiarów z danych wymiarów w tabelach przejściowych, aktualizując istniejące wiersze lub wstawiając nowe wiersze i generując w razie potrzeby wartości klucza zastępczego.
  4. Załaduj tabele faktów z danych faktów w tabelach przejściowych, wyszukując odpowiednie klucze zastępcze dla powiązanych wymiarów.
  5. Przeprowadź optymalizację po załadowaniu, aktualizując indeksy i statystyki dystrybucji tabel.

Po użyciu instrukcji COPY w celu załadowania danych do tabel przejściowych można użyć kombinacji INSERTinstrukcji , UPDATE, MERGEi CREATE TABLE AS SELECT (CTAS), aby załadować dane etapowe do tabel wymiarów i faktów.

Uwaga

Zaimplementowanie efektywnego rozwiązania do ładowania magazynu danych wymaga starannego rozważenia sposobu zarządzania kluczami zastępczymi, wolno zmieniających się wymiarów i innych złożoności związanych ze schematem relacyjnego magazynu danych. Aby dowiedzieć się więcej na temat technik ładowania magazynu danych, rozważ ukończenie modułu Ładowanie danych do relacyjnego magazynu danych.