Carga de tablas de almacenamiento de datos

Completado

En un nivel básico, la carga de un almacenamiento de datos se logra normalmente mediante la adición de nuevos datos de archivos de un lago de datos a las tablas del almacenamiento de datos. La instrucción COPY es una manera eficaz de realizar esta tarea, como se muestra en el ejemplo siguiente:

COPY INTO dbo.StageProducts
    (ProductID, ProductName, ProductCategory, Color, Size, ListPrice, Discontinued)
FROM 'https://mydatalake.blob.core.windows.net/data/stagedfiles/products/*.parquet'
WITH
(
    FILE_TYPE = 'PARQUET',
    MAXERRORS = 0,
    IDENTITY_INSERT = 'OFF'
);

Consideraciones para diseñar un proceso de carga de almacenamiento de datos

Uno de los patrones más comunes para cargar un almacenamiento de datos es transferir datos de los sistemas de origen a los archivos de un lago de datos, ingerir los datos de los archivos en tablas de almacenamiento provisional y, luego, usar instrucciones SQL para cargar los datos desde las tablas de almacenamiento provisional hasta las tablas de dimensiones y hechos. Normalmente, la carga de datos se realiza como un proceso por lotes periódico en el que se coordinan las inserciones y actualizaciones en el almacenamiento de datos a intervalos regulares (por ejemplo, diaria, semanal o mensualmente).

En la mayoría de los casos, debe implementar un proceso de carga de almacenamiento de datos que realice las tareas en el orden siguiente:

  1. Ingerir los nuevos datos que se van a cargar en un lago de datos, aplicando la limpieza previa a la carga o las transformaciones según sea necesario.
  2. Cargar los datos de los archivos en tablas de almacenamiento provisional en el almacenamiento de datos relacional.
  3. Cargar las tablas de dimensiones de los datos de dimensión de las tablas de almacenamiento provisional, actualizando las filas existentes o insertando nuevas filas y generando valores de clave suplente según sea necesario.
  4. Cargar las tablas de hechos a partir de los datos de hechos de las tablas de almacenamiento provisional, buscando las claves suplentes adecuadas para las dimensiones relacionadas.
  5. Realizar la optimización posterior a la carga mediante la actualización de los índices y las estadísticas de distribución de tablas.

Después de usar la instrucción COPY para cargar datos en tablas de almacenamiento provisional, puede usar una combinación de las instrucciones INSERT, UPDATE, MERGE y CREATE TABLE AS SELECT (CTAS) para cargar los datos almacenados provisionalmente en tablas de dimensiones y hechos.

Nota

La implementación de una solución eficaz de carga de almacenamiento de datos requiere tener muy en cuenta cómo administrar las claves suplentes, las dimensiones de variación lenta y otras complejidades inherentes a un esquema de almacenamiento de datos relacional. Para obtener más información sobre las técnicas para cargar un almacenamiento de datos, considere la posibilidad de completar el módulo Carga de datos en un almacenamiento de datos relacional.