Entender los conceptos de la base de datos de lago

Completado

En una base de datos relacional tradicional, el esquema de base de datos se compone de tablas, vistas y otros objetos. Las tablas de una base de datos relacional definen las entidades para las que se almacenan los datos; por ejemplo, una base de datos comercial puede incluir tablas para productos, clientes y pedidos. Cada entidad consta de un conjunto de atributos que se definen como columnas de la tabla y cada columna tiene un nombre y un tipo de datos. Los datos de las tablas se almacenan en la base de datos y están estrechamente unidos a la definición de la tabla; que aplica tipos de datos, nulabilidad, unicidad de clave e integridad referencial entre claves relacionadas. Todas las manipulaciones de datos y consultas deben realizarse a través del sistema de base de datos.

En un lago de datos, no hay esquema fijo. Los datos se almacenan en archivos, que pueden estar estructurados, semiestructurados o no estructurados. Las aplicaciones y los analistas de datos pueden trabajar directamente con los archivos en el lago de datos con las herramientas de su elección; sin las restricciones de un sistema de base de datos relacional.

Una base de datos de lago proporciona una capa de metadatos relacionales sobre uno o varios archivos de un lago de datos. Puede crear una base de datos de lago que incluya definiciones para tablas, con los nombres de columna y los tipos de datos, así como las relaciones entre las columnas de clave principal y externa. Las tablas hacen referencia a archivos del lago de datos, lo que le permite aplicar semántica relacional al trabajar con los datos y consultarlos mediante SQL. Sin embargo, el almacenamiento de los archivos de datos se desacopla del esquema de base de datos, lo que permite una mayor flexibilidad de la que normalmente ofrece un sistema de base de datos relacional.

Diagrama de un esquema relacional de tablas vinculadas con archivos superpuestos en un almacén de archivos.

Esquema de una base de datos de lago

Puede crear una base de datos de lago en Azure Synapse Analytics y definir las tablas que representan a las entidades para las que necesita almacenar datos. Puede aplicar principios de modelado de datos probados para crear relaciones entre las tablas y usar conversiones de nomenclatura adecuadas para las tablas, las columnas y otros objetos de la base de datos.

Azure Synapse Analytics incluye una interfaz gráfica de diseño de base de datos que puede usar para modelar un esquema de base de datos complejo, donde se usan muchos de los mismos procedimientos recomendados para el diseño de bases de datos que se aplicarían a una base de datos tradicional.

Almacenamiento de una base de datos de lago

Los datos de las tablas de la base de datos de lago se almacenan en el lago de datos como archivos Parquet o CSV. Los archivos se pueden administrar con independencia de las tablas de base de datos, lo que facilita la administración de la ingesta y manipulación de datos con una amplia variedad de tecnologías y herramientas de procesamiento de datos.

Proceso de una base de datos de lago

Para consultar y manipular los datos mediante las tablas que ha definido, puede usar un grupo SQL sin servidor de Azure Synapse para ejecutar consultas SQL o un grupo de Apache Spark de Azure Synapse para trabajar con las tablas mediante la API de Spark SQL.