Exploración de almacenes de datos analíticos
Hay dos tipos comunes de almacén de datos analíticos.
Almacenamientos de datos
Un almacenamiento de datos es una base de datos relacional en la que los datos se almacenan en un esquema optimizado para el análisis de datos en lugar de en cargas de trabajo transaccionales. Normalmente, los datos de un almacén transaccional se transforman en un esquema en el que los valores numéricos se almacenan en tablas de hechos centrales, que están relacionadas con una o varias tablas de dimensiones que representan entidades por las que se pueden agregar los datos. Por ejemplo, una tabla de hechos podría contener datos de pedidos de ventas, que se pueden agregar por las dimensiones de cliente, producto, tienda y tiempo (lo que le permite, por ejemplo, encontrar fácilmente los ingresos totales mensuales de ventas por producto para cada tienda). Este tipo de esquema de tabla de hechos y dimensiones se denomina esquema de estrella; aunque a menudo se extiende a un esquema de copo de nieve mediante la adición de tablas adicionales relacionadas con las tablas de dimensiones para representar jerarquías dimensionales (por ejemplo, el producto puede estar relacionado con categorías de productos). Un almacenamiento de datos es una excelente opción si tiene datos transaccionales que se pueden organizar en un esquema estructurado de tablas y quiere usar SQL para consultarlos.
Lagos de datos
Un lago de datos es un almacén de archivos, normalmente en un sistema de archivos distribuido para el acceso a datos de alto rendimiento. A menudo se usan tecnologías como Spark o Hadoop para procesar consultas en los archivos almacenados y devolver datos para informes y análisis. Estos sistemas suelen aplicar un enfoque de esquema en lectura para definir esquemas tabulares en archivos de datos semiestructurados en el punto donde se leen los datos para su análisis, sin aplicar restricciones cuando se almacenan. Los lagos de datos son excelentes para admitir una combinación de datos estructurados, semiestructurados e incluso no estructurados que quiere analizar sin necesidad de aplicar el esquema cuando los datos se escriben en el almacén.
Enfoques híbridos
Puede usar un enfoque híbrido que combine características de lagos de datos y almacenamientos de datos en un lago de almacenamiento de datos. Los datos sin procesar se almacenan como archivos en un lago de datos y los puntos de conexión de análisis SQL de Microsoft Fabric los exponen como tablas, que se pueden consultar mediante SQL. Al crear una instancia de Lakehouse con Microsoft Fabric, se crea automáticamente un punto de conexión de análisis SQL. Los lagos de almacenamiento de datos son un enfoque relativamente nuevo en los sistemas basados en Spark y se habilitan mediante tecnologías como Delta Lake, que agrega funcionalidades de almacenamiento relacional a Spark, por lo que se pueden definir tablas que exijan esquemas y coherencia transaccional, admitan orígenes de datos de streaming y cargados por lotes y proporcionen una API de SQL para realizar consultas.
Servicios de Azure para almacenes analíticos
En Azure, hay varios servicios principales que puede usar para implementar un almacén analítico a gran escala, entre los cuales se incluyen los siguientes:
Microsoft Fabric es una solución integral unificada para el análisis de datos a gran escala. Reúne varias tecnologías y funcionalidades, y esto permite combinar la integridad y la confiabilidad de los datos de un almacenamiento de datos relacional basado en SQL Server escalable y de alto rendimiento con la flexibilidad de una solución Apache Spark de código abierto y lago de datos. También incluye compatibilidad nativa para el análisis de registros y telemetría con Inteligencia en tiempo real de Microsoft Fabric, así como canalizaciones de datos integradas para la ingesta y la transformación de datos. Cada experiencia de producto de Microsoft Fabric tiene su propio hogar, por ejemplo, la página principal de Data Factory. Cada página principal de Fabric muestra los elementos que crea y tiene permiso para usarlos desde todo el área de trabajo a la que accede. Microsoft Fabric es una excelente opción cuando se quiere crear una única solución de análisis unificada.
Azure Databricks es una implementación de Azure de la popular plataforma Databricks. Databricks es una completa solución de análisis de datos integrada en Apache Spark y ofrece funcionalidades nativas de SQL, así como clústeres de Spark optimizados para cargas de trabajo para el análisis de datos y la ciencia de datos. Databricks proporciona una interfaz de usuario interactiva a través de la cual se puede administrar el sistema y se pueden explorar los datos en cuadernos interactivos. Debido a su uso común en varias plataformas en la nube, puede usar de Azure Databricks como almacén analítico si quiere usar la experiencia existente con la plataforma o si necesita operar en un entorno de varias nubes o admitir una solución portátil en la nube.
Nota:
Cada uno de estos servicios puede considerarse como un almacén de datos analíticos, en el sentido de que proporcionan un esquema y una interfaz a través de los cuales se pueden consultar los datos. Sin embargo, en muchos casos, los datos se almacenan realmente en un lago de datos y el servicio se usa para procesar los datos y ejecutar consultas. Algunas soluciones pueden incluso combinar el uso de estos servicios. Un proceso de ingesta de extracción, carga y transformación (ELT) puede copiar datos en el lago de datos y, posteriormente, usar uno de estos servicios para transformar los datos y otro para consultarlos. Por ejemplo, una canalización podría usar un cuaderno que se ejecuta en Azure Databricks para procesar un gran volumen de datos en el lago de datos y, a continuación, cargarlo en tablas en una base de almacenamiento de Microsoft Fabric.