Introdução
As soluções de análise de dados em larga escala combinam o armazenamento de dados convencional usado para dar suporte ao business intelligence (BI) com técnicas usadas para a chamada análise de "big data". Uma solução convencional de armazenamento de dados normalmente envolve a cópia de dados de armazenamentos de dados transacionais para um banco de dados relacional com um esquema otimizado para consultar e criar modelos multidimensionais. As soluções de processamento de Big Data, no entanto, são usadas com grandes volumes de dados em vários formatos, que são carregados em lote ou capturados em fluxos em tempo real e armazenados em um data lake a partir do qual mecanismos de processamento distribuído como o Apache Spark são usados para processá-los. A combinação de armazenamento flexível de data lake e análise SQL de data warehouse levou ao surgimento de um projeto de análise em larga escala, muitas vezes chamado de data lakehouse.