Inleiding
Grootschalige oplossingen voor gegevensanalyse combineren conventionele datawarehousing die wordt gebruikt ter ondersteuning van business intelligence (BI) met technieken die worden gebruikt voor zogenaamde big data-analyses. Een conventionele oplossing voor datawarehousing omvat meestal het kopiƫren van gegevens uit transactionele gegevensarchieven naar een relationele database met een schema dat is geoptimaliseerd voor het uitvoeren van query's en het bouwen van multidimensionale modellen. Oplossingen voor het verwerken van big data worden echter gebruikt met grote hoeveelheden gegevens in meerdere indelingen, die in realtime worden geladen of vastgelegd in realtime stromen en worden opgeslagen in een data lake van waaruit gedistribueerde verwerkingsengines zoals Apache Spark worden gebruikt om deze te verwerken. De combinatie van flexibele Data Lake Storage- en datawarehouse SQL-analyses heeft geleid tot de opkomst van een grootschalige analyseontwerp, ook wel data lakehouse genoemd.