Введение
Крупномасштабные решения аналитики данных объединяют обычные хранилища данных, используемые для поддержки бизнес-аналитики (BI) с методами, используемыми для так называемой "аналитики больших данных". Обычное решение для хранения данных предполагает копирование данных из транзакционных хранилищ данных в реляционную базу данных с определенной схемой, которая оптимизирована для обработки запросов и создания многомерных моделей. Однако решения обработки больших данных используются с большими объемами данных в нескольких форматах, которые загружаются или записываются в потоках в режиме реального времени и хранятся в озере данных, из которого используются распределенные обработчики обработки, такие как Apache Spark, для обработки. Сочетание гибкого хранилища озера данных и аналитики хранилища данных SQL привело к возникновению крупномасштабной аналитики, часто называемой хранилищем озера данных.