Изучение обработки аналитических данных

Завершено

Обработка аналитических данных обычно использует системы только для чтения (или в основном для чтения), в которых хранятся большие объемы исторических данных или бизнес-метрик. Аналитика может основываться на моментальном снимке данных в определенный момент времени или на серии моментальных снимков.

Конкретные детали системы аналитической обработки могут различаться в зависимости от решения, но общая архитектура для аналитики корпоративного уровня выглядит следующим образом:

Схема, показывающая архитектуру аналитической базы данных с нумерованными элементами, описанными ниже.

  1. Операционные данные извлекаются, преобразуются и загружаются (ETL) в озеро данных для анализа.
  2. Данные загружаются в схему таблиц , обычно в озерах данных на основе Spark с табличными абстракциями по файлам в озере данных или хранилище данных с полностью реляционным обработчиком SQL.
  3. Данные в хранилище данных могут быть агрегированы и загружены в модель оперативной аналитической обработки (OLAP) или куб. Агрегированные числовые значения (меры) из таблиц фактов рассчитываются для пересечения измерений из таблиц измерений. Например, доход от продаж может суммироваться по датам, клиентам и продуктам.
  4. Данные в озере данных, хранилище данных и аналитической модели можно запрашивать для создания отчетов, визуализаций и панелей мониторинга.

Озера данных часто используются в крупномасштабных сценариях обработки данных, где необходимо собирать и анализировать большой объем файловых данных.

Хранилища данных — это установленный способ хранения данных в реляционной схеме, оптимизированной для операций чтения, в основном это запросы для поддержки отчетов и визуализации данных. Гибридное решение "хранилище и озеро данных" — это более последние инновации, которые объединяют гибкое и масштабируемое хранилище озера данных с реляционной семантикой запроса хранилища данных. Для схемы таблицы может потребоваться некоторая денормализация данных в источнике данных OLTP (введение некоторых дублирований для ускорения выполнения запросов).

Модель OLAP — это агрегированный тип хранилища данных, оптимизированный для аналитических рабочих нагрузок. Агрегирование данных осуществляется по измерениям на разных уровнях, что позволяет снижать или повышать уровень детализации для просмотра агрегатов на нескольких уровнях иерархии — например, чтобы найти общий объем продаж по региону, по городу или по отдельному адресу. Поскольку данные OLAP предварительно агрегированы, запросы на получение сводных данных, которые содержит модель OLAP, можно выполнять быстро.

Различные типы пользователей могут выполнять аналитическую обработку данных на разных стадиях общей архитектуры. Например:

  • Специалисты по обработке и анализу данных могут работать непосредственно с файлами данных в озере данных для изучения и моделирования данных.
  • Аналитики данных могут запрашивать таблицы непосредственно в хранилище данных для создания сложных отчетов и визуализаций.
  • Бизнес-пользователи могут использовать предварительно агрегированные данные в аналитической модели в виде отчетов или панелей мониторинга.