Описание архитектуры хранилища данных
Архитектура аналитики больших данных может отличаться, так как могут применяться определенные технологии, используемые для его реализации; но в общем случае включаются следующие элементы:
- Прием и обработка данных: данные из одного или нескольких хранилищ данных о транзакциях, файлов, потоков в режиме реального времени или других источников загружаются в озеро данных или реляционное хранилище данных. Операция загрузки обычно включает в себя процесс извлечения, преобразования и загрузки (ETL) или извлечения, загрузки и преобразования (ELT), в ходе которого данные очищаются, фильтруются и реструктурируются для анализа. В процессах ETL данные преобразуются перед загрузкой в аналитическое хранилище, а в процессе ELT данные копируются в хранилище, а затем преобразуются. В любом случае итоговая структура данных оптимизирована для аналитических запросов. Обработку данных часто выполняют распределенные системы, которые могут обрабатывать большие объемы данных параллельно с помощью кластеров с несколькими узлами. Прием данных включает как пакетную обработку статических данных, так и обработку потоковых данных в режиме реального времени.
- Хранилище аналитических данных: хранилища данных для аналитики в большом масштабе включают в себя реляционные хранилища данных, озера данных на основе файловой системы и гибридные архитектуры, сочетающие в себе функции хранилищ данных и озер данных (иногда называемые хранилищами озера данных или базами данных озера). Подробнее мы поговорим о них немного позже.
- Модель аналитических данных: хотя аналитики данных и специалисты по обработке и анализу данных могут работать с данными непосредственно в хранилище аналитических данных, обычно создаются одна или несколько моделей данных, которые предварительно собирают данные для упрощения создания отчетов, панелей мониторинга и интерактивных визуализаций. Часто эти модели данных описываются как кубы, в которых числовые значения данных объединяются по одному или нескольким измерениям (например, для определения общего объема продаж по продукту и региону). Модель инкапсулирует связи между значениями данных и сущностями измерений для поддержки анализа с разным уровнем детализации.
- Визуализация данных — аналитики данных используют данные из аналитических моделей и непосредственно из аналитических хранилищ для создания отчетов, панелей мониторинга и других визуализаций. Кроме того, пользователи в организации, не являющиеся экспертами по технологиям, могут самостоятельно выполнять анализ данных и составлять отчеты. Визуализации на основе данных показывают тенденции, сравнения и ключевые показатели эффективности (КПЭ) для бизнеса или другой организации, а также могут принимать форму печатных отчетов, графиков и диаграмм в документах или презентациях PowerPoint, на веб-панелях мониторинга и в интерактивных средах, в которых пользователи могут визуально просматривать данные.