Описание основных понятий моделирования данных
Аналитические модели позволяют структурировать данные для поддержки анализа. Модели основаны на связанных таблицах данных и определяют числовые значения, которые необходимо проанализировать или о которых нужно сообщить (называемые мерами), а также сущности, по которым их можно агрегировать (называемые измерениями). Например, модель может включать таблицу, содержащую числовые меры для продаж (например, доход или количество), и измерения для продуктов, клиентов и времени. Это позволит объединять показатели продаж по одному или нескольким измерениям (например, для определения общего дохода по клиентам или общего количества проданных товаров по продуктам в месяц). Концептуально модель образует многомерную структуру, которую принято называть кубом, где любая точка пересечения измерений представляет собой агрегированную меру для этих измерений.)
Примечание.
Хотя мы обычно называем аналитическую модель кубом, в ней может быть больше (или меньше) трех измерений — нам просто сложно представить более трех.
Таблицы и схема
Таблицы измерений представляют сущности (например, "продукт" или "клиент"), по которым необходимо агрегировать числовые меры. Каждая сущность имеет вид записи с уникальным значением ключа. Остальные столбцы представляют атрибуты сущности, например продукты имеют названия и категории, а клиенты — адреса и города. Как правило, большинстве аналитических моделей включают измерение Время, чтобы можно было агрегировать числовые меры, связанные с событиями во времени.
Числовые меры, которые будут агрегированы по различным измерениям в модели, хранятся в таблицах фактов. Каждая строка в таблице фактов представляет записанное событие, имеющее связанные меры. Например, таблица Sales в приведенной ниже схеме представляет собой проводки по продажам для отдельных позиций и содержит числовые значения для проданного количества и суммы прибыли.
Такой тип схемы, когда таблица фактов связана с одной или несколькими таблицами измерений, называется схемой типа "звезда" (например, если с одной таблицей фактов связаны пять измерений, схема образует пятиконечную звезду). Можно также определить более сложную схему, в которой таблицы измерений связаны с дополнительными таблицами, содержащими дополнительные сведения. (Например, можно представить атрибуты категорий продуктов в отдельной таблице Category, связанной с таблицей Product. В этом случае проект называется схемой типа "снежинка". Схема таблиц фактов и измерений используется для создания аналитической модели, в которой агрегаты мер во всех измерениях вычисляются заранее, что делает производительность операций анализа и отчетности гораздо быстрее, чем вычисление агрегатов каждый раз.)
Иерархии атрибутов
И последнее, на что стоит обратить внимание в аналитических моделях, — это создание иерархий атрибутов, которые позволяют быстро выполнять детализацию обобщением или детализацию углублением для поиска агрегированных значений на разных уровнях в иерархическом измерении. Например, рассмотрим атрибуты в таблицах измерений, о которых мы говорили ранее. В таблице Product можно сформировать иерархию, в которой каждая категория может содержать несколько именованных продуктов. Аналогично, в таблице Customer можно создать иерархию для представления нескольких именованных клиентов в каждом городе. Наконец, в таблице Time можно сформировать иерархию из лет, месяцев и дней. Модель может быть создана с предварительно агрегированными значениями для каждого уровня иерархии, что позволяет быстро изменять масштаб анализа — например, просмотреть общий объем продаж по годам, а затем просмотреть более подробную разбивку общего объема продаж по месяцам.
Аналитическое моделирование в Microsoft Power BI
С помощью Power BI можно определить аналитическую модель на основе таблиц данных, которые можно импортировать из одного или нескольких источников данных. Затем можно воспользоваться интерфейсом моделирования данных на вкладке Модель в Power BI Desktop, чтобы определить аналитическую модель путем создания связей между таблицами фактов и измерений, определения иерархий, установки типов данных и форматов отображения для полей в таблицах, а также путем управления другими свойствами данных, которые помогают определить полнофункциональную модель для анализа.