Описание основных понятий моделирования данных

Завершено

Аналитические модели позволяют структурировать данные для поддержки анализа. Модели основаны на связанных таблицах данных и определяют числовые значения, которые необходимо проанализировать или о которых нужно сообщить (называемые мерами), а также сущности, по которым их можно агрегировать (называемые измерениями). Например, модель может включать таблицу, содержащую числовые меры для продаж (например, доход или количество), и измерения для продуктов, клиентов и времени. Это позволит объединять показатели продаж по одному или нескольким измерениям (например, для определения общего дохода по клиентам или общего количества проданных товаров по продуктам в месяц). Концептуально модель образует многомерную структуру, которую принято называть кубом, где любая точка пересечения измерений представляет собой агрегированную меру для этих измерений.)

Схема модели данных.

Примечание.

Хотя мы обычно называем аналитическую модель кубом, в ней может быть больше (или меньше) трех измерений — нам просто сложно представить более трех.

Таблицы и схема

Таблицы измерений представляют сущности (например, "продукт" или "клиент"), по которым необходимо агрегировать числовые меры. Каждая сущность имеет вид записи с уникальным значением ключа. Остальные столбцы представляют атрибуты сущности, например продукты имеют названия и категории, а клиенты — адреса и города. Как правило, большинстве аналитических моделей включают измерение Время, чтобы можно было агрегировать числовые меры, связанные с событиями во времени.

Числовые меры, которые будут агрегированы по различным измерениям в модели, хранятся в таблицах фактов. Каждая строка в таблице фактов представляет записанное событие, имеющее связанные меры. Например, таблица Sales в приведенной ниже схеме представляет собой проводки по продажам для отдельных позиций и содержит числовые значения для проданного количества и суммы прибыли.

Схема схемы звезды.

Такой тип схемы, когда таблица фактов связана с одной или несколькими таблицами измерений, называется схемой типа "звезда" (например, если с одной таблицей фактов связаны пять измерений, схема образует пятиконечную звезду). Можно также определить более сложную схему, в которой таблицы измерений связаны с дополнительными таблицами, содержащими дополнительные сведения. (Например, можно представить атрибуты категорий продуктов в отдельной таблице Category, связанной с таблицей Product. В этом случае проект называется схемой типа "снежинка". Схема таблиц фактов и измерений используется для создания аналитической модели, в которой агрегаты мер во всех измерениях вычисляются заранее, что делает производительность операций анализа и отчетности гораздо быстрее, чем вычисление агрегатов каждый раз.)

Иерархии атрибутов

И последнее, на что стоит обратить внимание в аналитических моделях, — это создание иерархий атрибутов, которые позволяют быстро выполнять детализацию обобщением или детализацию углублением для поиска агрегированных значений на разных уровнях в иерархическом измерении. Например, рассмотрим атрибуты в таблицах измерений, о которых мы говорили ранее. В таблице Product можно сформировать иерархию, в которой каждая категория может содержать несколько именованных продуктов. Аналогично, в таблице Customer можно создать иерархию для представления нескольких именованных клиентов в каждом городе. Наконец, в таблице Time можно сформировать иерархию из лет, месяцев и дней. Модель может быть создана с предварительно агрегированными значениями для каждого уровня иерархии, что позволяет быстро изменять масштаб анализа — например, просмотреть общий объем продаж по годам, а затем просмотреть более подробную разбивку общего объема продаж по месяцам.

Схема иерархии данных.

Аналитическое моделирование в Microsoft Power BI

С помощью Power BI можно определить аналитическую модель на основе таблиц данных, которые можно импортировать из одного или нескольких источников данных. Затем можно воспользоваться интерфейсом моделирования данных на вкладке Модель в Power BI Desktop, чтобы определить аналитическую модель путем создания связей между таблицами фактов и измерений, определения иерархий, установки типов данных и форматов отображения для полей в таблицах, а также путем управления другими свойствами данных, которые помогают определить полнофункциональную модель для анализа.

Снимок экрана: вкладка