Поделиться через


Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных)

В этом разделе приведено описание содержимого модели интеллектуального анализа данных, характерного для моделей, в которых используется алгоритм кластеризации (Майкрософт). Общее описание содержимого модели интеллектуального анализа данных для всех типов моделей см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Основные сведения о структуре модели кластеризации

Модель кластеризации имеет простую структуру. Каждая модель имеет единственный родительский узел, который представляет модель и ее метаданные, а каждый родительский узел содержит плоский список кластеров (NODE_TYPE = 5). Эта организация показана на следующем рисунке.

структура содержимого модели для кластеризация

Каждый дочерний узел представляет отдельный кластер и содержит подробные статистические данные об атрибутах вариантов в этом кластере. К ним относятся количество вариантов в кластере и распределение значений, по которым данный кластер отличается от других кластеров.

Примечание

Необходимость в выполнении итерации по узлам для получения данных о количестве или описаний кластеров отсутствует; родительский узел модели обеспечивает также подсчет и составление списков кластеров.

Родительский узел содержит полезные статистические данные, которые описывают фактическое распределение всех обучающих вариантов. Эти статистические данные находятся в столбце вложенной таблицы, NODE_DISTRIBUTION. Например, в следующей таблице показано несколько строк из таблицы NODE_DISTRIBUTION, которая описывает распределение демографических данных о заказчиках для модели кластеризации, TM_Clustering, создаваемой в разделе Учебник по основам интеллектуального анализа данных.

ATTRIBUTE_NAME ATRIBUTE_VALUE Псевдоним PROBABILITY дисперсия VALUE_TYPE
возраст; Missing 0 0 0 1 (отсутствует)
возраст; 44.9016152716593 12939 1 125.663453102554 3 (непрерывный)
пол; Missing 0 0 0 1 (отсутствует)
пол; F 6350 0.490764355823479 0 4 (дискретный)
пол; M 6589 0.509235644176521 0 4 (дискретный)

На основании этих результатов можно определить, что для формирования модели использовалось 12 939 вариантов, что отношение количества мужчин и женщин составляло приблизительно 50 на 50, а средний возраст был равен 44. Описательные статистические данные изменяются в зависимости от того, относится ли значение атрибута, включаемое в отчет, к непрерывному числовому типу данных, как в случае возраста, или представляет собой значение дискретного типа, такое как пол. Статистические меры среднее и дисперсия вычисляются для данных непрерывного типа, а вероятность и несущее множество — для данных дискретного типа.

Примечание

В качестве дисперсии представлена общая дисперсия для кластера. Если значение дисперсии является небольшим, это указывает на то, что большинство значений в столбце довольно близки к среднему. Чтобы получить стандартное отклонение, вычислите квадратный корень дисперсии.

Следует отметить, что для каждого из атрибутов имеется значение Missing, которое указывает, в каком количестве вариантов отсутствуют данные, относящиеся к этому атрибуту. Недостающие данные могут оказаться значительными и по-разному повлиять на вычисления, в зависимости от типа данных. Дополнительные сведения см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).

Содержимое модели для модели кластеризации

В этом разделе предоставлены подробные сведения и примеры, относящиеся только к тем столбцам в содержимом модели интеллектуального анализа данных, которые являются значимыми для моделей кластеризации.

Сведения о столбцах общего назначения в наборе строк схемы, таких как MODEL_CATALOG и MODEL_NAME, см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

MODEL_CATALOG
Имя базы данных, в которой хранится модель.

MODEL_NAME
Имя модели.

ATTRIBUTE_NAME
Всегда является пустым в моделях кластеризации, поскольку в этом режиме отсутствуют прогнозируемые атрибуты.

NODE_NAME
Всегда совпадает с NODE_UNIQUE_NAME.

NODE_UNIQUE_NAME
Уникальный идентификатор узла в модели. Это значение невозможно изменить.

NODE_TYPE
Выходными данными модели кластеризации являются узлы следующих типов.

Идентификатор и имя узла Описание
1 (модель) Корневой узел для модели.
5 (кластер) Содержит количество вариантов в кластере, характеристики вариантов в кластере и статистические данные, которые описывают значения в кластере.

NODE_CAPTION
Понятное имя, применяемое для отображения. При создании модели в качестве заголовка автоматически используется значение NODE_UNIQUE_NAME. Но предусмотрена возможность изменить значение NODE_CAPTION для обновления отображаемого имени кластера либо программным путем, либо с использованием средства просмотра.

Примечание

При повторной обработке модели все изменившиеся имена записываются с учетом новых значений. Возможность сохранять одни и те же имена в модели или отслеживать изменения в принадлежности к кластеру при переходе от одной версии модели к другой отсутствует.

CHILDREN_CARDINALITY
Оценка количества дочерних узлов, которые имеет данный узел.

Родительский узел Указывает количество кластеров в модели.

Узлы кластера Всегда 0.

PARENT_UNIQUE_NAME
Уникальное имя родителя узла.

Родительский узел Всегда имеет значение NULL

Узлы кластера Обычно имеют значение 000.

NODE_DESCRIPTION
Описание узла.

Родительский узел Всегда имеет значение (All).

Узлы кластера Список с разделителями-запятыми основных атрибутов, которыми данный кластер отличается от других кластеров.

NODE_RULE
Не используется для моделей кластеризации.

MARGINAL_RULE
Не используется для моделей кластеризации.

NODE_PROBABILITY
Вероятность, связанная с этим узлом. Родительский узел Всегда 1.

Узлы кластера Эта вероятность представляет составную вероятность атрибутов с некоторыми корректировками, зависящими от алгоритма, который использовался для создания модели кластеризации.

MARGINAL_PROBABILITY
Вероятность доступа к узлу от родительского узла. В модели кластеризации граничная вероятность всегда совпадает с вероятностью узла.

NODE_DISTRIBUTION
Таблица, содержащая гистограмму вероятности узла.

Родительский узел См. введение к этому разделу.

Узлы кластера Представляет распределение атрибутов и значений для вариантов, которые включены в этот кластер.

NODE_SUPPORT
Число вариантов, поддерживаемое этим узлом. Родительский узел Указывает количество обучающих вариантов для всей модели.

Узлы кластера Указывает размер кластера как количество вариантов.

Примечание . Если в модели используется кластеризация K-средних, то каждый вариант может принадлежать только к одному кластеру. Но если в модели используется кластеризация по методу EM, то каждый вариант может принадлежать к различным кластерам и варианту присваивается значение взвешенного расстояния для каждого кластера, к которому он принадлежит. Поэтому для моделей EM сумма несущих множеств отдельных кластеров больше несущего множества всей модели.

MSOLAP_MODEL_COLUMN
Не используется для моделей кластеризации.

MSOLAP_NODE_SCORE
Отображает оценку, связанную с узлом.

Родительский узел . Оценка байесовского информационного критерия (BIC) для модели кластеризации.

Узлы кластера Всегда 0.

MSOLAP_NODE_SHORT_CAPTION
Метка, используемая для отображения. Этот заголовок нельзя изменить.

Родительский узел Тип модели: кластерная модель

Узлы кластера Имя кластера. Пример. Кластер 1.

Комментарии

Службы Analysis Services предоставляют несколько методов для создания модели кластеризация. Если неизвестно, какие методы использовались для создания модели, с которой происходит работа, метаданные модели можно получить программным путем, с помощью клиента ADOMD или объектов AMO, либо с помощью запроса к набору строк схемы интеллектуального анализа данных. Дополнительные сведения см. в разделе Запрос параметров, используемых для создания модели интеллектуального анализа данных.

Примечание

Структура и содержимое модели остаются теми же, независимо от используемой модели кластеризации или параметров.

См. также:

Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Средства просмотра моделей интеллектуального анализа данных
Алгоритм кластеризации (Майкрософт)
Запросы интеллектуального анализа данных