Содержимое моделей интеллектуального анализа данных для моделей кластеризации (службы Analysis Services — интеллектуальный анализ данных)
В этом разделе приведено описание содержимого модели интеллектуального анализа данных, характерного для моделей, в которых используется алгоритм кластеризации (Майкрософт). Общее описание содержимого модели интеллектуального анализа данных для всех типов моделей см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
Основные сведения о структуре модели кластеризации
Модель кластеризации имеет простую структуру. Каждая модель имеет единственный родительский узел, который представляет модель и ее метаданные, а каждый родительский узел содержит плоский список кластеров (NODE_TYPE = 5). Эта организация показана на следующем рисунке.
Каждый дочерний узел представляет отдельный кластер и содержит подробные статистические данные об атрибутах вариантов в этом кластере. К ним относятся количество вариантов в кластере и распределение значений, по которым данный кластер отличается от других кластеров.
Примечание
Необходимость в выполнении итерации по узлам для получения данных о количестве или описаний кластеров отсутствует; родительский узел модели обеспечивает также подсчет и составление списков кластеров.
Родительский узел содержит полезные статистические данные, которые описывают фактическое распределение всех обучающих вариантов. Эти статистические данные находятся в столбце вложенной таблицы, NODE_DISTRIBUTION. Например, в следующей таблице показано несколько строк из таблицы NODE_DISTRIBUTION, которая описывает распределение демографических данных о заказчиках для модели кластеризации, TM_Clustering
, создаваемой в разделе Учебник по основам интеллектуального анализа данных.
ATTRIBUTE_NAME | ATRIBUTE_VALUE | Псевдоним | PROBABILITY | дисперсия | VALUE_TYPE |
---|---|---|---|---|---|
возраст; | Missing | 0 | 0 | 0 | 1 (отсутствует) |
возраст; | 44.9016152716593 | 12939 | 1 | 125.663453102554 | 3 (непрерывный) |
пол; | Missing | 0 | 0 | 0 | 1 (отсутствует) |
пол; | F | 6350 | 0.490764355823479 | 0 | 4 (дискретный) |
пол; | M | 6589 | 0.509235644176521 | 0 | 4 (дискретный) |
На основании этих результатов можно определить, что для формирования модели использовалось 12 939 вариантов, что отношение количества мужчин и женщин составляло приблизительно 50 на 50, а средний возраст был равен 44. Описательные статистические данные изменяются в зависимости от того, относится ли значение атрибута, включаемое в отчет, к непрерывному числовому типу данных, как в случае возраста, или представляет собой значение дискретного типа, такое как пол. Статистические меры среднее и дисперсия вычисляются для данных непрерывного типа, а вероятность и несущее множество — для данных дискретного типа.
Примечание
В качестве дисперсии представлена общая дисперсия для кластера. Если значение дисперсии является небольшим, это указывает на то, что большинство значений в столбце довольно близки к среднему. Чтобы получить стандартное отклонение, вычислите квадратный корень дисперсии.
Следует отметить, что для каждого из атрибутов имеется значение Missing
, которое указывает, в каком количестве вариантов отсутствуют данные, относящиеся к этому атрибуту. Недостающие данные могут оказаться значительными и по-разному повлиять на вычисления, в зависимости от типа данных. Дополнительные сведения см. в разделе Отсутствующие значения (службы Analysis Services — интеллектуальный анализ данных).
Содержимое модели для модели кластеризации
В этом разделе предоставлены подробные сведения и примеры, относящиеся только к тем столбцам в содержимом модели интеллектуального анализа данных, которые являются значимыми для моделей кластеризации.
Сведения о столбцах общего назначения в наборе строк схемы, таких как MODEL_CATALOG и MODEL_NAME, см. в разделе Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).
MODEL_CATALOG
Имя базы данных, в которой хранится модель.
MODEL_NAME
Имя модели.
ATTRIBUTE_NAME
Всегда является пустым в моделях кластеризации, поскольку в этом режиме отсутствуют прогнозируемые атрибуты.
NODE_NAME
Всегда совпадает с NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME
Уникальный идентификатор узла в модели. Это значение невозможно изменить.
NODE_TYPE
Выходными данными модели кластеризации являются узлы следующих типов.
Идентификатор и имя узла | Описание |
---|---|
1 (модель) | Корневой узел для модели. |
5 (кластер) | Содержит количество вариантов в кластере, характеристики вариантов в кластере и статистические данные, которые описывают значения в кластере. |
NODE_CAPTION
Понятное имя, применяемое для отображения. При создании модели в качестве заголовка автоматически используется значение NODE_UNIQUE_NAME. Но предусмотрена возможность изменить значение NODE_CAPTION для обновления отображаемого имени кластера либо программным путем, либо с использованием средства просмотра.
Примечание
При повторной обработке модели все изменившиеся имена записываются с учетом новых значений. Возможность сохранять одни и те же имена в модели или отслеживать изменения в принадлежности к кластеру при переходе от одной версии модели к другой отсутствует.
CHILDREN_CARDINALITY
Оценка количества дочерних узлов, которые имеет данный узел.
Родительский узел Указывает количество кластеров в модели.
Узлы кластера Всегда 0.
PARENT_UNIQUE_NAME
Уникальное имя родителя узла.
Родительский узел Всегда имеет значение NULL
Узлы кластера Обычно имеют значение 000.
NODE_DESCRIPTION
Описание узла.
Родительский узел Всегда имеет значение (All).
Узлы кластера Список с разделителями-запятыми основных атрибутов, которыми данный кластер отличается от других кластеров.
NODE_RULE
Не используется для моделей кластеризации.
MARGINAL_RULE
Не используется для моделей кластеризации.
NODE_PROBABILITY
Вероятность, связанная с этим узлом. Родительский узел Всегда 1.
Узлы кластера Эта вероятность представляет составную вероятность атрибутов с некоторыми корректировками, зависящими от алгоритма, который использовался для создания модели кластеризации.
MARGINAL_PROBABILITY
Вероятность доступа к узлу от родительского узла. В модели кластеризации граничная вероятность всегда совпадает с вероятностью узла.
NODE_DISTRIBUTION
Таблица, содержащая гистограмму вероятности узла.
Родительский узел См. введение к этому разделу.
Узлы кластера Представляет распределение атрибутов и значений для вариантов, которые включены в этот кластер.
NODE_SUPPORT
Число вариантов, поддерживаемое этим узлом. Родительский узел Указывает количество обучающих вариантов для всей модели.
Узлы кластера Указывает размер кластера как количество вариантов.
Примечание . Если в модели используется кластеризация K-средних, то каждый вариант может принадлежать только к одному кластеру. Но если в модели используется кластеризация по методу EM, то каждый вариант может принадлежать к различным кластерам и варианту присваивается значение взвешенного расстояния для каждого кластера, к которому он принадлежит. Поэтому для моделей EM сумма несущих множеств отдельных кластеров больше несущего множества всей модели.
MSOLAP_MODEL_COLUMN
Не используется для моделей кластеризации.
MSOLAP_NODE_SCORE
Отображает оценку, связанную с узлом.
Родительский узел . Оценка байесовского информационного критерия (BIC) для модели кластеризации.
Узлы кластера Всегда 0.
MSOLAP_NODE_SHORT_CAPTION
Метка, используемая для отображения. Этот заголовок нельзя изменить.
Родительский узел Тип модели: кластерная модель
Узлы кластера Имя кластера. Пример. Кластер 1.
Комментарии
Службы Analysis Services предоставляют несколько методов для создания модели кластеризация. Если неизвестно, какие методы использовались для создания модели, с которой происходит работа, метаданные модели можно получить программным путем, с помощью клиента ADOMD или объектов AMO, либо с помощью запроса к набору строк схемы интеллектуального анализа данных. Дополнительные сведения см. в разделе Запрос параметров, используемых для создания модели интеллектуального анализа данных.
Примечание
Структура и содержимое модели остаются теми же, независимо от используемой модели кластеризации или параметров.
См. также:
Содержимое модели интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Средства просмотра моделей интеллектуального анализа данных
Алгоритм кластеризации (Майкрософт)
Запросы интеллектуального анализа данных