Поделиться через


Типы содержимого (интеллектуальный анализ данных)

В Microsoft SQL Server Analysis Services можно задать как физический тип данных для столбца в структуре интеллектуального анализа данных, так и логический тип содержимого, который определяет применение столбца в модели.

  • Тип данных определяет обработку данных алгоритмами в этих столбцах при создании моделей интеллектуального анализа данных. Определение типа данных столбца дает алгоритму сведения о типе данных в столбцах и о способах обработки данных. Каждый тип данных в Analysis Services поддерживает один или несколько типов содержимого для интеллектуального анализа данных.

  • Тип содержимого описывает организацию работы со значениями, содержащимися в столбце. Например, если значения данных в столбце, как правило, повторяются в конкретном интервале, таком как дни недели, то можно определить тип содержимого столбца как циклический.

Для правильного функционирования некоторых алгоритмов требуются определенные типы данных и (или) определенные типы содержимого. Например, упрощенный алгоритм Байеса (Майкрософт) не в состоянии использовать непрерывные столбцы на входе или не может прогнозировать непрерывные значения. Поэтому такие столбцы следует либо исключить из модели, либо дискретизировать. Некоторые типы содержимого, такие как Key Sequence, используются лишь в конкретных алгоритмах. Список алгоритмов и типов содержимого, поддерживаемых каждым из них, см. в разделе Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

В следующем списке приведены типы содержимого, используемые для интеллектуального анализа данных, и перечислены типы данных, поддерживающие каждый тип содержимого.

Дискретный

Дискретный означает, что столбец содержит конечное количество значений без континуума между значениями. Например, такой столбец, как Gender (Пол), представляет собой типичный дискретный столбец атрибута, в котором данные представляют определенное количество категорий. Если столбец содержит текст, то автоматически устанавливается тип discrete. Но если столбец содержит дискретные значения, имеющие числовые метки (например, в столбце Gender значение Male (Мужской) может быть помечено как 0, а Female (Женский) — как 1), то может потребоваться изменить тип содержимого с непрерывного на дискретный.

Даже если значения, используемые для дискретного столбца, являются числовыми, дробные значения не могут быть вычислены. Хорошим примером дискретных данных, которые являются цифровыми, но не должны использоваться для вычислений, служат телефонные коды городов. Более того, значения в столбце с дискретным атрибутом подразумевают, что к ним нельзя применить упорядочение, даже если значения являются числовыми.

Тип содержимого Discrete может применяться к столбцам интеллектуального анализа данных всех типов.

Непрерывный

Непрерывный означает, что столбец содержит значения, которые представляют числовые данные в масштабе, допускающем промежуточные значения. В отличие от дискретного столбца, содержащего конечные, счетные данные, непрерывный столбец представляет данные измерений и может содержать бесконечное количество дробных значений. Примером столбца непрерывного атрибута может служить столбец с данными о температуре.

Если столбец содержит непрерывные числовые данные и эти данные должны быть распределены, можно улучшить точность анализа, указав ожидаемое распределение значений. Распределение столбцов задается на уровне структуры интеллектуального анализа данных. Поэтому такой параметр применяется ко всем моделям, основанным на этой структуре. Дополнительные сведения см. в разделе Распределения столбцов (интеллектуальный анализ данных).

Тип содержимого Continuous может применяться к столбцам со следующими типами данных: Date, Double и Long.

Дискретизированный

Дискретизация — это процесс размещения значений из непрерывного набора данных по сегментам в целях ограничения количества возможных значений. Дискретизировать можно только числовые данные.

Таким образом, дискретизированный тип содержимого указывает, что столбец содержит значения, представляющие группы или сегменты значений, производных от непрерывного столбца. Сегменты воспринимаются как упорядоченные дискретные значения.

Дискретизацию данных можно провести вручную, чтобы получить необходимые сегменты, либо можно использовать методы дискретизации, предоставляемые службами SQL Server Analysis Services. В некоторых алгоритмах дискретизация выполняется автоматически. Дополнительные сведения см. в разделе изменить дискретизацию столбца в модели интеллектуального анализа данных.

Тип содержимого Discretized может применяться к столбцам со следующими типами данных: Date, Double, Long и Text.

Ключ

Тип содержимого ключ означает, что столбец однозначно определяет строку. В таблице вариантов ключевым столбцом, как правило, является столбец с числовым или текстовым идентификатором. Задание типа содержимого key равносильно указанию на то, что столбец должен использоваться не для анализа, а лишь для отслеживания записей.

Вложенные таблицы также имеют ключи, но ключ вложенной таблицы предназначен для других целей. Если столбец вложенной таблицы представляет собой атрибут, который должен быть проанализирован, то для него следует определить тип содержимого key. Значения в ключе вложенной таблицы должны быть уникальными для каждого варианта, но во всем множестве вариантов могут быть повторяющиеся значения.

Например, для анализа товаров, приобретаемых клиентами, следует задать тип содержимого key для столбца CustomerID в таблице вариантов и снова задать тип содержимого key для столбца PurchasedProducts во вложенной таблице.

ПримечаниеПримечание

Вложенные таблицы доступны только при использовании данных из внешнего источника данных, который определен в представлении источника данных Analysis Services.

Данный тип содержимого поддерживается следующими типами данных: Date, Double, Long и Text.

Ключ последовательности

Тип содержимого ключевая последовательность можно использовать только в модели кластеризации последовательностей. Если задан тип содержимого key sequence, значит, столбец содержит значения, представляющие последовательность событий. Значения упорядочены, но не должны обязательно находиться на одинаковом расстоянии друг от друга.

Данный тип содержимого поддерживается следующими типами данных: Double, Long, Text и Date.

Временной ключ

Тип содержимого ключевое время можно использовать только в моделях временных рядов. Задание типа содержимого key time указывает на то, что значения упорядочены и представляют масштаб времени.

Этот тип содержимого может применяться к столбцам, имеющим следующие типы данных: Double, Long и Date.

Таблица

Тип содержимого таблица указывает, что столбец содержит другую таблицу данных с одним или несколькими столбцами и одной или несколькими строками. Применительно к любой конкретной строке в таблице вариантов этот столбец может содержать несколько значений, причем все они связаны с записью родительского варианта. Например, если основная таблица вариантов содержит список клиентов, то можно предусмотреть несколько столбцов, содержащих вложенные таблицы, например, столбец ProductsPurchased, в котором вложенная таблица перечисляет продукты, приобретенные этим клиентом в прошлом, а столбец Hobbies содержит перечень увлечений клиента.

Типом данных этого столбца всегда является Table.

Циклический

Тип содержимого циклический означает, что столбец содержит значения, представляющие циклический упорядоченный набор. Например, циклическим упорядоченным набором являются пронумерованные дни недели, поскольку день с номером 1 следует за днем с номером 7.

Циклические столбцы атрибутов считаются упорядоченными и дискретными в терминах типов содержимого.

Этот тип содержимого может применяться к столбцам с любым типом данных Analysis Services, за исключением table и Boolean. Но в большинстве алгоритмов циклические значения рассматриваются как дискретные значения и специальная обработка не выполняется.

Упорядоченный

Тип содержимого упорядоченный также указывает, что столбец содержит значения, определяющие последовательность или порядок. Однако из того, что в этом типе содержимого для упорядочения применяются значения, не следует, что между значениями в наборе определены какие-либо связи, выражающие расстояния или величины. Например, если упорядоченный столбец атрибутов содержит сведения об уровне квалификации по шкале от 1 до 5, он не несет сведений о разнице между уровнями квалификации; уровень 5 не обязательно в пять раз лучше уровня 1.

Упорядоченные столбцы атрибутов рассматриваются как содержащие дискретные значения.

Этот тип содержимого может применяться ко всем типам данных интеллектуального анализа данных в Analysis Services. Но в большинстве алгоритмов упорядоченные значения рассматриваются как дискретные значения и специальная обработка не выполняется.

Классифицированные типы данных

Выше были описаны типы содержимого, широко применяемые во всех моделях, но, кроме них, для данных некоторых типов могут использоваться классифицированные столбцы, позволяющие определять типы содержимого. Дополнительные сведения о классификационных столбцах см. в разделе Классифицированные столбцы (интеллектуальный анализ данных).

См. также

Задания

изменить свойства структуры интеллектуального анализа данных

Справочник

Типы содержимого (расширения интеллектуального анализа данных)

Типы данных (расширения интеллектуального анализа данных)

Основные понятия

Типы данных (интеллектуальный анализ данных)

Столбцы структуры интеллектуального анализа данных