Выбор компонентов в интеллектуальном анализе данных
При построении модели интеллектуального анализа данных в службах Microsoft SQL Server 2005 Analysis Services (SSAS) часто оказывается, что в наборе данных содержится больше данных, чем необходимо для построения модели, хотя до момента завершения модели трудно сказать, что нужно, а что нет. Например, в наборе данных может содержаться 500 столбцов, описывающих характеристики клиентов, но, возможно, только 50 из них используются для построения определенной модели. Хотя дополнительные столбцы и не влияют на итоговую модель, они все же увеличивают время, необходимое для обработки модели, а также пространство, необходимое для ее хранения. Для разрешения данной проблемы в некоторых алгоритмах Microsoft реализована возможность выбора компонентов. Выбор компонентов автоматически выбирает атрибуты набора данных, которые с наибольшей долей вероятности будут использоваться в модели. Возможность выбора компонентов поддерживается в следующих алгоритмах:
- Упрощенный алгоритм Байеса
- Деревья решений
- Кластеризация
- Нейронная сеть
В зависимости от алгоритма выбор компонентов действует в отношении входных и прогнозируемых атрибутов или в отношении количества состояний в столбце. Включение и выключение выбора компонентов осуществляется при помощи параметров алгоритма MAXIMUM_INPUT_ATTRIBUTES, MAXIMUM_OUTPUT_ATTRIBUTES и MAXIMUM_STATES. Если в модели содержится больше столбцов, чем задано в параметре MAXIMUM_INPUT_ATTRIBUTES, то алгоритм будет игнорировать любые столбцы, не представляющие интереса с точки зрения выполненных им вычислений. Аналогичным образом, если в модели содержится больше прогнозируемых столбцов, чем задано в параметре MAXIMUM_OUTPUT_ATTRIBUTES, то алгоритм будет игнорировать любые столбцы, не представляющие интереса с точки зрения выполненных им вычислений. Если в модели содержится больше объектов, чем задано в параметре MAXIMUM_STATES, то наименее популярные состояния будут сводиться в одну группу и считаться отсутствующими. Если значение любого из данных параметров равно 0, то выбор компонентов отключается, что влияет на время обработки и производительность.
Только входные атрибуты и состояния, выбранные алгоритмом, включаются в процесс построения модели и могут использоваться в целях прогнозирования. Прогнозируемые столбцы, игнорируемые выбором компонентов, используются для прогнозирования, но прогнозы основываются только на глобальной статистике, представленной в модели.
См. также
Основные понятия
Алгоритмы интеллектуального анализа данных
Алгоритм кластеризации (Microsoft)
Алгоритм дерева принятия решений (Майкрософт)
Упрощенный алгоритм Байеса (Microsoft)
Алгоритм нейронной сети (Microsoft) (службы SSAS)