Настройка структуры и моделей интеллектуального анализа данных

Статья
12/23/2023

Применимо к: SQL Server 2019 и более ранних версий Analysis Services Azure Analysis Services Fabric/Power BI Premium

Важно!

Интеллектуальный анализ данных не рекомендуется использовать в службах SQL Server 2017 Analysis Services, а в SQL Server 2022 Analysis Services его поддержка прекращена. Документация не обновляется для устаревших и неподдерживаемых функций. Дополнительные сведения см. в статье об обратной совместимости служб Analysis Services.

После выбора алгоритма в соответствии с задачами организации, можно выполнить индивидуальную настройку модели, что может повысить эффективность результатов. Настройка выполняется следующими способами.

Использование в модели других столбцов данных либо изменение режима использования, типа содержимого или метода дискретизации для столбцов.
Создание в модели интеллектуального анализа данных фильтров, ограничивающих данные, используемые в обучении модели.
Изменение алгоритма, используемого для анализа данных.
Задание параметров алгоритма, управляющих пороговыми значениями, разбиением деревьев и другими важными условиями.

Эти способы описаны в данном разделе.

Изменение данных, используемых моделью

На результаты анализа сильно влияют принимаемые решения о выборе столбцов данных для использования в модели, а также о способах их использования и обработки. В следующих разделах приводятся сведения, которые помогут принять такие решения.

Выбор компонентов

Большинство алгоритмов интеллектуального анализа данных в SQL Server Analysis Services используют процесс выбора признаков, чтобы выбрать только наиболее полезные атрибуты для добавления к модели. Сокращение числа столбцов и атрибутов может повысить производительность и точность работы модели. Доступные методы выбора компонентов зависят от выбранного алгоритма.

Выбор признаков (интеллектуальный анализ данных).

Изменение порядка использования

Можно изменить список столбцов, включаемых в модель интеллектуального анализа данных, и порядок использования каждого столбца. Если результаты не соответствуют ожиданиям, следует изучить столбцы, использованные в качестве входных данных, и оценить удачность выбора этих столбцов. Затем выясните, что можно сделать для улучшения обработки данных (любые из следующих операций).

Определение категориальных переменных, которые были ошибочно помечены как числа.
Добавление категорий для сокращения числа атрибутов и упрощения поиска корреляций.
Изменение порядка сегментирования или дискретизации чисел.
Удаление столбцов с большим числом уникальных значений или столбцов, содержащих эталонные данные (адреса, отчества и т. п.), бесполезные для анализа.

Вам не нужно физически удалять столбцы из структуры интеллектуального анализа данных; Можно просто пометить столбец как Пропускать. Столбец будет удален из модели интеллектуального анализа данных, но при этом сохранится возможность использовать его в других моделях интеллектуального анализа данных из структуры и ссылаться на него в запросах детализации.

Создание псевдонимов для столбцов модели

Когда SQL Server Analysis Services создает модель интеллектуального анализа данных, она использует те же имена столбцов, что и в структуре интеллектуального анализа данных. Любому столбцу в модели интеллектуального анализа данных можно добавить псевдоним. Это может облегчить понимание содержимого столбца или его использования. Также можно сократить имя, чтобы было удобнее создавать запросы. Псевдонимы также удобны при создании копии столбца с заданием для нее описательного имени.

Псевдоним создается путем изменения свойства Name для столбца модели интеллектуального анализа данных. SQL Server Analysis Services продолжает использовать исходное имя в качестве идентификатора столбца, а новое значение, введенное в поле Name, становится псевдонимом столбца и отображается в сетке в скобках рядом с использованием столбца.

псевдонимы в столбцах модели интеллектуального анализа данных

На диаграмме показаны связанные модели, в которых присутствуют несколько копий столбца структуры интеллектуального анализа данных, относящегося к прибыли. Каждая копия столбца структуры была дискретизирована различными способами. В моделях на диаграмме используются разные столбцы из структуры интеллектуального анализа данных, однако для удобства сравнения столбцов между моделями имя столбца в каждой модели было изменено на [Прибыль].

Добавление фильтров

К модели интеллектуального анализа данных можно также добавить фильтр. Фильтр — это набор условий WHERE, который ограничивает данные в вариантах моделей определенным подмножеством. Фильтр используется при обучении модели. Дополнительно он может использоваться при проверке модели или при создании диаграмм точности.

Добавляя фильтры, можно многократно использовать структуры интеллектуального анализа данных, создавая модели на основе совершенно различных подмножеств данных. Кроме того, с помощью фильтров можно просто исключать определенные строки, повышая качество анализа.

Дополнительные сведения см. в разделе Фильтры для моделей интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Изменение алгоритма

Хотя новые модели, добавляемые в структуру интеллектуального анализа данных, используют один и тот же набор данных, можно получить другие результаты, используя другой алгоритм (если он поддерживается данными) или изменяя параметры алгоритма. Также можно задавать флаги модели.

Выбор алгоритма определяет тип получаемых результатов. Общие сведения о работе определенного алгоритма или бизнес-сценариях, в которых вы могли бы извлечь выгоду из использования определенного алгоритма, см. в статье Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных).

Описание требований и ограничений, а также подробные сведения о возможностях настройки, поддерживаемых каждым алгоритмом, см. в разделах технического справочника, посвященных каждому алгоритму.

Алгоритм дерева принятия решений (Майкрософт)

Алгоритм кластеризации (Майкрософт)

Microsoft Naive Bayes Algorithm

Алгоритм взаимосвязей (Майкрософт)

Алгоритм кластеризации последовательностей (Майкрософт)

Алгоритм временных рядов (Майкрософт)

Microsoft Neural Network Algorithm

Алгоритм логистической регрессии (Майкрософт)

Алгоритм линейной регрессии (Майкрософт)

Настройка параметров алгоритмов

Каждый алгоритм поддерживает параметры, которые используются для настройки его режима работы и точной фильтрации результатов модели. Описание использования каждого параметра см. в следующих разделах.

В разделе для каждого типа алгоритма также приведены прогнозирующие функции, которые можно использовать с моделями, основанными на данном алгоритме.

Имя свойства	Применяется к
AUTO_DETECT_PERIODICITY	Microsoft Time Series Algorithm Technical Reference
CLUSTER_COUNT	Технический справочник по алгоритму кластеризации (Майкрософт) Технический справочник по алгоритму кластеризации последовательностей (Майкрософт)
CLUSTER_SEED	Технический справочник по алгоритму кластеризации (Майкрософт)
CLUSTERING_METHOD	Технический справочник по алгоритму кластеризации (Майкрософт)
COMPLEXITY_PENALTY	Технический справочник по алгоритму дерева принятия решений (Майкрософт) Microsoft Time Series Algorithm Technical Reference
FORCE_REGRESSOR	Технический справочник по алгоритму дерева принятия решений (Майкрософт) Технический справочник по алгоритму линейной регрессии (Майкрософт) Флаги моделирования (интеллектуальный анализ данных)
FORECAST_METHOD	Microsoft Time Series Algorithm Technical Reference
HIDDEN_NODE_RATIO	Технический справочник по алгоритму нейронной сети (Майкрософт)
HISTORIC_MODEL_COUNT	Microsoft Time Series Algorithm Technical Reference
HISTORICAL_MODEL_GAP	Microsoft Time Series Algorithm Technical Reference
HOLDOUT_PERCENTAGE	техническом справочнике по алгоритму логистической регрессии (Майкрософт) Технический справочник по алгоритму нейронной сети (Майкрософт) Примечание. Этот параметр отличается от значения контрольных данных в процентах, применяемого к структуре интеллектуального анализа данных.
HOLDOUT_SEED	техническом справочнике по алгоритму логистической регрессии (Майкрософт) Технический справочник по алгоритму нейронной сети (Майкрософт) Примечание. Этот параметр отличается от начального контрольного значения, применяемого к структуре интеллектуального анализа данных.
INSTABILITY_SENSITIVITY	Microsoft Time Series Algorithm Technical Reference
MAXIMUM_INPUT_ATTRIBUTES	Технический справочник по алгоритму кластеризации (Майкрософт) Технический справочник по алгоритму дерева принятия решений (Майкрософт) Технический справочник по алгоритму линейной регрессии (Майкрософт) Технический справочник по упрощенному алгоритму Байеса (Майкрософт) Технический справочник по алгоритму нейронной сети (Майкрософт) техническом справочнике по алгоритму логистической регрессии (Майкрософт)
MAXIMUM_ITEMSET_COUNT	Технический справочник по алгоритму взаимосвязей (Майкрософт)
MAXIMUM_ITEMSET_SIZE	Технический справочник по алгоритму взаимосвязей (Майкрософт)
MAXIMUM_OUTPUT_ATTRIBUTES	Технический справочник по алгоритму дерева принятия решений (Майкрософт) Технический справочник по алгоритму линейной регрессии (Майкрософт) техническом справочнике по алгоритму логистической регрессии (Майкрософт) Технический справочник по упрощенному алгоритму Байеса (Майкрософт) Технический справочник по алгоритму нейронной сети (Майкрософт)
MAXIMUM_SEQUENCE_STATES	Технический справочник по алгоритму кластеризации последовательностей (Майкрософт)
MAXIMUM_SERIES_VALUE	Microsoft Time Series Algorithm Technical Reference
MAXIMUM_STATES	Технический справочник по алгоритму кластеризации (Майкрософт) Технический справочник по алгоритму нейронной сети (Майкрософт) Технический справочник по алгоритму кластеризации последовательностей (Майкрософт)
MAXIMUM_SUPPORT	Технический справочник по алгоритму взаимосвязей (Майкрософт)
MINIMUM_IMPORTANCE	Технический справочник по алгоритму взаимосвязей (Майкрософт)
MINIMUM_ITEMSET_SIZE	Технический справочник по алгоритму взаимосвязей (Майкрософт)
MINIMUM_DEPENDENCY_PROBABILITY	Технический справочник по упрощенному алгоритму Байеса (Майкрософт)
MINIMUM_PROBABILITY	Технический справочник по алгоритму взаимосвязей (Майкрософт)
MINIMUM_SERIES_VALUE	Microsoft Time Series Algorithm Technical Reference
MINIMUM_SUPPORT	Технический справочник по алгоритму взаимосвязей (Майкрософт) Технический справочник по алгоритму кластеризации (Майкрософт) Технический справочник по алгоритму дерева принятия решений (Майкрософт) Технический справочник по алгоритму кластеризации последовательностей (Майкрософт) Microsoft Time Series Algorithm Technical Reference
MISSING_VALUE_SUBSTITUTION	Microsoft Time Series Algorithm Technical Reference
MODELLING_CARDINALITY	Технический справочник по алгоритму кластеризации (Майкрософт)
PERIODICITY_HINT	Microsoft Time Series Algorithm Technical Reference
PREDICTION_SMOOTHING	Microsoft Time Series Algorithm Technical Reference
SAMPLE_SIZE	Технический справочник по алгоритму кластеризации (Майкрософт) техническом справочнике по алгоритму логистической регрессии (Майкрософт) Технический справочник по алгоритму нейронной сети (Майкрософт)
SCORE_METHOD	Технический справочник по алгоритму дерева принятия решений (Майкрософт)
SPLIT_METHOD	Технический справочник по алгоритму дерева принятия решений (Майкрософт)
STOPPING_TOLERANCE	Технический справочник по алгоритму кластеризации (Майкрософт)

См. также:

Алгоритмы интеллектуального анализа данных (службы Analysis Services — интеллектуальный анализ данных)
Физическая архитектура (службы Analysis Services — интеллектуальный анализ данных)

Поделиться через