Регрессия с использованием модели леса принятия решений
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
Создание регрессионной модели, используя алгоритм леса принятия решений
Категория: Инициализация модели-регрессии
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Обзор модуля
в этой статье описывается, как использовать модуль регрессии леса решений в Машинное обучение Studio (классическая модель) для создания модели регрессии на основе ансамблей деревьев принятия решений.
После настройки модели следует провести ее обучение с помощью набора данных с метками и модуля обучения модели. После этого обученная модель используется для прогнозирования. Кроме того, обученная модель может быть передана перекрестной проверке модели для перекрестной проверки с помеченным набором данных.
Как работают леса принятия решений в задачах регрессии
Деревья принятия решений — это непараметрические модели, выполняющие последовательность простых тестов для каждого экземпляра, выполняя обход древовидной структуры двоичных данных до достижения конечного узла (решения).
Деревья принятия решений имеют следующие преимущества:
Они эффективны с точки зрения вычисления и использования памяти во время обучения и прогнозирования.
Они могут представлять границы нелинейного принятия решений.
Они выполняют выбор признаков и классификацию и являются устойчивыми при наличии шумовых признаков.
Эта модель регрессии состоит из совокупности деревьев принятия решений. Каждое дерево в регрессионном лесу решений выводит распределение по Гауссу в виде прогноза. По совокупностям деревьев выполняется агрегирование с целью найти распределение по Гауссу, ближайшее к объединенному распределению для всех деревьев модели.
дополнительные сведения о теоретической платформе для этого алгоритма и его реализации см. в этой статье: леса принятия решений: единая платформа для классификации, регрессии, оценки плотности, эта функция предназначена Обучение и Semi-Supervised Обучение
Настройка регрессионной модели леса принятия решений
Добавьте в эксперимент модуль регрессии леса принятия решений . модуль можно найти в среде Studio (классическая модель) в разделе Машинное обучение, инициализировать Modelи регрессия.
Откройте свойства модуля и в качестве метода повторной выборки укажите метод, используемый для создания отдельных деревьев. Доступны методы бэггинга и репликации.
Бэггинг: также называется агрегированием начальной загрузки. Каждое дерево в регрессионном лесу решений выводит распределение по Гауссу путем прогноза. Статистическая обработка заключается в поиске по Гауссу, первый из которых в два секунд соответствует моменту сочетания заданных по Гауссу, полученных отдельными деревьями.
Дополнительные сведения см. в записи Википедии о бутстрэп-агрегировании.
Репликация: при репликации каждое дерево обучается на идентичных входных данных. Предикат разбиения, используемый для каждого узла дерева, определяется случайным образом, и деревья оказываются разными.
Дополнительные сведения о процессе обучения в режиме репликации см. в издании Decision Forests for Computer Vision and Medical Image Analysis (Леса принятия решений для компьютерного зрения и анализа медицинских изображений), Criminisi и J. Shotton. Springer 2013.
Укажите, как вы хотите обучать модель, выбрав значение Создать режим учителя.
Single Parameter (Одиночный параметр)
Если вы знаете, как хотите настроить модель, то можете предоставить определенный ряд значений в качестве аргументов. Они могут быть получены экспериментально или в качестве рекомендации.
Диапазон параметра
Если вы не знаете наилучших параметров, оптимальные параметры можно найти, указав несколько значений и используя параметр очистки для поиска оптимальной конфигурации.
Настройка параметров модели выполняет итерацию всех возможных сочетаний указанных вами параметров и определяет сочетание параметров, обеспечивающих оптимальные результаты.
Количество деревьев решений: укажите общее число деревьев принятия решений, создаваемых в ансамбле. Создавая больше деревьев принятия решений, вы можете потенциально получить большее покрытие, но время на обучение при этом увеличится.
Совет
Это значение также управляет количеством деревьев, отображаемых при визуализации обученной модели. Если требуется просмотреть или распечатать одно дерево, можно задать значение 1; Однако это означает, что будет создано только одно дерево (дерево с начальным набором параметров), и дальнейшие итерации выполняться не будут.
Максимальная глубина деревьев принятия решений: введите число, ограничивающее максимальную глубину дерева принятия решений. Увеличение глубины дерева может повысить точность, однако при этом могут возникать лжевзаимосвязи и увеличиваться время обучения.
Число случайных разбиений на узел: введите число разбиений, которое будет использоваться при построении каждого узла дерева. Разбиение означает, что признаки на каждом уровне дерева (узле) распределяются случайным образом.
Минимальное число выборок для конечного узла: укажите минимальное число вариантов, необходимых для создания любого терминального узла (листа) в дереве.
Увеличив это значение, вы увеличиваете пороговое значение для создания новых правил. Например, при использовании значения по умолчанию 1, даже один случай может привести к созданию нового правила. Если вы увеличите значение до 5, данные для обучения должны содержать не менее 5 случаев, отвечающие тем же условиям.
Установите флажок Разрешить неизвестные значения для признаков категорий, чтобы создать группу для неизвестных значений в обучающих или проверочных наборах данных.
Если отменить его выбор, модель сможет принимать только значения, содержащиеся в данных для обучения. В первом случае модель может быть менее точной для известных значений, но она обеспечивает более точные прогнозы для новых (неизвестных) значений.
Подключение помеченный набор данных, выберите один столбец меток, содержащий не более двух результатов, и подключитесь либо к параметрам обучение модели , либо к настройке модели.
Если для параметра создать режим обучения задано значение один параметр, обучить модель с помощью модуля обучение модели .
Если для параметра создать режим в режиме преподавателя задано значение диапазон, обучить модель с помощью параметров настройки модели.
Запустите эксперимент.
Результаты
После завершения обучения:
Чтобы увидеть дерево, созданное при каждой итерации, щелкните правой кнопкой мыши выходные данные модуля обучение и выберите визуализировать.
Чтобы просмотреть правила для каждого узла, щелкните каждое дерево и выполните детализацию для разбиения.
Чтобы сохранить моментальный снимок обученной модели, щелкните правой кнопкой мыши выходные данные модуля обучения и выберите команду Сохранить как обученную модель. Эта копия модели не обновляется при последующих запусках эксперимента.
Примеры
примеры моделей регрессии см. в разделе примеры экспериментов в Cortana Intelligence Gallery:
Пример сравнения моделей регрессии: отличие нескольких различных типов моделей регрессии.
Пример анализа тональности: использует несколько различных моделей регрессии для создания прогнозируемых оценок.
Технические примечания
В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.
Если вы передали диапазон параметров для обучения модели, будет использоваться только первое значение из списка диапазонов параметров.
Если передать один набор значений параметров в модуль настройки модели Настройка , когда он ожидает диапазон параметров для каждого параметра, он игнорирует значения и использует значения по умолчанию для средства обучения.
Если выбрать параметр диапазон параметров и ввести одно значение для любого параметра, это единственное значение, которое вы указали, будет использоваться во время очистки, даже если другие параметры меняются в диапазоне значений.
Советы по использованию
Если данные ограничены или вы хотите свести к минимуму время обучения модели, используйте следующие параметры.
Ограниченный обучающий набор. Если обучающий набор содержит ограниченное число экземпляров:
создайте лес принятия решений с использованием большого количества деревьев (например более 20).
Используйте параметр Bagging для повторной выборки.
Укажите большое число случайных разбиений для каждого узла (например более 1000)
Ограниченное время обучения. Если обучающий набор содержит большое количество экземпляров, а время обучения ограничено:
Создайте лес принятия решений с помощью меньшего числа деревьев принятия решений (например 5—10)
Используйте параметр Replicate для повторной выборки.
используйте меньше случайных разделений для каждого узла (например более 100).
Параметры модуля
Имя | Диапазон | Тип | По умолчанию | Описание |
---|---|---|---|---|
Метод повторной выборки | any | ResamplingMethod | Фасовка | Выберите метод повторной выборки |
Число деревьев принятия решений | >= 1 | Целое число | 8 | Укажите число деревьев принятия решений, создаваемых в совокупности |
Максимальная глубина деревьев принятия решений | >= 1 | Целое число | 32 | Укажите максимальную глубину дерева принятия решений, которое может быть создано в ансамбле |
Число случайных разбиений для каждого узла | >= 1 | Целое число | 128 | Укажите создаваемое для одного узла число разбиений, из которого выбирается оптимальное разбиение |
Минимальное число выборок для конечного узла | >= 1 | Целое число | 1 | Укажите минимальное число образцов обучения, необходимых для создания конечного узла |
Разрешить неизвестные значения для категориальных признаков | any | Логическое | Да | Укажите, следует ли сопоставлять неизвестные значения существующих категориальных признаков с новым, дополнительным признаком |
Выходные данные
Имя | Тип | Описание |
---|---|---|
Необученная модель | Интерфейс ILearner | Необученная модель регрессии |