Разделение набора данных с помощью относительного выражения
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
В этой статье описывается, как использовать параметр "Разделение относительного выражения " в модуле Разделение данных Студии машинного обучения (классическая модель). Этот параметр полезен, если необходимо разделить набор данных на наборы данных для обучения и тестирования с помощью числовых выражений. Пример:
- Возраст старше 40 против 40 или моложе 40 лет
- Тестовый балл 60 или выше против менее 60
- Ранговое значение 1 по сравнению со всеми остальными значениями
Примечание
Область применения: только Студия машинного обучения (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Чтобы разделить данные, выберите один числовой столбец в данных и определите выражение, используемое при оценке каждой строки. Относительное выражение должно включать имя столбца, значение и оператор, например больше и меньше, равно и не равно.
Этот параметр разделяет набор данных на две группы.
Общие сведения о секционирования данных для экспериментов машинного обучения см. в разделах Разделение данных и Секционирование и Разделение.
Связанные задачи
Другие параметры в модуле Разделение данных :
Разделение данных с помощью регулярных выражений. Примените регулярное выражение к одному текстовому столбцу и разделите набор данных на основе результатов.
Разделение рекомендуемых наборов данных. Разделите наборы данных, используемые в моделях рекомендаций. Набор данных должен содержать три столбца: элементы, пользователи и оценки.
Использование относительного выражения для разделения набора данных
Добавьте модуль Разделение данных в эксперимент в Stuio и подключите его в качестве входных данных к набору данных, который требуется разделить.
Для параметра Режим разбиения выберите относительное разбиение выражений.
В текстовом поле Реляционное выражение введите выражение, которое выполняет операцию числового сравнения для одного столбца:
Столбец содержит номера любого числового типа данных, включая типы данных даты и времени.
Относительные выражения могут ссылаться на имя только одного столбца.
Используйте символ амперсанда (&) для операции AND и символ канала (|) для операции OR.
Поддерживаются следующие операторы:
<
,>
,<=
,>=
,==
, ,!=
Нельзя группировать операции с помощью
(
и)
.
Идеи см. в разделе Примеры .
Запустите эксперимент или щелкните модуль правой кнопкой мыши и выберите Выполнить выбранный.
Выражение делит набор данных на два набора строк: строки со значениями, которые соответствуют условию, и все оставшиеся строки.
Если необходимо выполнить дополнительные операции разбиения, можно добавить второй экземпляр *Split Data или использовать модуль Apply SQL Transformation (Применить преобразование SQL ) и определить инструкцию CASE.
Примеры выражений relatve
В следующих примерах показано, как разделить набор данных с помощью параметра Относительное выражение в модуле Разделение данных :
Использование календарного года
По распространенному сценарию набор данных делится по годам. Следующее выражение выбирает все строки со значениями столбца Year
более 2010
.
\"Year" > 2010
Выражение даты должно учитывать все части даты, включенные в столбец данных, а формат дат в столбце данных должен быть согласованным.
Например, в столбце даты в формате mmddyyyy
выражение должно выглядеть примерно так:
\"Date" > 1/1/2010
Использование индексов столбцов
Следующее выражение показывает, как можно использовать индекс столбца, чтобы выбрать все строки в первом столбце набора данных, содержащего значения, которые меньше или равны 30, но не равны 20.
(\0)<=30 & !=20
Составная операция со значениями времени с использованием нескольких разбиений
Предположим, вам нужно разбить таблицу данных журнала, чтобы сгруппировать запросы, которые выполняются слишком долго. Вы можете использовать следующее относительное выражение в столбце , Elapsed
чтобы получить запросы, которые выполнялись в течение 1 минуты.
\"Elapsed" >00:01:00
Чтобы получить запросы с временем отклика менее одной минуты, но более 30 секунд, добавьте еще один экземпляр разделения данных в выходные данные справа и используйте выражение, подобное следующему:
\"Elapsed" <:00:01:00 & >00:00:30
Разделение набора данных по значениям даты
Следующее относительное выражение разделяет набор данных с использованием значений даты в столбце dt1
.
\"dt1" > 10-08-2015
Строки с датой больше 10-08-2015 добавляются в первый (левый) выходной набор данных.
Строки с датой 10.08.2015 или более ранней добавляются во второй (правый) выходной набор данных.
Технические примечания
В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.
Ограничения
К относительным выражениям в наборе данных применяются следующие ограничения:
- Относительные выражения можно применять только к числовым типам данных и типам данных даты и времени.
- Относительные выражения могут ссылаться на имя не более чем одного столбца.
- Используйте символ амперсанда (&) для операции AND и символ канала (|) для операции OR.
- Для относительных выражений разрешены следующие операторы:
<
,>
,<=
,>=
,==
, ,!=
- Операции группировки с круглыми скобками не поддерживаются.