Разделение данных с помощью регулярного выражения
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
в этой статье описывается, как использовать функцию разбиения регулярных выражений в модуле split Data модуля Машинное обучение Studio (классическая модель). Этот параметр полезен, если необходимо применить критерии фильтра к текстовому столбцу. Например, вы можете разделить набор данных на то, упоминается ли определенный продукт.
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Можно использовать разбиение регулярного выражения для одного текстового столбца. Вы определяете регулярное выражение, включающее имя столбца текста, а затем устанавливаете условия, применяемые к столбцу, такие как «начинается с», «содержит» или «не содержит».
Общие сведения о секционировании данных для экспериментов машинного обучения см. в разделе разделение данных и секционирование и разбиение.
Связанные задачи
Другие параметры модуля Split Data (разделение данных ):
Разбиение данных с помощью относительных выражений: применение выражения к числовым данным.
Разделите наборы данных рекомендаций: разделите наборы данных, используемые в моделях рекомендаций. Набор данных должен содержать три столбца: элементы, пользователи и оценки.
Использование регулярного выражения для разделения набора данных
Добавьте модуль Split Data (разделение данных ) в эксперимент и подключите его как входные данные для набора данных, который необходимо разделить.
В качестве режима разделения выберите Разбиение регулярного выражения.
В поле регулярное выражение введите допустимое регулярное выражение. Некоторые примеры приведены здесь.
Регулярное выражение применяется только к указанному столбцу, который должен быть строковым типом данных.
Дополнительные сведения о создании регулярных выражений см. в разделе краткий справочник по языку регулярных выражений.
Запустите эксперимент или щелкните модуль правой кнопкой мыши и выберите пункт Выполнить выбранное.
На основе заданного регулярного выражения набор данных делится на два набора строк: строки со значениями, которые соответствуют выражению и всем оставшимся строкам.
Примеры
В следующих примерах показано, как разделить набор данных с помощью параметра регулярного выражения .
Одно целое слово
Этот пример помещает в первый набор данных все строки, содержащие текст Gryphon
в столбце Text
, и помещает другие строки во второй выход разбиения данных:
\"Text" Gryphon
Substring
В этом примере выполняется поиск указанной строки в любой позиции во втором столбце набора данных, обозначенной здесь значением индекса 1. Сопоставление учитывает регистр.
(\1) ^[a-f]
Первый выходной набор данных будет содержать все строки, в которых индексный столбец начинается одним из следующих символов: a
, b
, c
, d
, e
, f
. Все остальные строки будут помещены во второй набор.
Совпадение строк по IP-адресам
В этом примере некоторые данные журнала сервера делятся на две категории для анализа: подключения за брандмауэром и подключения с IP-адресами за пределами брандмауэра. Регулярное выражение применяется к IP_Address
полю (тип данных String ).
(\IP_Address) ^[10]
Первый выход содержит все адреса, начинающиеся с 10
.