Преобразование данных — пример и разбиение
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
в этой статье описываются модули в Машинное обучение Studio (классическая модель), которые можно использовать для секционирования или выборки данных.
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Разделение и выборка наборов данных являются важными задачами в машинном обучении. Например, распространенной практикой является разделение данных на обучающие и проверочные наборы, которые помогут оценить модель на контрольном наборе данных. Выборка также все еще важна в эпохе больших данных, чтобы обеспечить равномерное распределение классов в обучающих данных. Выборка также гарантирует, что обработка большего количества данных не требуется.
для настройки способа разделения или выборки наборов данных можно использовать модули Машинное обучение Studio (классические).
- Фильтрация обучающих данных на основе атрибута в данных.
- Выполните выборку стратифицированной, чтобы разделить переменную класса между n числами групп.
- Разделение исходных данных на обучающий и проверочный набор данных с помощью настраиваемого соотношения.
- Применение регулярных выражений к данным для фильтрации недопустимых значений.
Выбор правильной операции: разделение или выборка
Машинное обучение Studio (классическая модель) предоставляет два модуля, которые инкапсулируют задачи. Модули похожи, но они используют разные функции и предоставляют дополнительные функциональные возможности. Скорее всего, вы будете использовать оба модуля в эксперименте, чтобы получить правильный объем и правильный набор данных.
Далее мы сравниваем модуль Split Data (разделение данных ) и модуль Partition и Sample , чтобы увидеть, для каких задач обычно используется каждый модуль.
Использование модуля Split Data
- Разделите данные на две группы. Используйте модуль Split Data (разделение данных ). Модуль создает ровно два разбиения данных. Можно указать условие, в котором данные разбиваются, и пропорции данных, помещаемые в каждое подмножество. Разбиение данных всегда сохраняет подмножество данных, не соответствующих условиям.
- Равномерное выделение значений меток для наборов данных. Параметр для стратифи в указанном столбце поддерживается обоими модулями. Однако, если вы хотите создать два набора данных и в основном интересуете столбец Label, то модуль Split Data (разделить данные ) является быстрым решением.
Пример использования модуля Split Data
Предположим, вы импортировали очень большой набор данных из CSV-файла. Набор данных содержит демографические данные клиентов. Вы хотите создать разные модели для клиентов в разных странах, поэтому вы решили разделить данные с помощью значения Country-Region
столбца. Ниже приведены действия, которые необходимо выполнить для выполнения этой задачи.
- Добавьте модуль Split Data (разделение данных ), а затем укажите выражение для
Country-Region
поля. Оставшаяся часть данных доступна во вторичном выводе. - Добавьте еще один экземпляр модуля Split Data (разделение данных ).
- Повторите шаги 1 и 2. Укажите другую страну в выражении для каждой итерации.
Модуль Split Data (разделение данных ) поддерживает как регулярные выражениядля текстовых данных, так и относительные выражениядля числовых данных.
Модуль Split Data (разделение данных ) также предоставляет расширенные функциональные возможности, которые можно использовать для разделения специализированных данных. Используйте функциональные возможности для создания моделей рекомендаций и создания прогнозов.
Использование модуля Partition и Sample
- Выборка. Всегда используйте модуль Partition и Sample . Модуль предоставляет несколько настраиваемых методов выборки, включая несколько параметров для стратифицированной выборки.
- Назначение вариантов нескольким группам. Используйте параметры распределить для сгиба или выборки по сгибу в модуле секции и образец .
- Возвращает только подмножество данных. Используйте модуль Partition и Sample . Модуль предоставляет указанное подмножество для основных выходных данных. Остальные данные доступны во вторичном выводе.
- Получение только первых 2 000 строк набора данных. Используйте модуль Partition и Sample . Выберите параметр head (головной ). Это особенно удобно при тестировании нового эксперимента и необходимости запускать короткие пробные версии рабочего процесса.
Пример использования модуля Partition и Sample
Модуль Partition и Sample может создавать несколько секций данных, а не только два. В то же время он может выполнять различные операции выборки.
Например, предположим, что необходимо получить всего 10 процентов данных, обеспечивая то же самое распределение целевого атрибута, что и в исходных данных. Ниже приведены действия, которые необходимо выполнить для выполнения этой задачи.
- Добавьте модуль Partition и Sample .
- Выберите режим выборки и укажите 10%.
- Выберите параметр выборка стратифицированной, а затем выберите столбец, содержащий целевой атрибут.
Если не нужно размещать все данные, используйте модуль Partition и Sample . Остальные данные по-прежнему находятся в рабочей области, но их не нужно обрабатывать в рамках эксперимента.
Связанные задачи
- Увеличьте количество редких вариантов в примере или Перераспределите варианты для целевого значения: используйте модуль смоте .
- Уменьшение размерности путем поиска сочетания функций, которые лучше всего представляют пространство данных: используйте модуль анализа основных компонентов .
- создание компактных функций на основе анализа функций и счетчиков: используйте модуль Обучение с подсчетами .
- Создание представления или проекции с использованием только указанных столбцов; удаление или скрытие столбцов в наборе данных: используйте модули « выбор столбцов в наборе данных » и «применить SQL модулей преобразования ».
- применение более сложных фильтров данных, группирований или преобразований: использование модулей выполнения R Script и Apply SQL .
Список модулей
Эта категория включает в себя следующие модули.
- Секционирование и выборка: создает несколько секций набора данных на основе выборки.
- Разделение данных: разделяет строки набора данных на два разных набора.