Поделиться через


Преобразование данных в конструкторе Машинного обучения Azure

В этой статье вы узнаете, как преобразовать и сохранить наборы данных в конструкторе Машинное обучение Azure, чтобы подготовить собственные данные для машинного обучения.

Вы будете использовать образец набора данных двоичной классификации дохода взрослых для подготовки двух наборов данных: одного набора данных, включающего сведения о переписи взрослых только из США, и другого набора данных, включающего данные переписи от взрослых, не являющихся США.

В этой статье вы узнаете, как выполнять следующие задачи.

  1. Преобразование набора данных для подготовки к обучению.
  2. Экспорт полученных наборов данных в хранилище данных.
  3. Просмотрите результаты.

Ознакомление с этим руководством обязательно для изучения статьи Переобучение моделей конструктора. В этой статье вы узнаете, как использовать преобразованные наборы данных для обучения нескольких моделей с параметрами конвейера.

Внимание

Если графические элементы, упомянутые в этом документе, не отображаются, например кнопки в студии или конструкторе, у вас может не быть правильного уровня разрешений для рабочей области. Обратитесь к администратору подписки Azure, чтобы убедиться, что вам предоставлен правильный уровень доступа. Дополнительные сведения см. в статье "Управление пользователями и ролями".

Преобразование набора данных

В этом разделе вы узнаете, как импортировать образец набора данных и разделить данные на наборы данных, отличные от США. Узнайте , как импортировать данные для получения дополнительных сведений о том, как импортировать собственные данные в конструктор.

Импорт данных

Чтобы импортировать пример набора данных, выполните следующие действия.

  1. Войдите в Студия машинного обучения Azure и выберите рабочую область, которую вы хотите использовать.

  2. Перейдите в конструктор. Выберите " Создать новый конвейер" с помощью классических предварительно созданных компонентов для создания нового конвейера

  3. Слева от холста конвейера на вкладке "Компонент " разверните узел "Пример данных "

  4. Перетащите набор данных двоичной классификации дохода взрослого населения на холст

  5. Щелкните правой кнопкой мыши компонент набора данных о доходах для взрослых и выберите предварительный просмотр данных

  6. В окне предварительного просмотра данных экспортируйте набор данных. Обратите особое внимание на значения столбцов "родной страны"

Разделение данных

В этом разделе описано, как использовать компонент split Data для идентификации и разделения строк, содержащих "США" в столбце "native-country"

  1. Слева от холста на вкладке компонента разверните раздел преобразования данных и найдите компонент split Data

  2. Перетащите компонент split Data на холст и удалите этот компонент под компонентом набора данных.

  3. Подключение компонента набора данных к компоненту split Data

  4. Выберите компонент "Разделить данные", чтобы открыть область "Разделение данных"

  5. Справа от холста на значке "Параметры " задайте для режима разделения регулярное выражение

  6. Введите регулярное выражение: \"native-country" United-States

    Режим регулярное выражение проверяет значение в одном столбце. Дополнительные сведения о компоненте разделения данных см. на странице справки по компоненту компонента "Разделение данных"

Конвейер должен выглядеть следующим образом:

Снимок экрана: настройка конвейера и компонента split Data

Сохранение наборов данных

Теперь, когда вы настроили конвейер для разделения данных, необходимо указать место хранения наборов данных. В этом примере используйте для сохранения набора данных в хранилище данных компонент "Экспорт данных". Дополнительные сведения о хранилищах см. в разделе "Подключение к службам хранилища Azure".

  1. Слева от холста в палитре компонентов разверните раздел "Входные и выходные данные" и найдите компонент "Экспорт данных"

  2. Перетащите два компонента экспорта данных под компонент "Разделение данных"

  3. Подключение каждого выходного порта компонента split Data к другому компоненту экспорта данных

    Конвейер должен выглядеть следующим образом:

    Снимок экрана: подключение компонентов экспортируемых данных

  4. Выберите компонент "Экспорт данных", подключенный к левому порту компонента "Разделить данные", чтобы открыть область "Конфигурация экспортируемых данных"

    Для компонента split Data важно указать порядок портов вывода. Первый выходной порт содержит строки, в которых регулярное выражение имеет значение true. В этом случае первый порт содержит строки для дохода на основе США, а второй порт содержит строки для дохода, отличного от США.

  5. В области сведений о компоненте справа от холста выберите следующие параметры:

    Тип хранилища данных: Хранилище BLOB-объектов Azure

    Хранилище данных: выберите существующее хранилище данных или нажмите кнопку "Создать хранилище данных", чтобы создать новую.

    Путь: /data/us-income.

    Формат файла: CSV.

    Примечание.

    В этой статье предполагается, что у вас есть доступ к хранилищу данных, зарегистрированному в текущей рабочей области Машинного обучения Azure. Ознакомьтесь со службами хранилища Azure для инструкций по настройке хранилища данных

    Вы можете создать хранилище данных, если у вас нет хранилища данных. Например, эта статья сохраняет наборы данных в учетную запись хранения BLOB-объектов по умолчанию, связанную с рабочей областью. Он сохраняет наборы данных в azureml контейнере в новой папке с именем data

  6. Выберите компонент "Экспорт данных", подключенный к правому порту компонента "Разделить данные", чтобы открыть область конфигурации экспортируемых данных

  7. Справа от холста в области сведений о компоненте задайте следующие параметры:

    Тип хранилища данных: Хранилище BLOB-объектов Azure

    Хранилище данных: выбор предыдущего хранилища данных

    Путь: /data/non-us-income.

    Формат файла: CSV.

  8. Убедитесь, что компонент экспорта данных , подключенный к левому порту разделенных данных , имеет путь /data/us-income

  9. Убедитесь, что компонент экспорта данных , подключенный к правому порту, имеет путь /data/non-us-income

    Теперь конвейер и параметры будут выглядеть следующим образом:

    Снимок экрана: настройка компонентов экспортируемых данных

отправить задание.

Теперь, когда конвейер настроен для разделения и экспорта данных, отправьте задание конвейера.

  1. Выберите " Настройка" и "Отправить " в верхней части холста

  2. Выберите параметр Create new в области "Основы" задания конвейера "Настройка конвейера", чтобы создать эксперимент

    Эксперименты логически группирует связанные задания конвейера вместе. При запуске этого конвейера в будущем следует использовать тот же эксперимент для ведения журнала и отслеживания.

  3. Укажите описательное имя эксперимента, например "split-census-data"

  4. Выберите "Рецензирование и отправка", а затем нажмите кнопку "Отправить"

Показать результаты

После завершения работы конвейера можно перейти к хранилищу больших двоичных объектов портал Azure, чтобы просмотреть результаты. Вы также можете просмотреть промежуточные результаты компонента split Data , чтобы убедиться в правильности разделения данных.

  1. Выберите компонент "Разделить данные"

  2. В области сведений о компоненте справа от холста выберите вкладку "Выходные данные и журналы"

  3. Выберите раскрывающийся список "Показать выходные данные"

  4. Щелкните значок значок визуализации визуализации рядом с набором данных результатов1

  5. Убедитесь, что столбец "native-country" содержит только значение "Соединенные Штаты"

  6. Щелкните значок значок визуализации визуализации рядом с набором данных Результатов2

  7. Убедитесь, что столбец "native-country" не содержит значение "Соединенные Штаты"

Очистка ресурсов

Чтобы продолжить работу с двумя частью этих моделей повторного обучения с помощью Машинное обучение Azure конструктора, пропустите этот раздел.

Внимание

Созданные ресурсы можно использовать в качестве необходимых компонентов для других учебников и статей с практическими рекомендациями по Машинному обучению Azure.

Удаление всех ресурсов

Если вы не планируете использовать созданные ресурсы, удалите всю группу ресурсов, чтобы с вас не взималась плата.

  1. На портале Azure слева выберите Группы ресурсов.

    Удаление группы ресурсов на портале Azure

  2. В списке выберите созданную группу ресурсов.

  3. Выберите команду Удалить группу ресурсов.

При удалении группы ресурсов будут также удалены все ресурсы, созданные в конструкторе.

Удаление отдельных ресурсов

В конструкторе, в котором вы создали эксперимент, удалите отдельные ресурсы, выбрав их и нажав кнопку Удалить.

Созданный вами целевой объект вычислений автоматически масштабируется до нуля узлов, когда он не используется. Это действие предпринимается для снижения расходов. Чтобы удалить целевой объект вычислений, сделайте следующее:

Удаление ресурсов

Вы можете отменить регистрацию наборов данных в рабочей области. Для этого выберите каждый набор данных и щелкните Отменить регистрацию.

Отмена регистрации набора данных

Чтобы удалить набор данных, перейдите к учетной записи хранения на портале Azure или в приложении "Обозреватель службы хранилища Azure", а затем вручную удалите эти ресурсы.

Следующие шаги

Из этой статьи вы узнали, как преобразовать набор данных и сохранить его в зарегистрированном хранилище данных.

Перейдите к следующей части этой серии инструкций с переобучением моделей с помощью конструктора Машинное обучение Azure, чтобы использовать преобразованные наборы данных и параметры конвейера для обучения моделей машинного обучения.