Импорт данных в конструктор Машинного обучения Azure
Из этой статьи вы узнаете, как импортировать собственные данные в конструктор, чтобы создавать пользовательские решения. Импортировать данные в конструктор можно двумя способами.
- Наборы данных Машинного обучения Azure. Зарегистрируйте наборы данных в Машинном обучении Azure, чтобы включить дополнительные функции, помогающие управлять данными.
- Компонент "Импорт данных". Используйте компонент Импорт данных для прямого доступа к данным из подключенных источников данных.
Внимание
Если вы не видите графические элементы, упомянутые в этом документе, такие как кнопки в студии или конструкторе, возможно, у вас нет соответствующих разрешений для рабочей области. Обратитесь к администратору подписки Azure, чтобы убедиться, что вам предоставлен правильный уровень доступа. Дополнительные сведения см. в статье Управление доступом к рабочей области Машинного обучения Azure.
Использование наборов данных Машинного обучения Azure
Чтобы импортировать данные в конструктор, рекомендуется использовать наборы данных. Зарегистрировав набор данных, можно воспользоваться всеми преимуществами расширенных функций обработки данных, такими как управление версиями и отслеживание и мониторинг данных.
Регистрация набора данных
Имеющиеся наборы данных можно зарегистрировать программно с помощью пакета SDK или вручную в Студии машинного обучения Azure.
Можно также зарегистрировать в качестве набора данных выходные данные любого компонента конструктора.
Выберите компонент, выводящий данные, которые необходимо зарегистрировать.
На панели "Свойства" выберите пункт Выходные данные и журналы>Регистрация набора данных.
Если выходные данные компонента находятся в табличном формате, необходимо выбрать регистрацию выходных данных в виде файлового набора данных или табличного набора данных.
Файловый набор данных регистрирует выходную папку компонента в виде файлового набора данных. Выходная папка содержит файл данных и мета-файлы, используемые конструктором для внутренних целей. Выберите этот параметр, если вы хотите продолжить использовать зарегистрированный набор данных в конструкторе.
Табличный набор данных регистрирует только выходной файл данных компонента в виде табличного набора данных. Этот формат легко читается в других инструментах, например в AutoML или в пакете SDK для Python. Выберите этот параметр, если вы планируете использовать зарегистрированный набор данных вне конструктора.
Использование набора данных
Ваши зарегистрированные наборы данных можно найти на панели компонентов в разделе "Наборы данных". Чтобы использовать набор данных, перетащите его на холст конвейера. Затем подключите порт вывода набора данных к другим компонентам на рабочем пространстве.
При регистрации файлового набора данных тип порта вывода набора данных — AnyDirectory. При регистрации табличного набора данных тип порта вывода набора данных — DataFrameDirectory. Обратите внимание, что при подключении порта вывода набора данных к другим компонентам в конструкторе тип порта наборов данных и компоненты должны быть согласованы.
Примечание.
Конструктор поддерживает управление версиями набора данных. Укажите версию набора данных на панели свойств компонента набора данных.
Ограничения
- Сейчас конструктор позволяет визуализировать только табличный набор данных. Если файловый набор данных регистрируется вне конструктора, его невозможно визуализировать на рабочем пространстве конструктора.
- В настоящее время конструктор поддерживает только предварительные выходные данные, которые хранятся в хранилище BLOB-объектов Azure. Вы можете проверить и изменить хранилище выходных данных в разделе Параметры выходных данных на вкладке Параметрына панели компонента справа.
- Если данные хранятся в виртуальной сети и требуется предварительно просмотреть их, необходимо включить управляемое удостоверение рабочей области для хранилища данных.
- Перейдите к связанному хранилищу данных и нажмите кнопку "Обновить проверку подлинности"
- Чтобы включить управляемое удостоверение рабочей области, выберите опцию Да.
- Перейдите к связанному хранилищу данных и нажмите кнопку "Обновить проверку подлинности"
Импорт данных с помощью компонента "Импорт данных"
Хотя мы рекомендуем использовать для импорта наборы данных, можно также использовать компонент "Импорт данных". Компонент "Импорт данных" пропускает регистрацию набора данных в Машинном обучении Azure и импортирует данные непосредственно из хранилища данных или URL-адреса HTTP.
Подробные сведения об использовании компонента "Импорт данных" см. на странице справочных материалов по импорту данных.
Примечание.
Если набор данных содержит слишком много столбцов, может возникнуть следующая ошибка: "Ошибка проверки из-за ограничения размера". Чтобы избежать этой ошибки, зарегистрируйте набор данных в интерфейсе наборов данных.
Поддерживаемые источники
В этом разделе перечислены источники данных, поддерживаемые конструктором. Конструктор принимает данные из хранилища данных либо из табличного набора данных.
Источники хранилища данных
Список поддерживаемых источников хранилища данных см. в разделе Доступ к данным в службах хранилища Azure.
Источники табличных наборов данных
Конструктор поддерживает табличные наборы данных, созданные на основе следующих источников:
- файлы с разделителями;
- файлы JSON;
- файлы Parquet;
- SQL-запросы
Типы данных
Конструктор распознает следующие типы данных:
- Строка
- Целое число
- Decimal
- Логическое
- Дата
Для передачи данных между компонентами конструктор использует внутренний тип данных. Данные можно явно преобразовать в формат таблицы данных с использованием компонента "Преобразование в набор данных". Любые компоненты, которые принимают форматы, отличные от внутреннего формата, перед передачей данных в следующий компонент автоматически преобразуют данные.
Ограничения данных
Модули в конструкторе ограничены размером целевого объекта вычислений. Для больших наборов данных следует использовать больший ресурс Машинного обучения Azure. Дополнительные сведения о вычислениях в Машинном обучении Azure см. в разделе Что такое целевые вычисления в Машинном обучении Azure?
Доступ к данным в виртуальной сети
Если ваша рабочая область находится в виртуальной сети, необходимо выполнить дополнительные действия по настройке для визуализации данных в конструкторе. Дополнительные сведения об использовании хранилищ и наборов данных в виртуальной сети см. в статье Использование Студии машинного обучения Azure в виртуальной сети Azure.
Следующие шаги
Изучите основы работы с конструктором в статье Руководство по прогнозированию цен на автомобили с помощью конструктора.