Поделиться через


Преобразования формата данных

Важно!

Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.

Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.

Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.

Примечание

применимо к: только Машинное обучение Studio (классическая модель)

Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.

в этой статье перечислены модули, доступные в Машинное обучение Studio (классическая модель) для преобразования данных в различные форматы файлов, используемые в машинном обучении.

Поддерживаются следующие форматы:

  • формат набора данных , используемый в Машинное обучение.
  • Формат ARFF , используемый weka. Weka — это набор алгоритмов машинного обучения на основе Java с открытым исходным кодом.
  • Формат SVMLight . Формат SVMLight был разработан для платформы SVMLight для машинного обучения. Его также можно использовать в Vowpal Wabbit.
  • Форматы неструктурированных файлов, разделенные табуляцией (TSV) и разделенные запятыми (CSV) , которые поддерживаются большинством реляционных баз данных. Эти форматы также широко поддерживаются R и Python.

При преобразовании данных в эти форматы можно легко перемещать результаты и данные между различными платформами машинного обучения или механизмами хранения.

Примечание

Эти модули преобразования данных преобразуют только полный набор данных в указанный формат. Если необходимо выполнить приведение, усечение, преобразование форматов даты и времени или другую обработку значений, используйте модуль преобразования данныхили просмотрите список связанных задач.

Распространенные сценарии преобразования данных

модули преобразования данных обычно используются, если необходимо переместить данные из Машинное обучение эксперимента в другое средство машинного обучения или платформу. кроме того, эти модули можно использовать для экспорта данных из Машинное обучение в формате, который может использоваться базой данных или другими инструментами. Пример.

Задача Используйте это
необходимо сохранить промежуточный набор данных для использования в Excel или импортировать в базу данных. Используйте модуль CSV или модуль TSV для подготовки данных в правильном формате. затем либо скачайте данные, либо сохраните их в служба хранилища Azure.
Вы хотите повторно использовать данные из эксперимента в коде R или Python. Для подготовки данных используйте модуль CSV или модуль TSV . Затем щелкните правой кнопкой мыши преобразованный набор данных, чтобы получить код Python, необходимый для доступа к набору данных.
вы переносите свой эксперимент и данные между Weka и Машинное обучение. Для подготовки данных используйте модуль ARFF . Затем скачайте результаты.
Необходимо подготовить данные в SVMlight Framework. Для подготовки данных используйте модуль Convert to SVMLight . Затем скачайте полученные данные.
Создание данных для использования с Vowpal Wabbit. Используйте формат SVMLight . Затем измените файлы, как описано в статье. сохраните файл в хранилище Blob-объектов Azure, чтобы использовать его с модулем Vowpal Wabbit в Машинное обучение.
Данные не имеют табличного формата. Приведение этого типа к формату набора данных с помощью модуля Convert to DataSet .

если необходимо импортировать данные в Машинное обучение или преобразовать данные в отдельные столбцы, используйте эти модули перед выполнением преобразования данных.

Задача Используйте это
импорт данных с моего компьютера в Машинное обучение. Upload наборах данных в формате CSV, как описано в разделе импорт обучающей информации в Машинное обучение Studio (классическая модель).
Импорт данных из облачного источника данных, включая Hadoop или Azure. Используйте модуль Импорт данных .
Сохраняйте наборы данных машинного обучения в хранилище BLOB-объектов Azure, кластере Hadoop или другом облачном хранилище. Используйте модуль Export Data (экспорт данных ).
Измените тип данных столбцов или приведите столбцы на другой формат или тип. в Машинное обучение используйте модули преобразования " изменить метаданные " или " применить SQL ". Если вы хорошо используете R или Python, попробуйте выполнить сценарий Python или выполнить сценарий R .
Округлять, группировать или нормализовать числовые данные. Используйте операцию APPLY Math, сгруппируйте данные в ячейкиили нормализацию модулей данных .

Список модулей

В категорию преобразования «формат данных » входят следующие модули:

См. также раздел