Преобразования формата данных
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
в этой статье перечислены модули, доступные в Машинное обучение Studio (классическая модель) для преобразования данных в различные форматы файлов, используемые в машинном обучении.
Поддерживаются следующие форматы:
- формат набора данных , используемый в Машинное обучение.
- Формат ARFF , используемый weka. Weka — это набор алгоритмов машинного обучения на основе Java с открытым исходным кодом.
- Формат SVMLight . Формат SVMLight был разработан для платформы SVMLight для машинного обучения. Его также можно использовать в Vowpal Wabbit.
- Форматы неструктурированных файлов, разделенные табуляцией (TSV) и разделенные запятыми (CSV) , которые поддерживаются большинством реляционных баз данных. Эти форматы также широко поддерживаются R и Python.
При преобразовании данных в эти форматы можно легко перемещать результаты и данные между различными платформами машинного обучения или механизмами хранения.
Примечание
Эти модули преобразования данных преобразуют только полный набор данных в указанный формат. Если необходимо выполнить приведение, усечение, преобразование форматов даты и времени или другую обработку значений, используйте модуль преобразования данныхили просмотрите список связанных задач.
Распространенные сценарии преобразования данных
модули преобразования данных обычно используются, если необходимо переместить данные из Машинное обучение эксперимента в другое средство машинного обучения или платформу. кроме того, эти модули можно использовать для экспорта данных из Машинное обучение в формате, который может использоваться базой данных или другими инструментами. Пример.
Задача | Используйте это |
---|---|
необходимо сохранить промежуточный набор данных для использования в Excel или импортировать в базу данных. | Используйте модуль CSV или модуль TSV для подготовки данных в правильном формате. затем либо скачайте данные, либо сохраните их в служба хранилища Azure. |
Вы хотите повторно использовать данные из эксперимента в коде R или Python. | Для подготовки данных используйте модуль CSV или модуль TSV . Затем щелкните правой кнопкой мыши преобразованный набор данных, чтобы получить код Python, необходимый для доступа к набору данных. |
вы переносите свой эксперимент и данные между Weka и Машинное обучение. | Для подготовки данных используйте модуль ARFF . Затем скачайте результаты. |
Необходимо подготовить данные в SVMlight Framework. | Для подготовки данных используйте модуль Convert to SVMLight . Затем скачайте полученные данные. |
Создание данных для использования с Vowpal Wabbit. | Используйте формат SVMLight . Затем измените файлы, как описано в статье. сохраните файл в хранилище Blob-объектов Azure, чтобы использовать его с модулем Vowpal Wabbit в Машинное обучение. |
Данные не имеют табличного формата. | Приведение этого типа к формату набора данных с помощью модуля Convert to DataSet . |
Связанные задачи
если необходимо импортировать данные в Машинное обучение или преобразовать данные в отдельные столбцы, используйте эти модули перед выполнением преобразования данных.
Задача | Используйте это |
---|---|
импорт данных с моего компьютера в Машинное обучение. | Upload наборах данных в формате CSV, как описано в разделе импорт обучающей информации в Машинное обучение Studio (классическая модель). |
Импорт данных из облачного источника данных, включая Hadoop или Azure. | Используйте модуль Импорт данных . |
Сохраняйте наборы данных машинного обучения в хранилище BLOB-объектов Azure, кластере Hadoop или другом облачном хранилище. | Используйте модуль Export Data (экспорт данных ). |
Измените тип данных столбцов или приведите столбцы на другой формат или тип. | в Машинное обучение используйте модули преобразования " изменить метаданные " или " применить SQL ". Если вы хорошо используете R или Python, попробуйте выполнить сценарий Python или выполнить сценарий R . |
Округлять, группировать или нормализовать числовые данные. | Используйте операцию APPLY Math, сгруппируйте данные в ячейкиили нормализацию модулей данных . |
Список модулей
В категорию преобразования «формат данных » входят следующие модули:
- Преобразовать в ARFF: преобразует входные данные в формат файла связи атрибутов, используемый набором инструментов weka.
- Преобразовать в CSV: преобразует набор данных в формат значений с разделителями-запятыми.
- преобразовать в набор данных: преобразует входные данные в формат внутреннего набора данных, используемый Машинное обучение.
- Преобразовать в SVMLight: преобразует входные данные в формат, используемый платформой SVMLight.
- Преобразовать в TSV: преобразует входные данные в формат с разделителями-символами табуляции.