Преобразование в TSV
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
Преобразовывает входные данные в формат с разделением табуляциями.
Категория: преобразования форматов данных
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Обзор модуля
в этой статье описывается, как использовать модуль convert to TSV в Машинное обучение Studio (классическая модель) для преобразования любого набора данных из внутреннего формата, используемого всеми модулями Машинное обучение Studio (классическая модель), в неструктурированный файл в формате с разделителями-табуляторами.
Файлы, разделенные табуляцией, (TSV) совместимы со многими внешними средствами, включая:
R и Python
Excel и PowerPivot
Все реляционные базы данных
Например, если в эксперименте есть промежуточный набор данных, который вы хотите сохранить для повторного использования в другом инструменте или вызвать из кода, его можно преобразовать в формат TSV, а затем щелкнуть правой кнопкой мыши преобразованный набор данных, чтобы получить код Python, необходимый для доступа к набору данных.
Использование Convert to TSV
Используйте модуль Convert to TSV каждый раз, когда необходимо скачать набор данных в формате с разделителями-символами табуляции.
Добавьте в свой эксперимент преобразуйте преобразование в TSV . этот модуль можно найти в категории преобразования форматов данных в Машинное обучение Studio (классическая модель).
Подключение модуль в другой датсет или в модуль, который выводит табличный набор данных.
Запустите эксперимент или щелкните правой кнопкой мыши только модуль преобразовать в TSV и выберите пункт Выполнить выбранное.
Результаты
После завершения преобразования можно открыть набор данных, вызвать его из кода R или Python, использовать его в записной книжке Jupyter или сохранить в локальном файле.
Если вы хотите загрузить набор данных, дважды щелкните его и укажите, нужно ли открыть или сохранить датсет.
Если выбран вариант Открыть, набор данных загружается с помощью любого инструмента, используемого компьютером по умолчанию для открытия. TSV файлов. Обычно это Microsoft Excel.
При выборе параметра скачать набор данныхпо умолчанию файл сохраняется с именем модуля и идентификатором GUID, представляющим идентификатор рабочей области. Однако можно выбрать параметр Сохранить как во время загрузки и изменить имя файла или расположение.
Примеры
Хотя нет примеров, относящихся к этому формату, вы можете увидеть примеры использования преобразования формата, изучив эти эксперименты в Коллекция решений ии Azure:
Перекрестная проверка для примера двоичной классификации: экспортирует результаты перекрестной проверки в формат данных с разделителями-запятыми (CSV), чтобы результаты для нескольких моделей можно было сравнивать с помощью такого средства, как Excel.
Цветовая сжатие изображений на основе цветов дискретизация: экспортирует наборы данных, используемые для каждой части анализа, в CSV-файлы, чтобы можно было легко запустить подобную модель в любом средстве, поддерживающем формат CSV.
Технические примечания
В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.
Требования к формату TSV
TSV (значения, разделенные табуляцией) — это текстовый формат, используемый для хранения данных в виде таблицы. Это очень похоже на формат CSV, но разделителем является табуляция, а не запятая.
Формат TSV — это полезная альтернатива распространенному формату CSV, если данные содержат запятые. Запятые очень распространены в текстовых данных и используются в европейском числовом формате.
Одна из проблем формата TSV заключается в том, что табуляцию часто считают пустым пространством в неструктурированном тексте. Помимо этого стандарт IANA для TSV способствует чистому и точному синтаксического анализу файлов TSV с помощью запрета на табуляцию внутри полей.
обратите внимание на следующие требования для TSV-файлов в Машинное обучение Studio (классическая модель):
Модуль Преобразование в TSV поддерживает вывод одной строки заголовка, если набор данных содержит имена столбцов.
Поставщик TSV поддерживает только кодировку символов UTF-8.
При чтении или записи файлов TSV производительность может быть ниже, чем для других форматов (например, CSV).
Ожидаемые входные данные
Имя | Тип | Описание |
---|---|---|
Dataset | Таблица данных | Входной набор данных |
Выходные данные
Имя | Тип | Описание |
---|---|---|
Набор данных результатов | GenericTsv | Выходной набор данных |
См. также раздел
Преобразование формата данных
Список модулей в алфавитном порядке