Экспорт данных в хранилище BLOB-объектов Azure
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
в этой статье описывается использование параметра export to Хранилище BLOB-объектов Azure в модуле export Data (экспорт данных ) в Машинное обучение Studio (классическая модель).
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
этот параметр полезен, если вы хотите экспортировать данные из эксперимента машинного обучения в Хранилище BLOB-объектов Azure. Например, может потребоваться совместное использование выходных данных машинного обучения с другими приложениями или хранение промежуточных или очищенных наборов данных для использования в других экспериментах.
Доступ к BLOB-объектам Azure можно получить из любого места с помощью протокола HTTP или HTTPS. поскольку Хранилище BLOB-объектов Azure является неструктурированным хранилищем данных, можно экспортировать данные в различных форматах. В настоящее время поддерживаются форматы CSV, TSV и ARFF.
чтобы экспортировать данные в большой двоичный объект Azure для использования другими приложениями, используйте модуль export data (экспорт данных ), чтобы сохранить данные в Хранилище BLOB-объектов Azure. затем используйте любой инструмент, который может считывать данные из службы хранилища Azure (например, Excel, служебные программы облачного хранилища или другие облачные службы) для загрузки и использования данных.
Примечание
Модули импорта данных и экспорта данных могут считывать и записывать данные только из службы хранилища Azure, созданной с помощью классической модели развертывания. иными словами, новый тип учетной записи Хранилище BLOB-объектов Azure, предлагающий горячий и холодный уровни доступа к хранилищу, пока не поддерживается.
Как правило, это не повлияет на учетные записи хранения Azure, созданные до появления данного уровня служб.
однако если необходимо создать новую учетную запись для использования с Машинное обучение, рекомендуется выбрать классическую для модели развертыванияили использовать Resource manager , а для учетной записивыбрать общее назначение , а не хранилище Blob-объектов.
экспорт данных в Хранилище BLOB-объектов Azure
Служба BLOB-объектов Azure предназначена для хранения больших объемов данных, включая двоичные данные. Существует два типа хранилища BLOB-объектов: открытые большие двоичные объекты и большие двоичные объекты, для которых требуются учетные данные для входа.
Добавьте модуль Export Data (экспорт данных ) в свой эксперимент. Этот модуль можно найти в категории Ввод и вывод данных в студии (классическая модель).
Подключение экспортировать данные в модуль, который создает данные, которые необходимо экспортировать в Хранилище BLOB-объектов Azure.
Откройте панель свойствЭкспорт данных. в поле назначение данных выберите Хранилище BLOB-объектов Azure.
В поле Тип проверки подлинностивыберите общедоступный (URL-адрес SAS) , если известно, что хранилище поддерживает доступ через URL-адрес SAS.
URL-адрес SAS — это особый тип URL-адреса, который можно создать с помощью служебной программы хранилища Azure. он доступен только в течение ограниченного времени. Он содержит всю информацию, необходимую для проверки подлинности и загрузки.
В поле URIвведите или вставьте полный URI, определяющий учетную запись и общедоступный большой двоичный объект.
Для частных учетных записей выберите учетная записьи укажите имя учетной записи и ключ учетной записи, чтобы эксперимент мог выполнять запись в учетную запись хранения.
Имя учетной записи: введите или вставьте имя учетной записи, в которой необходимо сохранить данные. Например, если полный URL-адрес учетной записи хранения —
https://myshared.blob.core.windows.net
, введитеmyshared
.Ключ учетной записи: Вставьте ключ доступа к хранилищу, связанный с учетной записью.
Путь к контейнеру, каталогу или большому двоичному объекту: введите имя большого двоичного объекта, в котором будут храниться экспортированные данные. Например, чтобы сохранить результаты эксперимента в новый большой двоичный объект с именем results01.csv в прогнозах контейнеров в учетной записи с именем мимлдата, полный URL-адрес для большого двоичного объекта будет
https://mymldata.blob.core.windows.net/predictions/results01.csv
.Поэтому в поле путь к контейнеру, каталогу или большому двоичному объектуукажите имя контейнера и BLOB-объекта следующим образом:
predictions/results01.csv
Если указать имя большого двоичного объекта, который еще не существует, Azure создаст большой двоичный объект.
при записи в существующий большой двоичный объект можно указать, что текущее содержимое большого двоичного объекта будет перезаписано путем установки свойства Хранилище BLOB-объектов Azure режим записи. По умолчанию для этого свойства задано значение Ошибка. Это означает, что при обнаружении существующего файла большого двоичного объекта с тем же именем возникает ошибка.
В поле Формат файла BLOB-объектавыберите формат, в котором должны храниться данные.
CSV: формат хранения по умолчанию — значения с разделителями-запятыми (CSV). Чтобы экспортировать заголовки столбцов вместе с данными, выберите параметр записать строку заголовка большого двоичного объекта. дополнительные сведения о формате с разделителями-запятыми, используемом в Машинное обучение, см. в разделе Convert to CSV.
TSV: формат значений с разделителями-табуляциями (TSV) совместим со многими инструментами машинного обучения. Чтобы экспортировать заголовки столбцов вместе с данными, выберите параметр записать строку заголовка большого двоичного объекта. дополнительные сведения о формате, разделенном табуляцией, используемом в Машинное обучение, см. в разделе Convert to TSV.
ARFF. Этот формат поддерживает сохранение файлов в формате, используемом набором инструментов weka. Этот формат не поддерживается для файлов, хранящихся в URL-адресе SAS. Дополнительные сведения о формате ARFF см. в разделе Convert to ARFF.
Использовать кэшированные результаты: Выберите этот параметр, если необходимо избежать перезаписи результатов в файл большого двоичного объекта при каждом запуске эксперимента. Если другие изменения параметров модуля отсутствуют, эксперимент записывает результаты только при первом запуске модуля или при внесении изменений в данные.
Примеры
Примеры использования модуля Export Data см. в Коллекция решений ии Azure:
Преобразование набора данных в формат VW. Этот эксперимент использует скрипт Python вместе с модулем Export Data для создания данных, которые могут использоваться Vowpal Wabbit.
настройка конвейеров прогнозной аналитики с помощью Azure SQL Data Warehouse: этот сценарий описывает перемещение данных между несколькими компонентами, включая Машинное обучение и SQL Data Warehouse.
пакетная оценка без использования кода. в этом учебнике показано, как можно использовать Azure Logic Apps для автоматизации импорта данных, используемых экспериментами, и записи результатов экспериментов в хранилище blob-объектов.
эксплуатацию решение azure ML с локальной SQL Server с помощью фабрики данных azure. в этой статье описывается более сложный конвейер данных, который отправляет данные обратно в локальную базу данных SQL Server, используя хранилище больших двоичных объектов в качестве промежуточного этапа. Для использования локальной базы данных требуется настройка шлюза данных, но эту часть примера можно пропустить и просто использовать хранилище BLOB-объектов.
Технические примечания
В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.
Часто задаваемые вопросы
Как избежать записи данных, если эксперимент не изменился
При изменении результатов эксперимента Экспорт данных всегда сохраняет новый набор данных. Однако если эксперимент выполняется повторно, не внося изменений, влияющих на выходные данные, можно выбрать параметр использовать кэшированные результаты .
Модуль проверяет, выполнялся ли ранее эксперимент с теми же данными и теми же параметрами, и если предыдущий запуск найден, операция записи не повторяется.
Можно ли сохранять данные в учетной записи в другом географическом регионе
Да, данные можно записывать в учетные записи в разных регионах. Тем не менее, если учетная запись хранения находится в другом регионе на кластерном узле, используемом для эксперимента машинного обучения, доступ к данным может быть медленнее. Кроме того, вы платите за входящий и исходящий данные подписки.
Параметры модуля
Общие параметры
Имя | Диапазон | Тип | По умолчанию | Описание |
---|---|---|---|---|
Источник данных | Список | Источник данных или приемник | хранилище BLOB-объектов Azure | назначением может быть файл в хранилище BLOB-объектов azure, таблица Azure, таблица или представление в База данных SQL Azure или в таблице Hive. |
Использование кэшированных результатов | True или false | Логическое | FALSE | Модуль выполняется только в том случае, если не существует допустимого кэша. в противном случае используйте кэшированные данные из предыдущих выполнений. |
Укажите тип проверки подлинности | SAS/учетная запись | authenticationType | Учетная запись | Указывает, следует ли использовать для авторизации доступа учетные данные SAS или учетной записи |
Общедоступные или SAS-общедоступные варианты хранения
Имя | Диапазон | Тип | По умолчанию | Описание |
---|---|---|---|---|
Универсальный код ресурса SAS для большого двоичного объекта | any | Строка | нет | URI SAS записываемого BLOB-объекта (обязательно) |
Формат файла SAS | ARFF CSV TSV |
Лоадерутилс. типы файлов | CSV | Указывает, является ли файл CSV, TSV или ARFF. (обязательно) |
Запись строки заголовка SAS | True или false | Логическое | FALSE | Указывает, следует ли записывать заголовки столбцов в файл |
Учетная запись — параметры частного хранилища
Имя | Диапазон | Тип | По умолчанию | Описание |
---|---|---|---|---|
Имя учетной записи Azure | any | Строка | нет | Имя учетной записи пользователя Azure |
Ключ учетной записи Azure | any | SecureString | нет | Ключ к хранилищу Azure |
Путь к большому двоичному объекту, начинающемуся с контейнера | any | Строка | нет | Имя файла большого двоичного объекта, начинающееся с имени контейнера |
режим записи Хранилище BLOB-объектов Azure | Список: ошибка, перезаписать | перечисление: Блобфилевритемоде | Ошибка | Выбор метода записи файлов BLOB-объектов |
Формат файла для большого двоичного объекта | ARFF CSV TSV |
Лоадерутилс. типы файлов | CSV | Указывает, является ли файл большого двоичного объекта CSV, TSV или ARFF |
Запись строки заголовка BLOB-объекта | True или false | Логическое | FALSE | Указывает, должен ли файл большого двоичного объекта содержать строку заголовка |
Исключения
Исключение | Описание |
---|---|
Ошибка 0027 | Исключение возникает, если два объекта должны быть одинакового размера, но это не так. |
Ошибка 0003 | Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты. |
Ошибка 0029 | Исключение возникает при передаче недопустимого универсального кода ресурса. |
Ошибка 0030 | Исключение возникает, когда не удается скачать файл. |
Ошибка 0002 | Исключение возникает, если один или несколько параметров не удалось проанализировать или преобразовать из заданного типа в необходимый для целевого метода тип. |
Ошибка 0009 | Исключение возникает, если имя учетной записи хранилища Azure или имя контейнера указаны неверно. |
Ошибка 0048 | Исключение возникает, когда не удается открыть файл. |
Ошибка 0046 | Исключение возникает, если не удается создать каталог по указанному пути. |
Ошибка 0049 | Исключение возникает, когда не удается проанализировать файл. |
список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.
список исключений API см. в разделе Машинное обучение REST API коды ошибок.
См. также раздел
Импорт данных
Экспорт данных
Экспорт Базу данных SQL Azure
Экспорт в запрос Hive
Экспорт в таблицу Azure