Импорт из таблицы Azure
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
в этой статье описывается, как использовать модуль import Data (импорт данных ) в Машинное обучение Studio (классическая модель) для импорта структурированных или частично структурированных данных из таблиц Azure в эксперимент машинного обучения.
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
Служба таблиц Azure — это служба управления данными в Azure, которая может хранить большие объемы структурированных нереляционных данных. Это хранилище данных NoSQL, которое принимает вызовы с проверкой подлинности внутри и за пределами Azure.
Для импорта из хранилища таблиц Azure необходимо выбрать один из двух типов учетных записей: учетную запись хранения, доступ к которой можно получить с помощью URL-адреса SAS или частной учетной записи хранения, для которой требуются учетные данные для входа.
Импорт данных из таблиц Azure
Использование мастера импорта данных
Модуль содержит новый мастер, помогающий выбрать вариант хранения, выбрать один из существующих подписок и учетных записей и быстро настроить все параметры.
Добавьте модуль Импорт данных в эксперимент. Модуль можно найти в разделе входные и выходные данные.
Щелкните запустить мастер импорта данных и следуйте инструкциям.
После завершения настройки, чтобы фактически скопировать данные в эксперимент, щелкните модуль правой кнопкой мыши и выберите команду Выполнить выбранное.
Если необходимо изменить существующее подключение к данным, мастер загрузит все предыдущие сведения о конфигурации, чтобы не приступить к повторному запуску с нуля.
Установка свойств вручную в модуле "Импорт данных"
Следующие шаги описывают настройку источника импорта вручную.
Добавьте модуль Импорт данных в эксперимент. этот модуль можно найти в группе входные и выходные данные в списке элементы эксперимента в Машинное обучение Studio (классическая модель).
В качестве источника данныхвыберите Таблица Azure.
В поле Тип проверки подлинностивыберите общедоступный (URL-адрес SAS) , если известно, что сведения предоставлены в качестве общедоступного источника данных. URL-адрес SAS — это URL-адрес для доступа с ограниченным временем, который можно создать с помощью служебной программы хранилища Azure.
В противном случае выберите учетная запись.
Если данные находятся в общедоступном большом двоичном объекте, доступ к которому можно получить с помощью URL-адреса SAS, дополнительные учетные данные не требуются, так как строка URL-адреса содержит все сведения, необходимые для загрузки и проверки подлинности.
В поле URI-адрес SAS таблицы введите или вставьте полный URI, определяющий учетную запись и общедоступный большой двоичный объект.
Примечание
На странице, доступной через URL-адрес SAS, данные могут храниться только в следующих форматах: CSV, TSV и ARFF.
Если данные находятся в частной учетной записи, необходимо указать учетные данные, включая имя учетной записи и ключ.
В поле имя учетной записи таблицывведите или вставьте имя учетной записи, содержащей большой двоичный объект, к которому требуется получить доступ.
Например, если полный URL-адрес учетной записи хранения —
https://myshared.table.core.windows.net
, введитеmyshared
.В поле ключ учетной записи таблицывставьте ключ доступа, связанный с учетной записью хранения.
если вы не знакомы с ключом доступа, см. раздел "просмотр, копирование и повторное создание ключей доступа к хранилищу" в этой статье: сведения об учетных записях служба хранилища Azure.
В поле имя таблицывведите имя конкретной таблицы, которую требуется считать.
Выберите параметр, указывающий, сколько строк должны проверять данные импорта . Функция Импорт данных использует проверку для получения списка столбцов в данных и для определения типов данных столбцов.
TopN: сканирование только указанного числа строк начиная с верхней части набора данных.
По умолчанию сканируется 10 строк, но можно увеличить или уменьшить это значение с помощью параметра количество строк для TopN .
Если данные являются однородными и прогнозируемыми, выберите TopN и введите число N. Для больших таблиц это может привести к более быстрому чтению времени.
Значение scanall —: сканирование всех строк в таблице.
Если данные структурированы с использованием наборов свойств, которые различаются в зависимости от глубины и положения таблицы, выберите параметр ScanAll для сканирования всех строк. Это гарантирует целостность полученного свойства и преобразования метаданных.
Укажите, следует ли обновлять данные при каждом запуске эксперимента. Если выбран параметр использовать кэшированные результаты (по умолчанию), модуль Импорт данных будет считывать данные из указанного источника при первом запуске эксперимента, а затем кэшировать результаты. Если в параметрах модуля Импорт данных есть изменения, данные будут загружены повторно.
Если отменить выбор этого параметра, данные будут считываться из источника каждый раз при выполнении эксперимента независимо от того, совпадают ли данные.
Примеры
Примеры использования модуля Export Data см. в Коллекция решений ии Azure.
Технические примечания
В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.
Часто задаваемые вопросы
Как избежать повторной загрузки одних и тех же данных?
При изменении исходных данных можно обновить набор данных и добавить новые данные путем повторного выполнения импорта данных. Однако если вы не хотите повторно считывать из источника при каждом запуске эксперимента, установите для параметра использовать кэшированные результаты значение true. Если этот параметр имеет значение TRUE, модуль проверяет, выполнялся ли в эксперименте ранее тот же источник и те же параметры ввода, и если предыдущий запуск найден, то вместо повторной загрузки данных из источника используются данные в кэше.
Можно ли фильтровать данные по мере их считывания из источника?
Модуль импорта данных не поддерживает фильтрацию по мере считывания данных. Исключение считывается из каналов данных, что иногда позволяет указать условие фильтра в качестве части URL-адреса канала.
однако вы можете изменить или отфильтровать данные после их чтения в Машинное обучение Studio (классическая модель):
- Используйте пользовательский скрипт R для изменения или фильтрации данных.
- Используйте модуль Split Data (разделение данных ) с относительным выражением или регулярным выражением, чтобы изолировать нужные данные, а затем сохраните их как набор данных.
Примечание
Если вы загрузили больше данных, чем требуется, вы можете перезаписать кэшированный набор данных. Для этого необходимо считать новый набор данных и сохранить его под именем, идентичным имени большего, ранее записанного набора данных.
Как Импорт данных обрабатывает данные, загруженные из разных географических регионов?
Если учетная запись хранения большого двоичного объекта или таблицы находится в другом регионе, отличном от используемого для эксперимента машинного обучения, доступ к данным может быть медленнее. Кроме того, вы платите за входящий и исходящий данные подписки.
Почему некоторые символы в таблице отображаются неправильно?
Машинное обучение поддерживает кодировку UTF-8. Если в таблице используется другая кодировка, символы могут быть неправильно импортированы.
Существуют ли недопустимые символы или символы, измененные во время импорта?
Если данные атрибутов содержат кавычки или escape-последовательности символов, они будут обработаны с помощью правил для таких символов в Microsoft Excel. Все остальные символы обрабатываются с использованием следующих спецификаций в качестве рекомендации: RFC 4180.
Параметры модуля
Имя | Диапазон | Тип | По умолчанию | Значение по умолчанию |
---|---|---|---|---|
Источник данных | Список | Источник данных или приемник | хранилище BLOB-объектов Azure | источником данных может быть HTTP, FTP, anonymous HTTPS или FTPS, файл в хранилище BLOB-объектов azure, таблица Azure, База данных SQL Azure, локальная SQL Server база данных, таблица Hive или конечная точка OData. |
Authentication type (Тип проверки подлинности) | PublicOrSas Учетная запись |
таблеаустипе | Учетная запись | Укажите, находятся ли данные в общедоступном контейнере, доступном через URL-адрес SAS, или в частной учетной записи хранения, которая требует проверки подлинности для доступа. |
Общедоступные или SAS-общедоступные варианты хранения
Имя | Диапазон | Тип | По умолчанию | Описание |
---|---|---|---|---|
URI таблицы | any | Строка | ||
Строки для поиска имен свойств через SAS | Целое число | |||
Число строк для TopN через SAS |
Учетная запись — параметры частного хранилища
Имя | Диапазон | Тип | По умолчанию | Описание |
---|---|---|---|---|
Имя учетной записи таблицы | ||||
Ключ учетной записи таблицы | any | SecureString | ||
Имя таблицы | any | |||
Строки для поиска имен свойств | TopN Значение scanall — |
|||
Число строк для TopN | any | Целое число |
Выходные данные
Имя | Тип | Описание |
---|---|---|
Набор данных результатов | Таблица данных | Набор данных с загруженными данными |
Исключения
Исключение | Описание |
---|---|
Ошибка 0027 | Исключение возникает, если два объекта должны быть одинакового размера, но это не так. |
Ошибка 0003 | Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты. |
Ошибка 0029 | Исключение возникает при передаче недопустимого универсального кода ресурса. |
Ошибка 0030 | Исключение возникает, когда не удается скачать файл. |
Ошибка 0002 | Исключение возникает, если один или несколько параметров не удалось проанализировать или преобразовать из заданного типа в необходимый для целевого метода тип. |
Ошибка 0009 | Исключение возникает, если имя учетной записи хранилища Azure или имя контейнера указаны неверно. |
Ошибка 0048 | Исключение возникает, когда не удается открыть файл. |
Ошибка 0046 | Исключение возникает, если не удается создать каталог по указанному пути. |
Ошибка 0049 | Исключение возникает, когда не удается проанализировать файл. |
список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.
список исключений API см. в разделе Машинное обучение REST API коды ошибок.
См. также раздел
Импорт данных
Экспорт данных
Импорт с URL-адреса в Интернете с использованием HTTP
Импорт из запроса Hive
Импорт из Базы данных SQL Azure
Импорт из Хранилища BLOB-объектов Azure
Импорт из поставщиков веб-каналов данных
Импорт из локальной базы данных SQL Server