Экспорт в запрос Hive
Важно!
Поддержка Студии машинного обучения (классической) будет прекращена 31 августа 2024 г. До этой даты рекомендуется перейти на Машинное обучение Azure.
Начиная с 1 декабря 2021 года вы не сможете создавать новые ресурсы Студии машинного обучения (классической). Существующие ресурсы Студии машинного обучения (классическая версия) можно будет использовать до 31 августа 2024 г.
- См. сведения о перемещении проектов машинного обучения из ML Studio (классической) в Машинное обучение Azure.
- См. дополнительные сведения о Машинном обучении Azure.
Поддержка документации по ML Studio (классической) прекращается, а сама документация может не обновляться в будущем.
Примечание
применимо к: только Машинное обучение Studio (классическая модель)
Подобные модули перетаскивания доступны в конструкторе машинного обучения Azure.
в этой статье описывается, как использовать параметр экспорт данных в Hive в модуле экспорт данных в Машинное обучение Studio (классическая модель). Этот параметр полезен при работе с очень большими наборами данных и необходимости сохранять данные экспериментов машинного обучения в кластере Hadoop или распределенное хранилище HDInsight. также может потребоваться экспортировать промежуточные результаты или другие данные в Hadoop, чтобы их можно было обработать с помощью задания MapReduce.
Экспорт данных в Hive
Добавьте модуль Export Data (экспорт данных ) в свой эксперимент. этот модуль можно найти в категории ввод и вывод данных в Машинное обучение Studio (классическая модель).
Подключение модуль в набор данных, который необходимо экспортировать.
В качестве источника данныхвыберите запрос Hive.
В поле имя таблицы Hive введите имя таблицы Hive, в которой будет храниться набор данных.
В текстовом поле URI сервера HCatalog введите полное имя кластера.
Например, если вы создали кластер с именем
mycluster001
, используйте следующий формат:https://mycluster001.azurehdinsight.net
В текстовом поле имя учетной записи пользователя Hadoop вставьте учетную запись пользователя Hadoop, которая использовалась при подготовке кластера.
В текстовом поле пароль учетной записи пользователя Hadoop введите учетные данные, которые использовались при подготовке кластера.
Для расположения выходных данныхвыберите параметр, указывающий, где должны храниться данные: HDFS или Azure.
Если данные находятся в распределенной файловой системе Hadoop (HDFS), они должны быть доступны с использованием только что введенной учетной записи и пароля.
Если данные находятся в Azure, укажите расположение и учетные данные учетной записи хранения.
Если вы выбрали параметр HDFS , то для URI сервера HDFSукажите имя кластера HDInsight без
https://
префикса.Если вы выбрали параметр Azure , укажите имя учетной записи хранения и учетные данные, которые модуль может использовать для подключения к хранилищу.
Имя учетной записи хранения Azure: введите имя учетной записи Azure. Например, если полный URL-адрес учетной записи хранения —
https://myshared.blob.core.windows.net
, введитеmyshared
.Ключ хранилища Azure: Скопируйте и вставьте ключ, предоставленный для доступа к учетной записи хранения.
Имя контейнера Azure: укажите контейнер по умолчанию для кластера. Советы и сведения о том, как определить контейнер по умолчанию, см. в разделе Технические примечания .
Использовать кэшированные результаты: Выберите этот параметр, если необходимо избежать перезаписи таблицы Hive при каждом запуске эксперимента. Если другие изменения параметров модуля отсутствуют, эксперимент записывает таблицу Hive только при первом запуске модуля или при внесении изменений в данные.
Если необходимо записать таблицу Hive при каждом запуске эксперимента, отмените выбор параметра использовать кэшированные результаты .
Запустите эксперимент.
Примеры
Примеры использования модуля Export Data см. в Коллекция решений ии Azure.
- Процесс и технология расширенной аналитики в действии: использование кластеров HDInsight Hadoop. в этой статье содержится подробное пошаговое руководство по созданию кластера, отправке данных и вызову данных из студии (классическая модель) с помощью Hive.
Технические примечания
В этом разделе содержатся сведения и советы относительно реализации, а также ответы на часто задаваемые вопросы.
Часто задаваемые вопросы
Как избежать проблем с нехваткой памяти при записи больших наборов данных
иногда конфигурация кластера Hadoop по умолчанию слишком ограничена для поддержки выполнения задания MapReduce. Например, в этих заметках о выпуске для HDInsight параметры по умолчанию определяются как кластер из четырех узлов.
если требования MapReduceного задания превышают доступную емкость, запросы Hive могут вернуть сообщение об ошибке нехватки памяти , что приводит к сбою операции экспорта данных . В этом случае можно изменить выделение памяти по умолчанию для запросов Hive.
Как избежать повторной загрузки одних и тех же данных
Если вы не хотите повторно создавать таблицу Hive при каждом запуске эксперимента, установите для параметра использовать кэшированные результаты значение true. Если этот параметр имеет значение TRUE, модуль проверит, выполнялся ли эксперимент ранее, и если предыдущий запуск найден, операция записи не выполняется.
Советы по использованию
Определить контейнер по умолчанию для кластера может быть трудно. Ниже приведен ряд советов.
Если кластер был создан с использованием параметров по умолчанию, то в то же время, когда был создан кластер, был создан контейнер с тем же именем. Этот контейнер является контейнером по умолчанию для кластера.
Если вы создали кластер с помощью параметра настраиваемое создание , вы получили два варианта выбора контейнера по умолчанию.
Существующий контейнер. Если вы выбрали существующий контейнер, этот контейнер является контейнером хранилища по умолчанию для кластера.
Создать контейнер по умолчанию. Если вы выбрали этот параметр, был создан контейнер с тем же именем, что и кластер, и вы должны указать это имя контейнера в качестве контейнера по умолчанию для кластера.
Параметры модуля
Имя | Диапазон | Тип | По умолчанию | Описание |
---|---|---|---|---|
Источник данных | Список | Источник данных или приемник | хранилище BLOB-объектов Azure | Источником данных может быть HTTP, FTP, анонимные HTTPS или FTPS, файл в хранилище больших двоичных объектов Azure, таблица Azure, базы данных SQL Azure, таблица Hive или конечная точка OData. |
Имя таблицы Hive | any | Строка | нет | Имя таблицы в Hive |
URI сервера HCatalog | any | Строка | нет | Конечная точка Templeton |
Имя учетной записи пользователя Hadoop | any | Строка | нет | Имя пользователя Hadoop HDFS/HDInsight |
Пароль учетной записи пользователя Hadoop | any | SecureString | нет | Пароль Hadoop HDFS/HDInsight |
Расположение выходных данных | any | Расположение на складе | HDFS | Указание HDFS или Azure для outputDir |
URI HDFS-сервера | any | Строка | нет | Конечная точка RESTful HDFS |
Имя учетной записи хранения Azure | any | Строка | нет | Имя учетной записи хранения Azure |
Ключ к хранилищу Azure | any | SecureString | нет | Ключ к хранилищу Azure |
Имя контейнера Azure | any | Строка | нет | Имя контейнера Azure |
Использование кэшированных результатов | True или false | Логическое | FALSE | Модуль выполняется только в том случае, если не существует допустимого кэша. в противном случае используйте кэшированные данные из предыдущих выполнений. |
Исключения
Исключение | Описание |
---|---|
Ошибка 0027 | Исключение возникает, если два объекта должны быть одинакового размера, но это не так. |
Ошибка 0003 | Исключение возникает, если один или несколько входных аргументов имеют значение NULL или пусты. |
Ошибка 0029 | Исключение возникает при передаче недопустимого универсального кода ресурса. |
Ошибка 0030 | Исключение возникает, когда не удается скачать файл. |
Ошибка 0002 | Исключение возникает, если один или несколько параметров не удалось проанализировать или преобразовать из заданного типа в необходимый для целевого метода тип. |
Ошибка 0009 | Исключение возникает, если имя учетной записи хранилища Azure или имя контейнера указаны неверно. |
Ошибка 0048 | Исключение возникает, когда не удается открыть файл. |
Ошибка 0046 | Исключение возникает, если не удается создать каталог по указанному пути. |
Ошибка 0049 | Исключение возникает, когда не удается проанализировать файл. |
список ошибок, относящихся к модулям студии (классическая версия), см. в разделе Машинное обучение коды ошибок.
список исключений API см. в разделе Машинное обучение REST API коды ошибок.
См. также раздел
Импорт данных
Экспорт данных
Экспорт Базу данных SQL Azure
Экспорт данных в хранилище BLOB-объектов Azure
Экспорт в таблицу Azure