Поделиться через


Настройка лаборатории для аналитики больших данных в Службах лабораторий Azure с помощью развертывания Docker платформы данных HortonWorks

Внимание

Поддержка служб лабораторий Azure прекратится 28 июня 2027 г. Дополнительные сведения см. в руководстве по выходу на пенсию.

Примечание.

Эта статья ссылается на функции, доступные в планах лабораторий, которые заменили учетные записи лаборатории.

В этой статье показано, как настроить лабораторию для обучения класса анализу больших данных. Класс аналитики больших данных учит пользователей обрабатывать большие объемы данных. Он также учит их применять алгоритмы машинного и статистического обучения для получения аналитических данных. Ключевой целью является использование средств аналитики данных, таких как пакет программного обеспечения с открытым кодом Apache Hadoop. Пакет программного обеспечения предоставляет средства для хранения, управления и обработки больших данных.

В этой лаборатории пользователи лаборатории работают с популярной коммерческой версией Hadoop, предоставляемой Cloudera, называемой Hortonworks Data Platform (HDP). В частности, пользователи лаборатории используют песочницу HDP 3.0.1 , которая является упрощенной, простой версией платформы. Песочница HDP 3.0.1 также является бесплатной и предназначена для обучения и экспериментирования. Хотя этот класс может использовать виртуальные машины Windows или Linux с развернутой песочницей HDP. В этой статье показано, как использовать Windows.

Еще одним интересным аспектом является развертывание песочницы HDP на виртуальных машинах лаборатории с помощью контейнеров Docker . Каждый контейнер Docker предоставляет собственную изолированную среду для выполнения программных приложений внутри. По сути, контейнеры Docker напоминают вложенные виртуальные машины и могут использоваться для простого развертывания и запуска широкого спектра программных приложений на основе образов контейнеров, предоставляемых в Docker Hub. Сценарий развертывания Cloudera для HDP Sandbox автоматически извлекает из Docker Hub образ Docker HDP Sandbox 3.0.1 и запускает два контейнера Docker:

  • sandbox-hdp
  • sandbox-proxy

Необходимые компоненты

Чтобы настроить эту лабораторию, вам потребуется доступ к подписке Azure. Обсудите с администратором организации, чтобы узнать, можно ли получить доступ к существующей подписке Azure. Если у вас нет подписки Azure, создайте бесплатную учетную запись, прежде чем приступить к работе.

Конфигурация лаборатории

Параметры плана лаборатории

После того как у вас есть подписка Azure, вы можете создать план лаборатории в Службах лабораторий Azure. Дополнительные сведения о создании нового плана лаборатории см . в кратком руководстве по настройке ресурсов для создания лабораторий. Вы также можете использовать существующий план лаборатории.

В этой лаборатории образы Azure Marketplace для Windows 10 Pro используются в качестве базового образа виртуальной машины. Сначала необходимо включить этот образ в плане лаборатории. Это позволяет создателям лаборатории выбрать изображение в качестве базового образа для своей лаборатории.

Выполните следующие действия, чтобы включить эти образы Azure Marketplace, доступные создателям лабораторий. Выберите один из образов Windows 10 Azure Marketplace.

Параметры лаборатории

Создайте лабораторию для плана лаборатории. Инструкции по созданию лаборатории см. в руководстве по настройке лаборатории. При создании лаборатории используйте следующие параметры.

Параметры лаборатории Значение или инструкции
Размер виртуальной машины Средний (вложенная виртуализация). ВМ такого размера лучше всего подходит для реляционных баз данных, кэширования в памяти и аналитики. Размер также поддерживает вложенную виртуализацию.
Образ виртуальной машины Windows 10 Pro

Примечание.

Используйте размер виртуальной машины среднего (вложенного виртуализации), так как песочница HDP с помощью Docker требует Windows Hyper-V с вложенной виртуализацией и не менее 10 ГБ ОЗУ.

Шаблон конфигурации компьютера

Чтобы настроить компьютер шаблона, выполните следующие действия.

  1. Установите Docker.
  2. Развертывание HDP Sandbox
  3. Использование PowerShell и планировщика задач Windows для автоматического запуска контейнеров Docker

Установите Docker.

Действия, описанные в этом разделе, основаны на инструкциях Cloudera для развертывания с помощью контейнеров Docker.

Чтобы использовать контейнеры Docker, необходимо сначала установить Docker Desktop на шаблоне виртуальной машины:

  1. Выполните действия, описанные в разделе Предварительные требования, чтобы установить Docker для Windows.

    Внимание

    Убедитесь, что параметр конфигурации Use Windows containers instead of Linux containers (Использовать контейнеры Windows вместо контейнеров Linux) не включен.

  2. Убедитесь, что контейнеры Windows и компоненты Hyper-V включены.

    Включение или отключение функций Windows.

  3. Выполните действия, описанные в разделе Память для Windows, чтобы настроить конфигурацию памяти Docker.

    Предупреждение

    Если при установке Docker вы случайно установили флажок Use Windows containers instead of Linux containers (Использовать контейнеры Windows вместо контейнеров Linux), параметры конфигурации памяти отображаться не будут. Чтобы устранить эту проблему, можно переключиться на использование контейнеров Linux, щелкнув значок Docker в области уведомлений Windows. Когда откроется меню Docker Desktop, выберите Switch to Linux containers (Переключиться на контейнеры Linux).

Развертывание HDP Sandbox

Затем разверните песочницу HDP и получите доступ к песочнице HDP с помощью браузера.

  1. Убедитесь, что вы установили Git Bash , как указано в разделе предварительных требований руководства. Рекомендуется выполнить следующие действия.

  2. С помощью руководства по развертыванию и установке Cloudera для Docker выполните действия, описанные в следующих разделах:

    • Развертывание HDP Sandbox
    • Проверка HDP Sandbox

    Предупреждение

    При скачивании последнего файла .zip для HDP убедитесь, что файл .zip не сохраняется в пути к каталогу, включающее пробелы.

    Примечание.

    Если при развертывании возникает исключение, уведомляющее о том, что к диску не был предоставлен общий доступ, необходимо предоставить общий доступ к диску C с помощью Docker, чтобы контейнеры Linux HDP могли получать доступ к локальным файлам Windows. Чтобы устранить эту проблему, щелкните значок Docker в области уведомлений Windows, чтобы открыть меню Docker Desktop, и выберите Settings (Параметры). Когда откроется диалоговое окно "Параметры Docker", выберите "Общий доступ к файлам ресурсов>" и проверьте диск C. Затем можно повторить шаги для развертывания HDP Sandbox.

  3. Когда контейнеры Docker для песочницы HDP развернуты и запущены, вы можете получить доступ к среде, запустив браузер. Следуйте инструкциям Cloudera по открытию страницы приветствия песочницы и запуску панели мониторинга HDP.

    Примечание.

    В этих инструкциях предполагается, что сначала вы сопоставили локальный IP-адрес среды песочницы с sandbox-hdp.hortonworks.com в файле узла на виртуальной машине шаблона. Если это сопоставление не выполняется, вы можете получить доступ к странице приветствия песочницы, перейдя к ней http://localhost:8080.

Автоматическое запуск контейнеров Docker при входе пользователей лаборатории

Чтобы обеспечить простой интерфейс для пользователей лаборатории, создайте скрипт PowerShell, который автоматически:

  1. Запускает контейнеры Docker песочницы HDP при запуске и подключении пользователя лаборатории к виртуальной машине лаборатории.
  2. Запускает браузер и переходит на страницу приветствия песочницы.

Используйте планировщик задач Windows для автоматического запуска этого скрипта при входе пользователя лаборатории в виртуальную машину. Чтобы настроить планировщик задач, выполните следующие действия: скрипты аналитики больших данных.

Заключение

В этой статье описаны действия, необходимые для создания лаборатории для класса аналитики больших данных. Класс аналитики больших данных использует платформу данных Hortonworks, развернутую с помощью Docker. Настройка этого типа класса может использоваться для аналогичных классов аналитики данных. Эта настройка также может применяться к другим типам классов, использующих Docker для развертывания.

Следующие шаги

Теперь образ шаблона можно опубликовать в лаборатории. Дополнительные сведения см. в статье "Публикация виртуальной машины шаблона".

Ознакомьтесь со следующими статьями, связанными с настройкой лаборатории: