Миграция локальных кластеров Apache Hadoop в Azure HDInsight — рекомендации по обеспечению безопасности и операциям DevOps
В этой статье представлены рекомендации по обеспечению безопасности и операциям DevOps в системах Azure HDInsight. Это часть цикла, где приведены лучшие методики, применимые при перемещении локальных систем Apache Hadoop в Azure HDInsight.
Защита кластера и управление им с помощью Корпоративного пакета безопасности
Корпоративный пакет безопасности (ESP) предоставляет поддержку аутентификации на основе Active Directory, многопользовательского режима и управления доступом на основе ролей. Если выбрать ESP, кластер HDInsight подключается к домену AD DS, а администратор предприятия может настроить управление доступом на основе ролей (RBAC) для обеспечения безопасности Apache Hive с помощью Apache Ranger. Кроме того, администратор может проводить аудит доступа сотрудников к данным, а также аудит любых изменений, внесенных в политики управления доступом.
Возможности ESP доступны для кластеров таких типов: Apache Hadoop, Apache Spark, Apache HBase, Apache Kafka и Interactive Query (Hive LLAP).
Чтобы развернуть кластер HDInsight, присоединенный к домену, выполните следующие действия:
Разверните идентификатор Microsoft Entra, передав доменное имя.
Развертывание доменных служб Microsoft Entra.
Создайте необходимые виртуальную сеть и подсеть.
Разверните виртуальную машину в виртуальная сеть для управления доменными службами Microsoft Entra.
Присоедините виртуальную машину к домену.
Установите инструменты AD и DNS.
Создайте подразделение для администратора доменных служб Microsoft Entra.
Включите LDAPS для доменных служб Microsoft Entra.
Создайте учетную запись службы в идентификаторе Microsoft Entra с делегированным разрешением администратора на чтение и запись в подразделение, чтобы он смог. Затем эта учетная запись службы сможет присоединить компьютеры к домену и поместить субъекты компьютеров в подразделение. Кроме того, она может создать субъекты-службы в определенном подразделении, которое указывается во время создания кластера.
Примечание.
Учетная запись службы не должна быть учетной записью администратора домена AD.
Разверните кластер HDInsight ESP, настроив следующие параметры:
Параметр Описание Доменное имя Доменное имя, связанное с доменными службами Microsoft Entra. Имя пользователя домена Учетная запись службы в управляемом контроллером домена доменных служб Microsoft Entra, созданном в предыдущем разделе, например: hdiadmin@contoso.onmicrosoft.com
Этот пользователь домена станет администратором этого кластера HDInsight.Пароль домена пароль учетной записи службы. Подразделение уникальное имя подразделения, которое необходимо использовать с кластером HDInsight, например OU=HDInsightOU,DC=contoso,DC=onmicrosoft,DC=com
. Если это подразделение не существует, кластер HDInsight пытается создать подразделение, используя привилегии учетной записи службы.URL-адрес LDAPS Например: ldaps://contoso.onmicrosoft.com:636
.Группа пользователей с доступом группы безопасности, пользователей которых нужно синхронизировать с кластером, например HiveUsers
. Чтобы указать несколько групп пользователей, разделяйте их точкой с запятой (;). Группы должны находиться в каталоге до того, как вы начнете создание кластера ESP.
Дополнительные сведения см. в следующих статьях:
- Общие сведения об обеспечении безопасности Apache Hadoop с помощью Корпоративного пакета безопасности
- Корпоративный пакет безопасности для HDInsight
- Настройка присоединенного к домену кластера HDInsight с помощью доменных служб Microsoft Entra
- Синхронизация пользователей Microsoft Entra с кластером HDInsight
- Настройка политик Apache Hive в HDInsight с Корпоративным пакетом безопасности
- Запуск Apache Oozie в кластерах Hadoop HDInsight с Корпоративным пакетом безопасности
Реализация комплексной безопасности предприятия
Обеспечить комплексную безопасность предприятия можно с помощью следующих элементов управления:
Частный и защищенный конвейер данных (безопасность на уровне периметра). Безопасность на уровне периметра может быть достигнута с помощью виртуальных сетей Azure, групп безопасности сети и службы шлюза.
Проверка подлинности и авторизация для доступа к данным . Создание кластера HDInsight, присоединенного к домену, с помощью доменных служб Microsoft Entra. (Корпоративного пакета безопасности). — Предоставьте доступ к кластерным ресурсам на основе ролей для пользователей AD с помощью Ambari. — Настройте политики контроля доступа для Hive на уровне таблицы, столбца и строк с помощью Apache Ranger. — Только администраторы могут получить доступ к кластеру по протоколу SSH.
Аудит. Просмотрите все случаи получения доступа к ресурсам и данным кластера HDInsight и создайте о них отчет. — Просмотрите все изменения в политиках управления доступом и создайте о них отчет.
Шифрование. Прозрачное шифрование на стороне сервера с использованием ключей, управляемых корпорацией Майкрософт, или ключей, управляемых клиентом. — Шифрование передаваемых данных с использованием шифрования на стороне клиента, а также протоколов HTTPS и TLS.
Дополнительные сведения см. в следующих статьях:
- Что такое виртуальная сеть Azure?
- Группы безопасности
- Пиринговая связь между виртуальными сетями Azure.
- Руководство по безопасности службы хранилища Azure
- Шифрование службы хранилища Azure для неактивных данных
Использование мониторинга и оповещений
Дополнительные сведения см. в следующей статье:
Установка новых версий кластеров
Регулярно обновляйте кластеры до последней версии HDInsight, чтобы воспользоваться новейшими возможностями. Обновить кластер до последней версии можно, выполнив следующие шаги:
- Создайте кластер HDInsight для тестирования, используя последнюю доступную версию HDInsight.
- Протестируйте новый кластер, чтобы убедиться, что задания и рабочие нагрузки работают должным образом.
- Измените задания, приложения или рабочие нагрузки соответствующим образом.
- Создайте резервную копию всех временных данных, хранящихся локально на узлах кластера.
- Удалите существующий кластер.
- Создайте кластер последней версии HDInsight в той же подсети виртуальной сети, используя то же хранилище метаданных и данных по умолчанию, что и для предыдущего кластера.
- Импортируйте все временные данные из резервной копии.
- Запустите задания и продолжите обработку с помощью нового кластера.
Дополнительные сведения см. в статье Обновление кластера HDInsight до новой версии.
Исправление операционных систем кластера
Дополнительные сведения см. в статье Обновление путем частичной замены ОС для кластеров HDInsight.
Действия после миграции
- Исправление приложений. Внесите необходимые изменения в заданиях, процессах и сценариях в итеративном режиме.
- Выполнение тестов. Выполните функциональные тесты и тесты производительности в итеративном режиме.
- Оптимизация. Устраните любые проблемы с производительностью на основе вышеуказанных результатов тестов, а затем выполните повторное тестирование для подтверждения повышения производительности.