Azure Databricks и безопасность
Azure Databricks — это платформа аналитики данных, оптимизированная для облачных служб Azure. Она предлагает три среды для разработки приложений, которые интенсивно обрабатывают данные:
Дополнительные сведения о том, как с помощью Azure Databricks можно повысить безопасность аналитики больших данных, см. в статье Основные понятия Azure Databricks.
В следующих разделах приводятся рекомендации по проектированию, контрольный список по настройке и рекомендуемые параметры конфигурации, относящиеся к Azure Databricks.
Рекомендации по проектированию
По умолчанию все записные книжки и результаты записных книжек всех пользователей шифруются при хранении. Если применяются другие требования, рассмотрите возможность использования ключей, управляемых клиентом, для записных книжек.
Контрольный список
Вы настроили Azure Databricks с учетом требований к обеспечению безопасности?
- Используйте сквозное руководство по учетным данным Microsoft Entra ID, чтобы избежать необходимости субъектов-служб при взаимодействии с Azure Data Lake служба хранилища.
- Закройте общий доступ к своим рабочим областям, вычислительным ресурсам и данным. Предоставляйте доступ только подходящим пользователям и только по защищенным каналам.
- Убедитесь, что к облачным рабочим областям для аналитики есть доступ только у подходящих управляемых пользователей.
- Реализуйте Приватный канал Azure.
- Ограничьте виртуальные машины и отслеживайте их.
- Используйте списки доступа с динамическими IP-адресами, чтобы администраторы могли получать доступ к рабочим областям только из корпоративных сетей.
- Используйте функцию внедрения виртуальной сети, чтобы увеличить безопасность сценариев.
- Используйте журналы диагностики, чтобы проверять, кто получает доступ к рабочим областям и у кого есть надлежащие права для этого.
- Рассмотрите вариант использования безопасного подключения кластера и звездообразной архитектуры, чтобы предотвратить открытие портов и назначение узлам кластера общедоступных IP-адресов.
Рекомендации по настройке
Ознакомьтесь со следующей таблицей рекомендаций по оптимизации конфигурации Azure Databricks для повышения безопасности.
Рекомендация | Description |
---|---|
Убедитесь, что к облачным рабочим областям для аналитики есть доступ только у подходящих управляемых пользователей. | Идентификатор Microsoft Entra может обрабатывать единый вход для удаленного доступа. Дополнительные сведения о безопасности см. в статье Условный доступ. |
Реализуйте Приватный канал Azure. | Убедитесь, что весь трафик между пользователями вашей платформы, записными книжками и вычислительными кластерами, которые обрабатывают запросы, шифруется и передается по внутренней магистральной сети поставщика облачных услуг. |
Ограничьте виртуальные машины и отслеживайте их. | Кластеры, обрабатывающие запросы, должны использовать протокол SSH и иметь ограниченный доступ к сети. Это позволит предотвратить установку произвольных пакетов. В кластерах следует использовать только образы, которые периодически проверяются на наличие уязвимостей. |
Используйте функцию внедрения виртуальной сети, чтобы увеличить безопасность сценариев. | Например: . - Подключение к другим службам Azure с помощью конечных точек. - Подключение к локальным источникам данных, используя маршруты, задаваемые пользователями. - Подключение к виртуальному сетевому модулю, чтобы проверять весь исходящий трафик и выполнять нужные действия в соответствии с правилами разрешения и отклонения. - Использование настраиваемой службы DNS. - Развертывание кластеров Azure Databricks в существующих виртуальных сетях. |
Используйте журналы диагностики, чтобы проверять, кто получает доступ к рабочим областям и у кого есть надлежащие права для этого. | Используйте журналы аудита, чтобы отслеживать деятельность привилегированных пользователей в рабочей области, а также действия по изменению размера кластера и предоставлению доступа к файлам и папам в кластере. |
Артефакты источника
Сведения об артефактах источника Azure Databricks и другие записи блога Databricks: рекомендации по обеспечению безопасности платформы данных корпоративного класса.