Включение поддержки брандмауэра для учетной записи хранения рабочей области
Каждая рабочая область Azure Databricks имеет связанную учетную запись хранения Azure в управляемой группе ресурсов, известной как учетная запись хранения рабочей области. Учетная запись хранения рабочей области включает данные системы рабочей области (выходные данные задания, параметры системы и журналы), корневой каталог DBFS и в некоторых случаях рабочую область Unity Catalogcatalog. В этой статье описывается, как limit доступ к учетной записи хранения рабочей области только из авторизованных ресурсов и сетей с помощью шаблона ARM (Azure Resource Manager).
Что такое поддержка брандмауэра для учетной записи хранения рабочей области?
По умолчанию учетная запись хранения Azure для рабочей области принимает авторизованные connections из всех сетей. Этот доступ можно limit, включив поддержку брандмауэра для учетной записи хранения рабочей области. Это гарантирует, что доступ к общедоступной сети запрещен, а учетная запись хранения рабочей области недоступна из несанкционированных сетей. Это может потребоваться настроить, если у вашей организации есть политики Azure, которые гарантируют, что учетные записи хранения являются частными.
Если поддержка брандмауэра для учетной записи хранения рабочей области включена, все доступ из служб за пределами Azure Databricks должен использовать утвержденные частные конечные точки с Приватный канал. Azure Databricks создает соединитель доступа для подключения к хранилищу с помощью управляемого удостоверения Azure. Доступ из бессерверных вычислений Azure Databricks должен использовать конечные точки службы или частные конечные точки.
Требования
Рабочая область должна поддерживать внедрение виртуальной сети для connections из классической вычислительной плоскости.
Рабочая область должна поддерживать безопасное подключение к кластеру (без общедоступного IP-адреса или NPIP) для connections из классической вычислительной плоскости.
Рабочая область должна находиться в плане "Премиум".
Для частных конечных точек для учетной записи хранения должна быть отдельная подсеть. Это в дополнение к основным двум подсетям для базовых функций Azure Databricks.
Подсеть должна находиться в той же виртуальной сети, что и рабочая область или отдельная виртуальная сеть, к которым может получить доступ рабочая область. Используйте минимальный размер
/28
в нотации CIDR.Если вы используете Cloud Fetch с служба Power BI Microsoft Fabric, необходимо всегда использовать шлюз для частного доступа к учетной записи хранения рабочей области или отключить cloud Fetch. См . шаг 2 (рекомендуется). Настройка частных конечных точек для виртуальных сетей клиента Cloud Fetch.
Вы также можете использовать шаблон ARM на шаге 5. Разверните необходимый шаблон ARM для создания новой рабочей области. В этом случае завершите работу всех вычислительных ресурсов в рабочей области перед выполнением шагов 1–4.
Шаг 1. Создание частных конечных точек в учетной записи хранения
Создайте две частные конечные точки в учетной записи хранения рабочей области из вашей виртуальной сети, которую вы использовали для внедрения виртуальных сетей, для целевого подресурса values: dfs
и blob
.
В портал Azure перейдите в рабочую область.
В разделе Essentials щелкните имя управляемой группы ресурсов.
В разделе "Ресурсы" щелкните ресурс типа учетной записи хранения с именем, начинающимся с
dbstorage
.На боковой панели щелкните "Сеть".
Щелкните частную конечную точку connections.
Щелкните + Частная конечная точка.
В поле «Имя группы ресурсов» введите вашу группу ресурсов set.
Внимание
Группа ресурсов не должна совпадать с управляемой группой ресурсов, в которую входит учетная запись хранения рабочей области.
В поле "Имя" введите уникальное имя для этой частной конечной точки:
- Для первой частной конечной точки, создаваемой для каждой исходной сети, создайте конечную точку DFS. Databricks рекомендует добавить суффикс
-dfs-pe
- Для второй частной конечной точки, создаваемой для каждой исходной сети, создайте конечную точку BLOB-объекта. Databricks рекомендует добавить суффикс
-blob-pe
Поле "Имя сетевого интерфейса" автоматически заполняется.
- Для первой частной конечной точки, создаваемой для каждой исходной сети, создайте конечную точку DFS. Databricks рекомендует добавить суффикс
Set поле региона в регион вашей рабочей области.
Нажмите кнопку Далее.
В подресурсе target щелкните тип целевого ресурса.
- Для первой частной конечной точки, создаваемой для каждой исходной сети, set это dfs.
- Для второй частной конечной точки, создаваемой для каждой исходной сети, set это в Blob.
В поле Виртуальная сеть укажите select виртуальную сеть.
В поле подсети set задайте отдельную подсеть для частных конечных точек учетной записи хранилища.
Это поле может автоматически заполняться подсетью для частных конечных точек, но может потребоваться set явно. Вы не можете использовать одну из двух подсетей рабочей области, которые используются для базовых функциональных возможностей рабочей области Azure Databricks, которые обычно называются
private-subnet
иpublic-subnet
.Нажмите кнопку Далее. Вкладка DNS автоматически заполняется правой подпиской и группой ресурсов, выбранной ранее. При необходимости измените их.
Нажмите кнопку "Далее" и добавьте теги при необходимости.
Нажмите кнопку "Далее" и просмотрите поля.
Нажмите кнопку Создать.
Чтобы отключить поддержку брандмауэра для учетной записи хранения рабочей области, используйте тот же процесс, что и выше, но set брандмауэр учетной записи хранения параметров (storageAccountFirewall
в шаблоне), чтобы Disabled
и set поле Workspace Catalog Enabled
true
или false
в зависимости от того, используется ли рабочая область Unity Catalog рабочей области catalog. См. Что такое catalogs в Azure Databricks?.
Шаг 2 (рекомендуется). Настройка частных конечных точек для виртуальных сетей клиента Cloud Fetch
Cloud Fetch — это механизм в ODBC и JDBC для параллельного получения данных через облачное хранилище для ускорения работы с данными в средства бизнес-аналитики. Если вы извлекаете результаты запроса размером более 1 МБ из средств бизнес-аналитики, скорее всего, вы используете Cloud Fetch.
Примечание.
Если вы используете служба Power BI Microsoft Fabric с Azure Databricks, необходимо отключить Cloud Fetch, так как эта функция блокирует прямой доступ к учетной записи хранения рабочей области из Fabric Power BI. Кроме того, можно настроить шлюз данных виртуальной сети или локальный шлюз данных, чтобы разрешить частный доступ к учетной записи хранения рабочей области. Это не относится к Power BI Desktop. Чтобы отключить cloud Fetch, используйте конфигурацию EnableQueryResultDownload=0
.
Если вы используете Cloud Fetch, создайте частные конечные точки для учетной записи хранения рабочей области из любых виртуальных сетей клиентов Cloud Fetch.
Для каждой исходной сети для клиентов Cloud Fetch создайте две частные конечные точки, использующие два разных целевых подресурса values: dfs
и blob
.
См. шаг 1. Создание частных конечных точек в учетной записи хранения для подробных действий. В этих шагах для поля виртуальной сети при создании частной конечной точки убедитесь, что для каждого клиента Cloud Fetch укажите исходную виртуальную сеть.
Шаг 3. Подтверждение утверждений конечных точек
После создания всех частных конечных точек в учетной записи хранения проверьте, утверждены ли они. Они могут автоматически утвердить или может потребоваться утвердить их в учетной записи хранения.
- Перейдите к рабочей области на портале Azure.
- В разделе Essentials щелкните имя управляемой группы ресурсов.
- В разделе "Ресурсы" щелкните ресурс типа учетной записи хранения с именем, начинающимся с
dbstorage
. - На боковой панели щелкните "Сеть".
- Щелкните частную конечную точку connections.
- Проверьте состояние подключения , чтобы убедиться, что они говорят, что утвержденные или select и щелкните Утвердить.
шаг 4. Авторизация бессерверных вычислительных connections
Для подключения к учетной записи хранения рабочей области необходимо авторизовать бессерверные вычисления, подключив конфигурацию сетевого подключения (NCC) к рабочей области. При присоединении NCC к рабочей области правила сети автоматически добавляются в учетную запись хранения Azure для учетной записи хранения рабочей области. Инструкции см. в разделе "Настройка брандмауэра для бессерверного доступа к вычислительным ресурсам".
Если вы хотите включить доступ из бессерверных вычислений Azure Databricks с помощью частных конечных точек, обратитесь к группе учетной записи Azure Databricks.
Шаг 5. Развертывание необходимого шаблона ARM
На этом шаге используется шаблон ARM для управления рабочей областью Azure Databricks. Вы можете также использовать update или создать рабочую область с помощью Terraform. См. azurerm_databricks_workspace поставщик Terraform.
На портале Azure найдите и select
Deploy a custom template
.Выберите Создать собственный шаблон в редакторе.
Скопируйте шаблон ARM из шаблона ARM для поддержки брандмауэра для учетной записи хранения рабочей области и вставьте его в редактор.
Нажмите кнопку Сохранить.
Просмотр и изменение полей. Используйте те же parameters, которые вы использовали для создания рабочей области, в том числе подписку, регион, имя рабочей области, имена подсетей, идентификатор ресурса существующей виртуальной сети.
Описание полей см. в разделе "Поля шаблона ARM".
Нажмите кнопку "Рецензирование" и "Создать" и "Создать".
Примечание.
Доступ к публичной сети в учетной записи хранения рабочей области setвключен для выбранных виртуальных сетей и IP-адресов, а не отключен, чтобы поддерживать бессерверные вычислительные ресурсы без необходимости использования частных конечных точек. Учетная запись хранения рабочей области находится в управляемой группе ресурсов, и брандмауэр хранилища можно обновить только при добавлении в рабочую область конфигурации сетевого подключения (NCC) для бессерверной функции connections. Если вы хотите включить доступ из бессерверных вычислений Azure Databricks с помощью частных конечных точек, обратитесь к группе учетной записи Azure Databricks.