Habilitación de la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo
Cada área de trabajo de Azure Databricks tiene una cuenta de almacenamiento Azure asociada en un grupo de recurso administrado conocida como cuenta de almacenamiento del área de trabajo. La cuenta de almacenamiento del área de trabajo incluye datos del sistema del área de trabajo (salida de trabajos, configuración del sistema y registros), la raíz de DBFS y, en algunos casos, un catálogo de áreas de trabajo de Unity Catalog. En este artículo se describe cómo limitar el acceso a la cuenta de almacenamiento del área de trabajo solo desde recursos y redes autorizados mediante una plantilla de ARM (Azure Resource Manager).
¿Qué es la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo?
De forma predeterminada, la cuenta de almacenamiento de Azure para la cuenta de almacenamiento del área de trabajo acepta conexiones autenticadas de todas las redes. Para limitar este acceso, habilite la compatibilidad con el firewall en la cuenta de almacenamiento del área de trabajo. De esta forma, se garantiza que no se permite el acceso a la red pública y que la cuenta de almacenamiento del área de trabajo no es accesible desde redes no autorizadas. Es posible que quiera configurar esta opción si su organización tiene directivas de Azure que garantizan que las cuentas de almacenamiento son privadas.
Cuando la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo está habilitada, en todo el acceso desde servicios externos a Azure Databricks se deben usar puntos de conexión privados aprobados con Private Link. Azure Databricks crea un conector de acceso para conectarse al almacenamiento mediante una identidad administrada de Azure. El acceso desde procesos sin servidor de Azure Databricks debe usar puntos de conexión de servicio o puntos de conexión privados.
Requisitos
El área de trabajo debe habilitar la inyección de red virtual para las conexiones desde el plano de proceso clásico.
El área de trabajo debe habilitar la conectividad segura del clúster (sin IP pública o NPIP) para las conexiones desde el plano de proceso clásico.
El área de trabajo debe estar en el plan Premium.
Debe tener una subred distinta para los puntos de conexión privados de la cuenta de almacenamiento. Esto, además, de las dos subredes principales para la funcionalidad básica de Azure Databricks.
La subred debe estar en la misma red virtual que el área de trabajo o en otra red virtual a la que pueda acceder el área de trabajo. Use el tamaño mínimo de la notación CIDR,
/28
.Si usa Cloud Fetch con el servicio Power BI de Microsoft Fabric, siempre debe utilizar una puerta de enlace para el acceso privado a la cuenta de almacenamiento del área de trabajo o deshabilitar Cloud Fetch. Consulta Paso 2 (recomendado): Configuración de puntos de conexión privados para redes virtuales cliente de Cloud Fetch.
También puede usar la plantilla de ARM en el paso 5: Implementar la plantilla de ARM necesaria para crear una nueva área de trabajo. En ese caso, apague todo el proceso del área de trabajo antes de seguir los pasos del 1 al 4.
Paso 1: Creación de puntos de conexión privados en la cuenta de almacenamiento
Cree dos puntos de conexión privados a la cuenta de almacenamiento del área de trabajo desde la red virtual que se usó para la inyección de red virtual para los valores de subrecurso de destino: dfs
y blob
.
En Azure Portal, vaya al área de trabajo.
En Essentials, haga clic en el nombre del grupo de recursos administrado.
En Recursos, haga clic en el recurso de tipo Cuenta de almacenamiento que tenga un nombre que comience por
dbstorage
.En la barra lateral, haga clic en Redes.
Haga clic en Conexiones del punto de conexión privado.
Haga clic en + Punto de conexión privado.
En el campo Nombre del grupo de recursos, defina el grupo de recursos.
Importante
El grupo de recursos no debe ser el mismo grupo de recursos administrado en el que se encuentra la cuenta de almacenamiento del área de trabajo.
En el campo Nombre, escriba un nombre único para este punto de conexión privado:
- Para el primer punto de conexión privado que cree para cada red de origen, cree un punto de conexión DFS. Databricks recomienda agregar el sufijo
-dfs-pe
. - Para el segundo punto de conexión privado que cree para cada red de origen, cree un punto de conexión de blob. Databricks recomienda agregar el sufijo
-blob-pe
.
El campo Nombre de la interfaz de red se rellena automáticamente.
- Para el primer punto de conexión privado que cree para cada red de origen, cree un punto de conexión DFS. Databricks recomienda agregar el sufijo
Establezca el campo Región en la región del área de trabajo.
Haga clic en Next.
En Subrecurso de destino, haga clic en el tipo de recurso de destino.
- El primer punto de conexión privado que cree para cada red de origen establézcalo en dfs.
- El segundo punto de conexión privado que cree para cada red de origen establézcalo en blob.
En el campo Red virtual, seleccione una red virtual.
En el campo de subred, establezca la subred en la otra subred que tiene para los puntos de conexión privados de la cuenta de almacenamiento.
Este campo podría rellenarse automáticamente con la subred de los puntos de conexión privados, pero es posible que tenga que establecerlo explícitamente. No se puede usar una de las dos subredes de área de trabajo que se emplean para la funcionalidad básica del área de trabajo de Azure Databricks, que normalmente se denominan
private-subnet
ypublic-subnet
.Haga clic en Next. La pestaña DNS se rellena automáticamente con la suscripción y el grupo de recursos correctos que seleccionó anteriormente. Puede cambiarlos si es necesario.
Haga clic en Siguiente y agregue etiquetas si lo desea.
Haga clic en Siguiente y revise los campos.
Haga clic en Crear.
Para deshabilitar la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo, use el mismo proceso que antes, pero establezca el parámetro Storage Account Firewall (storageAccountFirewall
en la plantilla) en Disabled
y establezca el campo Workspace Catalog Enabled
en true
o en false
en función de si el área de trabajo usa un catálogo de áreas de trabajo de Unity Catalog. Vea ¿Qué son los catálogos en Azure Databricks?.
Paso 2 (recomendado): Configuración de puntos de conexión privados para redes virtuales cliente de Cloud Fetch
Cloud Fetch es un mecanismo de ODBC y JDBC para capturar datos en paralelo mediante el almacenamiento en la nube con el fin de llevar los datos más rápido a las herramientas de BI. Si va a capturar resultados de consulta de más de 1 MB de las herramientas de BI, es probable que use Cloud Fetch.
Nota:
Si usa el servicio Microsoft Fabric Power BI con Azure Databricks, debe deshabilitar Cloud Fetch, ya que esta característica bloquea el acceso directo a la cuenta de almacenamiento del área de trabajo desde Fabric Power BI. Como alternativa, puede configurar una puerta de enlace de datos de red virtual o una puerta de enlace de datos local para permitir el acceso privado a la cuenta de almacenamiento del área de trabajo. Esto no se aplica a Power BI Desktop. Para deshabilitar Cloud Fetch, use la configuración EnableQueryResultDownload=0
.
Si usa Cloud Fetch, cree puntos de conexión privados a la cuenta de almacenamiento del área de trabajo desde cualquier red virtual de los clientes de Cloud Fetch.
Para cada red de origen de clientes de Cloud Fetch, cree dos puntos de conexión privados que usen dos valores de subrecursos de destino diferentes: dfs
y blob
. Consulte Paso 1: Creación de puntos de conexión privados en la cuenta de almacenamiento para ver los pasos detallados. En esos pasos, en el campo Red virtual, al crear el punto de conexión privado, asegúrese de especificar la red virtual de origen para cada cliente de Cloud Fetch.
Paso 3: Confirmación de la aprobación de los puntos de conexión
Después de crear todos los puntos de conexión privados en la cuenta de almacenamiento, compruebe si están aprobados. Podrían aprobarse automáticamente o es posible que tenga que aprobarlos en la cuenta de almacenamiento.
- Vaya al área de trabajo en Azure Portal.
- En Essentials, haga clic en el nombre del grupo de recursos administrado.
- En Recursos, haga clic en el recurso de tipo Cuenta de almacenamiento que tenga un nombre que comience por
dbstorage
. - En la barra lateral, haga clic en Redes.
- Haga clic en Conexiones del punto de conexión privado.
- Compruebe el campo Estado de la conexión para confirmar que pone Aprobado o selecciónelos y haga clic en Aprobar.
Paso 4: Autorizar las conexiones de informática sin servidor
Debes autorizar los recursos informáticos sin servidor para que se conecten a la cuenta de almacenamiento de tu área de trabajo adjuntando una configuración de conectividad de red (NCC) a tu área de trabajo. Cuando se asocia un NCC a un área de trabajo, las reglas de red se agregan automáticamente a la cuenta de almacenamiento de Azure para la cuenta de almacenamiento del área de trabajo. Encontrará las instrucciones en Configuración de firewalls para el acceso de proceso sin servidor.
Si quiere habilitar el acceso al proceso sin servidor de Azure Databricks usando puntos de conexión privados, póngase en contacto con el equipo de su cuenta de Azure Databricks.
Paso 5: Implementación de la plantilla de ARM necesaria
En este paso se usa una plantilla de ARM para administrar el área de trabajo de Azure Databricks. También puede actualizar o crear el área de trabajo mediante Terraform. Consulte el proveedor azurerm_databricks_workspace Terraform.
En Azure Portal, busque y seleccione
Deploy a custom template
.Haga clic en Cree su propia plantilla en el editor.
Copie la plantilla de ARM desde Plantilla de ARM para la compatibilidad del firewall con la cuenta de almacenamiento del área de trabajo y péguela en el editor.
Haga clic en Save(Guardar).
Revise y edite los campos. Usa los mismos parámetros que usaste para crear el área de trabajo, como la suscripción, la región, el nombre del área de trabajo, los nombres de subred o el identificador de recurso de la red virtual existente.
Para obtener una descripción de los campos, consulte Campos de la plantilla de ARM.
Haga clic en Revisar y crear y, después, en Crear.
Nota:
El acceso a la red pública en su cuenta de almacenamiento del área de trabajo se establece en Habilitado desde redes virtuales y direcciones IP seleccionadas y no en Deshabilitado para poder admitir recursos informáticos sin servidor sin necesidad de puntos de conexión privados. La cuenta de almacenamiento del área de trabajo se encuentra en un grupo de recursos administrados y el firewall de almacenamiento solo se puede actualizar cuando se agrega una configuración de conectividad de red (NCC) para conexiones sin servidor a su área de trabajo. Si quiere habilitar el acceso al proceso sin servidor de Azure Databricks usando puntos de conexión privados, póngase en contacto con el equipo de su cuenta de Azure Databricks.