¿Qué es Salas limpias de Azure Databricks?
En este artículo se presenta Salas limpias, una característica de Azure Databricks que usa Delta Sharing y un proceso sin servidor para proporcionar un entorno seguro y protegido por la privacidad en el que varias partes pueden trabajar conjuntamente en datos empresariales confidenciales sin acceso directo a los datos de los demás.
Requisitos
Para poder usar salas limpias, debe tener:
- Una cuenta habilitada para la computación sin servidor. Consulte Habilitación del proceso sin servidor.
- Área de trabajo habilitada para el catálogo de Unity. Consulte Habilitar un área de trabajo para Unity Catalog.
- Delta Sharing habilitado para el metastore de Unity Catalog. Consulte Habilitación de Delta Sharing en un metastore.
¿Cómo funciona Salas limpias?
Al crear una sala limpia, generará lo siguiente:
- Un objeto de sala limpia protegible en el metastore de Unity Catalog.
- La sala limpia "central", que es un entorno efímero aislado administrado por Databricks.
- Un objeto de sala limpia protegible en la metastore de Unity Catalog del colaborador.
Las tablas, los volúmenes (datos no tabulares), las vistas y el bloc de notas que comparta cada colaborador en la sala limpia solo se comparten con la sala limpia central, usando Delta Sharing.
Los colaboradores no pueden ver los datos en las tablas, vistas o volúmenes de otros colaboradores, pero pueden ver los nombres de columna y los tipos de columna, y pueden ejecutar código de cuaderno aprobado que funciona sobre los recursos de datos. El código del cuaderno se ejecuta en la sala limpia central. Los cuadernos también pueden generar tablas de salida que permitan al colaborador guardar temporalmente la salida de solo lectura en su metastore de Catálogo de Unity para que puedan trabajar con él en sus áreas de trabajo.
¿Cómo garantizan las Salas limpias un entorno de confianza cero?
El modelo de Salas limpias de Databricks es "de confianza cero". Todos los colaboradores de una sala limpia de confianza cero tienen privilegios iguales, incluida la persona que la haya creado. Clean Rooms está diseñado para evitar la ejecución de código no autorizado y el uso compartido no autorizado de datos. Por ejemplo, todos los colaboradores deben aprobar un cuaderno para poder ejecutarlo. Esta confianza se aplica implícitamente al impedir que un colaborador ejecute cualquier bloc de notas que haya creado por sí mismo: solo puede ejecutar un cuaderno creado por el otro colaborador.
Medidas de seguridad o restricciones adicionales
Las siguientes medidas de seguridad se aplican además del proceso implícito de aprobación de cuadernos mencionado anteriormente:
Una vez creada una sala limpia, se bloquea para evitar que los nuevos colaboradores se unan a ella.
Si algún colaborador elimina la sala limpia, la sala limpia central es nula y ningún usuario puede ejecutar ninguna tarea de sala limpia.
Durante la versión preliminar pública, cada sala limpia está limitada a dos colaboradores.
No se puede cambiar el nombre de la sala limpia.
El nombre de la sala limpia debe ser único en la metastore de cada colaborador, para que todos los colaboradores puedan hacer referencia a la misma sala limpia de forma inequívoca.
Los comentarios sobre la sala limpia protegible en el área de trabajo de cada colaborador no se propagan a otros colaboradores.
¿Qué se comparte con otros colaboradores?
- El nombre de la sala limpia.
- La nube y la región de la sala limpia central.
- El nombre de la organización (que puede ser cualquier nombre que elija).
- Identificador de uso compartido de salas limpias (identificador global de metastore + id. de área de trabajo + dirección de correo electrónico de usuario).
- Alias de tablas, vistas o volúmenes compartidos.
- Metadatos de columna (nombre de columna o alias y tipo).
- Cuadernos (solo lectura).
- Tablas de salida (solo lectura, temporales).
- Tabla del sistema de eventos de sala limpia
- Historial de ejecución, que incluye lo siguiente:
- Nombre del cuaderno que se está ejecutando
- Colaborador que ejecutó el cuaderno (no usuario).
- Estado de la ejecución del cuaderno.
- Hora de inicio de la ejecución del cuaderno.
¿Qué se comparte con la sala limpia central?
Todo lo que aparece en la sección anterior.
Tablas, volúmenes, vistas y cuadernos de solo lectura.
Las tablas, las vistas y los volúmenes se registran en el metastore de la sala limpia central con los alias proporcionados. Los recursos de datos se comparten a lo largo del ciclo de vida de la sala limpia.
Preguntas más frecuentes sobre salas limpias
A continuación se presentan las preguntas más frecuentes sobre salas limpias.
¿Cómo se administran mis datos en una sala limpia?
Azure Databricks administra la sala limpia central. En la sala limpia central:
- Ninguna de las partes tiene privilegios de administrador.
- Solo los metadatos son visibles para todas las partes.
- Cada entidad puede agregar datos a la sala limpia central.
- Las salas limpias usan Delta Sharing para compartir datos de forma segura en la sala limpia, pero no entre los participantes. Consulte ¿Qué es delta sharing?.
¿Cómo se mantienen mis datos privados?
Las salas limpias centrales se ejecutan en un plano de cómputo sin servidor, administrado y aislado por Databricks, hospedado en una región del proveedor de nube que el creador de la sala limpia elige.
Las habitaciones limpias proporcionan:
- Aprobación del código: el creador y los colaboradores de la sala limpia pueden compartir tablas y volúmenes con la sala limpia central, pero solo pueden ejecutar cuadernos cargados por la otra entidad. Puede revisar el código agregado por la otra parte antes de aprobarlo. Si ejecutas un cuaderno que ha sido añadido por otra persona, apruebas implícitamente el código.
- Control de versiones: los cuadernos de sala limpia disponen de control de versiones para garantizar que todas las entidades solo puedan ejecutar los cuadernos totalmente aprobados. Solo se puede ejecutar la versión más reciente de un cuaderno. Puede usar la tabla del sistema de salas limpias para ver qué versión del cuaderno se ejecutó y supervisar los cambios realizados.
- Acceso restringido: Cuando crea una sala blanca, puede utilizar el control de salida sin servidor para gestionar las conexiones de red salientes. Si restringe el acceso a la sala limpia, se bloquea el acceso al almacenamiento no autorizado. Consulte ¿Qué es el control de salida sin servidor?.
Para obtener más información sobre la seguridad y el plano de proceso sin servidor, consulte redes de plano de proceso sin servidor.
¿Cómo se registran las acciones?
Las acciones de sala limpia realizadas por usted o sus colaboradores se registran en la tabla del sistema de eventos de sala limpia. Estos registros incluyen metadatos detallados sobre la acción específica realizada. Consulte la Referencia de la tabla del sistema de eventos de sala limpia.
Las acciones de sala limpia también se registran en el registro de auditoría de la cuenta en el servicio clean-room
. Consulte la referencia de la tabla del sistema de registro de auditoría .
Limitaciones
Durante la versión preliminar pública, se aplican las siguientes limitaciones:
- No hay bibliotecas de Scala de credenciales de servicio incluidas en la versión necesaria de Databricks Runtime.
Cuotas de recursos
Azure Databricks aplica cuotas de recursos en todos los objetos protegibles de sala limpia. Estas cuotas se muestran en Límites de recursos. Si espera superar estos límites de recursos, póngase en contacto con el equipo de la cuenta de Azure Databricks.
Puede supervisar el uso de la cuota mediante las API de cuotas de recursos de Unity Catalog. Vea Supervisión del uso de cuotas de recursos de Unity Catalog.