Recomendaciones para trabajar con raíces de DBFS
Azure Databricks usa el directorio raíz de DBFS como ubicación predeterminada para algunas acciones del área de trabajo. Databricks recomienda que no se almacenen datos de producción o información confidencial en la raíz de DBFS. Este artículo se centra en las recomendaciones para evitar la exposición accidental de datos confidenciales en la raíz de DBFS.
Nota:
Azure Databricks configura una ubicación de almacenamiento privada independiente para conservar los datos y las configuraciones en el almacenamiento en la nube propiedad del cliente, conocido como DBFS interno. Esta ubicación no se expone a los usuarios.
Importante
A partir del 6 de marzo de 2023, las nuevas áreas de trabajo de Azure Databricks usarán cuentas de almacenamiento de Azure Data Lake Storage Gen2 para la raíz de DBFS. Las áreas de trabajo aprovisionadas anteriormente usan Blob Storage.
Indicar a los usuarios que no hay que almacenar datos en la raíz de DBFS
Dado que la raíz de DBFS es accesible para todos los usuarios de un área de trabajo, todos los usuarios pueden acceder a los datos que se almacenan aquí. Es importante indicar a los usuarios que eviten el uso de esta ubicación para almacenar datos confidenciales. La ubicación predeterminada para las tablas administradas en el metastore de Hive en Azure Databricks es la raíz de DBFS; para evitar que los usuarios finales que creen tablas administradas escriban en la raíz de DBFS, debe declarar una ubicación en el almacenamiento externo cuando cree bases de datos en el metastore de Hive.
Las tablas administradas de Unity Catalog usan una ubicación de almacenamiento segura de manera predeterminada. Databricks recomienda el uso de Unity Catalog para tablas administradas.
Uso del registro de auditoría para supervisar la actividad
Nota:
Para obtener más información sobre los eventos de auditoría de DBFS, consulte Eventos de DBFS.
Cifrado de datos raíz de DBFS con una clave administrada por el cliente
Puede cifrar datos raíz de DBFS con una clave administrada por el cliente. Consulte Claves administradas por el cliente para la raíz de DBFS
Importante
No deshabilite Storage account key access
para la cuenta de almacenamiento que respalda la raíz de DBFS. Al deshabilitar esta configuración, se producen comportamientos y errores inesperados.