Configuración del acceso a datos para la ingesta
En este artículo se describe cómo los usuarios administradores pueden configurar el acceso a los datos de un contenedor en Azure Data Lake Storage Gen2 (ADLS Gen2) para que los usuarios de Azure Databricks puedan cargar datos de ADLS Gen2 en una tabla de Azure Databricks.
En este artículo se describen las siguientes formas de configurar el acceso seguro a los datos de origen:
(Recomendado) Cree un volumen de del catálogo de Unity.
Cree una ubicación externa del catálogo de Unity con una credencial de almacenamiento.
Inicie un recurso de proceso que use una entidad de servicio.
Genere credenciales temporales (un token de SAS de blob).
Antes de empezar
Antes de configurar el acceso a los datos en ADLS Gen2, asegúrese de que tiene lo siguiente:
Datos en un contenedor en una cuenta de almacenamiento de Azure. Para crear un contenedor, consulte Creación de un contenedor en la documentación de Azure Storage.
Para acceder a los datos mediante un volumen del catálogo de Unity (recomendado), el privilegio
READ VOLUME
en el volumen. Para obtener más información, consulte ¿Qué son los volúmenes del catálogo de Unity? y Privilegios y objetos protegibles de Unity Catalog.Para acceder a los datos mediante una ubicación externa del catálogo de Unity, el privilegio
READ FILES
en la ubicación externa. Para más información, consulte Creación de una ubicación externa para conectar el almacenamiento en la nube a Azure Databricks.Para acceder a los datos mediante un recurso de proceso con una entidad de servicio, los permisos de administrador del área de trabajo de Azure Databricks.
Para acceder a los datos mediante credenciales temporales:
- Los permisos de administrador del área de trabajo de Azure Databricks.
- Los permisos en la cuenta de Azure para crear tokens de SAS de blob. Esto le permite generar credenciales temporales.
Un almacén de Databricks SQL. Para crear un almacén de SQL, consulte Creación de un almacén de SQL.
Estar familiarizado con la interfaz de usuario de Databricks SQL.
Configuración del acceso al almacenamiento en la nube
Use uno de los métodos siguientes para configurar el acceso a ADLS Gen2:
(Recomendado) Cree un volumen de del catálogo de Unity. Para obtener más información, vea ¿Qué son los volúmenes del Unity Catalog?.
Configure una ubicación externa del catálogo de Unity con una credencial de almacenamiento. Para más información sobre las ubicaciones externas, consulte Creación de una ubicación externa para conectar el almacenamiento en la nube a Azure Databricks.
Configure un recurso de proceso para usar una entidad de servicio. Para más información, consulte Configuración de un servicio principal.
Genere credenciales temporales (un token de SAS de blob) para compartir con otros usuarios de Azure Databricks. Para obtener más información, consulte Generar credenciales temporales para la ingesta.
Limpieza
Puede limpiar los recursos asociados de la cuenta en la nube y Azure Databricks si ya no desea conservarlos.
Eliminar la cuenta de almacenamiento de ADLS Gen2
- Abra Azure Portal para la cuenta de Azure, normalmente en https://portal.azure.com.
- Vaya a la cuenta de almacenamiento y ábrala.
- Haga clic en Eliminar.
- Escriba el nombre de la cuenta de almacenamiento y después haga clic en Eliminar.
Detener el almacén de SQL
Si no usa el almacén de SQL para ninguna otra tarea, debe detenerlo para evitar costos adicionales.
- En el rol SQL, en la barra lateral, haga clic en Almacenes de SQL.
- Haga clic en Stop junto al nombre del almacén de SQL.
- Cuando se le solicite, haga clic en Stop de nuevo.
Pasos siguientes
Después de completar los pasos de este artículo, los usuarios pueden ejecutar el comando COPY INTO
para cargar los datos del contenedor de ADLS Gen2 en el área de trabajo de Azure Databricks.
Para cargar datos mediante una ubicación externa o volumen del catálogo de Unity, consulte Carga de datos mediante COPY INTO con volúmenes del catálogo de Unity o ubicaciones externas.
Para cargar datos mediante una instancia del almacén de SQL con una entidad de servicio, consulte Carga de datos mediante COPY INTO con una entidad de servicio.
Para cargar datos mediante credenciales temporales (un token de SAS de blob), consulte Carga de datos mediante COPY INTO con credenciales temporales.