Compartir a través de


Creación y uso de tablas de salida en Salas limpias de Databricks

Importante

Esta característica está en versión preliminar pública.

En este artículo se presentan tablas de salida, que son tablas de solo lectura temporales generadas por una ejecución de cuadernos y compartidas en el metastore de catálogos de Unity del ejecutor de cuadernos. En este artículo se describe cómo usar un cuaderno para crear tablas de salida y cómo los colaboradores pueden leer estas tablas de salida en su metastore de Catálogo de Unity.

Introducción a las tablas de salida

Las tablas de salida le permiten guardar temporalmente la salida de los cuadernos que se ejecutan en una sala limpia en un catálogo de salida de su metastore de catálogos de Unity, donde puede hacer que los datos estén disponibles para los miembros del equipo que no tienen la capacidad de ejecutar los cuadernos por sí mismos. También puede usar trabajos de Azure Databricks para ejecutar cuadernos y realizar tareas en tablas de salida. En combinación con el tipo de tarea del bloc de notas de Clean Room y la compatibilidad con los valores de tarea, las tablas de salida permiten crear flujos de trabajo complejos que dependen de blocs de notas de sala limpia.

Las tablas de salida son de solo lectura.

Solo la entidad de seguridad específica (usuario, grupo o entidad de servicio) que ejecuta el cuaderno tiene acceso de lectura predeterminado a la tabla de salida. No hay acceso de escritura. Un administrador de metastore puede conceder acceso de lectura a otras entidades de seguridad de su cuenta de Azure Databricks mediante privilegios estándar del catálogo de Unity.

Las tablas de salida se almacenan durante 30 días en la ubicación de almacenamiento predeterminada de la sala de limpieza central y se comparten en la metastore del colaborador mediante delta sharing. Si desea mantener una tabla de salida durante más de 30 días, debe copiarla en el almacenamiento local.

Cada ejecución de cuaderno crea un nuevo esquema en el catálogo de salida. Las nuevas ejecuciones no pueden anexar una tabla de salida existente.

Importante

Las tablas de salida solo se admiten cuando la sala limpia central está hospedada en AWS. Sin embargo, los colaboradores de Databricks en las tres nubes (AWS, Azure y Google Cloud) pueden compartir cuadernos que crean tablas de salida y pueden leer tablas de salida que se generan cuando ejecutan cuadernos compartidos. Los colaboradores de Google Cloud deben participar en la versión preliminar privada de Clean Rooms.

Creación de una tabla de salida

Para crear una tabla de salida, use los parámetros cr_output_catalog y cr_output_schema en el espacio de nombres de tabla de tres partes. Cada ejecución del cuaderno genera un nuevo esquema.

En el ejemplo siguiente, la celda del cuaderno crea una tabla de salida denominada overlapping_users en el catálogo de resultados del collborador que muestra a los usuarios cuya dirección de correo electrónico aparece en las collaborator.advertiser.profiles tablas y creator.publisher.profiles .

CREATE TABLE identifier(:cr_output_catalog || '.' || :cr_output_schema || '.overlapping_users') AS
SELECT collab_profiles.*
FROM collaborator.advertiser.profiles AS collab_profiles
JOIN creator.publisher.profiles AS creator_profiles
ON collab_profiles.email = creator_profiles.email

Leer una tabla de salida

Las tablas de salida aparecen en un catálogo compartido en el metastore del ejecutor de cuadernos. En el panel Catálogo del Explorador de catálogos, aparecen en la lista Catálogos compartidos.

Leer una tabla de salida es como leer cualquier otra tabla en el catálogo de Unity. Debe tener SELECT en la tabla, USE CATALOG en el catálogo de salida compartido y USE SCHEMA en el esquema generado automáticamente. El usuario que ejecutó el cuaderno que creó la tabla tiene estos permisos de forma predeterminada.

Antes de empezar

En esta sección se describen los requisitos de nube, configuración y proceso para leer tablas de salida.

Requisitos de la nube

Aunque la sala limpia central debe estar en AWS para admitir tablas de salida, las áreas de trabajo de colaboradores pueden estar en cualquiera de las tres nubes: AWS, Azure o Google Cloud. Los colaboradores de Google Cloud deben participar en la versión preliminar privada de Clean Rooms.

Requisito del catálogo de salida compartido

Para poder leer tablas de salida, un usuario debe crear el catálogo que los contiene. Solo tienes que hacerlo una vez por habitación limpia.

Permisos necesarios: EXECUTE_CLEAN_ROOM_TASK

  1. En el área de trabajo de Azure Databricks, haga clic en Icono de catálogo Catálogo.
  2. En la página Acceso rápido, haga clic en el botón Clean Rooms >.
  3. Seleccione la sala limpia de la lista.
  4. En el panel derecho, en Salida, haga clic en Crear catálogo.
  5. Escriba un nombre de catálogo de salida o acepte el valor predeterminado, que es <clean-room-name>_output.

El catálogo de salida aparece en la lista de catálogos compartidos en el panel Catálogo del Explorador de catálogos . Cada sala limpia en la que participa puede tener un catálogo de salida compartido en su metastore.

Requisitos de proceso

Las consultas en tablas de salida requieren un proceso sin servidor. Véase Conexión a la computación sin servidor.

Permisos necesarios para leer una tabla de salida

El usuario que ejecutó el cuaderno que creó la tabla de salida tiene permiso para leer de la tabla de salida de forma predeterminada. Todos los demás usuarios deben tener los permisos siguientes concedidos a ellos:

  • SELECT en la tabla
  • USE CATALOG en el catálogo de salida
  • USE SCHEMA en el esquema de salida

Ejecución del cuaderno

Para generar tablas de salida compartidas en el catálogo de resultados, un usuario con acceso a la sala limpia debe ejecutar el cuaderno. Consulte Ejecución de cuadernos en salas limpias. Cada ejecución de cuaderno crea un nuevo esquema de salida y una tabla.

Sugerencia

Puede usar trabajos de Azure Databricks para ejecutar cuadernos y realizar tareas en tablas de salida, lo que permite flujos de trabajo complejos. Consulte Uso de flujos de trabajo de Azure Databricks para ejecutar cuadernos de salas limpias.

Búsqueda y visualización de una tabla de salida

El usuario que ejecuta el cuaderno que crea la tabla de salida puede encontrar un vínculo a la tabla de salida en el historial de ejecución del cuaderno y ejecutar páginas de detalles en la interfaz de usuario de Salas limpias. En ambos casos, el vínculo está en el campo Esquema de salida. Consulte Supervisión de ejecuciones de cuadernos de salas limpias.

Historial de ejecución:

Vínculo de esquema de salida en el historial de ejecución

Detalles de ejecución:

Vínculo de esquema de salida en los detalles de ejecución

También puede encontrar el catálogo de salida en la lista de catálogos compartidos en el panel Catálogo del Explorador de catálogos .

Limitaciones

Además de los requisitos enumerados en Información general de las tablas de salida y Antes de comenzar, las tablas de salida tienen las siguientes limitaciones:

  • Las tablas de salida solo se admiten cuando la sala limpia central se hospeda en AWS y cuando se creó la sala limpia después de que se publicara la característica de tabla de salida.
  • Solo se admiten tablas. Los volúmenes y vistas, por ejemplo, no son.
  • Puede crear hasta 100 tablas de salida por cuaderno.