Compartir vía


Uso compartido de datos mediante el protocolo Delta Sharing Databricks a Databricks (para proveedores)

En este artículo se proporciona información general sobre cómo usar Delta Sharing de Databricks a Databricks para compartir datos de forma segura con cualquier usuario de Databricks, independientemente de la cuenta o del host en la nube, siempre y cuando ese usuario tenga acceso a un área de trabajo habilitada para Unity Catalog.

Nota:

Si es un destinatario de datos (un usuario o grupo de usuarios con los que se comparten los datos de Databricks), consulte Acceso a datos compartidos con usted mediante Delta Sharing (para destinatarios).

¿Quién debe usar Delta Sharing de Databricks a Databricks?

Hay tres maneras de compartir datos mediante Delta Sharing.

  1. El protocolo de uso compartido de Databricks a Databricks, tratado en este artículo, le permite compartir datos desde el área de trabajo habilitada para el catálogo de Unity con usuarios que también tienen acceso a un área de trabajo de Databricks habilitada para el catálogo de Unity.

    Este enfoque usa el servidor Delta Sharing integrado en Azure Databricks y proporciona compatibilidad con el uso compartido de cuadernos, la gobernanza de datos del Catálogo de Unity, la auditoría y el seguimiento de uso para proveedores y destinatarios. La integración con el Catálogo Unity simplifica la configuración y la gobernanza, tanto para los proveedores como para los destinatarios, y mejora el rendimiento.

  2. El protocolo de uso compartido abierto de Databricks, le permite compartir los datos que administra en un área de trabajo de Databricks habilitada para el catálogo Unity con usuarios de cualquier plataforma informática.

    Consulte Uso compartido de datos mediante el protocolo de intercambio abierto (para proveedores).

  3. Una implementación administrada por el cliente del servidor de código abierto Delta Sharing le permite compartir desde cualquier plataforma a cualquier plataforma, ya sea Databricks o no.

    Consulte github.com/delta-io/delta-sharing.

Para obtener una introducción al uso compartido de Delta y más información acerca de estos tres enfoques, consulte ¿Qué es el uso compartido delta?.

Flujo de trabajo de Delta Sharing de Databricks a Databricks

En esta sección se proporciona información general de alto nivel sobre el flujo de trabajo de uso compartido de Databricks a Databricks, con vínculos a documentación detallada para cada paso.

En el modelo de Delta Sharing de Databricks a Databricks:

  1. Un destinatario de datos proporciona a un proveedor de datos el identificador de uso compartido único del metastore de Unity Catalog de Databricks que está asociado al área de trabajo de Databricks que el destinatario (que representa a un usuario o grupo de usuarios) usará para acceder a los datos que comparte el proveedor de datos.

    Para obtener más información, consulte Paso 1: Solicitar el identificador de uso compartido del destinatario.

  2. El proveedor de datos crea un recurso compartido en el metastore de Unity Catalog del proveedor. Este objeto con nombre contiene una colección de tablas, vistas, volúmenes y cuadernos registrados en metastore.

    Para obtener más información, consulte el artículo sobre cómo crear y administrar recursos compartidos para Delta Sharing.

  3. El proveedor de datos crea un objeto destinatario en el metastore de Unity Catalog del proveedor. Este objeto con nombre representa el usuario o grupo de usuarios que tendrán acceso a los datos incluidos en el recurso compartido, junto con el identificador de uso compartido del metastore de Unity Catalog que se asocia al área de trabajo que usará el usuario o grupo de usuarios para acceder al recurso compartido. El identificador de uso compartido es el identificador de clave que habilita la conexión segura.

    Para obtener más información, consulte Paso 2: creación del destinatario.

  4. El proveedor de datos concede al destinatario acceso al recurso compartido.

    Para obtener más información, consulte Administración del acceso a los datos compartidos de Delta Sharing (para proveedores).

  5. El recurso compartido está disponible en el área de trabajo de Databricks del destinatario y los usuarios pueden acceder a él mediante Catalog Explorer, la CLI de Databricks o los comandos SQL de un cuaderno de Azure Databricks o el editor de consultas de Databricks SQL.

    Para acceder a las tablas, vistas, volúmenes y cuadernos de un recurso compartido, un administrador de metastore o usuario con privilegios debe crear un catálogo a partir del recurso compartido. A continuación, ese usuario u otro usuario al que se concede el privilegio adecuado puede conceder a otros usuarios acceso al catálogo y a los objetos del catálogo. La concesión de permisos en catálogos compartidos y recursos de datos funciona igual que con cualquier otro recurso registrado en Unity Catalog, con la distinción importante de que solo se puede conceder acceso de lectura a los objetos de los catálogos creados a partir de recursos compartidos de Delta Sharing.

    Los cuadernos compartidos residen en el nivel de catálogo y cualquier usuario con el privilegio USE CATALOG en el catálogo puede acceder a ellos.

    Para obtener más información, consulte Lectura de datos compartidos mediante el uso de Delta de Databricks a Databricks Delta Sharing (para destinatarios).

Mejorar el rendimiento de lectura de tablas con el uso compartido del historial

Importante

Esta característica está en versión preliminar pública.

Los recursos compartidos de tablas de Databricks a Databricks pueden mejorar el rendimiento al permitir el uso compartido del historial. El historial de uso compartido mejora el rendimiento aprovechando las credenciales de seguridad temporales del almacenamiento en la nube, con ámbito hasta el directorio raíz de la tabla Delta compartida del proveedor, lo que da lugar a un rendimiento comparable al acceso directo a las tablas de origen.

  • Para los recursos compartidos de tabla nuevos, especifique WITH HISTORY al crear el recurso compartido de tabla. Consulte Agregar tablas a un recurso compartido. Al compartir una tabla usando computación en Databricks Runtime 16.2 y versiones posteriores, WITH HISTORY es el valor predeterminado.
  • Para los recursos compartidos de tabla existentes, debe modificar el recurso compartido para compartir el historial de tablas. Consulte Actualización de recursos compartidos. Al compartir una tabla usando el cálculo en Databricks Runtime 16.2 y versiones posteriores, WITH HISTORY es el valor predeterminado.

Al compartir un esquema completo, todas las tablas del esquema se comparten con el historial de forma predeterminada.

Nota:

Las tablas con particiones habilitadas no reciben los beneficios de rendimiento del uso compartido del historial. Consulte Especificación de particiones de tabla para compartir

Privacidad de datos al compartir historial

Los proveedores deben tener en cuenta que el uso compartido del historial de Databricks a Databricks concede a los destinatarios de Delta Sharing acceso de lectura temporal tanto a los archivos de datos como al registro de Delta. El registro Delta contiene el historial de confirmaciones de cada versión de tabla, información sobre el confirmador (similar al historial de confirmaciones de GitHub) y los datos eliminados que no se han vacío.