Uso de canalizaciones de Delta Live Tables con metastore de Hive heredado
En este artículo se detallan las configuraciones y advertencias específicas de las canalizaciones de Delta Live Tables configuradas para publicar datos en el metastore de Hive heredado. Databricks recomienda usar el catálogo de Unity para todas las canalizaciones nuevas. Consulte Utiliza el Catálogo Unity con tus canalizaciones de Tablas Delta Live.
Publicación de conjuntos de datos de canalización en el metastore de Hive heredado
Aunque es opcional, debe especificar un destino para publicar tablas creadas por la canalización cada vez que vaya más allá del desarrollo y las pruebas de una nueva canalización. La publicación de una canalización en un destino hace que los conjuntos de datos estén disponibles para realizar consultas en otro lugar del entorno de Azure Databricks.
Puede hacer que los datos de salida de la canalización resulten reconocibles y estén disponibles para su consulta mediante la publicación de conjuntos de datos en el metastore de Hive. Para publicar conjuntos de datos en el metastore, especifique un nombre de esquema en el campo Destino al crear una canalización. También puede agregar una base de datos de destino a una canalización existente.
De forma predeterminada, todas las tablas y vistas creadas en Delta Live Tables son locales para la canalización. Debe publicar tablas en un esquema de destino para consultar o usar conjuntos de datos de Delta Live Tables fuera de la canalización en la que se declaran.
Para publicar tablas desde las canalizaciones a Unity Catalog, consulte Uso de Unity Catalog con las canalizaciones de Delta Live Tables.
Publicación de conjuntos de datos de Delta Live Tables en el metastore de Hive heredado
Puede declarar un esquema de destino para todas las tablas de la canalización de Delta Live Tables mediante el campo Esquema de destino en las interfaces de usuario Configuración de canalización y Crear canalización.
También puede especificar un esquema en una configuración JSON estableciendo el valor target
.
Debe ejecutar una actualización para que la canalización publique los resultados en el esquema de destino.
Puede usar esta característica con varias configuraciones de entorno para publicar en esquemas diferentes en función del entorno. Por ejemplo, puede publicar en un esquema dev
para desarrollo y en un esquema prod
para datos de producción.
Consulta de tablas de streaming y vistas materializadas en el metastore de Hive heredado
Una vez completada una actualización, puede ver el esquema y las tablas, consultar los datos o usar los datos en aplicaciones de bajada.
Una vez publicada, las tablas de Delta Live Tables se pueden consultar desde cualquier entorno con acceso al esquema de destino. Esto incluye Databricks SQL, cuadernos y otras canalizaciones de Delta Live Tables.
Importante
Al crear una configuración target
, solo se publican tablas y metadatos asociados. No se publican vistas en el metastore.
Especificar una ubicación de almacenamiento
Puede especificar una ubicación de almacenamiento para una canalización que se publica en el metastore de Hive. La motivación principal para especificar una ubicación es controlar la ubicación de almacenamiento de objetos para los datos escritos por la canalización.
Dado que todas las tablas, los datos, los puntos de control y los metadatos de las canalizaciones de Delta Live Tables están totalmente administrados por Delta Live Tables, la mayoría de las interacciones con los conjuntos de datos de Delta Live Tables se producen a través de tablas registradas en el metastore de Hive o en Unity Catalog.
Configuración de almacenamiento en la nube
Para acceder Azure Storage, debe configurar los parámetros necesarios, incluidos los tokens de acceso, mediante la configuración spark.conf
en las configuraciones del clúster. Para un ejemplo de cómo configurar el acceso a una cuenta de almacenamiento de Azure Data Lake Storage Gen2 (ADLS Gen2), consulte Acceso seguro a las credenciales de almacenamiento con secretos en una canalización.
Cuadernos de código fuente de canalización de ejemplo para áreas de trabajo sin catálogo de Unity
Puede importar los siguientes cuadernos en un área de trabajo de Azure Databricks sin el catálogo de Unity habilitado y usarlos para implementar una canalización de Delta Live Tables. Importe el cuaderno del idioma elegido y especifique la ruta de acceso en el campo Código fuente al configurar una canalización con la opción de almacenamiento de metastore de Hive. Consulte Configuración de una canalización de Delta Live Tables.