Descripción de Delta Lake

5 minutos

Delta Lake es una capa de almacenamiento de código abierto que agrega semántica de base de datos relacional al procesamiento de lago de datos basado en Spark. Delta Lake se admite en grupos de Spark de Azure Synapse Analytics para código PySpark, Scala y .NET.

Las ventajas de usar Delta Lake en un grupo de Spark de Synapse Analytics incluyen:

Tablas relacionales que admiten consultas y modificaciones de datos. Con Delta Lake, puede almacenar datos en tablas que admitan operaciones CRUD (crear, leer, actualizar y eliminar). En otras palabras, puede seleccionar, insertar, actualizar y eliminar filas de datos de la misma manera que lo haría en un sistema de bases de datos relacionales.
Compatibilidad con transacciones ACID. Las bases de datos relacionales están diseñadas para admitir modificaciones de datos transaccionales que proporcionan atomicidad (las transacciones se completan como una sola unidad de trabajo), coherencia (las transacciones dejan la base de datos en un estado coherente), aislamiento (las transacciones en proceso no pueden interferir entre sí) y durabilidad (cuando se completa una transacción, se conservan los cambios realizados). Delta Lake aporta esta misma compatibilidad transaccional a Spark mediante la implementación de un registro de transacciones y la aplicación de aislamiento serializable para las operaciones simultáneas.
Control de versiones de datos y viaje en el tiempo. Dado que todas las transacciones se registran en el registro de transacciones, puede realizar un seguimiento de varias versiones de cada fila de tabla e incluso usar la característica de viaje en el tiempo para recuperar una versión anterior de una fila en una consulta.
Compatibilidad con datos por lotes y streaming. Aunque la mayoría de las bases de datos relacionales incluyen tablas que almacenan datos estáticos, Spark incluye compatibilidad nativa con datos de streaming a través de la API de Spark Structured Streaming. Las tablas de Delta Lake se pueden usar como receptores (destinos) y orígenes para los datos de streaming.
Formatos estándar e interoperabilidad. Los datos subyacentes de las tablas de Delta Lake se almacenan en formato Parquet, que se usa normalmente en canalizaciones de ingesta de lagos de datos. Además, puede usar el grupo de SQL sin servidor en Azure Synapse Analytics para consultar tablas de Delta Lake en SQL.

Sugerencia

Para más información sobre Delta Lake en Azure Synapse Analytics, consulte ¿Qué es Delta Lake? en la documentación de Azure Synapse Analytics.

Descripción de Delta Lake

Comentarios