Compreender o Delta Lake

5 minutos

O Delta Lake é uma camada de armazenamento de código aberto que adiciona semântica de banco de dados relacional ao processamento do data lake baseado em Spark. O Delta Lake é compatível com pools do Spark do Azure Synapse Analytics para código PySpark, Scala e .NET.

Os benefícios de usar o Delta Lake em um pool do Spark do Synapse Analytics incluem:

Tabelas relacionais que dão suporte a consulta e modificação de dados. Com o Delta Lake, você pode armazenar dados em tabelas compatíveis com operações CRUD (criar, ler, atualizar e excluir). Em outras palavras, você pode selecionar, inserir, atualizar e excluir linhas de dados da mesma forma que faria em um sistema de banco de dados relacional.
Suporte para transações ACID. Os bancos de dados relacionais são projetados para dar suporte a modificações de dados transacionais que fornecem atomicidade (transações concluídas como apenas uma unidade de trabalho), consistência (transações deixam o banco de dados em um estado consistente), isolamento (transações em processo não podem interferir entre si) e durabilidade (quando uma transação é concluída, as alterações feitas são persistentes). O Delta Lake traz esse mesmo suporte transacional ao Spark implementando um log de transações e impondo isolamento serializável para operações simultâneas.
Controle de versão de dados e viagem no tempo. Como todas as transações estão registradas no log de transações, você pode acompanhar várias versões de cada linha da tabela e até mesmo usar o recurso de viagem no tempo para recuperar uma versão anterior de uma linha em uma consulta.
Suporte para dados em lote e de streaming. Embora a maioria dos bancos de dados relacionais inclua tabelas que armazenam dados estáticos, o Spark inclui suporte nativo para streaming de dados por meio da API de Streaming Estruturado do Spark. As tabelas do Delta Lake podem ser usadas como coletores (destinos) e origens para dados de streaming.
Formatos padrão e interoperabilidade. Os dados subjacentes para tabelas do Delta Lake são armazenados no formato Parquet, que é comumente usado em pipelines de ingestão do data lake. Além disso, você pode usar o pool de SQL sem servidor no Azure Synapse Analytics para consultar tabelas do Delta Lake no SQL.

Dica

Para obter mais informações sobre o Delta Lake no Azure Synapse Analytics, confira O que é o Delta Lake na documentação do Azure Synapse Analytics.

Compreender o Delta Lake

Comentários