Compreender o Delta Lake

Concluído

O Delta Lake é uma camada de armazenamento de código aberto que adiciona semântica de banco de dados relacional ao processamento do data lake baseado em Spark. O Delta Lake é compatível com pools do Spark do Azure Synapse Analytics para código PySpark, Scala e .NET.

Os benefícios de usar o Delta Lake em um pool do Spark do Synapse Analytics incluem:

  • Tabelas relacionais que dão suporte a consulta e modificação de dados. Com o Delta Lake, você pode armazenar dados em tabelas compatíveis com operações CRUD (criar, ler, atualizar e excluir). Em outras palavras, você pode selecionar, inserir, atualizar e excluir linhas de dados da mesma forma que faria em um sistema de banco de dados relacional.
  • Suporte para transações ACID. Os bancos de dados relacionais são projetados para dar suporte a modificações de dados transacionais que fornecem atomicidade (transações concluídas como apenas uma unidade de trabalho), consistência (transações deixam o banco de dados em um estado consistente), isolamento (transações em processo não podem interferir entre si) e durabilidade (quando uma transação é concluída, as alterações feitas são persistentes). O Delta Lake traz esse mesmo suporte transacional ao Spark implementando um log de transações e impondo isolamento serializável para operações simultâneas.
  • Controle de versão de dados e viagem no tempo. Como todas as transações estão registradas no log de transações, você pode acompanhar várias versões de cada linha da tabela e até mesmo usar o recurso de viagem no tempo para recuperar uma versão anterior de uma linha em uma consulta.
  • Suporte para dados em lote e de streaming. Embora a maioria dos bancos de dados relacionais inclua tabelas que armazenam dados estáticos, o Spark inclui suporte nativo para streaming de dados por meio da API de Streaming Estruturado do Spark. As tabelas do Delta Lake podem ser usadas como coletores (destinos) e origens para dados de streaming.
  • Formatos padrão e interoperabilidade. Os dados subjacentes para tabelas do Delta Lake são armazenados no formato Parquet, que é comumente usado em pipelines de ingestão do data lake. Além disso, você pode usar o pool de SQL sem servidor no Azure Synapse Analytics para consultar tabelas do Delta Lake no SQL.

Dica

Para obter mais informações sobre o Delta Lake no Azure Synapse Analytics, confira O que é o Delta Lake na documentação do Azure Synapse Analytics.