Introdução
Um pipeline de dados é uma série de etapas de processamento de dados. Os dados brutos são ingeridos das fontes de dados, submetidos ao processamento e transformação de dados e, para terminar, armazenados para análise.
O Delta Live Tables (DLT) é uma estrutura que simplifica a construção e o gerenciamento de pipelines de dados para aplicativos de big data e machine learning. Você define as transformações de dados usando SQL ou Python para executá-las em seus dados e o DLT gerencia a orquestração, o monitoramento, a qualidade dos dados e o tratamento de erros.
O DLT tem vários recursos para simplificar as tarefas de engenharia de dados e aumentar a confiabilidade da infraestrutura de dados. Você pode gerenciar a qualidade dos dados com as expectativas do Delta Live Tables diretamente nos seus pipelines. As expectativas do DLT são declarações de conjuntos de dados que aplicam verificações de qualidade de dados a cada registro que esteja passando por uma consulta. O DLT também tem recursos como acompanhamento de linhagem e otimizações de desempenho.