Présentation
Un pipeline de données est une série d’étapes de traitement des données. Les données brutes sont ingérées à partir de sources de données, passent par le traitement et la transformation des données, et enfin sont stockées pour l’analyse.
Delta Live Tables (DLT) est une infrastructure qui simplifie la construction et la gestion des pipelines de données pour les applications Big Data et Machine Learning. Vous définissez les transformations de données à effectuer sur vos données à l’aide de SQL ou Python et DLT gère l’orchestration des tâches, la surveillance, la qualité des données et les erreurs.
DLT propose plusieurs fonctionnalités pour simplifier les tâches d’engineering données et améliorer la fiabilité de l’infrastructure de données. Vous pouvez gérer la qualité des données avec les attentes Delta Live Tables directement dans vos pipelines. Les attentes DLT sont des déclarations de jeu de données qui appliquent des vérifications de qualité des données sur chaque enregistrement passant par une requête. DLT a également des fonctionnalités telles que le suivi de traçabilité et les optimisations des performances.