Explorer Delta Live Tables

Effectué

Delta Live Tables (DLT) est un environnement intégré pour la gestion et l’automatisation des pipelines de données, conçu pour le traitement de données à grande échelle dans Azure. Au lieu de définir vos pipelines de données à l’aide d’une série de tâches Apache Spark distinctes, vous définissez des tables de diffusion en continu et des vues matérialisées que le système doit créer et tenir à jour. DLT gère la façon dont vos données sont transformées en fonction des requêtes que vous définissez pour chaque étape de processus.

DLT s’intègre à d’autres services Azure tels qu’Azure Data Lake Storage (ADLS), Azure Synapse Analytics et Azure Machine Learning. Cette intégration facilite une approche unifiée de l’engineering données, ce qui permet aux données de circuler entre différentes ressources Azure. DLT extrait la complexité de la gestion des pipelines de données en automatisant l’orchestration, la surveillance et la fiabilité des flux de travail de données. Cette approche managée permet aux ingénieurs données de se concentrer davantage sur la définition de la logique métier et moins sur les défis opérationnels.

Avantages de Delta Live Tables

Delta Live Tables fournit une solution robuste, évolutive et intégrée pour créer et gérer des pipelines de données dans le cloud. Il améliore la productivité et la qualité des données, et permet une infrastructure de données simplifiée dans un environnement natif cloud.

Processus de développement simplifié

Dans DLT, les pipelines sont définis de manière déclarative à l’aide de Python ou SQL, ce qui simplifie le processus de développement. En déclarant quelles transformations doivent se produire plutôt que la manière de les exécuter, vous pouvez rapidement vous adapter aux changements en matière d’exigences des données et de besoins métier. DLT prend en charge l’implémentation des contrôles de qualité des données par le biais des attentes, qui sont des règles personnalisables que les données doivent satisfaire. Si les données ne répondent pas aux critères spécifiés dans l’attente, DLT peut gérer automatiquement les erreurs en journalisant les problèmes, en retentant les opérations ou en ignorant les enregistrements défectueux.

Outils intégrés

Azure Databricks fournit des outils de supervision complets qui permettent de suivre l’intégrité et les performances des pipelines DLT. En outre, DLT inclut le suivi automatique de la traçabilité, ce qui est essentiel pour déboguer et comprendre les transformations de données dans les flux de travail complexes. Les pipelines DLT sont optimisés pour les performances dans Azure et utilisent les fonctionnalités transactionnelles de Delta Lake pour gérer efficacement de grands volumes de données. Ces fonctionnalités incluent la gestion évolutive des partitions et la gestion de fichiers optimisée, ce qui réduit les goulots d’étranglement et améliore les vitesses de traitement de données.

Mise à l’échelle dynamique

DLT peut mettre à l’échelle les ressources de manière dynamique en fonction d’une charge de travail, ce qui signifie qu’elle peut gérer des augmentations du volume de données sans intervention manuelle. Cette flexibilité convient aux entreprises qui connaissent une croissance rapide ou des fluctuations saisonnières des besoins en matière de traitement de données.