Exploración de delta Live Tables
Delta Live Tables (DLT) es un entorno integrado para administrar y automatizar canalizaciones de datos y está diseñado para el procesamiento de datos a gran escala en Azure. En lugar de definir las canalizaciones de datos mediante una serie de tareas independientes de Apache Spark, se definen tablas de streaming y vistas materializadas que el sistema debe crear y mantener actualizadas. DLT administra cómo se transforman los datos en función de las consultas que defina para cada paso de proceso.
DLT se integra con otros servicios de Azure, como Azure Data Lake Storage (ADLS), Azure Synapse Analytics y Azure Machine Learning. Esta integración facilita un enfoque unificado para la ingeniería de datos, lo que permite que los datos fluyan entre varios recursos de Azure. DLT abstrae la complejidad de la administración de canalizaciones de datos mediante la automatización de la orquestación, la supervisión y la confiabilidad de los flujos de trabajo de datos. Este enfoque administrado permite a los ingenieros de datos centrarse más en la definición de la lógica de negocios y menos en los desafíos operativos.
Ventajas de delta Live Tables
Delta Live Tables proporciona una solución sólida, escalable e integrada para compilar y administrar canalizaciones de datos en la nube. Mejora la productividad, mejora la calidad de los datos y permite una infraestructura de datos más simplificada en un entorno nativo de nube.
Proceso de desarrollo simplificado
Las canalizaciones en DLT se definen mediante declaración mediante Python o SQL, lo que simplifica el proceso de desarrollo. Al declarar qué transformaciones deben producirse en lugar de cómo ejecutarlas, puede adaptarse rápidamente a los requisitos de datos cambiantes y a las necesidades empresariales. DLT admite la implementación de comprobaciones de calidad de datos a través de expectativas, que son reglas personalizables que deben satisfacer los datos. Si los datos no cumplen los criterios especificados en la expectativa, DLT puede controlar automáticamente los errores, ya sea mediante el registro de problemas, las operaciones de reintento o la omisión de registros defectuosos.
Uso de herramientas integradas
Azure Databricks proporciona herramientas de supervisión completas que ayudan a realizar un seguimiento del estado y el rendimiento de las canalizaciones DLT. Además, DLT incluye el seguimiento automático del linaje, que es fundamental para depurar y comprender las transformaciones de datos en flujos de trabajo complejos. Las canalizaciones DLT están optimizadas para el rendimiento en Azure y usan las funcionalidades transaccionales de Delta Lake para controlar eficazmente grandes volúmenes de datos. Estas funcionalidades incluyen características como el control escalable de particiones y la administración optimizada de archivos, que reducen los cuellos de botella y mejoran las velocidades de procesamiento de datos.
Escalado dinámico
DLT puede escalar dinámicamente los recursos en función de una carga de trabajo, lo que significa que puede controlar los aumentos en el volumen de datos sin intervención manual. Esta flexibilidad hace que sea adecuado para las empresas que experimentan un rápido crecimiento o fluctuaciones estacionales en las necesidades de procesamiento de datos.