Descripción de la arquitectura de medallas

Completado

Los almacenes del almacén de lago de datos de Fabric se basan en el formato Delta Lake, que admite de forma nativa transacciones ACID (Atomicidad, Consistencia, Aislamiento, Durabilidad). En este marco, la arquitectura de medallas es un patrón de diseño de datos recomendado que se usa para organizar los datos en un lago de forma lógica. Tiene como objetivo mejorar la calidad de los datos a medida que se mueve a través de diferentes capas. La arquitectura normalmente tiene tres capas: bronce (sin procesar), plata (validada) y oro (enriquecida), y cada una representa niveles de calidad de datos más altos. Algunas personas también la llaman una arquitectura de "salto múltiple", lo que significa que los datos pueden moverse entre capas según sea necesario.

Esta arquitectura garantiza que los datos sean confiables y coherentes a medida que pasan por varias comprobaciones y cambios. También garantiza que los datos se almacenan de forma segura de forma que sea más fácil y rápido analizarlos.

La arquitectura de medallas complementa otros métodos de organización de datos, en lugar de reemplazarlos. Puede considerar la arquitectura de medallas como marco para la limpieza de datos, en lugar de una arquitectura o modelo de datos. Garantiza la compatibilidad y flexibilidad para que las empresas adopten sus ventajas junto con los modelos de datos existentes, lo que le permite personalizar las soluciones de datos y conservar la experiencia, al tiempo que permanece adaptable en el panorama de datos que cambia constantemente.

Diagrama de una arquitectura de medallas en la que los datos fluyen desde el origen hasta las capas de bronce, plata y oro.

Descripción del formato de arquitectura de medallas

Capa Bronce

La capa bronce o sin procesar de la arquitectura de medallas es la primera capa del almacén de lago. Es la zona de aterrizaje de todos los datos, ya sean estructurados, semiestructurados o no estructurados. Los datos se almacenan en su formato original y no se realizan cambios en ellos.

Capa Plata

La capa de plata o validada es la segunda capa del almacén lago. Es donde validará y refinará los datos. Las actividades típicas de la capa de plata incluyen la combinación y fusión de datos y la aplicación de reglas de validación de datos, como quitar valores NULL y desduplicar. La capa de plata se puede considerar como un repositorio central en una organización o equipo, donde los datos se almacenan en un formato coherente y varios equipos pueden acceder a ellos. En la capa de plata se limpian los datos lo suficiente para que todo esté en un solo lugar y listo para ser refinado y modelado en la capa de oro.

Capa Oro

La capa de oro o enriquecida es la tercera capa del almacén de lago. En la capa dorada, los datos se someten a un refinamiento adicional para alinearse con necesidades específicas de negocio y análisis. Esto podría implicar la agregación de datos a una granularidad determinada, como diaria o por hora, o enriquecerlos con información externa. Una vez que los datos lleguen a la fase de oro, estarán listos para su uso por parte de los equipos de nivel inferior, incluidos el análisis, la ciencia de datos o MLOps.

Personalización de la arquitectura de medallas

En función del caso de uso específico de su organización, es posible que necesite más capas. Por ejemplo, es posible que tenga una capa "sin procesar" adicional para los datos de aterrizaje en un formato específico antes de que se transformen en la capa de bronce. O bien, es posible que tenga una capa de "platino" para los datos que se han refinado y enriquecido aún más para un caso de uso específico. Independientemente de los nombres y el número de capas, la arquitectura de medallas es flexible y se puede adaptar para satisfacer los requisitos concretos de su organización.

Movimiento de datos entre capas en Fabric

El movimiento de datos entre capas de medallas refina, organiza y prepara los datos para las actividades de datos de nivel inferior. Dentro del almacén de lago de Fabric, hay más de una manera de mover datos entre capas, lo que garantiza que puede elegir el método que funciona para su equipo.

Hay algunas cosas que se deben tener en cuenta al decidir cómo mover y transformar datos entre capas.

  • ¿Con cuántos datos está trabajando?
  • ¿Qué tan complejas son las transformaciones que necesita realizar?
  • ¿Con qué frecuencia necesitará mover datos entre capas?
  • ¿Con qué herramientas se siente más cómodo?

Comprender la diferencia entre la transformación de datos y la orquestación de datos le ayuda a seleccionar las herramientas adecuadas para el trabajo en Fabric.

La transformación de datos implica modificar la estructura o el contenido de los datos para cumplir requisitos específicos. Las herramientas para la transformación de datos en Fabric incluyen flujos de datos (Gen2) y cuadernos. Los flujos de datos son una excelente opción para modelos semánticos más pequeños y transformaciones simples. Los cuadernos son una mejor opción para modelos semánticos más grandes y transformaciones más complejas. Los cuadernos también permiten guardar los datos transformados como una tabla delta administrada en el almacén de lago, lista para la creación de informes.

La orquestación de datos hace referencia a la coordinación y administración de varios procesos relacionados con los datos, lo que garantiza que trabajen juntos para lograr un resultado deseado. La herramienta principal para la orquestación de datos en Fabric son las canalizaciones. Una canalización es una serie de pasos que mueven datos de un lugar a otro, en este caso, de una capa de la arquitectura de medallas a la siguiente. Las canalizaciones se pueden automatizar para que se ejecuten según una programación o se desencadenen mediante un evento.