Escenario de instituciones financieras para malla de datos
Este escenario es para clientes que quieren utilizar análisis a gran escala en la nube para arquitecturas de malla de datos y escalabilidad. Ilustra un escenario complejo con zonas de aterrizaje, integraciones de datos y productos de datos.
Perfil de cliente
Woodgrove Bank es una gran empresa multinacional ficticia de servicios financieros. Los datos de Woodgrove Bank se hospedan en sistemas de implementación locales y en la nube. Dentro de la arquitectura de Woodgrove Bank hay varios sistemas de almacenamiento de datos para marketing consolidado e informes integrados. Esta arquitectura también incluye varios lagos de datos para el análisis ad hoc y la detección de datos. Las aplicaciones de Woodgrove Bank están interconectadas mediante patrones de integración de aplicaciones, que se basan principalmente en API o en eventos.
Situación actual
Para Woodgrove Bank es complicado distribuir datos a diferentes ubicaciones debido a la complejidad del almacenamiento de sus datos. La integración de nuevos datos lleva mucho tiempo y resulta tentador duplicar los datos. Para Woodgrove Bank es difícil supervisar el panorama de datos de un extremo a otro debido a la conectividad punto a punto. El banco ha subestimado la demanda de un consumo intensivo de datos. Se presentan nuevos casos de uso rápidamente, uno tras otro. Tanto la gobernanza de los datos (como la propiedad y la calidad de los datos) como los costos son difíciles de controlar. Dado que Woodgrove Bank no sabe exactamente dónde residen sus datos, también resulta difícil mantenerse al día con las distintas normativas.
Solución de arquitectura: malla de datos
En los últimos años, las organizaciones han reconocido que los datos son la base de todo. Los datos posibilitan nuevas eficiencias, impulsan la innovación, desbloquean nuevos modelos de negocio y aumentan la satisfacción del cliente. Es una prioridad para las empresas usar métodos controlados por datos, como los datos a gran escala.
Alcanzar un punto en el que el valor más profundo de los datos sea accesible para todos los miembros de la organización es un desafío. Los sistemas heredados y estrechamente interconectados, las plataformas monolíticas centralizadas y la gobernanza compleja pueden ser barreras significativas para generar valor a partir de los datos.
Acerca de la malla de datos
El concepto de malla de datos, un término acuñado por Zhamak Dehghani, abarca datos, tecnología, procesos y organización. Conceptualmente, es un enfoque accesible para administrar datos en los que varios dominios usan sus propios datos. La malla de datos desafía la idea de centralización convencional de los datos. En lugar de examinar los datos como un único repositorio enorme, la malla de datos considera la descomposición de productos de datos independientes. Este cambio, de una propiedad centralizada a otra federada, está respaldado por una plataforma de datos moderna y de autoservicio, que normalmente se diseña mediante tecnologías nativas de la nube.
Al descomponer el concepto de malla de datos en bloques de creación, estos son algunos puntos clave que se deben tener en cuenta:
- Datos como producto: cada dominio (organizativo) opera sus datos de extremo a extremo. La responsabilidad recae en el propietario de los datos dentro del dominio. Las canalizaciones se convierten en una cuestión de primera clase de los propios dominios.
- Gobernanza de datos computacionales federados: para garantizar que cada propietario de datos pueda confiar en los demás y compartir sus productos de datos, se debe establecer un cuerpo de gobernanza de datos empresariales. El cuerpo de gobernanza implementa la calidad de los datos, la visibilidad central de la propiedad de los datos, la administración del acceso a los datos y las directivas de privacidad de los datos.
- Propiedad de los datos orientada al dominio: idealmente, la empresa debería definir y modelar cada nodo de dominio de datos dentro de la malla aplicando los principios del diseño orientado a dominios.
- Plataforma de datos de autoservicio: una malla de datos necesita una plataforma de datos de autoservicio que permita a los usuarios eliminar la complejidad técnica y centrarse en los casos de uso de sus datos individuales.
Análisis a escala de nube
El concepto de datos como producto y un modelo de plataforma de autoservicio no son nuevos para Microsoft. Durante muchos años Microsoft ha seguido procedimientos recomendados de plataformas distribuidas, canalizaciones entre dominios, propiedad federada y datos explicativos.
Woodgrove Bank puede emprender su transición a la malla de datos mediante el análisis a gran escala de la nube. El análisis a escala de la nube es un plan prescriptivo y de código abierto para diseñar e implantar rápidamente plataformas de datos modernas. Se combina con los procedimientos recomendados y los principios de diseño de Azure, y se alinea con el Marco de buena arquitectura de Azure. El análisis a gran escala de la nube ofrece a las empresas un punto de vista prescrito en un 80 % y el 20 % restante se puede personalizar.
El análisis a escala de la nube ofrece a las empresas un camino de diseño estratégico hacia la malla de datos, y puede utilizarse para establecer rápidamente dicha arquitectura. Ofrece un plano técnico, incluidos los servicios principales de la plataforma de datos para la administración de datos.
En el nivel más alto, el análisis a escala de la nube utiliza una capacidad de gestión de datos, que se habilita a través de la zona de aterrizaje de gestión de datos. Esta zona es responsable de la gobernanza de los datos federados de una organización de la plataforma (de autoservicio), y de los dominios de datos que impulsan el valor empresarial a través de productos de datos. La ventaja de este enfoque es que elimina la complejidad técnica, a la vez que se adhiere a los mismos estándares. Garantiza que no haya ninguna proliferación de tecnología. También permite a las empresas empezar con un enfoque modular, con un pequeño tamaño y, posteriormente, crecer con el tiempo.
La zona de aterrizaje de administración de datos, como se puede ver en el diagrama siguiente, rodea todos los dominios de datos. Aglutina todos los dominios y proporciona la supervisión que Woodgrove Bank necesita.
El análisis a escala de la nube también aboga por la aplicación de una gobernanza coherente que utilice una arquitectura común cuando los productos de datos estén distribuidos. El marco permite la comunicación directa entre dominios. Para mantener el control, enfatiza la catalogación y clasificación central para proteger los datos y permitir que los grupos descubran datos. Coloca un paraguas sobre el patrimonio de datos.
Dominios de datos
Cuando se utiliza el análisis a gran escala de la nube como vía estratégica, hay que pensar en la descomposición de la arquitectura y en la granularidad resultante. La malla de datos descompone los datos al no seguir los límites de las tecnologías. En su lugar, aplica los principios del diseño basado en dominios, un enfoque para el desarrollo de software que implica sistemas complejos para organizaciones más grandes. El diseño basado en dominios es popular debido a su efecto en los procedimientos modernos de desarrollo de aplicaciones y software, como los microservicios.
Uno de los patrones del diseño basado en dominios se conoce como contexto delimitado. Los contextos delimitados se usan para establecer los límites lógicos del espacio de soluciones de un dominio para administrar mejor la complejidad. Es importante que los equipos comprendan qué aspectos, incluidos los datos, pueden cambiar y cuáles son dependencias compartidas que se deben coordinar con otros equipos. La malla de datos adopta el contexto enlazado. Usa este patrón para describir cómo las organizaciones pueden coordinarse en torno a dominios de datos y centrarse en la entrega de datos como producto. Cada dominio de datos posee y opera varios productos de datos con una pila de tecnología propia, que es independiente de las demás.
Productos de datos
Al fijarnos en la arquitectura interna de este tipo de dominio de datos, cabe esperar encontrar productos de datos dentro de ella.
Los productos de datos satisfacen una necesidad específica dentro de las empresas que usan datos. Los productos de datos administran y organizan los datos en los dominios, además de encontrarles sentido, y presentan la información obtenida. Un producto de datos es el resultado de datos de una o varias integraciones de datos u otros productos de datos. Los productos de datos están estrechamente alineados con los dominios de datos y heredan el mismo lenguaje construido y formalizado. Está acordado con las partes interesadas y los diseñadores, y sirve a las necesidades del diseño. Cada dominio, que genera datos, es responsable de hacer que estos productos de datos estén disponibles para los demás dominios.
Para facilitar la entrega rápida de los productos de datos, el análisis a escala de la nube ofrece varias plantillas para la distribución de datos y patrones de integración. El marco proporciona lotes de datos, streaming y análisis para satisfacer las necesidades de diversos consumidores.
Una de las ventajas del análisis a escala de la nube es la organización de los dominios y los productos de datos. Cada dominio de datos se alinea con una zona de aterrizaje de datos, que es una construcción lógica y una unidad de escala en la arquitectura de análisis a gran escala de la nube. Permite la retención de datos y la ejecución de cargas de trabajo de datos, lo que genera conclusiones y valor. Cada producto de datos se alinea con un grupo de recursos dentro de la zona de aterrizaje de datos y todas las zonas de aterrizaje de datos y las zonas de administración se alinean con las suscripciones. Este enfoque facilita la implementación y la administración.
Todas las plantillas de análisis a escala de la nube heredan el mismo conjunto de políticas de la zona de aterrizaje de gestión de datos. Las plantillas proporcionan automáticamente los metadatos necesarios para la detectabilidad de los datos, la gobernanza, la seguridad, la administración de costos y la excelencia operativa. Puede incorporar rápidamente nuevos dominios de datos sin necesidad de realizar operaciones de incorporación, integración y pruebas complejas.
En el diagrama siguiente se muestra el aspecto que podría tener un producto de datos:
Un enfoque pragmático para crear productos de datos es alinearse con el origen, donde se originan los datos, o con el caso de uso de consumo. En ambos casos, debe proporcionar una visión abstracta del modelo de datos de aplicación subyacente (complejo). Debe intentar ocultar los detalles técnicos y optimizar para el consumo intensivo de datos. Una vista de Azure Synapse o un archivo Parquet, que agrupa lógicamente los datos, es un ejemplo de cómo se puede compartir un producto de datos entre varios dominios de datos.
A continuación, debe trabajar en la detectabilidad, la procedencia, el uso y el linaje de los datos. Un enfoque de eficacia probada es usar un servicio de gobernanza de datos, como Azure Purview, para registrar todos los datos. La integración de los datos en el análisis a gran escala de la nube conecta perfectamente los puntos, porque permite construir estos productos de datos al tiempo que realiza el registro de metadatos.
Al alinear los dominios de datos y las colecciones de Azure Purview, se captura automáticamente todo el origen de los datos, el linaje, los detalles de calidad de los datos y la información de consumo de los dominios individuales. Con este enfoque, puede conectar varios dominios de datos y productos a una solución de gobernanza centralizada, que almacena todos los metadatos de cada entorno. La ventaja es que integra centralmente todos los metadatos, permitiendo que sean fácilmente accesibles para varios consumidores. Puede ampliar esta arquitectura para registrar nuevos productos de datos.
En el diagrama siguiente se muestra una arquitectura de malla de datos entre dominios que usa la integración de datos del escenario de administración y análisis de datos.
El diseño de red permite que los productos de datos se compartan entre dominios mediante el uso de un costo mínimo y la eliminación de un único punto de error y limitaciones de ancho de banda. Para ayudar a garantizar la seguridad, puede usar el modelo de seguridad Confianza cero de Microsoft. El análisis a escala de la nube propone el uso del aislamiento de red a través de puntos de conexión privados y una comunicación de red privada, un modelo de acceso a datos basado en identidades que usa MI, UMI y grupos de seguridad anidados, siguiendo el principio de privilegios mínimos.
Puede usar identidades administradas para asegurarse de que se sigue un modelo de acceso con privilegios mínimos. Las aplicaciones y los servicios de este modelo tienen acceso limitado a los productos de datos. Las directivas de Azure, con las futuras directivas de datos, se usan para habilitar el autoservicio y aplicar recursos compatibles en todos los productos de datos, a escala. Con este diseño, puede tener acceso uniforme a los datos, a la vez que mantiene el control total mediante la auditoría y la gobernanza de datos centralizadas.
Evolución hacia el futuro
El análisis a escala de la nube está diseñada teniendo en cuenta la malla de datos. El escenario de administración y análisis de datos proporciona un enfoque de eficacia probada mediante el que las organizaciones pueden compartir datos en muchos dominios de datos. Este marco permite que los dominios tengan autonomía para tomar decisiones y gobierna la arquitectura al delimitarla con servicios de administración de datos.
Al implementar la malla de datos, agrupe y organice los dominios de manera lógica. Este enfoque necesita una visión empresarial y es probable que suponga un cambio cultural para la organización. El cambio requiere que federe la propiedad de los datos entre los dominios de datos y los propietarios que son responsables de proporcionar sus datos como productos. También requiere que los equipos se adapten a las funcionalidades centralizadas que ofrece la zona de aterrizaje de administración de datos. Este nuevo enfoque podría requerir que los equipos individuales renuncien a sus mandatos actuales, lo que probablemente genere rechazo. Es posible que tenga que tomar determinadas decisiones políticas y lograr un equilibrio entre el enfoque centralizado y el descentralizado.
Puede escalar una arquitectura de malla de datos agregando más zonas de aterrizaje a la arquitectura para dominios individuales. Estas zonas de aterrizaje usarán el emparejamiento de red virtual para conectarse a la zona de aterrizaje de administración de datos y a todas las demás zonas de aterrizaje. Este patrón le permite compartir conjuntos de productos de datos y recursos entre zonas. Al dividirlas en zonas distintas, puede distribuir las cargas de trabajo entre las suscripciones y los recursos de Azure. Este enfoque le permite implementar la malla de datos de forma orgánica.
Más información
Recursos de Microsoft:
Artículo del creador de la malla de datos, Zhamak Dehghani: