Un escenario de institución financiera para Data Mesh
Este escenario es para los clientes que desean utilizar análisis escalables en la nube y arquitecturas de malla de datos . Muestra un escenario complejo con zonas de aterrizaje, integraciones de datos y productos de datos.
Perfil de cliente
Una empresa ficticia, Woodgrove Bank, es una gran empresa de servicios financieros con presencia mundial. Los datos de Woodgrove Bank se hospedan en sistemas de implementación locales y en la nube. Dentro de la arquitectura de Woodgrove Bank, hay varios sistemas de almacenamiento de datos para el marketing consolidado y los informes integrados. Esta arquitectura incluye varios lagos de datos para la detección de datos y análisis no planeados. Las aplicaciones de Woodgrove Bank están interconectadas a través de patrones de integración de aplicaciones, que son principalmente basadas en API o basadas en eventos.
La situación actual
Es difícil que Woodgrove Bank distribuya datos a diferentes ubicaciones debido a la complejidad del almacenamiento de datos. La integración de nuevos datos consume mucho tiempo y resulta tentador duplicar los datos. Woodgrove Bank encuentra difícil supervisar el panorama de datos de un extremo a otro debido a la conectividad de punto a punto. El banco infravaloró la demanda de consumo intensivo de datos. Los nuevos casos de uso se presentan rápidamente, uno después de otro. La gobernanza de datos, como la propiedad y la calidad de los datos, y los costos son difíciles de controlar. Mantenerse al día con las regulaciones es difícil porque Woodgrove Bank no sabe exactamente dónde residen sus datos.
Solución de arquitectura: Data Mesh
En los últimos años, las organizaciones reconocen que los datos están en el centro de todo. Los datos abren nuevas eficiencias, impulsan la innovación, desbloquean nuevos modelos de negocio y aumentan la satisfacción del cliente. Es una prioridad para las empresas usar métodos controlados por datos, como los datos a escala.
Alcanzar una fase en la que el valor más profundo de los datos es accesible para todos los miembros de la organización es difícil. Los sistemas heredados y estrechamente interconectados, las plataformas monolíticas centralizadas y la gobernanza compleja pueden ser barreras importantes para generar valor fuera de los datos.
Acerca de Data Mesh
El concepto de malla de datos, un término acudido por Zhamak Dehghani, abarca datos, tecnología, procesos y organización. Conceptualmente, es un enfoque accesible para administrar datos en los que varios dominios usan sus propios datos. La malla de datos desafía la idea de centralización convencional de los datos. En lugar de examinar los datos como un repositorio enorme, la malla de datos considera la descomposición de los productos de datos independientes. Este cambio, desde la propiedad centralizada a la federada, es compatible con una plataforma de datos moderna y de autoservicio diseñada normalmente mediante tecnologías nativas de la nube.
Al dividir el concepto de malla de datos en bloques de creación, estos son algunos puntos clave que se deben tener en cuenta:
- Datos como producto: cada dominio (organizativo) opera sus datos de un extremo a otro. La responsabilidad reside en el propietario de los datos dentro del dominio. Las canalizaciones se convierten en una preocupación principal de los propios dominios.
- gobernanza de datos computacionales federados: para asegurarse de que cada propietario de datos pueda confiar en los demás y compartir sus productos de datos, debe establecerse un cuerpo de gobernanza de datos empresariales. El cuerpo de gobernanza implementa la calidad de los datos, la visibilidad central de la propiedad de los datos, la administración del acceso a datos y las directivas de privacidad de datos.
- Domain-Oriented Propiedad de Datos: La empresa debe definir y modelar idealmente cada nodo de dominio de datos dentro de la malla aplicando los principios del diseño orientado al dominio.
- Self-Serve Data Platform: una malla de datos requiere una plataforma de datos de autoservicio que permita a los usuarios quitar la complejidad técnica y centrarse en sus casos de uso de datos individuales.
Cloud-Scale Analytics
El pensamiento de datos como producto y un modelo de plataforma de autoservicio no son nuevos en Microsoft. Microsoft observó procedimientos recomendados de plataformas distribuidas, canalizaciones entre dominios, propiedad federada y datos autoexplicativos durante muchos años.
Woodgrove Bank puede realizar la transición a la malla de datos mediante el análisis a escala de la nube. El análisis a escala en la nube es un plano técnico de código abierto y prescriptivo para diseñar e implementar rápidamente plataformas de datos modernas. Se combina con los procedimientos recomendados y los principios de diseño de Azure y se alinea con Azure Well-Architected Framework. El análisis a escala en la nube ofrece a las empresas un punto de vista prescrito del 80 % y el 20 % restante es personalizable.
El análisis a escala en la nube ofrece a las empresas una ruta de diseño estratégica hacia la malla de datos y se puede usar para configurar rápidamente dicha arquitectura. Ofrece un plano técnico, incluidos los servicios principales de la plataforma de datos para la administración de datos.
En el nivel más alto, el análisis a escala en la nube usa una funcionalidad de administración de datos, que está habilitada a través de la zona de aterrizaje de administración de datos. Esta zona es responsable de la gobernanza de datos federada de una organización en la plataforma de autoservicio, y de los dominios de datos que impulsan el valor empresarial a través de productos de datos. La ventaja de este enfoque es que elimina la complejidad técnica a la vez que se adhiere a los mismos estándares. Garantiza que no haya ninguna proliferación de tecnología. También permite a las empresas empezar a modular, con una superficie pequeña y luego crecer con el tiempo.
La zona de aterrizaje de administración de datos, como puede ver en el diagrama siguiente, rodea todos los dominios de datos. Une todos los dominios y proporciona la supervisión que busca Woodgrove Bank.
El análisis a escala en la nube también defiende la aplicación de gobernanza coherente que usa una arquitectura común cuando se distribuyen los productos de datos. El marco permite la comunicación directa entre dominios. Permanece en el control poniendo énfasis en la catalogación central y la clasificación para proteger los datos y permitir que los grupos detecten datos. Coloca un paraguas sobre el estado de datos.
Dominios de datos
Al usar el análisis a escala de la nube como una ruta estratégica, debe pensar en la descomposición de la arquitectura y la granularidad resultante. La malla de datos descompone los datos sin seguir los bordes de las tecnologías. En su lugar, aplica los principios del diseño controlado por dominio (DDD), un enfoque para el desarrollo de software que implica sistemas complejos para organizaciones más grandes. DDD es popular debido a su efecto en las prácticas modernas de desarrollo de aplicaciones y software, como microservicios.
Uno de los patrones del diseño controlado por dominio se conoce como contexto limitado. Los contextos enlazados establecen los límites lógicos del espacio de soluciones de un dominio para administrar mejor la complejidad. Es importante que los equipos comprendan qué aspectos, incluidos los datos, pueden cambiar y cuáles son dependencias compartidas que requieren coordinación con otros usuarios. La malla de datos adopta el contexto enlazado. Usa este patrón para describir cómo las organizaciones pueden coordinarse en torno a los dominios de datos y centrarse en la entrega de datos como producto. Cada dominio de datos posee y opera varios productos de datos con su propia pila de tecnología, que es independiente de los demás.
Productos de datos
Al fijarnos en la arquitectura interna de este tipo de dominio de datos, cabe esperar encontrar productos de datos dentro de ella.
Los productos de datos satisfacen una necesidad específica dentro de las empresas que usan datos. Los productos de datos administran, organizan e interpretan los datos a través de los dominios y después presentan los conocimientos adquiridos. Un producto de datos tiene como resultado datos de una o varias integraciones de datos u otros productos de datos. Los productos de datos están estrechamente alineados con los dominios de datos y heredan el mismo lenguaje construido y formalizado acordado por las partes interesadas y los diseñadores. Cada dominio que genera datos es responsable de hacer que estos productos de datos estén disponibles para los demás dominios.
Para ayudar a ofrecer rápidamente productos de datos, el análisis a escala en la nube ofrece plantillas para patrones de integración y distribución de datos. El marco proporciona procesamiento por lotes de datos, streaming y análisis para satisfacer las necesidades de diversos consumidores.
Una gran cosa sobre el análisis a escala de la nube es cómo se organizan los dominios y los productos de datos. Cada dominio de datos se alinea con una zona de aterrizaje de datos, que es una construcción lógica y una unidad de escala en la arquitectura de análisis a escala en la nube. Permite la retención y ejecución de cargas de trabajo de datos, lo que genera información valiosa y aporta valor. Cada producto de datos se alinea con un grupo de recursos dentro de la zona de aterrizaje de datos y todas las zonas de aterrizaje de datos y las zonas de administración se alinean con las suscripciones. Este enfoque facilita la implementación y la administración.
Todas las plantillas de análisis a escala de nube heredan el mismo conjunto de directivas de la zona de aterrizaje de administración de datos. Las plantillas proporcionan automáticamente metadatos necesarios para la detectabilidad de datos, la gobernanza, la seguridad, la administración de costos y la excelencia operativa. Puede incorporar rápidamente nuevos dominios de datos sin necesidad de un proceso complejo de incorporación, integración y prueba.
En el diagrama siguiente se muestra el aspecto que podría tener un producto de datos:
Un enfoque pragmático para crear productos de datos es alinearse con la fuente de origen de los datos o con el caso de uso en el que se consumen. En ambos casos, debe proporcionar una vista abstracta del modelo de datos de aplicación subyacente (complejo). Debe intentar ocultar los detalles técnicos y optimizar el consumo intensivo de datos. Una vista de Azure Synapse o un archivo Parquet, que agrupa lógicamente los datos, es un ejemplo de cómo se puede compartir un producto de datos en varios dominios de datos.
A continuación, debe trabajar en la detectabilidad, la procedencia, el uso y el linaje de los datos. Un enfoque probado es usar un servicio de gobernanza de datos, como Microsoft Purview, para registrar todos los datos. La integración de datos en el análisis a escala de la nube conecta perfectamente los puntos porque permite compilar estos productos de datos a medida que realiza simultáneamente el registro de metadatos.
Al alinear dominios de datos y colecciones de Microsoft Purview, captura automáticamente todos los orígenes de datos, linaje, detalles de calidad de datos e información de consumo de los dominios individuales. Con este enfoque, puede conectar varios dominios de datos y productos a una solución de gobernanza centralizada, que almacena todos los metadatos de cada entorno. La ventaja es que integra centralmente todos los metadatos y hace que sea fácilmente accesible para varios consumidores. Puede ampliar esta arquitectura para registrar nuevos productos de datos.
En el diagrama siguiente se muestra una arquitectura de malla de datos entre dominios que usa análisis a escala en la nube.
El diseño de red permite que los productos de datos se compartan entre dominios mediante el uso de un costo mínimo y la eliminación de un único punto de error y limitaciones de ancho de banda. Para ayudar a garantizar la seguridad, puede usar el modelo de seguridad Zero Trust de Microsoft
Puede usar identidades administradas para asegurarse de que se sigue un modelo de acceso con privilegios mínimos. Las aplicaciones y los servicios de este modelo tienen acceso limitado a los productos de datos. Las políticas de Azure, junto con las próximas políticas de datos, se utilizan para facilitar el autoservicio y asegurar la conformidad de los recursos dentro de todos los productos de datos, a escala. Con este diseño, puede tener acceso uniforme a los datos y mantenerse totalmente en control a través de la gobernanza y auditoría centralizadas de datos.
Evolucionar hacia el futuro
El análisis a escala en la nube está diseñado teniendo en cuenta la malla de datos. El análisis a escala en la nube proporciona un enfoque probado por el que las organizaciones pueden compartir datos entre muchos dominios de datos. Este marco permite que los dominios tengan autonomía para tomar decisiones y, al mismo tiempo, rige la arquitectura delimitándola con servicios de gestión de datos.
Al implementar la malla de datos, agrupe y organice lógicamente los dominios. Este enfoque requiere una vista empresarial y es probable que sea un cambio cultural para su organización. El cambio requiere que federe la propiedad de los datos entre los dominios de datos y los propietarios que son responsables de proporcionar sus datos como productos. También requiere que los equipos se ajusten a las funcionalidades centralizadas que ofrece la zona de aterrizaje de administración de datos. Este nuevo enfoque podría requerir que los equipos individuales renunciaran a sus mandatos actuales, lo que es probable que genere resistencia. Es posible que tenga que tomar ciertas decisiones políticas y lograr un equilibrio entre los enfoques centralizados y descentralizados.
Puede escalar una arquitectura de malla de datos agregando más zonas de aterrizaje a la arquitectura de dominios individuales. Estas zonas de aterrizaje usarán el emparejamiento de red virtual para conectarse a la zona de aterrizaje de administración de datos y a todas las demás zonas de aterrizaje. Este patrón permite compartir productos y recursos de datos entre zonas. Al dividir en zonas independientes, puede distribuir las cargas de trabajo entre suscripciones y recursos de Azure. Este enfoque le permite implementar la malla de datos de forma orgánica.
Aprende más
Recursos de Microsoft:
Artículo del fundador de data mesh Zhamak Dehghani: