Editar

Compartir a través de


Replique y sincronice los datos de sistema central en Azure

Azure Data Factory
Azure Databricks

Este ejemplo de arquitectura describe un plan de implementación para replicar y sincronizar datos durante la modernización a Azure. Describe aspectos técnicos como almacenes de datos, herramientas y servicios.

Arquitectura

Un diagrama de arquitectura que muestra cómo sincronizar datos locales y datos de bases de datos Azure durante la modernización del mainframe.

Descargue un archivo Visio de esta arquitectura.

Flujo de trabajo

Los sistemas centrales e intermedios actualizan las bases de datos de aplicaciones locales a intervalos regulares. Para mantener la coherencia, la solución sincroniza los datos más recientes con las bases de datos de Azure. El proceso de sincronización consta de los siguientes pasos:

  1. Las canalizaciones dinámicas de Azure Data Factory organizan actividades que van desde la extracción hasta la carga de datos. Puede programar actividades de canalización, iniciarlas manualmente o activarlas automáticamente.

    Las canalizaciones agrupan las actividades que realizan las tareas. Para extraer datos, Data Factory crea dinámicamente una canalización para cada tabla local. Después, puede usar una implementación en paralelo masiva cuando replique los datos en Azure. También puede configurar la solución para adaptarla a sus necesidades:

    • Replicación completa: Replique toda la base de datos y realice las modificaciones necesarias en los tipos de datos y campos de la base de datos Azure de destino.
    • Replicación parcial, delta o incremental: Use columnas de marca de agua en las tablas de origen para sincronizar las filas actualizadas con las bases de datos Azure. Estas columnas contienen una clave de incremento continuo o una marca de tiempo que indica la última actualización de la tabla.

    Data Factory también utiliza canalizaciones para las siguientes tareas de transformación:

    • Conversión de tipos de datos
    • Manipulación de datos
    • Formato de datos
    • Derivación de columnas
    • Aplanamiento de datos
    • Ordenación de datos
    • Filtrado de datos
  2. Las bases de datos locales como Db2 zOS, Db2 for i y Db2 LUW almacenan los datos de la aplicación.

  3. Un tiempo de ejecución de integración autoalojado (SHIR) proporciona el entorno que Data Factory utiliza para ejecutar y enviar actividades.

  4. Azure Data Lake Storage Gen2 y Azure Blob Storage proporcionan un lugar para el almacenamiento provisional de los datos. Este paso a veces es necesario para transformar y combinar datos de múltiples fuentes.

  5. Para la preparación de datos, Data Factory utiliza Azure Databricks, actividades personalizadas y flujos de datos de canalización para transformar los datos de forma rápida y eficaz.

  6. Data Factory carga datos en las siguientes bases de datos relacionales y no relacionales de Azure:

    • Azure SQL
    • Azure Database for PostgreSQL
    • Azure Cosmos DB
    • Azure Data Lake Storage
    • Azure Database for MySQL
  7. SQL Server Integration Services (SSIS): esta plataforma puede extraer, transformar y cargar los datos.

  8. Herramientas que no son de Microsoft: Cuando la solución requiere una replicación casi en tiempo real, puede usar herramientas que no sean de Microsoft.

Componentes

Esta sección describe otras herramientas que puede usar durante la modernización, sincronización e integración de datos.

Herramientas

  • Microsoft Service for Distributed Relational Database Architecture (DRDA) es un componente de Host Integration Server (HIS). El Servicio de Microsoft para DRDA es un servidor de aplicaciones que usan los clientes del solicitante de aplicaciones (AR) de DRDA. Algunos ejemplos de clientes del AR de DRDA son IBM Db2 para z/OS y Db2 para i5/OS. Estos clientes usan el servidor de aplicaciones para convertir instrucciones SQL de Db2 y ejecutarlas en SQL Server.

  • El SQL Server Migration Assistant (SSMA) para Db2 automatiza la migración de Db2 a los servicios de bases de datos de Microsoft. Mientras se ejecuta en una máquina virtual (VM), esta herramienta convierte los objetos de base de datos Db2 en objetos de base de datos SQL Server y crea dichos objetos en SQL Server. SSMA para Db2 migra los datos de Db2 a los siguientes servicios:

    • SQL Server 2012
    • SQL Server 2014
    • SQL Server 2016
    • SQL Server 2017 en Windows y Linux
    • SQL Server 2019 en Windows y Linux
    • Azure SQL Database
  • Azure Synapse Analytics es un servicio de análisis para sistemas de almacenamiento de datos y de macrodatos. Esta herramienta usa tecnologías de Spark y tiene una integración profunda con Power BI, Azure Machine Learning y otros servicios de Azure.

Integradores de datos

  • Data Factory es un servicio de integración de datos híbrido. Puede usar esta solución totalmente administrada y sin servidor para crear, programar y orquestar flujos de trabajo de extracción, transformación y carga (ETL) y flujos de trabajo de extracción, carga y transformación ELT.

  • Azure Synapse Analytics es un servicio de análisis empresarial que acelera el tiempo necesario para obtener información de los almacenes de datos y de los sistemas de macrodatos. Azure Synapse Analytics reúne lo mejor de las siguientes tecnologías y servicios:

    • Tecnologías SQL, que se usan en el almacenamiento de datos empresariales.
    • Tecnologías Spark, que se usan para macrodatos.
    • Azure Data Explorer, que se usa para el análisis de registros y series temporales.
    • Azure Pipelines, que se usa para la integración de datos y los flujos de trabajo ETL y ELT.
    • Profunda integración con otros servicios de Azure, como Power BI, Azure Cosmos DB y Machine Learning.
  • SSIS es una plataforma para la creación de soluciones empresariales de transformación de datos e integración de datos. Puede usar SSIS para administrar, replicar, limpiar y realizar minería de datos.

  • Azure Databricks es una plataforma de análisis de datos. Se basa en el sistema de procesamiento distribuido de código abierto Apache Spark y está optimizado para la plataforma en la nube Azure. En un flujo de trabajo de análisis, Azure Databricks lee datos de varios orígenes y usa Spark para proporcionar conclusiones.

Almacenamiento de datos

  • SQL Database forma parte de la familia Azure SQL y se ha diseñado para la nube. Este servicio ofrece las ventajas de una plataforma como servicio (PaaS) totalmente administrada y siempre disponible. SQL Database también proporciona características automatizadas y basadas en IA que optimizan el rendimiento y la durabilidad. Las opciones de almacenamiento de hiperescala y proceso sin servidor escalan automáticamente los recursos a petición.

  • Azure SQL Managed Instance forma parte de la cartera de servicios Azure SQL. Este servicio de base de datos en la nube inteligente y escalable combina la más amplia compatibilidad del motor SQL Server con todas las ventajas de una PaaS totalmente administrada y permanente. Con SQL Managed Instance, puede modernizar las aplicaciones existentes a gran escala.

  • SQL Server on Azure Virtual Machines proporciona una forma de elevar y trasladar las cargas de trabajo de SQL Server a la nube con una compatibilidad de código del 100 %. Como parte de la familia Azure SQL, SQL Server en Azure Virtual Machines ofrece el rendimiento, la seguridad y los análisis combinados de SQL Server con la flexibilidad y la conectividad híbrida de Azure. Use SQL Server en máquinas virtuales Azure para migrar aplicaciones existentes o crear aplicaciones nuevas. También puede acceder a las últimas actualizaciones y versiones de SQL Server, incluido SQL Server 2019.

  • Azure Database for PostgreSQL es un servicio de base de datos relacional totalmente administrado que se basa en la Community Edition del motor de base de datos de código abierto PostgreSQL. Use este servicio para centrarse en la innovación de aplicaciones en lugar de en la gestión de bases de datos. También puede escalar la carga de trabajo de forma rápida y sencilla.

  • Azure Cosmos DB es una base de datos de varios modelos distribuida globalmente. Use Azure Cosmos DB para garantizar que sus soluciones puedan escalar el rendimiento y el almacenamiento de forma elástica e independiente en cualquier número de regiones geográficas. Este servicio de base de datos NoSQL totalmente administrado garantiza latencias de milisegundos de un solo dígito en el percentil noventa y nueve en cualquier parte del mundo.

  • Data Lake Storage es un repositorio de almacenamiento que contiene una gran cantidad de datos en su formato nativo y sin procesar. Los lagos de datos están optimizados para escalar a terabytes y petabytes de datos. Los datos provienen normalmente de varios orígenes heterogéneos y pueden ser estructurados, semiestructurados o no estructurados. Data Lake Storage Gen2 combina las funcionalidades de Data Lake Storage Gen1 y Blob Storage. Esta solución de lago de datos de próxima generación proporciona semántica de sistema de archivos, seguridad de nivel de archivo y escalado. Además, ofrece las funcionalidades de almacenamiento por niveles, alta disponibilidad y recuperación ante desastres de Blob Storage.

  • Azure Database for MySQL es un servicio de base de datos relacional totalmente administrado que se basa en la Community Edition del motor de base de datos de código abierto MySQL.

  • Blob Storage proporciona un almacenamiento optimizado de objetos en la nube que administra grandes cantidades de datos no estructurados.

Detalles del escenario

La disponibilidad y la integridad de los datos son esenciales en la modernización de sistemas centrales e intermedios. Las estrategias Data-First ayudan a mantener los datos intactos y disponibles durante la migración a Azure. Para evitar interrupciones durante la modernización, a veces es necesario replicar los datos rápidamente o mantener los datos locales sincronizados con las bases de datos de Azure.

Específicamente, la solución abarca:

  • Extracción: conectarse a una base de datos de origen y extraer datos de ella.
  • Transformación:
    • Almacenamiento provisional: almacenar temporalmente los datos en su formato original y prepararlos para su transformación.
    • Preparación: transformar y manipular los datos mediante reglas de asignación que cumplan los requisitos de la base de datos de destino.
  • Carga: insertar los datos en una base de datos de destino.

Posibles casos de uso

Los escenarios de replicación y sincronización de datos que pueden beneficiarse de esta solución son, entre otros:

  • Arquitecturas de segregación de responsabilidades de comandos y consultas (CQRS) que usan Azure para atender todos los canales de consulta.
  • Entornos que prueban aplicaciones locales y que se vuelven a hospedar o aplicaciones que se han vuelto a diseñar en paralelo.
  • Sistemas locales con aplicaciones estrechamente acopladas que requieren corrección o modernización por fases.

Recomendaciones

Cuando use Data Factory para extraer datos, siga los pasos para optimizar el rendimiento de la actividad de copia.

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Tenga en cuenta estos puntos cuando considere esta arquitectura.

Confiabilidad

La confiabilidad garantiza que la aplicación pueda cumplir los compromisos contraídos con los clientes. Para obtener más información, consulte Descripción general del pilar Fiabilidad.

  • La administración de la infraestructura, incluida la disponibilidad, está automatizada en las bases de datos de Azure.

  • Consulte Agrupación y conmutación por error para obtener información sobre la protección de conmutación por error de Microsoft Service para DRDA.

  • Puede agrupar la puerta de enlace de datos local y el tiempo de ejecución de integración (Integration Runtime, IR) para proporcionar mayores garantías de disponibilidad.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para obtener más información, consulte Introducción al pilar de seguridad.

  • Use grupos de seguridad de red para limitar el acceso solo a lo que cada servicio necesita para funcionar.

  • Use puntos de conexión privados para sus servicios PaaS. Use cortafuegos de servicio que sean tanto alcanzables como inalcanzables a través de Internet para complementar la seguridad de sus servicios.

  • Utilice identidades administradas para flujos de datos de componente a componente.

  • Consulte Planificación y arquitectura de soluciones mediante Microsoft Service para DRDA para obtener información sobre los tipos de conexiones de cliente compatibles con Microsoft Service para DRDA. Las conexiones de cliente afectan a la naturaleza de las transacciones, la agrupación, la conmutación por error, la autenticación y el cifrado en la red.

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Descripción general del pilar Optimización de costes.

  • Los modelos de precios varían entre los servicios de componentes. Revise los modelos de precios de los servicios componentes disponibles para asegurarse de que se ajustan a su presupuesto.

  • Use la calculadora de precios de Azure para estimar el costo de la implementación de esta solución.

Excelencia operativa

La excelencia operativa abarca los procesos de las operaciones que implementan una aplicación y la mantienen en ejecución en producción. Para obtener más información, consulte Descripción general del pilar Excelencia operativa.

Eficiencia del rendimiento

La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que los usuarios hayan ejercido sobre ella. Para obtener más información, consulte Descripción general del pilar Eficiencia del rendimiento.

  • Considere el uso de Azure ExpressRoute como una opción a gran escala si la implementación usa un ancho de banda significativo para la replicación inicial o la replicación de los datos que se modifican.

  • Elija la configuración de IR adecuada para su escenario.

Pasos siguientes