Apache®, Spark y el logotipo de la llama son marcas registradas o marcas comerciales de Apache Software Foundation en los Estados Unidos y otros países. El uso de estas marcas no implica la aprobación de Apache Software Foundation.
En este artículo se describe un plan de modernización integral para orígenes de datos de sistema central e intermedio.
Architecture
Descargue un archivo Visio de esta arquitectura.
Flujo de datos
En el siguiente flujo de datos se describe un proceso para modernizar una capa de datos de sistema central. Corresponde al diagrama anterior.
Los sistemas centrales y intermedios almacenan datos en orígenes de datos, como sistemas de archivos (método de acceso de almacenamiento virtual (VSAM), archivos planos, LTFS), bases de datos relacionales (Db2 para z/OS, Db2 para IBM i, Db2 para UNIX y Windows) o bases de datos no relacionales IMS (Sistema de administración de información), ADABAS, IDMS (Sistema integrado de administración de bases de datos).
El proceso de conversión de objetos extrae las definiciones de objetos de los objetos de origen. Las definiciones se convierten luego en los objetos correspondientes en el almacén de datos de destino.
- SQL Server Migration Assistant (SSMA) para Db2 migra esquemas y datos de bases de datos IBM Db2 a bases de datos Azure.
- El proveedor de datos administrados para archivos host convierte los objetos de la siguiente manera:
- Analiza diseños de registros COBOL y RPG (o libros de copias).
- Asigna los libros de copias a objetos de C# que las aplicaciones .NET usan.
- Use la herramienta de de Db2toAzurePostgreSQL para migrar objetos de base de datos de Db2 a Azure Database for PostgreSQL.
- La conversión automatizada de objetos en bases de datos no relacionales, sistemas de archivos y otros almacenes de datos se realiza mediante herramientas de terceros.
Los datos se ingieren y se transforman. Los sistemas centrales y de rango medio almacenan sus datos del sistema de archivos en formato codificado con EBCDIC en formatos de archivo como:
Los libros de copias COBOL, PL/I y de lenguaje de montaje definen la estructura de datos de estos archivos.
a. FTP transfiere a Azure conjuntos de datos de sistemas de archivos central y de rango medio con diseños individuales y campos sin empaquetar en formato binario y el libro de copias correspondiente.
b. La conversión de datos se realiza mediante el desarrollo de programas personalizados mediante el componente Host File de los servidores de integración de host o mediante el uso del conector integrado para los archivos host de IBM en Azure Logic Apps.
El convertidor de Spark Notebook se desarrolla mediante marcos de Spark de código abierto y son compatibles con entornos de Spark como Microsoft Fabric, Azure Synapse Analytics y Databricks.
c. Se migran los datos de base de datos relacional.
Los sistemas centrales e intermedios de IBM almacenan datos en bases de datos relacionales como estas:
Estos servicios migran los datos de base de datos:
- Data Factory usa un conector Db2 para extraer e integrar los datos de estas bases de datos.
- SQL Server Integration Services administra varias tareas ETL de datos.
- Microsoft Fabric Data Factory utiliza el conector IBM Db2 para migrar datos de Db2.
d. Se migran los datos de base de datos no relacional.
Los sistemas centrales e intermedios de IBM almacenan los datos en bases de datos no relacionales, como:
- IDMS, un sistema de administración de bases de datos (DBMS) de modelo de red
- IMS, un sistema de administración de bases de datos de modelo jerárquico
- Adabas
- Datacom
Existen productos de terceros que integran datos de estas bases de datos.
Los servicios de Azure, como Data Factory y AzCopy, cargan datos en las bases de datos de Azure y en el almacenamiento de datos de Azure. También puede usar soluciones de terceros y soluciones de carga personalizadas para cargar datos.
Azure ofrece una variedad de servicios de base de datos, incluidas bases de datos relacionales totalmente administradas, como Azure SQL Database y opciones noSQL, como Azure Cosmos DB. Estos servicios están diseñados para escalabilidad, flexibilidad y distribución global.
Azure también ofrece una variedad de soluciones de almacenamiento, como Azure Blob Storage para datos no estructurados y Azure Files para recursos compartidos de archivos totalmente administrados.
Los servicios de Azure utilizan la capa de datos modernizada para las tareas de computación, análisis, almacenamiento y redes.
Las aplicaciones cliente existentes también usan la capa de datos modernizada.
Componentes
Almacenamiento de datos
La arquitectura describe la migración de datos a bases de datos escalables, seguras y en la nube para la administración de datos flexible e inteligente en Azure.
- SQL Database es parte de la familia de Azure SQL. Diseñado para la nube y proporciona todas las ventajas de una plataforma como servicio totalmente administrada y perenne. SQL Database también proporciona características automatizadas basadas en IA que optimizan el rendimiento y la durabilidad. Las opciones de almacenamiento de hiperescala y proceso sin servidor escalan automáticamente los recursos a petición.
- azure Database for PostgreSQL es un servicio de base de datos relacional totalmente administrado basado en la edición community del motor de base de datos de PostgreSQL de código abierto.
- Azure Cosmos DB es una base de datos multimodeloNoSQL distribuida globalmente.
- azure Database for MySQL es un servicio de base de datos relacional totalmente administrado basado en la edición community del motor de base de datos de MySQL de código abierto.
- Azure SQL Managed Instance es un servicio de base de datos en la nube inteligente y escalable que ofrece todas las ventajas de una plataforma como servicio (PAAS) totalmente administrada y permanente. SQL Managed Instance tiene una compatibilidad cercana al 100 % con el motor de base de datos de SQL Server Enterprise Edition más reciente. También proporciona una implementación de red virtual nativa que aborda problemas de seguridad comunes.
- Azure Data Lake Storage es un repositorio de almacenamiento que contiene una gran cantidad de datos en su formato nativo y sin procesar. Los lagos de datos están optimizados para escalar a terabytes y petabytes de datos. Los datos normalmente proceden de varios orígenes heterogéneos. Pueden ser estructurados, semiestructurados o no estructurados.
- base de datos SQL de Microsoft Fabric es una base de datos transaccional fácil de desarrolladores, basada en Azure SQL Database, que le permite crear fácilmente la base de datos operativa en Fabric. Una base de datos SQL de Fabric usa el mismo motor de base de datos SQL que Azure SQL Database.
- Microsoft Fabric Lakehouse es una plataforma de arquitectura de datos para almacenar, administrar y analizar datos estructurados y no estructurados en una sola ubicación.
Proceso
- Data Factory integra datos a través de diferentes entornos de red mediante el uso de un entorno de ejecución de integración (IR), que es una infraestructura de proceso. Data Factory copia datos entre almacenes de datos en la nube y almacenes de datos en redes locales utilizando IR autohospedados.
- El puerta de enlace de datos local es una aplicación cliente de Windows instalada localmente que actúa como puente entre los orígenes de datos locales y los servicios locales en la nube de Microsoft.
- Azure Virtual Machines proporciona recursos informáticos escalables a petición. Una máquina virtual (VM) de Azure proporciona la flexibilidad de la virtualización, pero elimina las exigencias de mantenimiento del hardware físico. Las VM de Azure ofrecen una selección de sistemas operativos, incluidos Windows y Linux.
Integradores de datos
En esta arquitectura se describen varias herramientas de migración nativas de Azure que se pueden usar en función de los datos de origen del sistema central y de la base de datos de destino.
- Azure Data Factory es un servicio de integración de datos híbrido. En esta solución, una instancia de Azure Data Factory con una configuración mínima para migrar datos de bases de datos de Azure de sorurce db2 connetors nativos.
- AzCopy es una utilidad de línea de comandos que mueve blobs o archivos dentro y fuera de las cuentas de almacenamiento.
-
SQL Server Integration Services (SSIS) es una plataforma para crear soluciones de transformación e integración de datos de nivel empresarial. Puede usarlo para solucionar problemas empresariales complejos de las siguientes maneras:
- Copiar o descargar archivos
- Cargar almacenamiento de datos
- Limpiar y realizar operaciones de minería de datos
- Administrar los objetos y datos de SQL Server
- Las tecnologías y herramientas de Host Integration Server permiten integrar los sistemas host, los programas, los mensajes y los datos existentes de IBM con aplicaciones de Azure. El componente cliente de archivo de host proporciona flexibilidad para los datos convertidos de EBCDIC a ASCII. Por ejemplo, puede generar JSON/XML a partir de los datos convertidos.
- Azure Synapse Analytics reúne la integración de datos, el almacenamiento de datos empresariales y el análisis de macrodatos. La solución de conversión de Azure Synapse que se usa en esta arquitectura se basa en Apache Spark y es una buena candidata para la conversión de cargas de trabajo de grandes conjuntos de datos de sistema central. Admite una amplia variedad de estructuras y destinos de datos de sistema central y requiere un esfuerzo mínimo de creación de código.
- Microsoft Fabric es una plataforma de análisis de un extremo a otro listo para la empresa. Unifica el movimiento de datos, el procesamiento de datos, la ingesta, la transformación, el enrutamiento de eventos en tiempo real y la creación de informes. Admite estas funcionalidades con servicios integrados, como Ingeniería de datos, Data Factory, Ciencia de datos, análisis de Real-Time, almacenamiento de datos y bases de datos.
Otras herramientas
- SQL Server Migration Assistant para Db2 automatiza la migración de Db2 a los servicios de base de datos de Microsoft. Mientras se ejecuta en una máquina virtual, esta herramienta convierte los objetos de base de datos de Db2 en objetos de base de datos de SQL Server y crea esos objetos en SQL Server.
- El proveedor de datos para archivos host es un componente de Host Integration Server que usa conexiones SNA, TCP/IP o sin conexión.
- Con las conexiones sin conexión, el proveedor de datos lee y escribe registros en un archivo binario local.
- Con las conexiones SNA y TCP/IP, el proveedor de datos lee y escribe los registros almacenados en los conjuntos de datos de z/OS remotos (sistema central de la serie z de IBM) o los archivos físicos de i5/OS remotos (sistemas AS/400 e iSeries de IBM). Solo los sistemas i5/OS usan TCP/IP.
- Los servicios de Azure proporcionan entornos, herramientas y procesos para desarrollar y escalar nuevas aplicaciones en la nube pública.
Detalles del escenario
Las modernas soluciones de almacenamiento de datos, como la plataforma de datos de Azure, ofrecen una mejor escalabilidad y rendimiento que los sistemas centrales e intermedios. Al modernizar estos sistemas, puede obtener estas ventajas. Sin embargo, la actualización de la tecnología, la infraestructura y los procedimientos es compleja. El proceso implica una investigación exhaustiva de las actividades empresariales y de ingeniería. Se tiene en cuenta la administración de datos al modernizar los sistemas. También debe tener en cuenta la visualización y la integración de los datos.
Las modernizaciones que se llevan a cabo correctamente emplean una estrategia de "datos primero". Con este enfoque, se centra en los datos, en lugar de en el nuevo sistema. La administración de datos ya no es solo un elemento de la lista de modernización. En su lugar, los datos se convierten en la pieza central. Las soluciones de datos coordinadas y orientadas a la calidad reemplazan a otras fragmentadas y deficientemente administradas.
La solución emplea los componentes de la plataforma de datos de Azure en un enfoque donde lo primero son los datos. En concreto, la solución abarca:
- Conversión de objetos. conversión de definiciones de objetos del almacén de datos de origen en los objetos correspondientes en el almacén de datos de destino.
- Ingesta de datos. conexión al almacén de datos de origen y extracción de datos.
- Transformación de datos. transformación de los datos extraídos en estructuras de almacén de datos de destino adecuadas.
- Almacenamiento de datos. carga de datos desde el almacén de datos de origen al almacén de datos de destino, tanto inicialmente como de forma continua.
Posibles casos de uso
Las organizaciones que usan sistemas centrales e intermedios pueden beneficiarse de esta solución, especialmente cuando quieren lograr estos objetivos:
- Modernizar cargas de trabajo críticas.
- Adquirir inteligencia empresarial para mejorar las operaciones y obtener una ventaja competitiva.
- Evitar los elevados costos y la rigidez asociados a los almacenes de datos de sistemas centrales e intermedios.
Consideraciones
Estas consideraciones implementan los pilares de Azure Well-Architected Framework, que es un conjunto de principios rectores que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.
Seguridad
La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para obtener más información, vea Lista de comprobación de revisión de diseño para security.
- Tenga en cuenta las diferencias entre las identidades de cliente locales y las identidades de cliente en Azure. Es necesario compensar las diferencias.
- Utilice identidades administradas para flujos de datos de componente a componente.
- Al usar el proveedor de datos para archivos host para convertir datos, siga las recomendaciones de Seguridad y protección de proveedores de datos para archivos host.
Optimización de costos
La optimización de costos consiste en examinar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Lista de comprobación de revisión de diseño para la optimización de costos.
- SQL Server Migration Assistant es una herramienta gratuita y compatible que simplifica la migración de base de datos de Db2 a SQL Server, SQL Database y SQL Managed Instance. SQL Server Migration Assistant automatiza todos los aspectos de la migración, incluido el análisis de evaluación de la migración, la conversión de esquemas e instrucciones SQL y la migración de datos.
- La solución basada en Spark de Azure Synapse se crea a partir de bibliotecas de código abierto. Elimina la carga financiera de las licencias de las herramientas de conversión.
- Use la calculadora de precios de Azure para estimar el costo de la implementación de esta solución.
Eficiencia del rendimiento
La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que los usuarios hayan ejercido sobre ella. Para obtener más información, vea Lista de comprobación de revisión de diseño para la eficiencia del rendimiento.
- Los pilares clave de la eficiencia del rendimiento son la administración del rendimiento, la planificación de la capacidad, la escalabilidad y la elección de un patrón de rendimiento adecuado.
- Puede escalar horizontalmente el IR autohospedado mediante la asociación de la instancia lógica con varias máquinas locales en modo activo-activo.
- Azure SQL Database ofrece la capacidad de escalar dinámicamente sus bases de datos. En un nivel sin servidor, puede escalar automáticamente los recursos de proceso. Un grupo elástico (Elastic Pool), que permite a las bases de datos compartir recursos en un grupo, solo se puede escalar manualmente.
Cuando utilice el cliente del proveedor de datos para archivos de host para convertir datos, active la agrupación de conexiones con el fin de reducir el tiempo de inicio de la conexión. Cuando use Data Factory para extraer datos, optimice el rendimiento de la actividad de copia.
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Autor principal:
- Ashish Khandelwal | Arquitecto jefe principal de ingeniería
Otros colaboradores:
- Nithish Aruldoss | Arquitecto de ingeniería
Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.
Pasos siguientes
Consulte las guías de Azure Database Migration. Para más información, póngase en contacto con el departamento de ingeniería de datos de Azure para la modernización de sistemas centrales e intermedios.
Vea los artículos siguientes:
- Cargas de trabajo de IBM en Azure
- Rehospedaje del sistema central en Azure Virtual Machines
- Cargas de trabajo del sistema central que se admiten en Azure
- Movimiento del proceso del sistema central a Azure