Apache®, Spark y el logotipo de la llama son marcas registradas o marcas comerciales de Apache Software Foundation en los Estados Unidos y otros países. El uso de estas marcas no implica la aprobación de Apache Software Foundation.
En este artículo se describe un plan de modernización integral para orígenes de datos de sistema central e intermedio.
Architecture
Descargue un archivo Visio de esta arquitectura.
Flujo de datos
En el siguiente flujo de datos se describe un proceso para modernizar una capa de datos de sistema central. Corresponde al diagrama anterior.
Los sistemas centrales y de rango medio almacenan datos en orígenes de datos, como sistemas de archivos (VSAM, archivos planos, LTFS), bases de datos relacionales (Db2 para z/OS, Db2 para IBM i, Db2 para UNIX y Windows) o bases de datos no relacionales (IMS, ADABAS, IDMS).
El proceso de conversión de objetos extrae las definiciones de objetos de los objetos de origen. Las definiciones se convierten luego en los objetos correspondientes en el almacén de datos de destino.
- SQL Server Migration Assistant (SSMA) para Db2 migra esquemas y datos de bases de datos IBM Db2 a bases de datos Azure.
- El proveedor de datos administrados para archivos host convierte los objetos de la siguiente manera:
- Analiza diseños de registros COBOL y RPG (o libros de copias).
- Asigna los libros de copias a objetos de C# que las aplicaciones .NET usan.
- Use una herramienta personalizada para convertir objetos de base de datos de Db2 a Azure Database for PostgreSQL. Tenga en cuenta que es posible que tenga que solicitar acceso a esta herramienta.
- La conversión automatizada de objetos en bases de datos no relacionales, sistemas de archivos y otros almacenes de datos se realiza mediante herramientas de terceros.
Los datos se ingieren y se transforman. Los sistemas centrales y de rango medio almacenan sus datos del sistema de archivos en formato codificado con EBCDIC en formatos de archivo como:
Los libros de copias COBOL, PL/I y de lenguaje de montaje definen la estructura de datos de estos archivos.
a. FTP transfiere a Azure conjuntos de datos de sistemas de archivos central y de rango medio con diseños individuales y campos sin empaquetar en formato binario y el libro de copias correspondiente.
b. Los datos se convierten. El conector personalizado Azure Data Factory es una solución desarrollada mediante el componente cliente Host File de Host Integration Server para convertir conjuntos de datos de sistema central.
Host Integration Server integra los sistemas host, los programas, los mensajes y los datos existentes de IBM con aplicaciones de Azure. Host Integration Server es un componente cliente de Host File que puede utilizar para desarrollar una solución personalizada para la conversión de conjuntos de datos.
El conector personalizado Azure Data Factory se basa en el marco de Spark de código abierto y se ejecuta en Azure Synapse Analytics. Al igual que otras soluciones, puede analizar el libro de copia y convertir los datos. Administre el servicio para la conversión de datos mediante el conector de análisis de contenido de archivos de host de Azure Logic Apps.
c. Se migran los datos de base de datos relacional.
Los sistemas centrales e intermedios de IBM almacenan datos en bases de datos relacionales como estas:
Estos servicios migran los datos de base de datos:
- Data Factory usa un conector Db2 para extraer e integrar los datos de estas bases de datos.
- SQL Server Integration Services administra varias tareas ETL de datos.
d. Se migran los datos de base de datos no relacional.
Los sistemas centrales e intermedios de IBM almacenan los datos en bases de datos no relacionales, como:
- IDMS, un sistema de administración de bases de datos (DBMS) de modelo de red
- IMS, un sistema de administración de bases de datos de modelo jerárquico
- Adabas
- Datacom
Existen productos de terceros que integran datos de estas bases de datos.
Los servicios de Azure, como Data Factory y AzCopy, cargan datos en las bases de datos de Azure y en el almacenamiento de datos de Azure. También puede usar soluciones de terceros y soluciones de carga personalizadas para cargar datos.
Azure proporciona muchas soluciones de almacenamiento de datos administradas:
Los servicios de Azure utilizan la capa de datos modernizada para las tareas de computación, análisis, almacenamiento y redes.
Las aplicaciones cliente existentes también usan la capa de datos modernizada.
Componentes
Almacenamiento de datos
- SQL Database es parte de la familia de Azure SQL. Se ha creado para la nube y proporciona todas las ventajas de una plataforma como servicio totalmente administrada y permanente. SQL Database también proporciona características automatizadas basadas en IA que optimizan el rendimiento y la durabilidad. Las opciones de almacenamiento de hiperescala y proceso sin servidor escalan automáticamente los recursos a petición.
- Azure Database for PostgreSQL es un servicio de base de datos relacional totalmente administrado que se basa en la Community Edition del motor de base de datos de código abierto PostgreSQL.
- Azure Cosmos DB es una base de datos multimodeloNoSQL distribuida globalmente.
- Azure Database for MySQL es un servicio de base de datos relacional totalmente administrado que se basa en la Community Edition del motor de base de datos de código abierto MySQL.
- Azure SQL Managed Instance es un servicio de base de datos en la nube inteligente y escalable que ofrece todas las ventajas de una plataforma como servicio (PAAS) totalmente administrada y permanente. SQL Managed Instance tiene una compatibilidad cercana al 100 % con el motor de base de datos de SQL Server Enterprise Edition más reciente. También proporciona una implementación de red virtual nativa que aborda problemas de seguridad comunes.
- Azure Data Lake Storage es un repositorio de almacenamiento que contiene una gran cantidad de datos en su formato nativo y sin procesar. Los lagos de datos están optimizados para escalar a terabytes y petabytes de datos. Los datos normalmente proceden de varios orígenes heterogéneos. Pueden ser estructurados, semiestructurados o no estructurados.
Proceso
- Data Factory integra datos a través de diferentes entornos de red mediante el uso de un entorno de ejecución de integración (IR), que es una infraestructura de proceso. Data Factory copia datos entre almacenes de datos en la nube y almacenes de datos en redes locales utilizando IR autohospedados.
- Azure Virtual Machines proporciona recursos informáticos escalables a petición. Una máquina virtual (VM) de Azure proporciona la flexibilidad de la virtualización, pero elimina las exigencias de mantenimiento del hardware físico. Las VM de Azure ofrecen una selección de sistemas operativos, incluidos Windows y Linux.
Integradores de datos
- Azure Data Factory es un servicio de integración de datos híbrido. En esta solución, un conector personalizado de Azure Data Factory usa el componente cliente de archivos host de Host Integration Server para convertir conjuntos de datos de sistema central. Con una configuración mínima, puede usar un conector personalizado para convertir el conjunto de datos de sistema central igual que usaría cualquier otro conector de Azure Data Factory.
- AzCopy es una utilidad de línea de comandos que mueve blobs o archivos dentro y fuera de las cuentas de almacenamiento.
-
SQL Server Integration Services (SSIS) es una plataforma para crear soluciones de transformación e integración de datos de nivel empresarial. Puede usarlo para solucionar problemas empresariales complejos de las siguientes maneras:
- Copiar o descargar archivos
- Cargar almacenamiento de datos
- Limpiar y realizar operaciones de minería de datos
- Administrar los objetos y datos de SQL Server
- Las tecnologías y herramientas de Host Integration Server permiten integrar los sistemas host, los programas, los mensajes y los datos existentes de IBM con aplicaciones de Azure. El componente cliente de archivos host proporciona flexibilidad para los datos que se convierten de EBCDIC a ASCII. Por ejemplo, puede generar JSON/XML a partir de los datos convertidos.
- Azure Synapse Analytics reúne la integración de datos, el almacenamiento de datos empresariales y el análisis de macrodatos. La solución de conversión de Azure Synapse que se usa en esta arquitectura se basa en Apache Spark y es una buena candidata para la conversión de cargas de trabajo de grandes conjuntos de datos de sistema central. Admite una amplia variedad de estructuras y destinos de datos de sistema central y requiere un esfuerzo mínimo de creación de código.
Otras herramientas
- SQL Server Migration Assistant para Db2 automatiza la migración de Db2 a los servicios de base de datos de Microsoft. Mientras se ejecuta en una máquina virtual, esta herramienta convierte los objetos de base de datos de Db2 en objetos de base de datos de SQL Server y crea esos objetos en SQL Server.
- El proveedor de datos para archivos host es un componente de Host Integration Server que usa conexiones SNA, TCP/IP o sin conexión.
- Con las conexiones sin conexión, el proveedor de datos lee y escribe registros en un archivo binario local.
- Con las conexiones SNA y TCP/IP, el proveedor de datos lee y escribe los registros almacenados en los conjuntos de datos de z/OS remotos (sistema central de la serie z de IBM) o los archivos físicos de i5/OS remotos (sistemas AS/400 e iSeries de IBM). Solo los sistemas i5/OS usan TCP/IP.
- Los servicios de Azure proporcionan entornos, herramientas y procesos para desarrollar y escalar nuevas aplicaciones en la nube pública.
Detalles del escenario
Las modernas soluciones de almacenamiento de datos, como la plataforma de datos de Azure, ofrecen una mejor escalabilidad y rendimiento que los sistemas centrales e intermedios. Al modernizar estos sistemas, puede obtener estas ventajas. Sin embargo, la actualización de la tecnología, la infraestructura y los procedimientos es compleja. El proceso implica una investigación exhaustiva de las actividades empresariales y de ingeniería. Se tiene en cuenta la administración de datos al modernizar los sistemas. También debe tener en cuenta la visualización y la integración de los datos.
Las modernizaciones que se llevan a cabo correctamente emplean una estrategia de "datos primero". Con este enfoque, se centra en los datos, en lugar de en el nuevo sistema. La administración de datos ya no es solo un elemento de la lista de modernización. En su lugar, los datos se convierten en la pieza central. Las soluciones de datos coordinadas y orientadas a la calidad reemplazan a otras fragmentadas y deficientemente administradas.
La solución emplea los componentes de la plataforma de datos de Azure en un enfoque donde lo primero son los datos. En concreto, la solución abarca:
- Conversión de objetos. conversión de definiciones de objetos del almacén de datos de origen en los objetos correspondientes en el almacén de datos de destino.
- Ingesta de datos. conexión al almacén de datos de origen y extracción de datos.
- Transformación de datos. transformación de los datos extraídos en estructuras de almacén de datos de destino adecuadas.
- Almacenamiento de datos. carga de datos desde el almacén de datos de origen al almacén de datos de destino, tanto inicialmente como de forma continua.
Posibles casos de uso
Las organizaciones que usan sistemas centrales e intermedios pueden beneficiarse de esta solución, especialmente cuando quieren lograr estos objetivos:
- Modernizar cargas de trabajo críticas.
- Adquirir inteligencia empresarial para mejorar las operaciones y obtener una ventaja competitiva.
- Evitar los elevados costos y la rigidez asociados a los almacenes de datos de sistemas centrales e intermedios.
Consideraciones
Estas consideraciones constituyen los pilares del Marco de buena arquitectura de Azure, un conjunto de principios rectores que puede usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure. Cuando utilice el cliente del proveedor de datos para archivos de host para convertir datos, active la agrupación de conexiones con el fin de reducir el tiempo de inicio de la conexión. Cuando use Data Factory para extraer datos, optimice el rendimiento de la actividad de copia.
Seguridad
La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para obtener más información, consulte Introducción al pilar de seguridad.
- Tenga en cuenta las diferencias entre las identidades de cliente locales y las identidades de cliente en Azure. Es necesario compensar las diferencias.
- Utilice identidades administradas para flujos de datos de componente a componente.
- Al usar el proveedor de datos para archivos host para convertir datos, siga las recomendaciones de Seguridad y protección de proveedores de datos para archivos host.
Optimización de costos
La optimización de costes trata de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para obtener más información, consulte Descripción general del pilar Optimización de costes.
- SQL Server Migration Assistant es una herramienta gratuita y compatible que simplifica la migración de base de datos de Db2 a SQL Server, SQL Database y SQL Managed Instance. SQL Server Migration Assistant automatiza todos los aspectos de la migración, incluido el análisis de evaluación de la migración, la conversión de esquemas e instrucciones SQL y la migración de datos.
- La solución basada en Spark de Azure Synapse se crea a partir de bibliotecas de código abierto. Elimina la carga financiera de las licencias de las herramientas de conversión.
- Use la calculadora de precios de Azure para estimar el costo de la implementación de esta solución.
Eficiencia del rendimiento
La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que los usuarios hayan ejercido sobre ella. Para más información, consulte Resumen de los pilares de la eficiencia del rendimiento.
- Los pilares clave de la eficiencia del rendimiento son la administración del rendimiento, la planificación de la capacidad, la escalabilidad y la elección de un patrón de rendimiento adecuado.
- Puede escalar horizontalmente el IR autohospedado mediante la asociación de la instancia lógica con varias máquinas locales en modo activo-activo.
- Azure SQL Database ofrece la capacidad de escalar dinámicamente sus bases de datos. En un nivel sin servidor, puede escalar automáticamente los recursos de proceso. Un grupo elástico (Elastic Pool), que permite a las bases de datos compartir recursos en un grupo, solo se puede escalar manualmente.
Colaboradores
Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.
Autor principal:
- Ashish Khandelwal | Arquitecto jefe principal de ingeniería
Otros colaboradores:
- Nithish Aruldoss | Arquitecto de ingeniería
Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.
Pasos siguientes
Consulte las guías de Azure Database Migration. Para más información, póngase en contacto con el departamento de ingeniería de datos de Azure para la modernización de sistemas centrales e intermedios.
Vea los artículos siguientes:
- Cargas de trabajo de IBM en Azure
- Rehospedaje del sistema central en Azure Virtual Machines
- Cargas de trabajo del sistema central que se admiten en Azure
- Movimiento del proceso del sistema central a Azure