Editar

Compartir a través de


Codificación de datos para aplicaciones SAP mediante Delphix y Azure Data Factory

Azure Data Factory
Azure Synapse Analytics

En muchas empresas, SAP es la aplicación más crítica y el sistema principal de registro de una amplia gama de datos. Las empresas deben ser capaces de aprovechar los datos para el análisis tanto de SAP como de sus aplicaciones ascendentes y descendentes de forma rentable, escalable y flexible. Al mismo tiempo, las empresas también necesitan asegurarse de que estos datos cumplen con una gran cantidad de regulaciones.

Architecture

En la siguiente arquitectura se describe el uso de CC de Delphix en una canalización de Azure Data Factory o Azure Synapse para identificar y enmascarar datos confidenciales.

Diagrama que muestra la arquitectura del entorno necesaria para usar Delphix para codificar los datos de SAP para usarlos con Azure Data Factory.

Descargue un archivo Visio de esta arquitectura.

¿Qué es Azure Data Factory?

Azure Data Factory es un servicio de integración de datos sin servidor totalmente administrado. Proporciona una experiencia visual enriquecida para integrar orígenes de datos con más de 100 conectores integrados sin mantenimiento, sin costo adicional. Construya fácilmente procesos de extracción, transformación y carga (ETL) y de extracción, carga y transformación (ELT), sin necesidad de escribir código en un entorno intuitivo o escriba su propio código. Después, entregue datos integrados a Azure Synapse Analytics para desbloquear la eficacia de los datos a través de información empresarial.

¿Qué es el Cumplimiento continuo de Delphix (Delphix CC)?

El cumplimiento continuo de Delphix (CC de Delphix) identifica información confidencial y automatiza el enmascaramiento y codificación de datos. Ofrece una manera rápida, automatizada y controlada por API para proporcionar datos seguros donde se necesiten en las organizaciones.

¿Cómo resuelven CC de Delphix y Azure Data Factory la automatización de los datos compatibles?

El movimiento de datos seguros es un desafío para todas las organizaciones. Delphix facilita un cumplimiento de datos consistente, mientras que Azure Data Factory permite conectar y mover datos sin problemas. Juntos, CC de Delphix y Azure Data Factory combinan ofertas de automatización y cumplimiento líderes del sector para facilitar la entrega de datos compatibles a petición para todos.

Mediante el uso de los conectores de orígenes de datos que ofrece Azure Data Factory, hemos creado una canalización de ETL que permite a un usuario final automatizar los pasos siguientes:

  1. Leer los datos del sistema de registro (SAP HANA) y escribirlos en archivos CSV en Azure Storage.
  2. Ejecutar un trabajo de enmascaramiento de Delphix en los archivos para reemplazar los elementos de datos confidenciales por valores similares pero ficticios.
  3. Cargar los datos compatibles en Azure Synapse Analytics.

Flujo de datos

Los datos fluyen por el escenario de la siguiente manera:

  1. Azure Data Factory extrae datos de almacenes de datos de origen (SAP HANA) a un contenedor de Azure Files mediante la actividad Copiar datos. Este contenedor se conoce como contenedor de datos de origen y los datos están en formato CSV. Para usar el conector de SAP HANA, Microsoft recomienda el uso de un entorno de ejecución de integración autohospedado. Consulte esta guía de procedimientos para más información.
  2. Azure Data Factory inicia un iterador (actividad ForEach) que recorre en bucle una lista de trabajos de enmascaramiento configurados en Delphix. Estos trabajos de enmascaramiento se configurarán previamente y enmascararán los datos confidenciales presentes en el contenedor de datos de origen.
  3. Para cada trabajo de la lista, la actividad Iniciar enmascaramiento se autentica e inicia el trabajo de enmascaramiento mediante una llamada a los puntos de conexión de la API de REST en Delphix CC Engine.
  4. Delphix CC Engine lee datos del contenedor de datos de origen y se ejecuta a través del proceso de enmascaramiento.
  5. En este proceso de enmascaramiento, Delphix enmascara los datos en memoria y escribe los datos enmascarados resultantes en un contenedor de Azure Files de destino (denominado Contenedor de datos de destino).
  6. Azure Data Factory inicia ahora un segundo iterador (actividad ForEach) que supervisa las ejecuciones.
  7. Para cada ejecución (trabajo de enmascaramiento) que se inició, la actividad Comprobar estado comprueba el resultado del enmascaramiento.
  8. Una vez completados correctamente todos los trabajos de enmascaramiento, Data Factory carga los datos enmascarados del contenedor de datos de destino en Azure Synapse Analytics.

Componentes

  • Azure Data Factory es un servicio de extracción, transformación y carga (ETL) que ofrece escalabilidad horizontal, integración de datos sin servidor y transformación de datos. Ofrece una interfaz de usuario sin código que favorece la creación intuitiva y una supervisión y administración desde un único panel.
  • Azure Storage almacena los datos extraídos de los almacenes de datos de origen y los datos enmascarados que se cargarán en los almacenes de datos de destino.
  • Un grupo de recursos es un contenedor lógico de recursos de Azure. Los grupos de recursos organizan todo lo relacionado con este proyecto en la consola de Azure.
  • Los entornos de ejecución de integración autohospedados deben estar configurados y se debe instalar un controlador ODBC de SAP HANA para la extracción de datos de SAP HANA.
  • Opcional: Azure Virtual Network proporciona funcionalidades de red privadas para recursos de Azure que no forman parte del área de trabajo de Azure Synapse. Permite administrar el acceso, la seguridad y el enrutamiento entre recursos.

Posibles casos de uso

  • Mueva automáticamente los datos compatibles de las aplicaciones SAP (la arquitectura descrita aquí es específica de las aplicaciones de SAP con un back-end de HANA) a Microsoft Synapse para proporcionar a los analistas los datos que necesitan para realizar pruebas de una manera rentable, rápida y escalable. Realice millones de operaciones de codificación en minutos.
  • Coloque automáticamente el marco del algoritmo Delphix exhaustivo para abordar los requisitos normativos de los datos (por ejemplo, para que cumplan con el Reglamento General de Protección de Datos (RGPD), CCPA, LGPD y HIPAA).
  • Enmascare o codifique los datos de manera consistente en todas las fuentes de datos, al tiempo que mantiene la integridad referencial para las pruebas de aplicaciones integradas. Por ejemplo, el nombre George siempre debe enmascararse como Elliot o un determinado número de seguridad social (SSN) siempre debe enmascararse en el mismo SSN ficticio, independientemente de si George y su SSN aparecen en SAP, Oracle, Salesforce o cualquier otra aplicación.
  • Enmascare o codifique datos de una manera que no aumente los ciclos de entrenamiento y que no afecte a la precisión del modelo o de la predicción.
  • Configure una solución que funcione tanto para el entorno local como para la nube, simplemente modificando los conectores de origen. Por ejemplo, uno podría extraer datos de una aplicación SAP local, replicar esos datos en la nube y garantizar el cumplimiento antes de cargarlos en Synapse.

Ventajas principales

  • Enmascaramiento o codificación realista y determinista que mantiene la integridad referencial
  • Identificación preferente de datos confidenciales para las tablas y módulos de SAP más comunes
  • Ejecución nativa en la nube
  • Implementación basada en plantillas
  • Escalable
  • Alternativa de bajo costo al caro HANA HW en memoria

Introducción

  1. Implemente Delphix CC Engine en Azure.
  2. En Azure Data Factory, implemente el enmascaramiento de datos con Delphix y la detección de datos confidenciales con plantillas de Delphix. Nota: Estas plantillas funcionan para las canalizaciones de Azure Synapse y Azure Data Factory.
  3. Configure un entorno de ejecución de integración autohospedado como se detalla en esta guía de procedimientos para extraer datos de SAP HANA.
  4. En los componentes de Copiar datos, configure el origen deseado como SAP HANA en el paso Extracción y Synapse como destino deseado en el paso Carga. En los componentes de actividad web, escriba la dirección IP o el nombre de host de la aplicación Delphix y las credenciales para autenticarse con las API de Delphix CC.
  5. Ejecute la detección de datos confidenciales con la plantilla de Azure Data Factory para Delphix durante la configuración inicial y siempre que quiera identificar previamente los datos confidenciales (por ejemplo, si se ha producido un cambio de esquema). Esta plantilla proporciona Delphix CC con la configuración inicial que requiere para buscar columnas que puedan contener datos confidenciales. También puede usarla junto con Delphix Compliance Accelerator for SAP, los campos confidenciales identificados previamente y los algoritmos de enmascaramiento para proteger los datos de las tablas principales de SAP, por ejemplo, los módulos Finanzas, Recursos humanos y Logística. Póngase en contacto con Delphix si está interesado en esta opción.
  6. Cree un conjunto de reglas que indique la colección de datos para la que quiere generar perfiles. Ejecute un trabajo de generación de perfiles en la interfaz de usuario de Delphix para identificar y clasificar campos confidenciales para ese conjunto de reglas y asignar algoritmos de enmascaramiento adecuados.
  7. Ejecute la plantilla. Una vez completado, tendrá datos enmascarados (como los identificados previamente para las tablas o módulos principales por Delphix Compliance Accelerator for SAP) en Azure Synapse Analytics.

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

Delphix CC enmascara de forma irreversible los valores de datos con datos realistas que siguen siendo totalmente funcionales, lo que permite el desarrollo de código de mayor calidad. Entre el amplio conjunto de algoritmos disponibles para transformar datos en especificaciones de usuario, Delphix CC tiene un algoritmo patentado que produce intencionadamente colisiones de datos, mientras que al mismo tiempo permite el cifrado con sal de datos con valores específicos necesarios para posibles rutinas de validación que se ejecutan en el conjunto de datos enmascarado. Desde una perspectiva de Confianza cero, los operadores no necesitan acceso a los datos reales para enmascararlos. Además, toda la entrega de datos enmascarados desde el punto A al punto B se puede automatizar a través de las API.

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Al ajustar los valores en la calculadora de precios de Azure, puede ver cómo afectan los requisitos concretos al coste.

Azure Synapse: puede escalar los niveles de proceso y almacenamiento de forma independiente. Los recursos de proceso se cobran por hora; además, estos recursos se pueden escalar o pausar a petición. Los recursos de almacenamiento se facturan por terabyte, por lo que los costos aumentan con la ingesta de datos.

Los costos de Data Factory se basan en el número de operaciones de lectura/escritura, las operaciones de supervisión y las actividades de orquestación realizadas en una carga de trabajo. Estos aumentan con cada flujo de datos adicional y la cantidad de datos que procese cada uno.

Delphix CC: a diferencia de otros productos de cumplimiento de datos en el mercado, el enmascaramiento no requiere una copia física completa del entorno que se enmascara. La redundancia del entorno puede ser costosa debido al tiempo de configurar y mantener la infraestructura, el costo de la propia infraestructura y el tiempo dedicado repetidamente a cargar datos físicos en el entorno de enmascaramiento.

Eficiencia del rendimiento

La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que los usuarios hayan ejercido sobre ella. Para obtener más información, vea Resumen del pilar de eficiencia del rendimiento.

Delphix CC es escalable horizontal y verticalmente. Las transformaciones se producen en memoria y se pueden paralelizar. El producto se ejecuta como un servicio y como un dispositivo de varios nodos, lo que permite arquitecturas de solución de todos los tamaños en función de la aplicación. Delphix es el líder del mercado en la entrega de conjuntos de datos enmascarados grandes.

Se pueden aumentar los flujos de enmascaramiento para interactuar con varios núcleos de CPU en un trabajo. (Las recomendaciones de configuración y cómo modificar la asignación de memoria se pueden encontrar aquí: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/).

Para obtener un rendimiento óptimo para conjuntos de datos de más de 1 TB de tamaño, el enmascaramiento de hiperescala de Delphix divide los conjuntos de datos grandes y complejos en numerosos módulos y organiza los trabajos de enmascaramiento en varios motores de cumplimiento continuo.

Colaboradores

Este artículo lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Otros colaboradores:

Pasos siguientes