Editar

Compartir vía


Ofuscación de datos en Azure con Delphix y Azure Data Factory

Azure Data Factory
Azure Synapse Analytics

En la siguiente arquitectura se describe el uso del Cumplimiento continuo de Delphix en una canalización de extracción, transformación y carga (ETL) de Azure Data Factory (ADF) para identificar y enmascarar datos confidenciales.

Arquitectura

Diagrama que muestra la arquitectura de Cumplimiento continuo de Delphix.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

Los datos fluyen por el escenario de la siguiente manera:

  1. Azure Data Factory extrae datos de almacenes de datos de origen a un contenedor de Azure Files mediante la actividad Copiar datos. Este contenedor se conoce como contenedor de datos de origen y los datos están en formato CSV.
  2. Data Factory inicia un iterador (actividad ForEach) que recorre en bucle una lista de trabajos de enmascaramiento configurados en Delphix. Estos trabajos de enmascaramiento se configurarán previamente y enmascararán los datos confidenciales presentes en el contenedor de datos de origen.
  3. Para cada trabajo de la lista, la actividad Iniciar enmascaramiento se autentica e inicia el trabajo de enmascaramiento mediante una llamada a los puntos de conexión de la API de REST en Delphix CC Engine.
  4. Delphix CC Engine lee datos del contenedor de datos de origen y se ejecuta a través del proceso de enmascaramiento.
  5. En este proceso de enmascaramiento, Delphix enmascara los datos en memoria y escribe los datos enmascarados resultantes en un contenedor de Azure Files de destino (denominado Contenedor de datos de destino).
  6. Data Factory inicia ahora un segundo iterador (actividad ForEach) que supervisa las ejecuciones.
  7. Para cada ejecución (trabajo de enmascaramiento) que se inició, la actividad Comprobar estado comprueba el resultado del enmascaramiento.
  8. Una vez completados correctamente todos los trabajos de enmascaramiento, Data Factory carga los datos enmascarados del contenedor de datos de destino al destino especificado.

Componentes

  • Azure Data Factory es un servicio de extracción, transformación y carga (ETL) que ofrece escalabilidad horizontal, integración de datos sin servidor y transformación de datos. Ofrece una interfaz de usuario sin código que favorece la creación intuitiva y una supervisión y administración desde un único panel.
  • Azure Synapse Analytics es un servicio de análisis que reúne la integración de datos, el almacenamiento de datos empresariales y el análisis de macrodatos. Incluye canalizaciones de Azure Data Factory para proporcionar integración de datos.
  • Azure Storage almacena los datos extraídos de los almacenes de datos de origen y los datos enmascarados que se cargarán en los almacenes de datos de destino.
  • Opcional: Azure Virtual Network proporciona funcionalidades de red privadas para recursos de Azure que no forman parte del área de trabajo de Azure Synapse. Permite administrar el acceso, la seguridad y el enrutamiento entre recursos.
  • Otros componentes: en función de los almacenes de datos usados como origen y destino, es posible que sea necesario agregar otros componentes. Estos almacenes de datos pueden variar en función de sus requisitos.

Alternativas

También puede realizar ofuscación de datos mediante Microsoft Presidio. Obtenga más información sobre esta opción en Presidio - Data Protection and De-identification SDK en GitHub.

Detalles del escenario

En los últimos años ha habido una explosión de datos. Para desbloquear el valor estratégico de los datos, deben ser dinámicos y portátiles. Los datos presentes en silos limitan su valor estratégico y son difíciles de usar con fines analíticos.

Dividir los silos de datos es difícil:

  • Los datos deben manipularse para ajustarse a un formato común. Las canalizaciones ETL deben adaptarse a cada sistema de registro y deben escalarse para admitir conjuntos de datos masivos de empresas modernas.
  • El cumplimiento de las regulaciones relativas a la información confidencial debe mantenerse cuando los datos se mueven de sistemas de registro. El contenido del cliente y otros elementos confidenciales deben ocultarse sin afectar al valor empresarial del conjunto de datos.

¿Qué es Azure Data Factory?

Azure Data Factory es un servicio de integración de datos sin servidor totalmente administrado. Proporciona una experiencia visual enriquecida para integrar orígenes de datos con más de 100 conectores integrados sin mantenimiento, sin costo adicional. Construya fácilmente procesos de ETL y de extracción, carga y transformación (ELT) sin código en un entorno intuitivo o escriba su propio código. Después, entregue datos integrados a Azure Synapse Analytics para desbloquear la eficacia de los datos a través de información empresarial. Las canalizaciones de Data Factory también están disponibles en Azure Synapse Analytics.

¿Qué es el Cumplimiento continuo de Delphix (Delphix CC)?

El Cumplimiento continuo de Delphix identifica información confidencial y automatiza el enmascaramiento de datos. Ofrece una manera rápida, automatizada y controlada por API para proporcionar datos seguros donde se necesiten en las organizaciones.

¿Cómo resuelven CC de Delphix y Data Factory la automatización de los datos compatibles?

El movimiento de datos seguros es un desafío para todas las organizaciones. Delphix facilita un cumplimiento de datos consistente, mientras que Data Factory permite conectar y mover datos sin problemas. Juntos, Delphix y Data Factory combinan ofertas de automatización y cumplimiento líderes del sector para facilitar la entrega de datos compatibles a petición para todos.

Mediante el uso de los conectores de origen de datos ofrecidos por Data Factory, hemos creado dos canalizaciones de ETL que automatizan los pasos siguientes:

  • Leer los datos del sistema de registro y escribirlos en archivos CSV en Azure Blob Storage.

  • Proporcionar el cumplimiento continuo de Delphix con lo que requiere para identificar las columnas que pueden contener datos confidenciales y asignar algoritmos de enmascaramiento adecuados.

  • Ejecutar un trabajo de enmascaramiento de Delphix en los archivos para reemplazar los elementos de datos confidenciales por valores similares pero ficticios.

  • Cargar los datos compatibles con cualquier almacén de datos compatible con Data Factory.

Posibles casos de uso

Activación segura de Azure Data Services para soluciones específicas del sector

  • Identifique y enmascare datos confidenciales en aplicaciones grandes y complejas, donde el contenido del cliente sería difícil de identificar de otro modo. Delphix permite a los usuarios finales mover automáticamente datos compatibles de orígenes como SAP, Salesforce y Oracle EBS a capas de servicio de alto valor, como Microsoft Synapse.
  • Use los conectores eficaces y completos proporcionados por Microsoft Azure para desbloquear, enmascarar y migrar los datos de forma segura, independientemente de dónde se originen.

Solución de un cumplimiento normativo complejo para los datos

  • Coloque automáticamente el marco exhaustivo del algoritmo de Delphix para que funcione a fin de abordar los requisitos normativos de los datos.
  • Aplique reglas listas para datos para necesidades normativas como CCPA, LGPD, HIPAA y otras.

Aceleración del desplazamiento "DevSecOps" a la izquierda

  • Equipe sus canalizaciones de desarrollo y análisis (Azure DevOps, Jenkins, Harness) y otros flujos de trabajo de automatización con datos de nivel de producción mediante el enmascaramiento determinista y sistemático de datos confidenciales en canalizaciones centrales de Data Factory.
  • Enmascare los datos de manera consistente en todas las fuentes de datos, manteniendo la integridad referencial para las pruebas de aplicaciones integradas. Por ejemplo, el nombre George siempre debe enmascararse como Elliot o un determinado número de seguridad social (SSN) siempre debe enmascararse en el mismo SSN, independientemente de si George o su SSN aparecen en Oracle, Salesforce o SAP.

Reducción del tiempo de entrenamiento del algoritmo de inteligencia artificial y aprendizaje automático con análisis compatibles

  • Enmascare los datos de una manera que no aumente los ciclos de entrenamiento.
  • Conserve la integridad de los datos mientras los enmascara para evitar afectar la precisión del modelo/predicción.

Cualquier conector de Azure Data Factory o Azure Synapse Analytics se puede usar para facilitar un caso de uso determinado.

Ventajas principales

  • Conectividad universal
  • Enmascaramiento realista y determinista que mantiene la integridad referencial
  • Identificación preventiva de datos confidenciales para aplicaciones empresariales clave
  • Ejecución nativa en la nube
  • Implementación basada en plantillas
  • Escalable

Arquitectura de ejemplo

El siguiente ejemplo lo proporcionó un cliente anónimo. Está pensado solo como ejemplo para la forma en que uno podría diseñar un entorno para este caso de uso de enmascaramiento.

Diagrama de una arquitectura de muestra proporcionada por un cliente anónimo.

En la arquitectura de ejemplo anterior:

  • Azure Data Factory o Azure Synapse Analytics ingieren o se conectan a los datos de producción sin enmascarar en la zona de aterrizaje
  • Los datos se mueven al almacenamiento provisional de datos en Azure Storage
  • El montaje NFS de datos de producción en pods de Delphix CC permite que la canalización llame al servicio Delphix CC
  • Los datos enmascarados se devuelven para su distribución dentro de Data Factory y entornos inferiores

Consideraciones

Estas consideraciones implementan los pilares del marco de buena arquitectura de Azure, que es un conjunto de principios guía que se pueden usar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

Delphix CC enmascara de forma irreversible los valores de datos con datos realistas que siguen siendo totalmente funcionales, lo que permite el desarrollo de código de mayor calidad. Entre el amplio conjunto de algoritmos disponibles para transformar datos en especificaciones de usuario, Delphix CC tiene un algoritmo patentado que produce intencionadamente colisiones de datos, mientras que al mismo tiempo permite el salting de datos con valores específicos necesarios para posibles rutinas de validación que se ejecutan en el conjunto de datos enmascarado. Desde una perspectiva de Confianza cero, los operadores no necesitan acceso a los datos reales para enmascararlos. Además, toda la entrega de datos enmascarados desde el punto A al punto B se puede automatizar a través de las API.

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Al ajustar los valores en la calculadora de precios de Azure, puede ver cómo afectan los requisitos concretos al coste. Azure Synapse: puede escalar los niveles de proceso y almacenamiento de forma independiente. Los recursos de proceso se cobran por hora; además, estos recursos se pueden escalar o pausar a petición. Los recursos de almacenamiento se facturan por terabyte, por lo que los costos aumentan con la ingesta de datos.

Data Factory o Azure Synapse Analytics: los costes se basan en la cantidad de operaciones de lectura/escritura, operaciones de supervisión y actividades de orquestación realizadas en una carga de trabajo. Sus costos aumentarán con cada flujo de datos adicional y la cantidad de datos procesados ​​por cada uno.

Delphix CC: a diferencia de otros productos de cumplimiento de datos en el mercado, el enmascaramiento no requiere una copia física completa del entorno que se enmascara. La redundancia del entorno puede ser muy costosa debido al tiempo de configurar y mantener la infraestructura, el costo de la propia infraestructura y el tiempo dedicado repetidamente a cargar datos físicos en el entorno de enmascaramiento.

Eficiencia del rendimiento

La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que los usuarios hayan ejercido sobre ella. Para obtener más información, vea Resumen del pilar de eficiencia del rendimiento.

Delphix CC es escalable horizontal y verticalmente. Las transformaciones se producen en memoria y se pueden paralelizar. El producto se ejecuta como un servicio y como un dispositivo de varios nodos, lo que permite arquitecturas de solución de todos los tamaños en función de la aplicación. Delphix es el líder del mercado en la entrega de conjuntos de datos enmascarados extremadamente grandes.

Se pueden aumentar los flujos de enmascaramiento para interactuar con varios núcleos de CPU en un trabajo. (Las recomendaciones de configuración y los detalles sobre cómo modificar la asignación de memoria se pueden encontrar aquí: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/).

Para obtener un rendimiento óptimo para conjuntos de datos de más de 1 TB de tamaño, el enmascaramiento de hiperescala de Delphix divide los conjuntos de datos grandes y complejos en numerosos módulos y organiza los trabajos de enmascaramiento en varios motores de cumplimiento continuo.

Implementación de este escenario

  1. Implementación de Delphix CC Engine en Azure
  2. En Data Factory, implemente las plantillas de Data Factory de Cumplimiento continuo de Delphix: generación de perfiles (Generación de perfiles de Delphix CC) y Cumplimiento continuo de Delphix: enmascaramiento (Enmascaramiento de Delphix CC). Estas plantillas funcionan para las canalizaciones de Azure Synapse Analytics y Azure Data Factory.
  3. En los componentes Copiar datos, configure los almacenes de datos de origen y destino deseados. En los componentes de actividad web, escriba la dirección IP o el nombre de host de la aplicación Delphix y las credenciales para autenticarse con las API de Delphix CC.
  4. Ejecute la plantilla de Data Factory de Generación de perfiles de Delphix CC para la configuración inicial y en cualquier momento en que quiera volver a identificar datos confidenciales (por ejemplo, si se ha producido un cambio de esquema). Esta plantilla proporciona Delphix CC con la configuración inicial que requiere para buscar columnas que puedan contener datos confidenciales.
  5. Cree un conjunto de reglas que indique la colección de datos para la que quiere generar perfiles. Ejecute un trabajo de generación de perfiles en la interfaz de usuario de Delphix para identificar y clasificar campos confidenciales para ese conjunto de reglas y asignar algoritmos de enmascaramiento adecuados.
  6. Revise y modifique los resultados de la pantalla Inventario según sea necesario. Una vez que esté satisfecho con los resultados y quiera enmascarar en consecuencia, cree un trabajo de enmascaramiento.
  7. De nuevo en la interfaz de usuario de Data Factory, abra la plantilla de Data Factory de enmascaramiento de Delphix CC. Proporcione el id. de trabajo de enmascaramiento del paso anterior y ejecute la plantilla.
  8. Al final de este paso, tendrá datos enmascarados en el almacén de datos de destino que prefiera.

Nota

Necesitará la dirección IP de la aplicación Delphix y el nombre de host con credenciales para autenticarse en las API de Delphix.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

  • Tess Maggio | Responsable de producto 2
  • Arun Saju | Ingeniero sénior de personal
  • David Wells | Director sénior, Jefe de producto de Cumplimiento continuo

Otros colaboradores:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes

Consulte los siguientes recursos de Delphix:

Obtenga más información sobre los servicios clave de Azure en esta solución: