Editar

Compartilhar via


Ofuscação de dados no Azure com Delphix e Azure Data Factory

Fábrica de dados do Azure
Azure Synapse Analytics

A arquitetura a seguir descreve o uso da Conformidade Contínua Delphix em um pipeline de ETL (extração, transformação e carregamento) do Azure Data Factory (ADF) para identificar e mascarar dados confidenciais.

Arquitetura

Diagrama mostrando a arquitetura do Delphix Continuous Compliance.

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

O fluxo de dados neste cenário ocorre da seguinte forma:

  1. O Azure Data Factory (ADF) extrai dados do(s) armazenamento(s) de dados de origem para um contêiner nos Arquivos do Azure usando a atividade Copiar Dados. Esse contêiner é conhecido como Contêiner de Dados de Origem e os dados estão no formato CSV.
  2. O Data Factory inicia um iterador (atividade ForEach) que percorre uma lista de trabalhos de mascaramento configurados no Delphix. Esses trabalhos de mascaramento serão pré-configurados e mascararão dados confidenciais presentes no Contêiner de Dados de Origem.
  3. Para cada trabalho na lista, a atividade Iniciar mascaramento autentica e inicia o trabalho de mascaramento chamando os pontos de extremidade da API REST no Mecanismo Delphix CC.
  4. O Delphix CC Engine lê dados do Contêiner de Dados de Origem e executa o processo de mascaramento.
  5. Nesse processo de mascaramento, o Delphix mascara dados na memória e grava os dados mascarados resultantes em um contêiner de Arquivos do Azure de destino (conhecido como Contêiner de Dados de Destino).
  6. O Data Factory agora inicia um segundo iterador (atividade ForEach) que monitora as execuções.
  7. Para cada execução (Trabalho de mascaramento) iniciada, a atividade Verificar Status verifica o resultado do mascaramento.
  8. Depois que todos os trabalhos de mascaramento forem concluídos com êxito, o Data Factory carregará os dados mascarados do Contêiner de Dados de Destino para o destino especificado.

Componentes

  • O Azure Data Factory é o serviço de ETL (extração, transformação e carregamento) para integração e transformação de dados sem servidor em expansão. Ele oferece uma interface do usuário livre de código para criação intuitiva e gerenciamento e monitoramento em painel único.
  • O Azure Synapse Analytics é um serviço de análise de dados ilimitado que reúne a integração de dados, um data warehouse corporativo e análises de Big Data. Ele inclui pipelines do Azure Data Factory para fornecer integração de dados.
  • O Armazenamento do Azure armazena os dados extraídos do(s) armazenamento(s) de dados de origem e os dados mascarados que serão carregados no(s) armazenamento(s) de dados de destino.
  • Opcional: a Rede Virtual do Azure fornece recursos de rede privada para recursos do Azure que não fazem parte do espaço de trabalho do Azure Synapse. Ele permite que você gerencie o acesso, a segurança e o roteamento entre recursos.
  • Outros componentes: com base nos armazenamentos de dados usados como origem e destino, outros componentes podem precisar ser adicionados. Esses armazenamentos de dados podem variar dependendo de suas necessidades.

Alternativas

Você também pode executar ofuscação de dados usando o Microsoft Presidio. Saiba mais sobre essa opção em Presidio - Data Protection and De-identification SDK no GitHub.

Detalhes do cenário

Houve uma explosão de dados nos últimos anos. Para desbloquear o valor estratégico dos dados, eles precisam ser dinâmicos e portáteis. Os dados presentes nos silos limitam seu valor estratégico e são difíceis de usar para fins analíticos.

É difícil interromper os silos de dados:

  • Os dados devem ser manipulados para se ajustarem a um formato comum. Os pipelines de ETL devem ser adaptados a cada sistema de registro e devem ser dimensionados para suportar os enormes conjuntos de dados das empresas modernas.
  • A conformidade com as normas relativas a informações confidenciais deve ser mantida quando os dados são transferidos dos sistemas de registro. O conteúdo do cliente e outros elementos confidenciais devem ser ocultados sem afetar o valor comercial do conjunto de dados.

O que é o Azure Data Factory?

O Azure Data Factory é um serviço de integração de dados sem servidor totalmente gerenciado. Ele fornece uma experiência visual rica para integrar fontes de dados com mais de 100 conectores integrados e livres de manutenção sem custo adicional. Construa facilmente processos ETL e ELT (extração, carregamento e transformação) sem código em um ambiente visual intuitivo ou escreva seu próprio código. Em seguida, forneça dados integrados ao Azure Synapse Analytics para desbloquear o poder de seus dados através de insights de negócios. Os pipelines de data factory também estão disponíveis no Azure Synapse Analytics.

O que é Delphix Continuous Compliance (Delphix CC)?

O Delphix Continuous Compliance identifica informações confidenciais e automatiza o mascaramento de dados. Ele oferece uma maneira rápida, automatizada e orientada por API para fornecer dados seguros onde eles são necessários nas organizações.

Como o Delphix CC e o Data Factory resolvem a automação de dados compatíveis?

A movimentação dos dados seguros é um desafio para todas as organizações. A Delphix facilita a obtenção de uma conformidade de dados consistente, enquanto o Data Factory habilita a conexão e a movimentação de dados de maneira perfeita. Juntos, o Delphix e o Data Factory estão combinando ofertas de conformidade e automação líderes do setor para facilitar a entrega de dados sob demanda e em conformidade para todos.

Usando os conectores de fonte de dados oferecidos pelo Data Factory, criamos dois pipelines de ETL que automatizam as seguintes etapas:

  • Leia os dados do sistema de registro e grave-os em arquivos CSV no Armazenamento de Blobs do Azure.

  • Forneça conformidade contínua Delphix com o que ele requer para identificar colunas que podem conter dados confidenciais e atribuir algoritmos de mascaramento apropriados.

  • Execute um trabalho de mascaramento Delphix nos arquivos para substituir elementos de dados confidenciais por valores semelhantes, mas fictícios.

  • Carregue os dados compatíveis em qualquer armazenamento de dados compatível com Data Factory.

Possíveis casos de uso

Ativar com segurança os Serviços de Dados do Azure para soluções específicas do setor

  • Identifique e mascare dados confidenciais em aplicativos grandes e complexos, onde o conteúdo do cliente seria difícil de identificar. O Delphix permite que os usuários finais movam automaticamente dados compatíveis de fontes como SAP, Salesforce e Oracle EBS para camadas de serviço de alto valor, como o Microsoft Synapse.
  • Use os conectores poderosos e abrangentes fornecidos pelo Microsoft Azure para desbloquear, mascarar e migrar seus dados com segurança, independentemente de onde eles se originem.

Resolva a conformidade regulatória complexa para dados

  • Coloque automaticamente a estrutura exaustiva do Delphix Algorithm para trabalhar atendendo a quaisquer requisitos regulatórios para seus dados.
  • Aplique regras prontas para dados para necessidades regulatórias como CCPA, LGPD, HIPAA e outras.

Acelere o deslocamento "DevSecOps" para a esquerda

  • Equipe seus pipelines de desenvolvedor e análise (Azure DevOps, Jenkins, Harness) e outros fluxos de trabalho de automação com dados de nível de produção mascarando dados confidenciais de forma sistemática e determinística em pipelines centrais do Data Factory.
  • Mascare dados de forma consistente entre fontes de dados, mantendo a integridade referencial para testes de aplicativos integrados. Por exemplo, o nome George deve sempre ser mascarado para Elliot ou um determinado número de seguro social (SSN) deve sempre ser mascarado para o mesmo SSN, independentemente de George e seu SSN aparecerem no Oracle, Salesforce ou SAP.

Reduza o tempo de treinamento do algoritmo de IA/ML com análises compatíveis

  • Mascare os dados de uma maneira que não aumente os ciclos de treinamento.
  • Mantenha a integridade dos dados enquanto mascara para evitar afetar a precisão do modelo/previsão.

Qualquer conector do Azure Data Factory ou do Azure Synapse Analytics pode ser usado para facilitar um determinado caso de uso.

Principais benefícios

  • Conectividade universal
  • Mascaramento realista, determinístico e que mantém a integridade referencial
  • Identificação preventiva de dados confidenciais para os principais aplicativos corporativos
  • Execução nativa na nuvem
  • Implantação baseada em modelo
  • Escalonável

Arquitetura de exemplo

O exemplo a seguir foi fornecido por um cliente anônimo. Destina-se apenas como uma amostra de como se pode arquitetar um ambiente para esse caso de uso de mascaramento.

Diagrama de um exemplo de arquitetura fornecida por um cliente anônimo.

No exemplo de arquitetura acima:

  • O Azure Data Factory ou o Azure Synapse Analytics ingere/conecta-se a dados de produção e não mascarados na zona de destino
  • Os dados são movidos para o Preparo de Dados no Armazenamento do Azure
  • A montagem NFS de dados de produção em PODs Delphix CC permite que o pipeline chame o serviço Delphix CC
  • Os dados mascarados são retornados para distribuição em ambientes Data Factory e inferiores

Considerações

Estas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para saber mais, confira Visão geral do pilar de segurança.

O Delphix CC mascara irreversivelmente os valores de dados com dados realistas que permanecem totalmente funcionais, permitindo o desenvolvimento de código de maior qualidade. Entre o rico conjunto de algoritmos disponíveis para transformar dados em especificações do usuário, o Delphix CC tem um algoritmo patenteado que intencionalmente produz colisões de dados, ao mesmo tempo em que permite salgar dados com valores específicos necessários para possíveis rotinas de validação executadas no conjunto de dados mascarados. De uma perspectiva Zero Trust, os operadores não precisam acessar os dados reais para mascará-los. Além disso, toda a entrega de dados mascarados do ponto A ao ponto B pode ser automatizada via APIs.

Otimização de custo

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, confira Visão geral do pilar de otimização de custo.

Ao ajustar os valores na calculadora de preços do Azure, você pode ver como seus requisitos específicos afetam o custo. Azure Synapse: Você pode dimensionar seus níveis de computação e armazenamento independentemente. Os recursos de computação são cobrados por hora e você pode dimensioná-los ou interrompê-los sob demanda. Os recursos de armazenamento são cobrados por terabyte, assim seus custos aumentam à medida que você insere mais dados.

Data Factory ou Azure Synapse Analytics: os custos são baseados no número de operações de leitura/gravação, monitoramento e atividades de orquestração realizadas em uma carga de trabalho. Os custos aumentam com cada fluxo de dados adicional e a quantidade de dados processados por cada um.

Delphix CC: Ao contrário de outros produtos de conformidade de dados no mercado, o mascaramento não requer uma cópia física completa do ambiente que está sendo mascarado. A redundância do ambiente pode ser extremamente cara devido ao tempo para configurar e manter a infraestrutura, ao custo da própria infraestrutura e ao tempo gasto repetidamente carregando dados físicos no ambiente de mascaramento.

Eficiência de desempenho

A eficiência do desempenho é a capacidade de dimensionar sua carga de trabalho para atender às demandas colocadas por usuários de maneira eficiente. Para obter mais informações, consulte Visão geral do pilar de eficiência de desempenho.

O Delphix CC é horizontal e verticalmente escalável. As transformações ocorrem na memória e podem ser paralelizadas. O produto é executado como um serviço e como um dispositivo de vários nós, permitindo arquiteturas de solução de todos os tamanhos, dependendo da aplicação. A Delphix é líder de mercado no fornecimento de conjuntos de dados mascarados extremamente grandes.

Os fluxos de mascaramento podem ser aumentados para envolver vários núcleos de CPU em um trabalho. (Recomendações de configuração e detalhes sobre como alterar a alocação de memória podem ser encontrados aqui: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/).

Para atingir o desempenho ideal para conjuntos de dados com mais de 1 TB, o Delphix Hyperscale Masking divide os conjuntos de dados grandes e complexos em vários módulos e, em seguida, orquestra os trabalhos de mascaramento em vários Mecanismos de Conformidade Contínua.

Implantar este cenário

  1. Implantar o mecanismo da CC Delphix no Azure
  2. No Data Factory, implante os modelos Delphix Continuous Compliance: Profiling (Delphix CC Profiling) e Delphix Continuous Compliance: Masking (Delphix CC Masking) Data Factory. Esses modelos funcionam para pipelines do Azure Synapse Analytics e do Azure Data Factory.
  3. Nos componentes Copiar Dados, configure os armazenamentos de dados de origem e de destino desejados. Nos componentes de Atividade da Web, insira o endereço IP do aplicativo Delphix / nome do host e as credenciais para autenticar com APIs do Delphix CC.
  4. Execute o modelo Delphix CC Profiling Data Factory para configuração inicial e sempre que desejar reidentificar dados confidenciais (por exemplo, se houve uma alteração de esquema). Este modelo fornece ao Delphix CC a configuração inicial necessária para procurar colunas que possam conter dados confidenciais.
  5. Crie um conjunto de regras indicando a coleção de dados que você gostaria de perfilar. Execute um trabalho de criação de perfil na interface do usuário do Delphix para identificar e classificar campos confidenciais para esse conjunto de regras e atribuir algoritmos de mascaramento apropriados.
  6. Revise e modifique os resultados da tela Inventário conforme desejado. Quando estiver satisfeito com os resultados e quiser mascarar de acordo, crie um trabalho de mascaramento.
  7. De volta à interface do usuário do Data Factory, abra o modelo Delphix CC Masking Data Factory. Forneça a ID do Trabalho de Mascaramento na etapa acima e execute o modelo.
  8. No final desta etapa, você terá dados mascarados no armazenamento de dados de destino de sua escolha.

Observação

Você precisará do endereço IP do aplicativo Delphix e do nome do host com credenciais para autenticar nas APIs Delphix.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Principais autores:

Outros colaboradores:

Para ver perfis não públicos do LinkedIn, entre no LinkedIn.

Próximas etapas

Consulte os seguintes recursos Delphix:

Saiba mais sobre os principais serviços do Azure nesta solução: