Projete um ambiente de pesquisa seguro para dados regulamentados

Máquinas Virtuais de Ciência de Dados do Azure

Azure Machine Learning

Fábrica de dados do Azure

Este artigo descreve um ambiente de pesquisa seguro que permite que os pesquisadores acessem dados confidenciais que estão sob um alto nível de controle e proteção. Este artigo se aplica a organizações que devem aderir à conformidade regulatória ou outros requisitos de segurança rígidos.

Arquitetura

Baixe um Arquivo Visio dessa arquitetura.

Fluxo de dados

O fluxo de dados a seguir corresponde ao diagrama acima:

Os proprietários de dados carregam os conjuntos de dados em uma conta de armazenamento de blobs pública. Eles usam chaves gerenciadas pela Microsoft para criptografar os dados.
O Azure Data Factory usa um gatilho que começa a copiar o conjunto de dados carregado para um local específico ou caminho de importação em outra conta de armazenamento que tenha controles de segurança. Você só pode acessar a conta de armazenamento por meio de um ponto de extremidade privado. Uma entidade de serviço com permissões limitadas também pode acessar a conta. O Data Factory exclui a cópia original, o que torna o conjunto de dados imutável.
Os pesquisadores acessam o ambiente seguro por meio de um aplicativo de streaming usando a Área de Trabalho Virtual do Azure como uma jump box privilegiada.
O conjunto de dados na conta de armazenamento seguro é apresentado às VMs (máquinas virtuais) de ciência de dados que você provisiona em um ambiente de rede seguro para o trabalho de pesquisa. Grande parte da preparação de dados é feita nessas VMs.
O ambiente seguro tem o Azure Machine Learning e o Azure Synapse Analytics, que podem acessar o conjunto de dados por meio de um ponto de extremidade privado. Você pode usar essas plataformas para treinar, implantar, automatizar e gerenciar modelos de aprendizado de máquina ou usar o Azure Synapse Analytics. Neste ponto, você pode criar modelos que atendam às diretrizes regulatórias. Remova a identificação de todos os dados do modelo removendo informações pessoais.
Modelos ou dados não identificados são salvos em um local separado no armazenamento seguro ou no caminho de exportação. Ao adicionar novos dados ao caminho de exportação, você dispara um aplicativo lógico. Nessa arquitetura, o aplicativo lógico está fora do ambiente seguro porque nenhum dado é enviado para o aplicativo lógico. Sua única função é enviar notificações e iniciar o processo de aprovação manual.

O aplicativo lógico inicia um processo de aprovação solicitando uma revisão dos dados que estão na fila para serem exportados. Os revisores manuais ajudam a garantir que os dados confidenciais não sejam exportados. Após o processo de revisão, os dados são aprovados ou negados.

Observação

Se uma etapa de aprovação não for necessária na exfiltração, você poderá omitir a etapa do aplicativo lógico.
Se os dados descaracterizados forem aprovados, eles serão enviados para a instância do Data Factory.
O Data Factory move os dados para a conta de armazenamento público em um contêiner separado para permitir que pesquisadores externos acessem seus dados e modelos exportados. Como alternativa, você pode provisionar outra conta de armazenamento em um ambiente de segurança inferior.

Componentes

Essa arquitetura consiste em vários serviços do Azure que dimensionam recursos de acordo com suas necessidades. As seções a seguir descrevem esses serviços e suas funções. Para obter links para a documentação do produto a fim de começar a usar esses serviços, confira Próximas etapas.

Componentes principais da carga de trabalho

Estes são os principais componentes que movem e processam os dados de pesquisa.

As VMs de ciência de dados do Azure são VMs que você configura com ferramentas para análise de dados e aprendizado de máquina. Use a VM de ciência de dados quando precisar de pacotes ou ferramentas específicas, como MATLAB ou SAS, que os ambientes de PaaS (plataforma como serviço) não podem suportar. Para segurança e facilidade de uso, escolha Machine Learning e outras opções de PaaS quando houver suporte.
Machine Learning é um serviço que você pode usar para treinar, implantar, automatizar e gerenciar modelos de machine learning. Você também pode usá-lo para gerenciar a alocação e o uso de recursos de computação de aprendizado de máquina. O Machine Learning é a ferramenta preferida para notebooks Jupyter para desenvolvimento.
A computação do Machine Learning é um cluster de nós que você pode usar para treinar e testar modelos de aprendizado de máquina e IA. A computação é alocada sob demanda de acordo com uma opção de dimensionamento automático. Você pode implantar o Visual Studio Code (VS Code) como um aplicativo de streaming da Área de Trabalho Virtual e conectá-lo à computação do Machine Learning para um ambiente de desenvolvimento alternativo.
O Armazenamento de Blobs do Azure tem duas instâncias. A instância pública armazena temporariamente os dados que os proprietários de dados carregam. A instância pública também armazena dados não identificados depois de modelar os dados em um contêiner separado. A segunda instância é privada. Ele recebe os conjuntos de dados de treinamento e teste do Machine Learning que os scripts de treinamento usam. O armazenamento é montado como uma unidade virtual em cada nó de um cluster de computação do Machine Learning.
O Data Factory move automaticamente os dados entre contas de armazenamento de diferentes níveis de segurança para ajudar a garantir a separação de tarefas.
O Azure Synapse Analytics é uma ferramenta analítica para Big Data e pipelines para integração de dados e extração, transformação e carga de trabalhos. O Azure Synapse Analytics também é um serviço preferencial para executar cargas de trabalho do Apache Spark.
A Área de Trabalho Virtual é um serviço que você pode usar como uma caixa de salto para obter acesso aos recursos no ambiente seguro com aplicativos de streaming e uma área de trabalho completa, conforme necessário. Como alternativa, você pode usar o Azure Bastion, mas deve ter uma compreensão clara das diferenças de controle de segurança entre as duas opções. A Área de Trabalho Virtual tem algumas vantagens, incluindo:
- A capacidade de transmitir um aplicativo como o VS Code para executar notebooks nos recursos de computação de aprendizado de máquina.
- A capacidade de limitar cópias, colagens e capturas de tela.
- Suporte para autenticação do Microsoft Entra para VMs de ciência de dados.
Os Aplicativos Lógicos do Azure fornecem fluxos de trabalho de baixo código automatizados para desenvolver as partes de gatilho e versão do processo de aprovação manual.

Componentes do gerenciamento de postura

Esses componentes monitoram continuamente a postura da carga de trabalho e o respectivo ambiente. Seu objetivo é descobrir e mitigar riscos assim que forem descobertos.

Microsoft Defender para Nuvem é um serviço que você pode usar para avaliar a postura geral de segurança da implementação e fornecer um mecanismo de atestado para conformidade regulatória. Você pode descobrir problemas antecipadamente, em vez de quando realiza auditorias ou avaliações. Use recursos para acompanhar o progresso, como a classificação de segurança e a pontuação de conformidade. Essas pontuações são ferramentas importantes que ajudam a verificar a conformidade.
O Microsoft Sentinel é uma solução de gerenciamento de eventos e informações de segurança e uma solução de orquestração, automação e resposta de segurança. Você pode ver os logs e os alertas centralmente de várias fontes e aproveitar a análise avançada de IA e segurança para detectar, buscar, impedir as ameaças e responder a elas. Esse recurso fornece insights de segurança valiosos para ajudar a garantir que o tráfego e todas as atividades associadas ao workspace atendam às suas expectativas.
O Azure Monitor fornece observabilidade em todo o ambiente. Veja métricas, logs de atividades e logs de diagnóstico da maioria dos seus recursos do Azure sem nenhuma configuração adicionada. As ferramentas de gerenciamento, como as do Defender para Nuvem, também enviam dados de log por push para o Azure Monitor.

Componentes de governança

O Azure Policy ajuda você a impor padrões organizacionais e a avaliar a conformidade em escala.

Alternativas

Essa solução usa o Data Factory para mover dados para a conta de armazenamento público em um contêiner separado para permitir que pesquisadores externos tenham acesso aos dados e modelos exportados. Como alternativa, você pode provisionar outra conta de armazenamento em um ambiente de segurança mais baixo.
Essa solução usa a Área de Trabalho Virtual como uma caixa de salto para obter acesso aos recursos no ambiente seguro com aplicativos de streaming e uma área de trabalho completa. Como alternativa, você pode usar o Azure Bastion, mas a Área de Trabalho Virtual tem algumas vantagens. Essas vantagens incluem a capacidade de transmitir um aplicativo, limitar copiar/colar e capturas de tela e dar suporte à autenticação do Microsoft Entra. Você também pode considerar a configuração de uma VPN Ponto a Site para treinamento offline localmente. Essa VPN também ajuda a reduzir o custo de ter várias VMs para estações de trabalho.
Para proteger os dados em repouso, essa solução criptografa todas as contas de Armazenamento do Azure com chaves gerenciadas pela Microsoft usando criptografia forte. Como alternativa, você pode usar chaves gerenciadas pelo cliente. Você deve armazenar as chaves em um repositório de chaves gerenciadas.

Detalhes do cenário

Esse cenário combina dados regulamentados e privados que os indivíduos devem acessar, mas não têm permissão para armazenar ou transmitir.

Os cientistas de dados fora da sua organização precisam de acesso total aos dados para treinar e exportar seus modelos sem que nenhum dado proprietário ou protegido saia do ambiente.
Você deve isolar o acesso. Mesmo os proprietários e custodiantes de dados não têm permissão para acessar os dados depois que eles são carregados no ambiente.
Você deve exigir uma trilha de auditoria para todas as exportações transferidas para fora do ambiente para garantir que apenas os modelos foram exportados.

Possíveis casos de uso

Essa arquitetura foi originalmente criada para instituições de pesquisa de ensino superior com requisitos da Lei de Portabilidade e Responsabilidade de Seguros de Saúde (HIPAA). No entanto, você pode usar esse design em qualquer setor que exija o isolamento de dados para fins de pesquisa. Alguns exemplos incluem:

Indústrias que processam dados regulamentados de acordo com os requisitos do National Institute of Standards and Technology (NIST).
Centros médicos que colaboram com pesquisadores internos ou externos.
Setores bancário e financeiro.

Seguindo as orientações deste artigo, você pode manter o controle total de seus dados de pesquisa, ter separação de tarefas e atender a rígidos padrões de conformidade regulatória. Essa abordagem também facilita a colaboração entre funções-chave em um ambiente orientado à pesquisa, como proprietários de dados, pesquisadores e aprovadores.

Considerações

Estas considerações implementam os pilares do Azure Well-Architected Framework, que é um conjunto de princípios de orientação que podem ser usados para aprimorar a qualidade de uma carga de trabalho. Para obter mais informações, confira Microsoft Azure Well-Architected Framework.

Confiabilidade

A confiabilidade garante que seu aplicativo possa cumprir os compromissos que você assume com seus clientes. Para obter mais informações, consulte Lista de verificação de revisão de design para confiabilidade.

A maioria das soluções de pesquisa são cargas de trabalho temporárias e não precisa estar disponível por longos períodos. Essa arquitetura foi projetada como uma implantação de região única com zonas de disponibilidade. Se os requisitos de negócios exigirem maior disponibilidade, replique essa arquitetura em várias regiões. Você precisa de outros componentes, como um balanceador de carga global e um distribuidor, para rotear o tráfego para todas essas regiões. Como parte de sua estratégia de recuperação, use o Construtor de Imagens de VM do Azure para capturar e criar uma cópia da imagem base personalizada.

Segurança

A segurança fornece garantias contra ataques deliberados e o abuso de seus dados e sistemas valiosos. Para obter mais informações, consulte Lista de verificação de revisão de design para segurança.

O objetivo principal dessa arquitetura é fornecer um ambiente de pesquisa seguro e confiável que limita estritamente a exfiltração dos dados da área segura.

Segurança de rede

Provisione recursos do Azure que são usados para armazenar, testar e treinar conjuntos de dados de pesquisa em um ambiente seguro. Esse ambiente é uma rede virtual do Azure que tem regras de grupo de segurança de rede para restringir o acesso. Estas regras aplicam-se a:

Acesso de entrada e saída à Internet pública e na rede virtual.
Acesso em portas e serviços específicos. Por exemplo, essa arquitetura bloqueia todos os intervalos de portas, exceto os necessários para os serviços do Azure, como o Azure Monitor. Para obter uma lista completa de marcas de serviço e os serviços correspondentes, consulte Marcas de serviço de rede virtual.

O acesso da rede virtual que tem a Área de Trabalho Virtual é restrito a métodos de acesso aprovados em portas específicas, mas todo o outro tráfego é negado. Quando comparada a esse ambiente, a outra rede virtual que tem a Área de Trabalho Virtual é relativamente aberta.

O armazenamento de blobs principal no ambiente seguro está fora da Internet pública. Você pode acessá-lo somente na rede virtual por meio de conexões de ponto de extremidade privado e firewalls de armazenamento. Use-o para limitar as redes das quais os clientes podem se conectar a compartilhamentos de arquivos nos Arquivos do Azure.

Essa arquitetura usa autenticação baseada em credenciais para o armazenamento de dados principal que está no ambiente seguro. Nesse caso, as informações de conexão, como a ID da assinatura e a autorização do token, são armazenadas em um cofre de chaves. Outra opção é criar acesso a dados baseado em identidade, em que você usa sua conta do Azure para confirmar se tem acesso ao Armazenamento. Em um cenário de acesso a dados baseado em identidade, nenhuma credencial de autenticação é salva. Para saber mais, confira Criar armazenamentos de dados.

O cluster de computação pode se comunicar somente dentro da rede virtual usando o ecossistema e o serviço do Link Privado do Azure ou pontos de extremidade privados, em vez de usar IPs públicos para comunicação. Certifique-se de habilitar Nenhum IP público. Para obter mais informações sobre esse recurso, que está atualmente em versão prévia, consulte Instância/cluster de computação ou computação sem servidor sem IP público.

O ambiente seguro usa a computação do Machine Learning para acessar o conjunto de dados por meio de um ponto de extremidade privado. Você também pode configurar o Firewall do Azure para controlar o acesso à computação do Machine Learning, que reside em um workspace do Machine Learning. Use o Firewall do Azure para controlar o acesso de saída da computação do Machine Learning. Para obter mais informações, veja Configurar o tráfego de entrada e saída.

Para saber mais sobre uma das maneiras de proteger um ambiente de Machine Learning, consulte a postagem no blog Ambiente de serviço Secure Machine Learning.

Para serviços do Azure que você não pode configurar efetivamente com pontos de extremidade privados ou para fornecer inspeção de pacotes com estado, considere usar o Firewall do Azure ou uma solução de virtualização de rede que não seja da Microsoft.

Gerenciamento de identidades

Acesse o armazenamento de blobs por meio de controles de acesso baseados em função do Azure.

A Área de Trabalho Virtual dá suporte à autenticação do Microsoft Entra para VMs de ciência de dados.

O Data Factory usa a identidade gerenciada para acessar os dados do armazenamento de blobs. As VMs de ciência de dados também usam identidade gerenciada para tarefas de correção.

Segurança de dados

Para proteger os dados em repouso, todas as contas de armazenamento são criptografadas com chaves gerenciadas pela Microsoft que usam criptografia forte.

Como alternativa, você pode usar chaves gerenciadas pelo cliente. Você deve armazenar as chaves em um repositório de chaves gerenciadas. Nessa arquitetura, você implanta o Azure Key Vault no ambiente seguro para armazenar segredos como chaves de criptografia e certificados. Os recursos na rede virtual segura acessam o Key Vault por meio de um ponto de extremidade privado.

Considerações de governança

Habilite o Azure Policy para impor padrões e fornecer correção automatizada a fim de colocar os recursos em conformidade com as políticas específicas. Você pode aplicar as políticas a uma assinatura de projeto ou no nível de um grupo de gerenciamento, como uma única política ou como parte de uma iniciativa regulatória.

Por exemplo, nessa arquitetura, a configuração do computador do Azure se aplica a todas as VMs no escopo. A política pode auditar sistemas operacionais e configuração de computador para as VMs de ciência de dados.

Imagem da VM

As VMs de ciência de dados executam imagens de base personalizadas. Para criar a imagem base, use tecnologias como o Construtor de Imagens de VM. Usando o Construtor de Imagens de VM, você pode criar uma imagem repetível que pode ser implantada quando necessário.

A imagem base pode precisar de atualizações, como binários extras. Você deve carregar esses binários no armazenamento de blobs público. Eles devem fluir pelo ambiente seguro, da mesma forma que os proprietários de dados carregam os conjuntos de dados.

Otimização de custos

A otimização de custos é a análise de maneiras de reduzir as despesas desnecessárias e melhorar a eficiência operacional. Para obter mais informações, consulte Lista de verificação de revisão de design para otimização de custos.

O custo das VMs de ciência de dados depende da escolha da série de VMs subjacente. Como a carga de trabalho é temporária, recomendamos o plano de consumo para o recurso de aplicativo lógico. Use a calculadora de preços do Azure para estimar os custos com base no dimensionamento estimado dos recursos necessários. Certifique-se de desligar o ambiente quando ele não estiver em uso para ajudar a otimizar custos e melhorar a segurança.

Eficiência de desempenho

A eficiência do desempenho é a capacidade de dimensionar a carga de trabalho para atender às demandas exigidas pelos usuários de maneira eficiente. Para obter mais informações, consulte Lista de verificação de revisão de design para eficiência de desempenho.

O tamanho e o tipo das VMs de ciência de dados devem ser apropriados para o estilo de trabalho que elas fazem. Esta arquitetura destina-se a apoiar um único projeto de pesquisa. Você obtém escalabilidade ajustando o tamanho e o tipo das VMs e escolhendo os recursos de computação disponíveis para o Machine Learning.

Colaboradores

Esse artigo é mantido pela Microsoft. Ele foi originalmente escrito pelos colaboradores a seguir.

Autor principal:

Clayton Barlow | Especialista sênior do Azure

Compartilhar via

Projete um ambiente de pesquisa seguro para dados regulamentados

Arquitetura

Fluxo de dados

Componentes

Componentes principais da carga de trabalho

Componentes do gerenciamento de postura

Componentes de governança

Alternativas

Detalhes do cenário

Possíveis casos de uso

Considerações

Confiabilidade

Segurança

Segurança de rede

Gerenciamento de identidades

Segurança de dados

Considerações de governança

Imagem da VM

Otimização de custos

Eficiência de desempenho

Colaboradores

Próximas etapas

Comentários

Recursos adicionais

Compartilhar via

Projete um ambiente de pesquisa seguro para dados regulamentados

Arquitetura

Fluxo de dados

Componentes

Componentes principais da carga de trabalho

Componentes do gerenciamento de postura

Componentes de governança

Alternativas

Detalhes do cenário

Possíveis casos de uso

Considerações

Confiabilidade

Segurança

Segurança de rede

Gerenciamento de identidades

Segurança de dados

Considerações de governança

Imagem da VM

Otimização de custos

Eficiência de desempenho

Colaboradores

Próximas etapas

Recursos relacionados

Comentários

Recursos adicionais