Partilhar via


Sala limpa e análise de dados de várias partes

A computação confidencial do Azure (ACC) fornece uma base para soluções que permitem que várias partes colaborem em dados. Há várias abordagens para soluções e um ecossistema crescente de parceiros para ajudar a permitir que clientes, pesquisadores, cientistas de dados e provedores de dados do Azure colaborem em dados, preservando a privacidade. Esta visão geral abrange algumas das abordagens e soluções existentes que podem ser usadas, todas rodando em ACC.

Quais são as proteções de dados e modelos?

As soluções de sala limpa de dados normalmente oferecem um meio para um ou mais provedores de dados combinarem dados para processamento. Normalmente, há código, consultas ou modelos acordados que são criados por um dos provedores ou outro participante, como um pesquisador ou provedor de soluções. Em muitos casos, os dados podem ser considerados confidenciais e indesejados para compartilhar diretamente com outros participantes – seja outro provedor de dados, um pesquisador ou fornecedor de soluções. Para ajudar a garantir a segurança e a privacidade dos dados e modelos usados nas salas limpas de dados, a computação confidencial pode ser usada para verificar criptograficamente se os participantes não têm acesso aos dados ou modelos, inclusive durante o processamento. Ao usar o ACC, as soluções podem trazer proteções sobre os dados e o IP do modelo do operador de nuvem, provedor de soluções e participantes da colaboração de dados.

Quais são os exemplos de casos de uso do setor?

Com o ACC, clientes e parceiros constroem soluções de análise de dados de preservação de privacidade de várias partes, às vezes chamadas de "salas limpas confidenciais" – tanto novas soluções exclusivamente confidenciais quanto soluções de salas limpas existentes tornadas confidenciais com a ACC.

  1. Solução de sala limpa virtual do Royal Bank of Canada - que combina dados de comerciantes com dados bancários para fornecer ofertas personalizadas, usando VMs de computação confidenciais do Azure e Azure SQL AE em enclaves seguros.
  2. Scotiabank – Provou o uso de IA em fluxos de dinheiro entre bancos para identificar lavagem de dinheiro para sinalizar instâncias de tráfico humano, usando computação confidencial do Azure e um parceiro de solução, Opaque.
  3. Novartis Biome – usou uma solução de parceria da BeeKeeperAI rodando no ACC para encontrar candidatos para ensaios clínicos para doenças raras.
  4. Principais provedores de pagamento conectando dados entre bancos para deteção de fraudes e anomalias.
  5. Serviços de análise de dados e soluções de sala limpa usando ACC para aumentar a proteção de dados e atender às necessidades de conformidade do cliente da UE e à regulamentação de privacidade.

Porquê a computação confidencial?

As salas limpas de dados não são um conceito novo, no entanto, com os avanços na computação confidencial, há mais oportunidades de aproveitar a escala da nuvem com conjuntos de dados mais amplos, proteger o IP dos modelos de IA e a capacidade de atender melhor às regulamentações de privacidade de dados. Em casos anteriores, certos dados podem estar inacessíveis por razões como:

  • Desvantagens competitivas ou regulamentação que impede o compartilhamento de dados entre empresas do setor.
  • Anonimização reduzindo a qualidade dos insights sobre os dados, ou sendo muito caro e demorado.
  • Os dados estão vinculados a determinados locais e se abstiveram de processamento na nuvem devido a preocupações de segurança.
  • Processos legais dispendiosos ou morosos cobrem a responsabilidade se os dados forem expostos ou utilizados abusivamente

Essas realidades podem levar a conjuntos de dados incompletos ou ineficazes que resultam em perceções mais fracas ou mais tempo necessário no treinamento e no uso de modelos de IA.

Quais são as considerações ao construir uma solução de sala limpa?

Análise em lote versus pipelines de dados em tempo real: o tamanho dos conjuntos de dados e a velocidade dos insights devem ser considerados ao projetar ou usar uma solução de sala limpa. Quando os dados estão disponíveis "offline", eles podem ser carregados em um ambiente de computação verificado e seguro para processamento analítico de dados em grandes porções de dados, se não em todo o conjunto de dados. Essa análise em lote permite que grandes conjuntos de dados sejam avaliados com modelos e algoritmos que não devem fornecer um resultado imediato. Por exemplo, a análise de lote funciona bem ao fazer inferência de ML em milhões de registros de saúde para encontrar os melhores candidatos para um ensaio clínico. Outras soluções exigem insights em tempo real sobre os dados, como quando algoritmos e modelos visam identificar fraudes em transações quase em tempo real entre várias entidades.

Participação de confiança zero: Um grande diferencial em salas limpas confidenciais é a capacidade de não ter nenhuma parte envolvida confiável – de todos os provedores de dados, desenvolvedores de código e modelo, provedores de soluções e administradores de operadores de infraestrutura. As soluções podem ser fornecidas onde os dados e o modelo de IP podem ser protegidos de todas as partes. Ao integrar ou criar uma solução, os participantes devem considerar o que se deseja proteger e de quem proteger cada um dos códigos, modelos e dados.

Aprendizagem federada: a aprendizagem federada envolve a criação ou o uso de uma solução, enquanto os modelos são processados no locatário do proprietário dos dados e os insights são agregados em um locatário central. Em alguns casos, os modelos podem até ser executados em dados fora do Azure, com a agregação de modelo ainda ocorrendo no Azure. Muitas vezes, a aprendizagem federada itera os dados muitas vezes à medida que os parâmetros do modelo melhoram depois que os insights são agregados. Os custos de iteração e a qualidade do modelo devem ser considerados na solução e nos resultados esperados.

Residência e fontes de dados: os clientes têm dados armazenados em várias nuvens e no local. A colaboração pode incluir dados e modelos de diferentes fontes. As soluções de sala limpa podem facilitar os dados e modelos que chegam ao Azure a partir desses outros locais. Quando os dados não podem ser movidos de um armazenamento de dados local para o Azure, algumas soluções de sala limpa podem ser executadas no local onde os dados residem. O gerenciamento e as políticas podem ser alimentados por um provedor de soluções comum, quando disponível.

Integridade de código e livros confidenciais: com a tecnologia de livro-razão distribuído (DLT) em execução na computação confidencial do Azure, é possível criar soluções que são executadas em uma rede em todas as organizações. A lógica de código e as regras analíticas podem ser adicionadas somente quando há consenso entre os vários participantes. Todas as atualizações do código são registradas para auditoria por meio do log à prova de violação habilitado com a computação confidencial do Azure.

Quais são as opções para começar?

Ofertas da plataforma ACC que ajudam a habilitar salas limpas confidenciais

Arregace as mangas e construa uma solução de sala limpa de dados diretamente sobre essas ofertas confidenciais de serviços de computação.

Contêineres confidenciais em instâncias de contêiner do Azure (ACI) e VMs Intel SGX com enclaves de aplicativo fornecem uma solução de contêiner para criar soluções confidenciais de sala limpa.

As máquinas virtuais (VMs) confidenciais fornecem uma plataforma de VM para soluções confidenciais de sala limpa.

O Azure SQL AE em enclaves seguros fornece um serviço de plataforma para criptografar dados e consultas em SQL que pode ser usado em análises de dados de várias partes e salas limpas confidenciais.

O Confidential Consortium Framework é uma estrutura de código aberto para a criação de serviços stateful altamente disponíveis que usam computação centralizada para facilidade de uso e desempenho, enquanto fornecem confiança descentralizada. Ele permite que várias partes executem computação auditável sobre dados confidenciais sem confiar umas nas outras ou em um operador privilegiado.

Soluções de parceiros ACC que permitem salas limpas confidenciais

Use um parceiro que tenha criado uma solução de análise de dados de várias partes sobre a plataforma de computação confidencial do Azure.

  • A Anjuna fornece uma plataforma de computação confidencial para permitir vários casos de uso, incluindo salas limpas seguras, para que as organizações compartilhem dados para análise conjunta, como calcular pontuações de risco de crédito ou desenvolver modelos de aprendizado de máquina, sem expor informações confidenciais.
  • O BeeKeeperAI permite a IA de saúde através de uma plataforma de colaboração segura para proprietários de algoritmos e administradores de dados. O BeeKeeperAI™ usa análises de preservação da privacidade em fontes multiinstitucionais de dados protegidos em um ambiente de computação confidencial. A solução suporta criptografia de ponta a ponta, enclaves de computação seguros e os mais recentes processadores habilitados para SGX da Intel para proteger os dados e o IP do algoritmo.
  • A Decentriq fornece salas limpas de dados SaaS construídas em computação confidencial que permitem a colaboração segura de dados sem compartilhar dados. As salas limpas de ciência de dados permitem análises flexíveis de várias partes, e as salas limpas sem código para mídia e publicidade permitem ativação e análise de público compatíveis com base em dados de usuários primários. As salas limpas confidenciais são descritas com mais detalhes neste artigo no blog da Microsoft.
  • O Fortanix fornece uma plataforma de computação confidencial que pode habilitar IA confidencial, incluindo várias organizações colaborando juntas para análises de várias partes.
  • A Habu oferece uma plataforma interoperável de sala limpa de dados que permite que as empresas desbloqueiem a inteligência colaborativa de forma inteligente, segura, escalável e simples. A Habu conecta dados descentralizados entre departamentos, parceiros, clientes e provedores para melhor colaboração, tomada de decisões e resultados.
  • A Mithril Security fornece ferramentas para ajudar os fornecedores de SaaS a servir modelos de IA dentro de enclaves seguros e fornece um nível local de segurança e controle aos proprietários de dados. Os proprietários de dados podem usar suas soluções de IA SaaS enquanto permanecem em conformidade e no controle de seus dados.
  • A Opaque fornece uma plataforma de computação confidencial para análise colaborativa e IA, dando a capacidade de executar análises colaborativas escaláveis enquanto protege os dados de ponta a ponta e permite que as organizações cumpram as determinações legais e regulamentares.
  • O SafeLiShare fornece salas limpas de dados criptografados orientadas por políticas, onde o acesso aos dados é auditável, rastreável e visível, mantendo os dados protegidos durante o compartilhamento de dados de várias partes.