Compartilhar via


Análise de dados de várias partes e sala limpa

A Computação Confidencial do Azure (AAC) fornece uma base para soluções que permitem que várias partes colaborem em dados. Há várias abordagens para soluções e um ecossistema crescente de parceiros para ajudar a permitir que clientes, pesquisadores, cientistas de dados e provedores de dados do Azure colaborem em dados enquanto a privacidade é preservada. Essa visão geral aborda algumas das abordagens e soluções existentes que podem ser usadas, todas em execução na ACC.

Quais são as proteções de modelo e de dados?

As soluções de sala limpa de dados normalmente oferecem um meio para um ou mais provedores de dados combinarem dados para processamento. Normalmente, há código, consultas ou modelos acordados que são criados por um dos provedores ou outro participante, como um pesquisador ou provedor de soluções. Em muitos casos, os dados podem ser considerados confidenciais e indesejados para compartilhar diretamente com outros participantes, seja outro provedor de dados, um pesquisador ou um fornecedor de soluções. Para ajudar a garantir a segurança e a privacidade dos dados e dos modelos usados em sala limpa de dados, a computação confidencial pode ser usada para verificar criptograficamente se os participantes não têm acesso aos dados ou aos modelos, inclusive durante o processamento. Usando a ACC, as soluções podem trazer proteções aos dados e ao IP do modelo do operador de nuvem, do provedor de soluções e dos participantes da colaboração de dados.

Quais são os exemplos de casos de uso do setor?

Com a ACC, clientes e parceiros criam privacidade preservando soluções de análise de dados de várias partes, às vezes conhecidas como "salas limpas confidenciais", tanto soluções de sala limpa exclusivamente confidenciais quanto existentes confidenciais criadas com a ACC.

  1. Royal Bank of Canada - a solução de sala limpa virtual combina dados de comerciantes com dados bancários para fornecer ofertas personalizadas, usando VMs de computação confidencial do Azure e criptografia AE do SQL do Azure em enclaves seguros.
  2. Scotiabank – provou o uso de IA em fluxos de dinheiro entre bancos para identificar a lavagem de dinheiro para sinalizar instâncias de tráfico de pessoas usando a computação confidencial do Azure e um parceiro de solução, Opaco.
  3. Novartis Biome – usou uma solução de parceiro do BeeKeeperAI em execução na ACC, a fim de encontrar candidatos para ensaios clínicos de doenças raras.
  4. Principais provedores de pagamento conectam dados entre bancos para detecção de fraudes e de anomalias.
  5. Serviços de análise de dados e soluções de sala limpa usam a ACC para aumentar a proteção de dados e atender às necessidades de conformidade do cliente da UE e à regulamentação de privacidade.

Por que a computação confidencial?

As salas limpas de dados não são um conceito totalmente novo, no entanto, com avanços na computação confidencial, há mais oportunidades para aproveitar a escala de nuvem com conjuntos de dados mais amplos, proteger o IP de modelos de IA e a capacidade de atender melhor às regulamentações de privacidade de dados. Em casos anteriores, alguns dados podem estar inacessíveis por motivos como

  • Desvantagens competitivas ou regulamentação impedindo o compartilhamento de dados entre empresas do setor.
  • A anonimização reduz a qualidade dos insights sobre os dados ou é muito cara e demorada.
  • Dados associados a determinados locais e impedidos de processamento na nuvem devido a preocupações com a segurança.
  • Processos legais caros ou longos abrangem a responsabilidade se os dados forem expostos ou violados

Essas realidades podem levar a conjuntos de dados incompletos ou ineficazes que resultam em insights mais fracos ou mais tempo necessário no treinamento e no uso de modelos de IA.

Quais são as considerações ao criar uma solução de sala limpa?

Pipelines de dados em tempo real versus análise em lote: o tamanho dos conjuntos de dados e a velocidade dos insights devem ser considerados ao projetar ou usar uma solução de sala limpa. Quando os dados estão disponíveis "offline", eles podem ser carregados em um ambiente de computação verificado e protegido para processamento de análise de dados em grandes partes de dados, se não o conjunto de dados inteiro. Essa análise em lote permite que grandes conjuntos de dados sejam avaliados com modelos e algoritmos que não devem fornecer um resultado imediato. Por exemplo, a análise em lote funciona bem ao fazer inferência de aprendizado de máquina em milhões de registros de saúde para encontrar os melhores candidatos para um teste clínico. Outras soluções exigem insights em tempo real sobre dados, como quando algoritmos e modelos visam identificar fraudes em transações quase em tempo real entre várias entidades.

Participação de confiança zero: um grande diferencial em salas limpas confidenciais é a capacidade de não ter nenhuma parte envolvida confiável – de todos os provedores de dados, desenvolvedores de código e modelo, provedores de soluções e administradores de operadores de infraestrutura. Soluções podem ser fornecidas em que os dados e o IP do modelo podem ser protegidos de todas as partes. Ao integrar ou criar uma solução, os participantes devem considerar o que deseja proteger e de quem proteger cada um dos códigos, modelos e dados.

Aprendizado federado: o aprendizado federado envolve a criação ou o uso de uma solução, enquanto os modelos processam no locatário do proprietário de dados e os insights são agregados em um locatário central. Em alguns casos, os modelos podem até ser executados em dados fora do Azure, com a agregação de modelos ainda ocorrendo no Azure. Muitas vezes, o aprendizado federado itera em dados muitas vezes à medida que os parâmetros do modelo melhoram depois que os insights são agregados. Os custos de iteração e a qualidade do modelo devem ser levados em conta na solução e nos resultados esperados.

Fontes e residência de dados: os clientes têm dados armazenados em várias nuvens e localmente. A colaboração pode incluir dados e modelos de diferentes fontes. As soluções de sala limpa podem facilitar a entrada de dados e modelos no Azure a partir desses outros locais. Quando os dados não podem ser movidos para o Azure de um armazenamento de dados local, algumas soluções de sala limpa podem ser executadas no local em que os dados residem. As políticas e o gerenciamento podem ser alimentados por um provedor de solução comum, quando disponível.

Integridade de código e razões confidenciais: com a DLT (tecnologia de razão distribuído) em execução na computação confidencial do Azure, as soluções podem ser criadas em uma rede entre organizações. A lógica do código e as regras analíticas só podem ser adicionadas quando há consenso entre os vários participantes. Todas as atualizações no código são registradas para auditoria por meio de log à prova de adulteração habilitado com a computação confidencial do Azure.

Quais são as opções para começar?

Ofertas da plataforma ACC que ajudam a habilitar salas limpas confidenciais

Arregace as mangas e crie uma solução de sala limpa de dados diretamente nessas ofertas de serviço de computação confidencial.

Contêineres confidenciais em VMs de ACI (Instâncias de Contêiner do Azure) e do Intel SGX com enclaves de aplicativo fornecem uma solução de contêiner para criar soluções confidenciais de sala limpa.

VMs (Máquinas Virtuais) Confidenciais fornecem uma plataforma de VM para soluções de salas limpas confidenciais.

Criptografia AE do SQL do Azure em enclaves seguros fornece um serviço de plataforma para criptografar dados e consultas no SQL que pode ser usado em análise de dados de várias partes e salas limpas confidenciais.

O Confidential Consortium Framework é uma estrutura de código aberto para a criação de serviços com estado altamente disponíveis que usam computação centralizada para facilitar o uso e o desempenho, ao mesmo tempo em que fornecem confiança descentralizada. Ele permite que várias partes executem a computação auditável em dados confidenciais sem confiar umas nas outras ou em um operador privilegiado.

Soluções de parceiro ACC que habilitam salas limpas confidenciais

Use um parceiro que tenha criado soluções de análise de dados de várias partes sobre a plataforma de computação confidencial do Azure.

  • Anjuna fornece uma plataforma de computação confidencial para habilitar vários casos de uso, incluindo salas limpas seguras, para que as organizações compartilhem dados para análise conjunta, como calcular pontuações de risco de crédito ou desenvolver modelos de machine learning, sem expor informações confidenciais.
  • BeeKeeperAI habilita a IA de serviços de saúde por meio de uma plataforma de colaboração segura para proprietários de algoritmos e administradores de dados. A BeeKeeperAI™ usa análise de preservação de privacidade em fontes multi-institucionais de dados protegidos em um ambiente de computação confidencial. A solução dá suporte à criptografia de ponta a ponta, enclaves de computação seguros e processadores habilitados para SGX mais recentes da Intel para proteger os dados e o IP do algoritmo.
  • Decentriq fornece salas limpas de dados SaaS baseadas na computação confidencial que permitem a colaboração segura de dados sem compartilhar dados. As salas limpas de ciência de dados permitem a análise flexível de várias partes e as salas limpas sem código para mídia e publicidade permitem ativação e análise de público compatível com base em dados de usuários de primeira parte. As salas limpas confidenciais são descritas com mais detalhes neste artigo no blog da Microsoft.
  • Fortanix fornece uma plataforma de computação confidencial que pode habilitar a IA confidencial, incluindo várias organizações colaborando em conjunto para análise multiparte.
  • Habu fornece uma plataforma de sala limpa de dados interoperável que permite que as empresas desbloqueiem a inteligência colaborativa de maneira inteligente, segura, escalonável e simples. A Habu conecta dados descentralizados entre departamentos, parceiros, clientes e provedores para melhor colaboração, tomada de decisão e resultados.
  • Segurança do Mithril fornece ferramentas para ajudar os fornecedores de SaaS a fornecer modelos de IA dentro de enclaves seguros e fornecer um nível local de segurança e controle aos proprietários de dados. Os proprietários de dados podem usar suas soluções de IA SaaS enquanto permanecem em conformidade e no controle de seus dados.
  • Opaque fornece uma plataforma de computação confidencial para IA e análise colaborativa, fornecendo a capacidade de executar análises escalonáveis colaborativas, enquanto protege dados de ponta a ponta e permitindo que as organizações cumpram as exigências legais e regulatórias.