Partage via


Cleanroom et Multi-party Data Analytics

L’informatique confidentielle Azure fournit une base pour les solutions qui permettent à plusieurs parties de collaborer sur des données. Il existe différentes approches des solutions et un écosystème croissant de partenaires pour aider les clients Azure, les chercheurs, les scientifiques des données et les fournisseurs de données à collaborer sur les données tout en préservant la confidentialité. Cette vue d’ensemble couvre certaines approches et solutions existantes qui peuvent être utilisées, toutes exécutées sur ACC.

Quelles sont les protections des données et des modèles ?

Les solutions de propre room de données offrent généralement un moyen pour un ou plusieurs fournisseurs de données de combiner des données pour le traitement. Il existe généralement un accord sur le code, les requêtes ou les modèles créés par l’un des fournisseurs ou un autre participant, comme un chercheur ou un fournisseur de solutions. Dans de nombreux cas, les données peuvent être considérées comme sensibles et non souhaitées pour partager directement avec d’autres participants , qu’il s’agisse d’un autre fournisseur de données, d’un chercheur ou d’un fournisseur de solutions. Pour garantir la sécurité et la confidentialité sur les données et les modèles utilisés dans les propre rooms de données, l’informatique confidentielle peut être utilisée pour vérifier par chiffrement que les participants n’ont pas accès aux données ou aux modèles, y compris pendant le traitement. En utilisant ACC, les solutions peuvent apporter des protections sur les données et l’adresse IP du modèle à partir de l’opérateur cloud, du fournisseur de solutions et des participants à la collaboration des données.

Quels sont les exemples de cas d’usage du secteur ?

Avec ACC, les clients et les partenaires créent une confidentialité préservant les solutions d’analytique des données multi-parties, parfois appelées « propre rooms confidentielles », les nouvelles solutions nettes de manière unique et les solutions propre room existantes rendues confidentielles avec ACC.

  1. Royal Bank of Canada - Virtual propre solution de salle combinant des données marchandes avec des données bancaires afin de fournir des offres personnalisées, à l’aide de machines virtuelles d’informatique confidentielle Azure et d’Azure SQL AE dans des enclaves sécurisées.
  2. Scotiabank – A prouvé l’utilisation de l’IA sur les flux d’argent interbancaires pour identifier le blanchiment d’argent pour signaler les instances de trafic d’êtres humains, à l’aide de l’informatique confidentielle Azure et d’un partenaire de solution, Opaque.
  3. Nestlé Biome – a utilisé une solution partenaire de BeeKeeperAI en cours d’exécution sur ACC afin de trouver les candidats aux essais cliniques pour les maladies rares.
  4. Les principaux fournisseurs de paiement connectant des données entre les banques pour la détection des fraudes et des anomalies .
  5. Les services d’analyse des données et les solutions de salle propre utilisant ACC pour renforcer la protection des données et répondre aux besoins de conformité des clients de l’UE et à la réglementation sur la confidentialité.

Pourquoi l’informatique confidentielle ?

Les propre rooms de données ne sont pas un concept tout nouveau, mais avec des avancées en informatique confidentielle, il existe davantage d’opportunités de tirer parti de l’échelle du cloud avec des jeux de données plus larges, de sécuriser l’adresse IP des modèles IA et de mieux répondre aux réglementations en matière de confidentialité des données. Dans les cas précédents, certaines données peuvent être inaccessibles pour des raisons telles que

  • Inconvénients concurrentiels ou réglementation empêchant le partage de données entre les entreprises du secteur.
  • L’anonymisation réduit la qualité des insights sur les données, ou étant trop coûteuse et fastidieuse.
  • Les données étant liées à certains emplacements et s’abstenaient de traiter dans le cloud en raison de problèmes de sécurité.
  • Les processus juridiques coûteux ou longs couvrent la responsabilité si les données sont exposées ou maltraitées

Ces réalités peuvent entraîner des jeux de données incomplets ou inefficaces qui entraînent des insights plus faibles, ou plus de temps nécessaire à l’apprentissage et à l’utilisation de modèles IA.

Quelles sont les considérations à prendre en compte lors de la création d’une solution propre room ?

Analyse par lots et pipelines de données en temps réel : la taille des jeux de données et la vitesse des insights doivent être prises en compte lors de la conception ou de l’utilisation d’une solution propre room. Lorsque les données sont disponibles « hors connexion », elles peuvent être chargées dans un environnement de calcul vérifié et sécurisé pour le traitement analytique des données sur de grandes parties des données, si ce n’est pas l’ensemble du jeu de données. Cette analytique par lots permet d’évaluer des jeux de données volumineux avec des modèles et des algorithmes qui ne sont pas censés fournir un résultat immédiat. Par exemple, l’analytique par lots fonctionne bien lors de l’inférence ml sur des millions de dossiers de santé afin de trouver les meilleurs candidats pour un essai clinique. D’autres solutions nécessitent des insights en temps réel sur les données, par exemple lorsque des algorithmes et des modèles visent à identifier la fraude sur des transactions en quasi temps réel entre plusieurs entités.

Participation à la confiance zéro : un principal différentiateur dans les salles de propre confidentielles est la possibilité d’avoir aucune partie impliquée dans la confiance : de tous les fournisseurs de données, développeurs de code et modèles, fournisseurs de solutions et administrateurs d’opérateurs d’infrastructure. Les solutions peuvent être fournies où les données et l’adresse IP du modèle peuvent être protégées de toutes les parties. Lors de l’intégration ou de la création d’une solution, les participants doivent prendre en compte à la fois ce qui est souhaité pour protéger chacun des codes, modèles et données.

Apprentissage fédéré : l’apprentissage fédéré implique la création ou l’utilisation d’une solution, tandis que le processus des modèles dans le locataire du propriétaire des données et les insights sont agrégés dans un locataire central. Dans certains cas, les modèles peuvent même être exécutés sur des données en dehors d’Azure, avec l’agrégation de modèles toujours en cours dans Azure. Plusieurs fois, l’apprentissage fédéré itère sur les données plusieurs fois que les paramètres du modèle s’améliorent une fois que les insights sont agrégés. Les coûts d’itération et la qualité du modèle doivent être pris en compte dans la solution et les résultats attendus.

Résidence et sources de données : les clients ont des données stockées dans plusieurs clouds et locaux. La collaboration peut inclure des données et des modèles provenant de différentes sources. Les solutions Cleanroom peuvent faciliter les données et les modèles provenant d’Azure à partir de ces autres emplacements. Lorsque les données ne peuvent pas être déplacées vers Azure à partir d’un magasin de données local, certaines solutions propre room peuvent s’exécuter sur le site où résident les données. La gestion et les stratégies peuvent être alimentées par un fournisseur de solutions commun, le cas échéant.

Intégrité du code et registres confidentiels : avec la technologie de registre distribué (DLT) s’exécutant sur l’informatique confidentielle Azure, les solutions peuvent être créées qui s’exécutent sur un réseau entre les organisations. La logique de code et les règles analytiques ne peuvent être ajoutées qu’en cas de consensus entre les différents participants. Toutes les mises à jour du code sont enregistrées pour l’audit via la journalisation de falsification activée avec l’informatique confidentielle Azure.

Quelles sont les options de prise en main ?

Offres de plateforme ACC qui permettent d’activer des propre rooms confidentielles

Cumulez vos manches et créez une solution de propre salle de données directement sur ces offres de services informatiques confidentiels.

Les conteneurs confidentiels sur Azure Container Instances (ACI) et les machines virtuelles Intel SGX avec enclaves d’application fournissent une solution de conteneur pour créer des solutions confidentielles propre room.

Les Machines Virtuelles confidentiels (machines virtuelles) fournissent une plateforme de machines virtuelles pour les solutions confidentielles propre room.

Azure SQL AE dans les enclaves sécurisées fournit un service de plateforme permettant de chiffrer des données et des requêtes dans SQL qui peuvent être utilisées dans les analyses de données multi-parties et les salles de propre confidentielles.

Confidential Consortium Framework est une infrastructure open source permettant de créer des services avec état hautement disponibles qui utilisent le calcul centralisé pour faciliter l’utilisation et les performances, tout en fournissant une confiance décentralisée. Il permet à plusieurs parties d’exécuter un calcul auditable sur des données confidentielles sans se faire confiance ou un opérateur privilégié.

Solutions partenaires ACC qui permettent des propre rooms confidentielles

Utilisez un partenaire qui a créé une solution d’analytique des données multi-parties sur la plateforme d’informatique confidentielle Azure.

  • Anjuna fournit une plateforme d’informatique confidentielle pour permettre à différents cas d’usage, notamment des salles de propre sécurisées, aux organisations de partager des données pour une analyse conjointe, telles que le calcul des scores de risque de crédit ou le développement de modèles Machine Learning, sans exposer d’informations sensibles.
  • BeeKeeperAI permet l’IA de la santé par le biais d’une plateforme de collaboration sécurisée pour les propriétaires d’algorithmes et les gestionnaires de données. BeeKeeperAI™ utilise l’analytique de préservation de la confidentialité sur des sources multi-institutionnels de données protégées dans un environnement informatique confidentiel. La solution prend en charge le chiffrement de bout en bout, les enclaves informatiques sécurisées et les processeurs SGX les plus récents d’Intel pour protéger les données et l’adresse IP de l’algorithme.
  • Decentriq fournit des propre rooms de données SaaS basées sur l’informatique confidentielle qui permettent une collaboration sécurisée des données sans partager de données. Les propre rooms de science des données permettent une analyse multiparte flexible et des propre rooms sans code pour les médias et la publicité permettent l’activation et l’analytique d’audience conformes basées sur les données utilisateur internes. Les salles de propre confidentielles sont décrites plus en détail dans cet article sur le blog Microsoft.
  • Fortanix fournit une plateforme informatique confidentielle qui peut activer l’IA confidentielle, y compris plusieurs organisations qui collaborent ensemble pour l’analytique multi-parties.
  • Habu fournit une plateforme de données interopérable propre salle qui permet aux entreprises de déverrouiller l’intelligence collaborative de manière intelligente, sécurisée, évolutive et simple. Habu connecte des données décentralisées entre les services, les partenaires, les clients et les fournisseurs pour une meilleure collaboration, la prise de décision et les résultats.
  • Mithril Security fournit des outils permettant aux fournisseurs SaaS de servir des modèles IA à l’intérieur d’enclaves sécurisées et de fournir un niveau local de sécurité et de contrôle aux propriétaires de données. Les propriétaires de données peuvent utiliser leurs solutions IA SaaS tout en restant conformes et en contrôle de leurs données.
  • Opaque fournit une plateforme d’informatique confidentielle pour l’analytique collaborative et l’IA, ce qui permet d’effectuer des analyses évolutives collaboratives tout en protégeant les données de bout en bout et en permettant aux organisations de se conformer aux mandats juridiques et réglementaires.
  • Coffre LiShare fournit des données chiffrées pilotées par des stratégies propre salles où l’accès aux données est auditable, suivi et visible, tout en conservant les données protégées pendant le partage de données à plusieurs parties.