Partager via


Analytique données de salle blanche et multiparties

L’informatique confidentielle Azure (Azure confidential computing, ACC) fournit une base pour les solutions qui permettent à plusieurs parties de collaborer sur des données. Il existe différentes approches des solutions et un écosystème croissant de partenaires pour aider les clients Azure, les chercheurs, les scientifiques des données et les fournisseurs de données à collaborer sur les données tout en préservant la confidentialité. Cette vue d’ensemble couvre certaines approches et solutions existantes qui peuvent être utilisées, toutes exécutées sur ACC.

Quelles sont les protections des données et des modèles ?

Les solutions de salle blanche des données offrent généralement un moyen pour un ou plusieurs fournisseurs de données de combiner des données pour le traitement. Il existe généralement un accord sur le code, les requêtes ou les modèles créés par l’un des fournisseurs ou un autre participant, comme un chercheur ou un fournisseur de solutions. Dans de nombreux cas, les données peuvent être considérées comme sensibles et ne doivent pas être partagées directement avec d’autres participants, qu’il s’agisse d’un autre fournisseur de données, d’un chercheur ou d’un fournisseur de solutions. Pour garantir la sécurité et la confidentialité des données et des modèles utilisés dans les salles blanches des données, l’informatique confidentielle peut être utilisée pour vérifier par chiffrement que les participants n’ont pas accès aux données ou aux modèles, y compris pendant le traitement. En utilisant ACC, les solutions peuvent apporter des protections sur les données et la propriété intellectuelle des modèles par rapport à l’opérateur cloud, au fournisseur de solutions et aux participants à la collaboration des données.

Quels sont les exemples de cas d’usage du secteur d’activité ?

Avec ACC, les clients et les partenaires créent une confidentialité préservant les solutions d’analytique données multiparties, parfois appelées « salles blanches confidentielles », à la fois les nouvelles solutions nettes confidentielles de manière unique et les solutions de salles blanches existantes rendues confidentielles avec ACC.

  1. Banque royale du Canada - Solution de salle blanche virtuelle combinant des données marchandes avec des données bancaires afin de fournir des offres personnalisées, à l’aide de machines virtuelles d’informatique confidentielle Azure et d’Azure SQL AE dans des enclaves sécurisées.
  2. Scotiabank a démontré l’utilisation de l’IA sur les flux d’argent interbancaires pour identifier le blanchiment d’argent afin de signaler les instances de trafic d’êtres humains, à l’aide de l’informatique confidentielle Azure et d’un partenaire de solution, Opaque.
  3. Nestlé Biome a utilisé une solution partenaire de BeeKeeperAI exécutée sur ACC afin de trouver des candidats aux essais cliniques pour les maladies rares.
  4. Les principaux fournisseurs de paiement connectant des données entre les banques pour la détection des fraudes et des anomalies.
  5. Les services d’analytique données et les solutions de salle blanche utilisant ACC pour renforcer la protection des données et répondre aux besoins de conformité des clients de l’UE et à la réglementation sur la confidentialité.

Pourquoi recourir à l’informatique confidentielle ?

Les salles blanches des données ne sont pas un concept nouveau, mais avec les avancées en informatique confidentielle, il existe davantage d’opportunités de tirer parti de l’échelle du cloud avec des jeux de données plus larges, de sécuriser la propriété intellectuelle des modèles IA et de mieux répondre aux réglementations en matière de confidentialité des données. Dans les cas précédents, certaines données peuvent être inaccessibles pour des raisons telles que :

  • Les désavantages concurrentiels ou la réglementation empêchant le partage de données entre les entreprises du secteur.
  • L’anonymisation qui réduit la qualité des insights sur les données, ou qui est trop coûteuse et fastidieuse.
  • Les données qui sont liées à certains emplacements et ne sont pas traitées dans le cloud en raison de problèmes de sécurité.
  • Les processus juridiques coûteux ou longs couvrent la responsabilité si les données sont exposées ou maltraitées

Ces réalités peuvent entraîner des jeux de données incomplets ou inefficaces qui entraînent des insights moins pertinents, ou plus de temps nécessaire à l’apprentissage et à l’utilisation de modèles IA.

Quelles sont les considérations à prendre en compte lors de la création d’une solution de salle blanche ?

Analyse par lots ou pipelines de données en temps réel : la taille des jeux de données et la vitesse des insights doivent être prises en compte lors de la conception ou de l’utilisation d’une solution de salle blanche. Lorsque les données sont disponibles « hors connexion », elles peuvent être chargées dans un environnement de calcul vérifié et sécurisé pour le traitement analytique des données sur de grandes parties des données, si ce n’est l’ensemble du jeu de données. Cette analyse par lots permet d’évaluer des jeux de données volumineux avec des modèles et des algorithmes qui ne sont pas censés fournir un résultat immédiat. Par exemple, l’analyse par lots fonctionne bien lors de l’inférence ML sur des millions de dossiers de santé afin de trouver les meilleurs candidats pour un essai clinique. D’autres solutions nécessitent des insights en temps réel sur les données, par exemple lorsque des algorithmes et des modèles visent à identifier la fraude sur des transactions en quasi temps réel entre plusieurs entités.

Participation à la confiance zéro : un principal différentiateur des salles blanches confidentielles est la possibilité de ne faire confiance à aucune partie impliquée : qu’il s’agisse de tous les fournisseurs de données, développeurs de code et modèles, fournisseurs de solutions et administrateurs d’opérateurs d’infrastructure. Les solutions peuvent être fournies où les données et la propriété intellectuelle des modèles peuvent être protégées de toutes les parties. Lors de l’intégration ou de la création d’une solution, les participants doivent prendre en compte à la fois ce qui doit être protégé et de qui protéger chacun des codes, modèles et données.

Apprentissage fédéré : l’apprentissage fédéré implique la création ou l’utilisation d’une solution, tandis que le processus des modèles dans le locataire du propriétaire des données et les insights sont agrégés dans un locataire central. Dans certains cas, les modèles peuvent même être exécutés sur des données en dehors d’Azure, avec l’agrégation de modèles toujours en cours dans Azure. Plusieurs fois, l’apprentissage fédéré itère sur les données alors que les paramètres du modèle s’améliorent une fois que les insights sont agrégés. Les coûts d’itération et la qualité du modèle doivent être pris en compte dans la solution et les résultats attendus.

Résidence et sources de données : les clients ont des données stockées dans plusieurs clouds et locaux. La collaboration peut inclure des données et des modèles provenant de différentes sources. Les solutions de salle blanche peuvent faciliter les données et les modèles provenant d’Azure à partir de ces autres emplacements. Lorsque les données ne peuvent pas se déplacer vers Azure à partir d’un magasin de données local, certaines solutions de salle blanche peuvent s’exécuter sur le site où résident les données. La gestion et les stratégies peuvent être alimentées par un fournisseur de solutions commun, le cas échéant.

Intégrité du code et registres confidentiels : avec la technologie de registre distribué (DLT) s’exécutant sur l’informatique confidentielle Azure, les solutions peuvent être créées qui s’exécutent sur un réseau entre les organisations. La logique de code et les règles analytiques ne peuvent être ajoutées qu’en cas de consensus entre les différents participants. Toutes les mises à jour du code sont enregistrées pour l’audit via la journalisation résistante à la falsification avec l’informatique confidentielle Azure.

Quelles sont les options pour bien démarrer ?

Offres de plateforme ACC facilitant la mise en place des salles blanches confidentielles

Remontez vos manches et créez une solution de salle blanche aux données directement sur ces offres de services d’informatique confidentielle.

Les conteneurs confidentiels sur Azure Container Instances (ACI) et les machines virtuelles Intel SGX avec enclaves d’application fournissent une solution de conteneur pour créer des solutions de salles blanches confidentielles.

Les machines virtuelles confidentielles fournissent une plateforme de machines virtuelles pour les solutions de salle blanche confidentielle.

Azure SQL AE dans des enclaves sécurisées fournit un service de plateforme permettant de chiffrer des données et des requêtes dans SQL qui peuvent être utilisées dans les salles blanches confidentielles et d’analytique données multiparties.

Confidential Consortium Framework est une infrastructure open source permettant de créer des services avec état hautement disponibles qui utilisent le calcul centralisé pour faciliter l’utilisation et les performances, tout en fournissant une confiance décentralisée. Elle permet à plusieurs parties d’exécuter un calcul auditable sur des données confidentielles sans se faire confiance ou sans opérateur privilégié.

Solutions partenaires ACC prenant en charge les salles blanches confidentielles

Utilisez un partenaire qui a créé une solution d’analytique données multiparties sur la plateforme d’informatique confidentielle Azure.

  • Anjuna fournit une plateforme d’informatique confidentielle pour permettre divers cas d’usage, notamment des salles blanches sécurisées, pour que les organisations partagent des données pour une analyse conjointe, telle que le calcul des scores de risque de crédit ou le développement de modèles Machine Learning, sans exposer d’informations sensibles.
  • BeeKeeperAI propose une IA médicale via une plateforme de collaboration sécurisée pour les propriétaires d’algorithmes et les administrateurs de données. BeeKeeperAI™ utilise des analyses préservant la confidentialité sur des sources multi-institutionnelles de données protégées dans un environnement d’informatique confidentielle. La solution prend en charge le chiffrement de bout en bout, les enclaves informatiques sécurisées et les processeurs Intel SGX les plus récents pour protéger la propriété intellectuelle des données et de l’algorithme.
  • Decentriq fournit des salles blanches de données SaaS basées sur l’informatique confidentielle qui permettent une collaboration sécurisée des données sans partager de données. Les salles blanches de la science des données permettent une analyse multiparties flexible et des salles blanches sans code pour les médias et la publicité permettent l’activation et l’analytique d’audience conformes basées sur les données utilisateur internes. Les salles blanches confidentielles sont décrites plus en détail dans cet article sur le blog Microsoft.
  • Fortanix propose une plateforme d’informatique confidentielle capable de prendre en charge l’IA confidentielle, notamment la collaboration entre plusieurs organisations pour réaliser des analyses multipartites.
  • Habu fournit une plateforme de salle blanche de données interopérable qui permet aux entreprises de déverrouiller l’intelligence collaborative de manière intelligente, sécurisée, évolutive et simple. Habu connecte des données décentralisées entre les services, les partenaires, les clients et les fournisseurs pour une collaboration, des prises de décisions et des résultats de meilleure qualité.
  • Mithril Security propose des outils permettant aux fournisseurs SaaS de servir des modèles IA dans des enclaves sécurisées et de fournir un niveau de sécurité et de contrôle local aux propriétaires de données. Les propriétaires de données peuvent utiliser leurs solutions IA SaaS tout en restant conformes et en conservant le contrôle de leurs données.
  • Opaque fournit une plateforme d’informatique confidentielle pour l’analytique collaborative et l’IA, ce qui permet d’effectuer des analyses évolutives collaboratives tout en protégeant les données de bout en bout et en permettant aux organisations de se conformer aux obligations juridiques et réglementaires.