Condividi tramite


Cleanroom e analisi dei dati multiparte

Il confidential computing di Azure (ACC) fornisce le basi per le soluzioni che abilitano la collaborazione di più parti sui dati. Esistono diversi approcci alle soluzioni e un ecosistema in crescita di partner per consentire a clienti, ricercatori, data scientist e provider di dati di Azure di collaborare sui dati, pur mantenendo la privacy. Questa panoramica illustra alcuni approcci e soluzioni esistenti che si possono usare, tutte eseguibili in ACC.

Quali sono le protezioni di dati e modelli?

Generalmente, le soluzioni data cleanroom rappresentano un mezzo, per uno o più provider di dati, per combinare i dati per l'elaborazione. Solitamente si trova un accordo su un codice, query o modelli creati da uno dei provider o da un altro partecipante, ad esempio un ricercatore o un provider di soluzioni. In molti casi, i dati possono essere considerati sensibili e non si desidera condividerli direttamente con altri partecipanti, che si tratti di un altro provider di dati, di un ricercatore o di un fornitore di soluzioni. Per garantire la sicurezza e la privacy dei dati e dei modelli usati all'interno delle data cleanroom, è possibile usare il confidential computing per verificare mediante crittografia che i partecipanti non accedano ai dati o ai modelli, neanche durante l'elaborazione. Con ACC, le soluzioni possono assicurare la protezione dell'IP dei dati e dei modelli da parte dell'operatore cloud, del provider di soluzioni e dei partecipanti alla collaborazione dati.

Quali sono gli esempi di casi d'uso del settore?

ACC permette ai clienti e ai partner di creare soluzioni di analisi dei dati multiparte di protezione della privacy, talvolta definite "cleanroom riservate", ma anche soluzioni completamente nuove caratterizzate da una riservatezza univoca, nonché soluzioni di cleanroom esistenti che vengono rese riservate con ACC.

  1. Royal Bank of Canada - Cleanrom virtuale - Una soluzione che combina i dati dei fornitori con i dati della banca per fornire offerte personalizzate, avvalendosi delle macchine virtuali di confidential computing di Azure e di Azure SQL AE in enclavi sicuri.
  2. Scotiabank – Ha dimostrato l'uso dell'IA sui flussi di denaro tra banche per identificare il riciclaggio di denaro e contrassegnare le istanze di traffico di esseri umani, grazie al confidential computing di Azure e al partner di soluzioni, Opaque.
  3. Novartis Biome – Ha utilizzato la soluzione si un partner di BeeKeeperAI in esecuzione su ACC per individuare candidati idonei per studi clinici sulle malattie rare.
  4. Provider di pagamenti principali che connettono i dati tra le diverse banche per rilevare frodi e anomalie.
  5. Servizi di analisi dei dati e soluzioni cleanroom che utilizzano ACC per migliorare la protezione dei dati e soddisfare le esigenze di conformità dei clienti in Europa e della normativa sulla privacy.

Perché il confidential computing?

Le cleanroom di dati non sono un concetto nuovo, ma grazie ai progressi del confidential computing, offrono più opportunità per sfruttare i vantaggi della scalabilità cloud con set di dati più estesi, la protezione dell'IP dei modelli di IA e la possibilità di soddisfare meglio le normative sulla protezione dei dati personali. Nei casi precedenti alcuni dati potrebbero non essere accessibili per motivi quali:

  • Svantaggi competitivi o normative che impediscono la condivisione dei dati tra le aziende del settore.
  • L'anonimato riduce la qualità delle informazioni dettagliate sui dati, oppure è troppo costoso e richiede molto tempo.
  • I dati associati a determinate posizioni e non possono essere elaborati nel cloud per problemi di sicurezza.
  • Responsabilità di natura legale per processi legali costosi o prolungati se i dati vengono esposti a rischi o compromessi

Queste realtà possono portare a set di dati incompleti o inefficaci con dati analitici più deboli oppure possono richiedere più tempo per il training e l'uso dei modelli di intelligenza artificiale.

Quali sono le considerazioni per la creazione di una soluzione cleanroom?

Analisi batch e pipeline di dati in tempo reale: Si devono considerare le dimensioni dei set di dati e la velocità dei dati analitici durante la progettazione o l'uso di una soluzione cleanroom. Se i dati sono disponibili "offline", possono essere caricati in un ambiente di calcolo verificato e protetto per l'elaborazione analitica di grandi sezioni di dati, se non dell'intero set di dati. Questa analisi batch consente di valutare set di dati di grandi dimensioni con modelli e algoritmi che non devono fornire un risultato immediato. Ad esempio, l'analisi batch funziona bene quando si esegue l'inferenza ML su milioni di cartelle cliniche per individuare i migliori candidati per uno studio clinico. Altre soluzioni richiedono dati analitici in tempo reale, ad esempio se gli algoritmi e i modelli mirano a identificare le frodi nelle transazioni tra più entità quasi in tempo reale.

Partecipazione Zero Trust: un importante elemento di differenziazione nelle cleanroom riservate è la possibilità di non avere parti interessate attendibili, a partire da provider di dati, sviluppatori di codice e modelli, provider di soluzioni e amministratori dell'operatore dell'infrastruttura. È possibile fornire soluzioni in cui tutte le parti interessate proteggono l'IP dei dati e del modello. Quando si esegue l'onboarding o la creazione di una soluzione, i partecipanti devono considerare ciò che si desidera proteggere e da cosa si desidera proteggere tutti i codici, modelli e dati.

Apprendimento federato: l'apprendimento federato prevede la creazione o l'uso di una soluzione, mentre i modelli vengono elaborati nel tenant del proprietario dei dati e i dati analitici vengono aggregati in un tenant centrale. In alcuni casi, i modelli possono anche essere eseguiti su dati all'esterno di Azure, mentre l'aggregazione del modello è ancora in esecuzione in Azure. In molti casi, l'iterazione dell'apprendimento federato sui dati viene eseguita tante volte mentre i parametri del modello migliorano dopo l'aggregazione dei dati analitici. Per la soluzione e per i risultati attesi si devono prendere in considerazione i costi di iterazione e la qualità del modello.

Residenza e origine dei dati: i clienti hanno dati archiviati in più cloud e in locale. La collaborazione può includere dati e modelli provenienti da origini diverse. Le soluzioni cleanroom possono facilitare l’arrivo di dati e modelli su Azure da tali altre posizioni. Se non è possibile spostare i dati in Azure da un archivio dati locale, alcune soluzioni cleanroom possono essere eseguite nel sito in cui risiedono i dati. La gestione e i criteri si possono basare su un provider di soluzioni comune, ove disponibile.

Integrità del codice e confidential ledger: con la tecnologia DLT (Distributed Ledger Technology) in esecuzione nel confidential computing di Azure, è possibile creare soluzioni che vengono eseguite in una rete tra organizzazioni. La logica del codice e le regole analitiche possono essere aggiunte solo in caso di consenso di tutti i diversi partecipanti. Tutti gli aggiornamenti al codice vengono registrati per il controllo tramite registrazione a prova di manomissione, abilitata per il confidential computing di Azure.

Quali sono le opzioni per iniziare?

Offerte della piattaforma ACC che consentono di abilitare le cleanroom riservate

Rimboccarsi le maniche e creare una soluzione data cleanroom direttamente su queste offerte di servizi di confidential computing.

Contenitori riservati nelle istanze di Azure Container (ACI) e nelle macchine virtuali Intel SGX con enclavi dell'applicazione offrono una soluzione contenitore per la creazione di soluzioni cleanroom riservate.

Le macchine virtuali riservate (VM) offrono una piattaforma di macchine virtuali per soluzioni cleanroom riservate.

Azure SQL AE in enclavi sicure offre un servizio di piattaforma per crittografare dati e query in SQL che possono essere usati nell'analisi dei dati multiparte e nelle cleanroom riservate.

Confidential Consortium Framework è un framework open source per la creazione di servizi con stato a disponibilità elevata che usano risorse di calcolo centralizzate per semplificare l'uso e le prestazioni, offrendo al tempo stesso un'attendibilità decentralizzata. Esso consente a più parti di eseguire un calcolo controllabile su dati riservati senza considerare attendibile uno o l'altro o un operatore con privilegi.

Soluzioni partner ACC che consentono servizi di cleanroom riservate

Usare un partner che ha creato una soluzione di analisi dei dati multiparte sulla piattaforma di confidential computing di Azure.

  • Anjuna fornisce una piattaforma di confidential computing per abilitare diversi casi d'uso, tra cui cleanroom sicure, affinché le organizzazioni possano condividere i dati per l'analisi congiunta, ad esempio il calcolo dei punteggi di rischio creditizio o lo sviluppo di modelli di Machine Learning, senza esporre informazioni sensibili.
  • BeeKeeperAI abilita l'intelligenza artificiale nel settore sanitario grazie a una piattaforma di collaborazione sicura per i proprietari di algoritmi e gli amministratori dei dati. BeeKeeperAI™ usa l'analisi con mantenimento della privacy su origini multi-istituzionali di dati protetti in un ambiente di confidential computing. La soluzione supporta la crittografia end-to-end, enclavi di elaborazione sicuri e i processori Intel più recenti abilitati per SGX, per proteggere l'IP dei dati e dell'algoritmo.
  • Decentriq fornisce servizi per data cleanroom SaaS basate sul confidential computing che consentono la collaborazione sicura dei dati senza condividere i dati. Le cleanroom di data science consentono analisi flessibile multiparte, inoltre, le cleanroom senza codice per i media e la pubblicità consentono l'attivazione e l'analisi dei destinatari in base ai dati proprietari. Le cleanroom riservate sono descritte in maggior dettaglio in questo articolo nel blog di Microsoft.
  • Fortanix offre una piattaforma di confidential computing in grado di abilitare l'intelligenza artificiale riservata, e permette a più organizzazioni di collaborare per l'analisi multiparte.
  • Habu offre una piattaforma interoperativa di data cleanroom che consente alle aziende di sbloccare l'intelligenza collaborativa in modo intelligente, sicuro, scalabile e semplice. Habu connette i dati decentralizzati dei vari reparti, partner, clienti e provider per garantire collaborazione, processo decisionale e risultati migliori.
  • Mithril Security offre strumenti per aiutare i fornitori SaaS a gestire i modelli di intelligenza artificiale all'interno di enclavi sicure e fornire un livello locale di sicurezza e controllo ai proprietari dei dati. I proprietari dei dati possono usare le proprie soluzioni di intelligenza artificiale SaaS senza rinunciare alla conformità e al controllo dei dati.
  • Opaque offre una piattaforma di confidential computing per l'analisi collaborativa e l'IA, dando la possibilità di eseguire analisi scalabili collaborative pur proteggendo i dati end-to-end e consentendo alle organizzazioni di rispettare i requisiti legali e normativi.
  • SafeLiShare offre data cleanroom con crittografia basata su criteri, in cui l'accesso ai dati è controllabile, rilevabile e visibile e i dati sono protetti durante la condivisione dei dati multiparte.