Cleanroom och dataanalys för flera parter
Azures konfidentiella databehandling (ACC) utgör en grund för lösningar som gör det möjligt för flera parter att samarbeta om data. Det finns olika metoder för lösningar och ett växande ekosystem av partner för att göra det möjligt för Azure-kunder, forskare, dataforskare och dataleverantörer att samarbeta om data samtidigt som integriteten bevaras. Den här översikten beskriver några av de metoder och befintliga lösningar som kan användas, som alla körs på ACC.
Vilka är data- och modellskydden?
Lösningar för datarensning erbjuder vanligtvis ett sätt för en eller flera dataleverantörer att kombinera data för bearbetning. Det finns vanligtvis överens om kod, frågor eller modeller som skapas av en av leverantörerna eller en annan deltagare, till exempel en forskare eller lösningsleverantör. I många fall kan data betraktas som känsliga och oönskade att dela direkt till andra deltagare – oavsett om det är en annan dataleverantör, en forskare eller lösningsleverantör. För att säkerställa säkerhet och sekretess för både data och modeller som används i datarengöringsrum kan konfidentiell databehandling användas för att kryptografiskt verifiera att deltagarna inte har åtkomst till data eller modeller, inklusive under bearbetningen. Med hjälp av ACC kan lösningarna ge skydd mot data och modell-IP från molnoperatören, lösningsleverantören och deltagarna i datasamarbetet.
Vilka är exempel på branschanvändningsfall?
Med ACC skapar kunder och partners sekretess som bevarar dataanalyslösningar för flera parter, som ibland kallas "konfidentiella renrum" – både nya nettolösningar som är unikt konfidentiella och befintliga lösningar för renrum som gjorts konfidentiella med ACC.
- Royal Bank of Canada - Virtual Clean Room-lösning som kombinerar handelsdata med bankdata för att tillhandahålla anpassade erbjudanden med hjälp av virtuella Datorer för konfidentiell databehandling i Azure och Azure SQL AE i säkra enklaver.
- Scotiabank – Bevisade användningen av AI på penningflöden mellan banker för att identifiera penningtvätt för att flagga instanser av människohandel, med hjälp av konfidentiell databehandling i Azure och en lösningspartner, Opaque.
- Novartis Biome – använde en partnerlösning från BeeKeeperAI som körs på ACC för att hitta kandidater för kliniska prövningar för sällsynta sjukdomar.
- Ledande betalningsleverantörer som ansluter data mellan banker för bedrägeri och avvikelseidentifiering.
- Dataanalystjänster och lösningar för rent rum med acc för att öka dataskyddet och uppfylla EU:s kundefterlevnadsbehov och sekretessreglering.
Varför konfidentiell databehandling?
Datarengöringsrum är inte ett helt nytt koncept, men med framsteg inom konfidentiell databehandling finns det fler möjligheter att dra nytta av molnskala med bredare datauppsättningar, säkra IP-adresser för AI-modeller och möjlighet att bättre uppfylla reglerna för datasekretess. I tidigare fall kan vissa data vara otillgängliga av orsaker som
- Konkurrensnackdelar eller reglering som förhindrar att data delas mellan branschföretag.
- Anonymisering minskar kvaliteten på insikter om data eller är för kostsamt och tidskrävande.
- Data som är bundna till vissa platser och avstod från att bearbetas i molnet på grund av säkerhetsproblem.
- Kostsamma eller långa juridiska processer omfattar ansvar om data exponeras eller missbrukas
Dessa realiteter kan leda till ofullständiga eller ineffektiva datamängder som resulterar i svagare insikter, eller mer tid som behövs för träning och användning av AI-modeller.
Vad är saker att tänka på när du skapar en renrumslösning?
Batchanalys jämfört med realtidsdatapipelines: Storleken på datauppsättningarna och insiktshastigheten bör beaktas när du utformar eller använder en renrumslösning. När data är tillgängliga offline kan de läsas in i en verifierad och skyddad beräkningsmiljö för dataanalysbearbetning på stora delar av data, om inte hela datauppsättningen. Med den här batchanalysen kan stora datamängder utvärderas med modeller och algoritmer som inte förväntas ge ett omedelbart resultat. Batchanalys fungerar till exempel bra när du gör ML-slutsatsdragning över miljontals hälsojournaler för att hitta de bästa kandidaterna för en klinisk prövning. Andra lösningar kräver insikter i realtid om data, till exempel när algoritmer och modeller syftar till att identifiera bedrägerier vid transaktioner i nära realtid mellan flera entiteter.
Deltagande utan förtroende: En stor differentiator i konfidentiella renrum är möjligheten att inte ha någon part som är betrodd – från alla dataleverantörer, kod- och modellutvecklare, lösningsleverantörer och administratörer för infrastrukturoperatören. Lösningar kan tillhandahållas där både data- och modell-IP-adressen kan skyddas från alla parter. När deltagarna registrerar eller skapar en lösning bör de överväga både vad som är önskvärt att skydda och från vem de ska skydda var och en av koderna, modellerna och data.
Federerad inlärning: Federerad inlärning innebär att skapa eller använda en lösning medan modeller bearbetas i dataägarens klientorganisation och insikter aggregeras i en central klientorganisation. I vissa fall kan modellerna till och med köras på data utanför Azure, där modellaggregering fortfarande förekommer i Azure. Många gånger itereras federerad inlärning på data många gånger när parametrarna i modellen förbättras när insikterna har sammanställts. Iterationskostnaderna och modellens kvalitet bör räknas in i lösningen och förväntade resultat.
Datahemvist och källor: Kunder har data lagrade i flera moln och lokalt. Samarbete kan omfatta data och modeller från olika källor. Cleanroom-lösningar kan underlätta data och modeller som kommer till Azure från dessa andra platser. När data inte kan flyttas till Azure från ett lokalt datalager kan vissa lösningar för renrum köras på den plats där data finns. Hantering och principer kan drivas av en vanlig lösningsleverantör, där det är tillgängligt.
Kodintegritet och konfidentiella transaktionsregister: Med distribuerad transaktionsregisterteknik (DLT) som körs på konfidentiell databehandling i Azure kan lösningar skapas som körs i ett nätverk mellan organisationer. Kodlogiken och analysreglerna kan bara läggas till när det finns konsensus mellan de olika deltagarna. Alla uppdateringar av koden registreras för granskning via manipuleringssäker loggning aktiverad med konfidentiell databehandling i Azure.
Vad finns det för alternativ för att komma igång?
ACC-plattformserbjudanden som hjälper till att aktivera konfidentiella renrum
Rulla upp ärmarna och skapa en lösning för datarengöringsrum direkt på dessa erbjudanden för konfidentiell databehandling.
Konfidentiella containrar på virtuella Datorer i Azure Container Instances (ACI) och Intel SGX med programenklaver tillhandahåller en containerlösning för att skapa konfidentiella renrumslösningar.
Konfidentiella virtuella datorer (VM) tillhandahåller en VM-plattform för konfidentiella lösningar för renrum.
Azure SQL AE i säkra enklaver tillhandahåller en plattformstjänst för kryptering av data och frågor i SQL som kan användas i dataanalyser med flera parter och konfidentiella renrum.
Confidential Consortium Framework är ett ramverk med öppen källkod för att skapa tillståndskänsliga tjänster med hög tillgänglighet som använder centraliserad beräkning för enkel användning och prestanda, samtidigt som decentraliserat förtroende ges. Det gör det möjligt för flera parter att köra granskningsbar beräkning över konfidentiella data utan att lita på varandra eller en privilegierad operatör.
ACC-partnerlösningar som möjliggör konfidentiella renrum
Använd en partner som har skapat en dataanalyslösning med flera parter ovanpå Azures plattform för konfidentiell databehandling.
- Anjuna tillhandahåller en konfidentiell databehandlingsplattform som gör det möjligt för olika användningsfall, inklusive säkra rena rum, för organisationer att dela data för gemensam analys, till exempel beräkning av kreditriskpoäng eller utveckling av maskininlärningsmodeller, utan att exponera känslig information.
- BeeKeeperAI möjliggör AI för hälso- och sjukvård via en säker samarbetsplattform för algoritmägare och dataförvaltare. BeeKeeperAI™ använder sekretessbevarande analys på flera institutionella datakällor i en konfidentiell databehandlingsmiljö. Lösningen stöder kryptering från slutpunkt till slutpunkt, säkra enklaver för databehandling och Intels senaste SGX-aktiverade processorer för att skydda data och algoritmens IP-adress.
- Decentriq tillhandahåller SaaS-datarengöringsrum som bygger på konfidentiell databehandling som möjliggör säkert datasamarbete utan att dela data. Data science cleanrooms tillåter flexibel analys från flera parter, och renrum utan kod för media och annonsering möjliggör kompatibel målgruppsaktivering och analys baserat på användardata från första part. Konfidentiella renrum beskrivs mer detaljerat i den här artikeln på Microsoft-bloggen.
- Fortanix tillhandahåller en konfidentiell databehandlingsplattform som kan aktivera konfidentiell AI, inklusive flera organisationer som samarbetar för analys med flera parter.
- Habu levererar en samverkande plattform för datarengöringsrum som gör det möjligt för företag att låsa upp samarbetsintelligens på ett smart, säkert, skalbart och enkelt sätt. Habu ansluter decentraliserade data mellan avdelningar, partners, kunder och leverantörer för bättre samarbete, beslutsfattande och resultat.
- Mithril Security tillhandahåller verktyg för att hjälpa SaaS-leverantörer att hantera AI-modeller i säkra enklaver och tillhandahålla en lokal nivå av säkerhet och kontroll till dataägare. Dataägare kan använda sina SaaS AI-lösningar samtidigt som de är kompatibla och har kontroll över sina data.
- Opaque tillhandahåller en konfidentiell databehandlingsplattform för samarbetsanalys och AI, vilket ger möjlighet att utföra skalbar analys i samarbete och samtidigt skydda data från slutpunkt till slutpunkt och göra det möjligt för organisationer att följa juridiska och regelmässiga mandat.
- Valv LiShare tillhandahåller principdrivna krypterade datarengöringsrum där åtkomsten till data är granskningsbar, spårbar och synlig, samtidigt som data skyddas under datadelning med flera parter.