クリーンルームとマルチパーティー データ分析
Azure Confidential Computing (ACC) では、複数のパーティーがデータを共同で作業できるようにするソリューションの基盤を提供します。 ソリューションに対するさまざまなアプローチとパートナーの拡大中のエコシステムが用意され、Azure の顧客、研究者、データ サイエンティスト、データ プロバイダーがプライバシーを維持しながらデータに対して共同作業を行うことができます。 この概要では、ACC で実行され、使用できるアプローチと既存のソリューションのいくつかについて説明します。
データ保護とモデル保護とは?
通常、データ クリーンルーム ソリューションでは、1 つ以上のデータ プロバイダーがデータを組み合わせて処理する手段を提供します。 一般に、プロバイダーや他の参加者 (研究者やソリューション プロバイダーなど) のいずれかが作成したコード、クエリ、またはモデルについては合意がなされています。 多くの場合、データは機密を要し、別のデータ プロバイダー、研究者、ソリューション ベンダーなどの他の参加者と直接共有することは望ましくないと考えられます。 データ クリーンルーム内で使用されるデータとモデルの両方のセキュリティとプライバシーを確保するため、コンフィデンシャル コンピューティングを使用して、参加者が処理中もデータやモデルにアクセスできないことを暗号化によって確証することができます。 ソリューションでは、ACC を使用することで、クラウド オペレーター、ソリューション プロバイダー、データ コラボレーション参加者から、データとモデル IP を保護できます。
業界のユース ケースの例は?
顧客とパートナーは ACC を使用して、きわめて機密性の高い真新しいソリューションと、ACC で機密性を高めた既存のクリーンルーム ソリューションの両方を備えた、プライバシーを保護するマルチパーティー データ分析ソリューション ("機密クリーンルーム" とも呼ばれることもあります) を構築します。
- カナダ ロイヤル銀行 - 仮想クリーン ルーム ソリューションでは、Azure Confidential Computing VM と Azure SQL AE をセキュリティで保護されたエンクレーブで使用し、マーチャント データと銀行データを組み合わせることで個人用に設定されたオファーを提供しています。
- Scotiabank – Azure Confidential Computing とソリューション パートナーである Opaque を使用して、銀行間の金銭フローに AI を活用することにより、マネー ロンダリングを特定し、人身売買事例にフラグを設定できたことを証明しました。
- Novartis Biome – ACC で実行する BeeKeeperAI のパートナー ソリューションを使用して、希少疾病の臨床試験の候補者を見つけました。
- 大手決済プロバイダーでは、不正行為や異常の検出のために銀行間でデータを接続しています。
- データ分析サービスとクリーン ルーム ソリューションでは、ACC を使用して、データ保護を強化し、ヨーロッパの顧客コンプライアンスのニーズとプライバシー規制を満たしています。
コンフィデンシャル コンピューティングを使用する理由とは?
データ クリーンルームは、真新しい概念ではありませんが、コンフィデンシャル コンピューティングの進歩により、より広範なデータセットを持ち、AI モデルの IP をセキュリティで保護し、データ プライバシー規制をより適切に満たすことができるというクラウドの規模を利用する機会が増えています。 以前のケースでは、次のような理由で特定のデータにアクセスできないことがありました
- 業界の企業間でのデータの共有が競争上不利になったり、規制で禁止されているため。
- 匿名化により、データの分析情報の品質が低下したり、非常に多くのコストや時間がかかるため。
- データが特定の場所に結び付けられ、セキュリティ上の問題のためにクラウドでの処理が抑制されているため。
- データが流出または悪用された場合に責任を負う法的プロセスのコストまたは時間がかかるため
これらの現実は、不完全なデータセットや効果のないデータセットを招き、その結果、分析情報が不十分になったり、AI モデルのトレーニングと使用に必要な時間が長くなる可能性があります。
クリーンルーム ソリューションを構築するときの考慮事項とは?
一括分析とリアルタイム データ パイプライン: クリーンルーム ソリューションを設計または使用するときに、データセットのサイズと分析情報取得の速度を考慮する必要があります。 データを "オフライン" で使用できる場合、データセット全体ではなく、データの大部分に対してデータ分析処理を行うために、セキュリティで保護された検証済みのコンピューティング環境にデータを読み込むことができます。 この一括分析を使用すると、すぐに結果を得られるとは予想されていないモデルとアルゴリズムを使用して、大規模なデータセットを評価することができます。 たとえば、一括分析は、何百万もの医療記録にわたって ML 推論を実行して、臨床試験に最適な候補者を見つける場合に効果的です。 複数のエンティティ間のほぼリアルタイムのトランザクションに対する不正行為をアルゴリズムやモデルで特定しようとするときなど、他のソリューションでは、データに対するリアルタイムの分析情報が必要になります。
ゼロ トラスト参加: 機密クリーンルームの主要な差別化要因は、すべてのデータ プロバイダー、コードおよびモデル開発者、ソリューション プロバイダー、インフラストラクチャ オペレーター管理者から信頼されたパーティーを含める必要がないことです。 データとモデル IP の両方をすべてのパーティーから保護できるソリューションを提供できます。 ソリューションをオンボードまたは構築する場合、参加者は、何を保護する必要があるかと、コード、モデル、データのそれぞれを誰から保護するかの両方を考慮する必要があります。
フェデレーション学習: フェデレーション学習には、ソリューションの作成または使用が含まれますが、モデルはデータ所有者のテナントで処理され、分析情報は中央テナントに集約されます。 場合によっては、Azure 外部のデータでモデルを実行しながら、そのまま Azure でモデルの集約を行うこともできます。 分析情報の集計後にモデルのパラメーターが向上するたびに何度も、データに対してフェデレーション学習が繰り返されます。 モデルの繰り返しのコストと品質を、ソリューションと予想される結果に組み込む必要があります。
データ所在地とソース: 顧客は、複数のクラウドとオンプレミスにデータを格納しています。 コラボレーションには、さまざまなソースからのデータとモデルを含めることができます。 クリーンルーム ソリューションでは、このような他の場所から Azure 送られたデータとモデルに対応できます。 オンプレミスのデータ ストアから Azure にデータを移動できない場合、データが存在するサイトで一部のクリーンルーム ソリューションを実行できます。 使用可能な場合は、管理とポリシーに共通のソリューション プロバイダーを利用できます。
コードの整合性と Confidential Ledger: Azure Confidential Computing で実行されている分散型台帳テクノロジ (DLT) を使用すると、組織間のネットワーク上で実行されるソリューションを構築できます。 コード ロジックと分析ルールは、さまざまな参加者にわたって合意がある場合にのみ追加できます。 コードに対するすべての更新は、Azure Confidential Computing で有効になっている改ざん防止ログを使用して監査要に記録されます。
使用を開始するためのオプションはどのようなものですか?
機密クリーンルームを有効にするために役立つ ACC プラットフォーム オファリング
気を引き締めて、これらのコンフィデンシャル コンピューティング サービス オファリングに直接データ クリーン ルール ソリューションを構築します。
Azure Container Instances (ACI) 上の機密コンテナーとアプリケーション エンクレーブを備えた Intel SGX VM により、機密クリーンルーム ソリューションを構築するためのコンテナー ソリューションがもたらされます。
機密仮想マシン (VM) では、機密クリーンルーム ソリューション用の VM プラットフォームが提供されます。
セキュリティで保護されたエンクレーブでの Azure SQL AE では、マルチパーティー データ分析や機密クリーンルームで使用できる SQL でデータとクエリを暗号化するためのプラットフォーム サービスを提供します。
Confidential Consortium Framework は、分散型信頼を提供しながら、使いやすさとパフォーマンスを高めるために一元化されたコンピューティングを使用する高可用性ステートフル サービスを構築するためのオープンソース フレームワークです。 これにより、複数のパーティーが相互に信頼したり特権オペレーターを使用したりすることなく、機密データに対して監査可能なコンピューティングを実行できます。
機密クリーンルームに対応する ACC パートナー ソリューション
Azure Confidential Computing プラットフォームに基づいてマルチパーティー データ分析ソリューションを構築するパートナーを使用します。
- Anjuna では、セキュリティで保護されたクリーン ルームを含むさまざまなユース ケースを可能にするコンフィデンシャル コンピューティング プラットフォームを提供しており、組織は、機密情報を流出させることなく、信用リスク スコアの計算や機械学習モデルの開発などの共同分析用にデータを共有することができます。
- Beekeeper AI では、アルゴリズム所有者やデータ スチュワードのためのセキュリティで保護されたコラボレーション プラットフォームを使用して医療 AI を実現します。 BeeKeeperAI™ では、コンフィデンシャル コンピューティング環境内の保護されたデータの複数機関のソースに対してプライバシー保護分析を使用します。 このソリューションは、エンド ツー エンド暗号化、セキュア コンピューティング エンクレーブ、Intel の最新の SGX 対応プロセッサをサポートして、データとアルゴリズムの IP を保護します。
- Decentriq では、コンフィデンシャル コンピューティングに基づいて構築された SaaS データ クリーンルームを提供し、データを共有せずに、セキュリティで保護されたデータ コラボレーションを実現します。 データ サイエンス クリーンルームを使用すると、柔軟なマルチパーティー分析が実現し、メディアおよび広告用のノーコード クリーンルームを使用すると、ファーストパーティー ユーザー データに基づく、準拠した対象ユーザーのアクティブ化と分析が可能になります。 機密クリーンルームの詳細については、Microsoft ブログのこの記事を参照してください。
- Fortanix では、機密 AI を有効にできるコンフィデンシャル コンピューティング プラットフォーム (複数の組織によるマルチパーティー分析のための共同作業を含む) を提供します。
- Habu では、企業がスマートで安全でスケーラブルでシンプルな方法で集合知をロック解除できるようにする、相互運用可能なデータ クリーン ルーム プラットフォームを提供します。 Habu では、部署、パートナー、顧客、プロバイダー間で分散データを結び付け、コラボレーション、意思決定、結果を向上させます。
- Mithril Security では、SaaS ベンダーがセキュリティで保護されたエンクレーブ内で AI モデルを提供するのに役立つツールを提供し、オンプレミスレベルのセキュリティと制御をデータ所有者に提供します。 データ所有者は、コンプライアンスを保ちつつ、またデータの制御を保ちつつ、SaaS AI ソリューションを使用できます。
- Opaque では、コラボレーション分析と AI のためのコンフィデンシャル コンピューティング プラットフォームを提供することにより、データをエンド ツー エンドで保護し、組織が法律および規制上の要件に準拠できるようにしながら共同的でスケーラブルな分析を実行する機能を提供します。
- SafeLiShare では、マルチパーティー データ共有中にデータを保護しながら、データへのアクセスを監査、追跡、表示できるポリシー主導の暗号化されたデータ クリーン ルームが提供されます。