セキュリティで保護されたマルチテナント RAG 推論ソリューションを設計する

[アーティクル]
02/06/2025

Retrieval-Augmented 生成 (RAG) は、基本モデルを使用して、インターネットで一般に公開されていない独自の情報やその他のデータを推論するアプリケーションを構築するためのパターンです。一般に、クライアントアプリケーションは、ベクターデータベースなどのデータストアから関連情報をフェッチするオーケストレーションレイヤーを呼び出します。オーケストレーションレイヤーは、コンテキストの一部としてそのデータを基礎モデルにグラウンドデータとして渡します。

マルチテナントソリューションは、複数の顧客によって使用されます。各顧客 (テナント) は、同じ組織、会社、またはグループの複数のユーザーで構成されます。マルチテナントシナリオでは、テナントまたはテナント内の個人が、アクセスを許可されているグラウンドデータのみを組み込むことができるようにする必要があります。

ユーザーがアクセスを許可されている情報にのみアクセスすることを保証する以外にも、マルチテナントの懸念があります。ただし、この記事では、マルチテナントのその側面に焦点を当てています。この記事では、まずシングルテナント RAG アーキテクチャの概要について説明します。ここでは、RAG を使用したマルチテナントで発生する可能性がある課題と、いくつかの一般的なアプローチについて説明します。また、セキュリティを強化するためのマルチテナントの考慮事項と推奨事項についても説明します。

手記

この記事では、Azure OpenAI On Your Data 機能など、Azure OpenAI サービスに固有のいくつかの機能について説明します。ただし、この記事で説明されている原則のほとんどは、任意のプラットフォーム上の基本的な AI モデルに適用できます。

オーケストレーターを使用したシングルテナント RAG アーキテクチャ

ワークフロー

このシングルテナント RAG アーキテクチャでは、オーケストレーターは、関連する独自のテナントデータをデータストアからフェッチし、基本モデルに対するグラウンドデータとして提供します。次の手順では、ワークフローの概要について説明します。

ユーザーがインテリジェント Web アプリケーションに要求を発行します。
ID プロバイダーがリクエスタを認証します。
インテリジェントアプリケーションは、ユーザーのクエリとユーザーの承認トークンを使用してオーケストレーター API を呼び出します。
オーケストレーションロジックは、要求からユーザーのクエリを抽出し、適切なデータストアを呼び出して、クエリの関連するグラウンドデータをフェッチします。次の手順では、基本モデル (Azure OpenAI で公開されているモデルなど) に送信されるプロンプトに、接地データが追加されます。
オーケストレーションロジックは、基本モデルの推論 API に接続し、取得したグラウンドデータを含むプロンプトを送信します。結果はインテリジェントアプリケーションに返されます。

詳細については、「RAG ソリューションの設計と開発」を参照してください。

直接データアクセスを使用するシングルテナント RAG アーキテクチャ

シングルテナント RAG アーキテクチャのこのバリアントでは、Azure OpenAI の On Your Data 機能を使用して、Azure AI Search などのデータストアと直接統合します。このアーキテクチャでは、独自のオーケストレーターがないか、オーケストレーターの責任が少なくなります。 Azure OpenAI API は、データストアを呼び出してグラウンドデータをフェッチし、そのデータを言語モデルに渡します。この方法を使用すると、フェッチするグラウンディングデータやそのデータの関連性を制御する自由度が低下します。

手記

Azure OpenAI は Microsoft によって管理されます。データストアと統合されますが、モデル自体はデータストアと統合されません。モデルは、オーケストレーターがデータを取得するのと同じ方法で、基礎データを受け取ります。

ワークフロー

この RAG アーキテクチャでは、基本モデルを提供するサービスは、データストアから適切な独自のテナントデータをフェッチし、そのデータを基本モデルへの接地データとして使用します。次の手順では、ワークフローの概要について説明します。斜体化された手順は、オーケストレーターワークフローを持つ上記のシングルテナント RAG アーキテクチャと同じです。

ユーザーがインテリジェント Web アプリケーションに要求を発行します。
ID プロバイダーがリクエスタを認証します。
インテリジェントアプリケーションは、ユーザーのクエリを使用して Azure OpenAI を呼び出します。
Azure OpenAI は、AI Search や Azure Blob Storage などのサポートされているデータストアに接続して、グラウンドデータをフェッチします。グラウンドデータは、Azure OpenAI が OpenAI 言語モデルを呼び出すときにコンテキストの一部として使用されます。結果はインテリジェントアプリケーションに返されます。

マルチテナントソリューションでこのアーキテクチャを使用する場合は、Azure OpenAI などのグラウンドデータに直接アクセスするサービスで、ソリューションに必要なマルチテナントロジックをサポートする必要があります。

RAG アーキテクチャのマルチテナント

マルチテナントソリューションでは、テナントデータがテナント固有のストアに存在するか、マルチテナントストア内の他のテナントと共存している可能性があります。データは、テナント間で共有されるストア内にある場合もあります。ユーザーがアクセスを許可されているデータのみを、グラウンドデータとして使用する必要があります。ユーザーには、アクセスが許可されているデータのみを確実に表示できるようにフィルター処理されたテナントの共通データまたはテナント全体のデータのみが表示されます。

ワークフロー

次の手順では、ワークフローの概要について説明します。斜体化された手順は、オーケストレーターワークフローを使用したシングルテナント RAG アーキテクチャと同じです。

ユーザーがインテリジェント Web アプリケーションに要求を発行します。
ID プロバイダーがリクエスタを認証します。
インテリジェントアプリケーションは、ユーザーのクエリとユーザーの承認トークンを使用してオーケストレーター API を呼び出します。
オーケストレーションロジックは、要求からユーザーのクエリを抽出し、適切なデータストアにアクセスして、クエリに関連するテナント承認済みの基盤データを取得します。次のステップで Azure OpenAI に送信されるプロンプトに、基礎データが追加されます。次の手順の一部またはすべてが含まれています。
1. オーケストレーションロジックは、適切なテナント固有のデータストアインスタンスからグラウンドデータをフェッチし、セキュリティフィルター規則を適用して、ユーザーがアクセスを許可されているデータのみを返す可能性があります。
2. オーケストレーションロジックは、マルチテナントデータストアから適切なテナントのグラウンドデータをフェッチし、ユーザーがアクセスを許可されているデータのみを返すセキュリティフィルター規則を適用する可能性があります。
3. オーケストレーションロジックは、テナント間で共有されているデータストアからデータをフェッチします。
オーケストレーションロジックは、基本モデルの推論 API に接続し、取得したグラウンドデータを含むプロンプトを送信します。結果はインテリジェントアプリケーションに返されます。

RAG でのマルチテナントデータの設計に関する考慮事項

マルチテナント RAG 推論ソリューションを設計するときは、次のオプションを検討してください。

ストア分離モデルを選択する

マルチテナントシナリオでのストレージとデータに対する 2 つの主なアーキテクチャアプローチ、テナントごとのストアとマルチテナントストアです。これらのアプローチは、テナント間で共有されるデータを含むストアに加えて行われます。マルチテナントソリューションでは、これらのアプローチを組み合わせて使用できます。

各テナント専用のストア

テナントごとのストアでは、各テナントに独自のストアがあります。このアプローチの利点には、データとパフォーマンスの分離の両方が含まれます。各テナントのデータは、独自のストアにカプセル化されます。ほとんどのデータサービスでは、分離されたストアは、他のテナントのノイズの多い近隣の問題の影響を受けにくいです。この方法では、ストア展開のコスト全体が 1 つのテナントに起因する可能性があるため、コストの割り当ても簡略化されます。

このアプローチでは、管理と運用のオーバーヘッドの増加やコストの増加などの課題が生じている可能性があります。企業間のシナリオのように、多数の小規模なテナントがある場合は、このアプローチを使用しないでください。この方法は、サービスの制限に達したり超えたりする可能性もあります。

この AI シナリオのコンテキストでは、テナントごとのストアは、コンテキストに関連性を持ち込むのに必要な接地データが、テナントのグラウンドデータのみを含む既存または新規のデータストアから取得されることを意味します。このトポロジでは、データベースインスタンスはテナントごとに使用される識別子です。

マルチテナントストア

マルチテナントストアでは、複数のテナントのデータが同じストアに共存します。このアプローチの利点には、コストの最適化の可能性、テナントごとのストアモデルよりも多くのテナントを処理する機能、ストアインスタンスの数が少ないための管理オーバーヘッドの削減などがあります。

共有ストアを使用する場合の課題には、データの分離と管理の必要性、ノイズの多い近隣のアンチパターンの可能性、テナントへのより複雑なコスト割り当てが含まれます。この方法を使用する場合、データの分離が最も重要な懸念事項です。テナントがデータにのみアクセスできるように、セキュリティで保護されたアプローチを実装する必要があります。また、テナントのデータライフサイクルが異なり、異なるスケジュールでインデックスを作成するなどの操作が必要な場合、データ管理が困難になる場合もあります。

一部のプラットフォームには、共有ストアでテナントデータ分離を実装するときに使用できる機能があります。たとえば、Azure Cosmos DB では、データのパーティション分割とシャーディングがネイティブにサポートされています。テナント間でいくつかの分離を提供するために、テナント識別子をパーティションキーとして使用するのが一般的です。 Azure SQL と Azure Database for PostgreSQL - フレキシブルサーバーでは、行レベルのセキュリティがサポートされます。ただし、マルチテナントストアで使用する予定の場合は、これらの機能を中心にソリューションを設計する必要があるため、通常、これらの機能はマルチテナントソリューションでは使用されません。

この AI シナリオのコンテキストでは、すべてのテナントのグラウンドデータが同じデータストア内で通信されます。そのため、そのデータストアに対するクエリには、テナントのコンテキスト内で関連するデータのみを返すよう応答が制限されるように、テナント判別機能を含める必要があります。

共有ストア

マルチテナントソリューションは、多くの場合、テナント間でデータを共有します。医療ドメインのマルチテナントソリューションの例では、データベースには、一般的な医療情報やテナントに固有ではない情報が格納される場合があります。

この AI シナリオのコンテキストでは、データはシステム内のすべてのテナントに対して関連性があり、承認されているため、一般に、グラウンドデータストアにはアクセス可能であり、特定のテナントに基づくフィルター処理は必要ありません。

同一性

ID は、マルチテナント RAG ソリューションを含むマルチテナントソリューションの重要な側面です。インテリジェントアプリケーションは、ユーザーの ID を認証するために ID プロバイダーと統合する必要があります。マルチテナント RAG ソリューションには、権限のある ID または ID への参照を格納する ID ディレクトリが必要です。この ID は、要求チェーンを通過し、オーケストレーターやデータストア自体などのダウンストリームサービスがユーザーを識別できるようにする必要があります。

また、そのテナントデータへのアクセスを許可できるように、ユーザーをテナントにマップする方法も必要です。

テナントと承認の要件を定義する

マルチテナント RAG ソリューションを構築するときは、ソリューションのテナント定義する必要があります。選択する 2 つの一般的なモデルは、企業間モデルと企業間モデルです。選択したモデルは、ソリューションをビルドするときに考慮する必要があるその他の要因を決定するのに役立ちます。テナントの数を理解することは、データストアモデルを選択するうえで重要です。多数のテナントでは、ストアごとに複数のテナントを持つモデルが必要になる場合があります。テナントの数が少ない場合、テナントごとのストアモデルが可能になる場合があります。各テナントのデータ量も重要です。大量のデータを持つテナントでは、データストアのサイズに制限があるため、マルチテナントストアを使用できないことがあります。

この AI シナリオをサポートするために既存のワークロードを拡張する場合は、既にこの決定を行っている可能性があります。一般に、そのデータストアが十分な関連性を提供し、その他の機能以外の要件を満たすことができる場合は、グラウンドデータに既存のデータストレージトポロジを使用できます。ただし、専用ベクター検索ストアなどの新しいコンポーネントを専用のグラウンドストアとして導入する場合は、この決定を行う必要があります。現在のデプロイスタンプ戦略、アプリケーションコントロールプレーンへの影響、テナントごとのデータライフサイクルの違い (パフォーマンスの支払い状況など) などの要因を考慮してください。

ソリューションのテナントを定義したら、データの承認要件を定義する必要があります。テナントはテナントからのデータにのみアクセスしますが、承認要件がより細かい場合があります。たとえば、医療ソリューションでは、次のようなルールがある場合があります。

患者は自分の患者データにのみアクセスできます。
医療専門家は、患者のデータにアクセスできます。
財務ユーザーは、財務関連のデータにのみアクセスできます。
臨床監査人は、すべての患者のデータを見ることができます。
すべてのユーザーは、共有データストアの基本的な医療知識にアクセスできます。

ドキュメントベースの RAG アプリケーションでは、ドキュメントに割り当てられたタグ付けスキームまたは秘密度レベルに基づいて、ドキュメントへのユーザーのアクセスを制限できます。

テナントの定義を作成し、承認規則を明確に理解したら、その情報をデータストアソリューションの要件として使用します。

データのフィルター処理

ユーザーがアクセスを許可されているデータのみにアクセスを制限することは、フィルタリング またはセキュリティトリミング と呼ばれます。マルチテナント RAG シナリオでは、ユーザーがテナント固有のストアにマップされる可能性があります。これは、ユーザーがそのストア内のすべてのデータにアクセスできることを意味するわけではありません。テナントと承認の要件を定義、データの承認要件を定義することの重要性について説明します。これらの承認規則は、フィルター処理の基礎として使用する必要があります。

行レベルのセキュリティなどのデータプラットフォーム機能を使用して、フィルター処理を実装できます。または、カスタムロジック、データ、またはメタデータが必要な場合があります。これらのプラットフォーム機能は、通常、マルチテナントソリューションでは使用されません。これらの機能を中心にシステムを設計する必要があるためです。

マルチテナントデータロジックをカプセル化する

使用するストレージメカニズムの前に API を用意することをお勧めします。この API はゲートキーパーのように機能し、ユーザーがアクセスを許可されている情報にのみアクセスできるようにします。

ユーザーのデータへのアクセスは、次の方法で制限できます。

ユーザーのテナント。
プラットフォーム機能。
カスタムセキュリティフィルターまたはトリミング規則。

API レイヤーは次の必要があります。

テナントごとのストアモデルのテナント固有のストアにクエリをルーティングします。
マルチテナントストア内のユーザーのテナントのデータのみを選択します。
プラットフォーム対応の承認ロジックをサポートするには、ユーザーに適した ID を使用します。
カスタムセキュリティトリミングロジックを適用します。
監査目的で、グラウンド情報のアクセスログを保存します。

テナントデータにアクセスする必要があるコードでは、バックエンドストアに直接クエリを実行することはできません。データに対するすべての要求は、API レイヤーを通過する必要があります。この API レイヤーは、テナントデータの上に単一のガバナンスポイントまたはセキュリティを提供します。この方法により、テナントとユーザーのデータアクセス承認ロジックがアプリケーションの他の領域に到達できなくなります。このロジックは API レイヤーにカプセル化されます。このカプセル化により、ソリューションの検証とテストが容易になります。

概要

マルチテナント RAG 推論ソリューションを設計する場合は、テナントの基礎データソリューションを設計する方法を検討する必要があります。テナントの数と、格納するテナントごとのデータの量について理解します。この情報は、データテナントソリューションの設計に役立ちます。マルチテナントロジックやフィルター処理ロジックなど、データアクセスロジックをカプセル化する API レイヤーを実装することをお勧めします。

貢献者

Microsoft では、この記事を保持しています。次の共同作成者がこの記事を書きました。

主な作成者:

ジョンダウンズ |プリンシパルソフトウェアエンジニア
ダニエル・スコット=レインズフォード |シニアパートナーソリューションアーキテクト、データ & AI

非公開の LinkedIn プロファイルを表示するには、LinkedIn にサインインします。

次の手順

RAG ソリューションの設計と開発

SaaS とマルチテナントソリューションのアーキテクチャ
基本的な OpenAI のエンドツーエンドチャット参照アーキテクチャ
ベースライン OpenAI エンドツーエンドチャットリファレンスアーキテクチャ
ゲートウェイを介して Azure OpenAI やその他の言語モデルにアクセスする

次の方法で共有

セキュリティで保護されたマルチテナント RAG 推論ソリューションを設計する

オーケストレーターを使用したシングルテナント RAG アーキテクチャ

ワークフロー

直接データアクセスを使用するシングルテナント RAG アーキテクチャ

ワークフロー

RAG アーキテクチャのマルチテナント

ワークフロー

RAG でのマルチテナントデータの設計に関する考慮事項

ストア分離モデルを選択する

各テナント専用のストア

マルチテナントストア

共有ストア

同一性

テナントと承認の要件を定義する

データのフィルター処理

マルチテナントデータロジックをカプセル化する

概要

貢献者

次の手順

フィードバック

その他のリソース

次の方法で共有

セキュリティで保護されたマルチテナント RAG 推論ソリューションを設計する

オーケストレーターを使用したシングルテナント RAG アーキテクチャ

ワークフロー

直接データ アクセスを使用するシングルテナント RAG アーキテクチャ

ワークフロー

RAG アーキテクチャのマルチテナント

ワークフロー

RAG でのマルチテナント データの設計に関する考慮事項

ストア分離モデルを選択する

各テナント専用のストア

マルチテナント ストア

共有ストア

同一性

テナントと承認の要件を定義する

データのフィルター処理

マルチテナント データ ロジックをカプセル化する

概要

貢献者

次の手順

関連リソース

フィードバック

その他のリソース

直接データアクセスを使用するシングルテナント RAG アーキテクチャ

RAG でのマルチテナントデータの設計に関する考慮事項

マルチテナントストア

マルチテナントデータロジックをカプセル化する