Azure AI Foundry を使用してコンテンツフィルターを構成する方法

[アーティクル]
02/04/2025

Azure AI Foundry に統合されたコンテンツフィルタリングシステムは、DALL-E イメージ生成モデルを含むコアモデルと共に実行されます。マルチクラス分類モデルのアンサンブルを使用して、有害なコンテンツ (暴力、憎悪、性的、自傷行為) の 4 つのカテゴリをそれぞれ 4 つの重大度レベル (安全、低、中、高) で検出し、オプションで二項分類器を使用して、脱獄リスク、既存のテキスト、パブリックリポジトリ内のコードを検出します。

既定のコンテンツフィルタリング構成では、プロンプトと入力候補の両方で、4 つの有害なコンテンツカテゴリすべてに対して "中" の重大度しきい値でフィルター処理するように設定されています。つまり、重大度レベル "中" または "高" で検出されたコンテンツはコンテンツフィルターによってフィルタリングされますが、重大度レベル "低" で検出されたコンテンツはフィルタリングされません。コンテンツカテゴリ、重大度レベル、およびコンテンツフィルタリングシステムの動作の詳細については、こちらを参照してください。

脱獄リスク検出、保護されたテキスト、およびコードモデルは省略可能で、既定ではオンになっています。脱獄、保護された素材のテキスト、およびコードモデルについては、構成可能性機能により、すべてのお客様がモデルのオン/オフを切り替えることができます。モデルは既定ではオンになっており、シナリオに応じてオフにできます。モデルによっては、Customer Copyright Commitment の適用範囲を維持するために、特定のシナリオでオンになっている必要がある場合があります。

Note

すべての顧客は、コンテンツフィルターを変更し、重大度のしきい値 (低、中、高) を構成できます。コンテンツフィルターを部分的または完全にオフにする場合は、承認が必要です。管理対象のお客様は、Azure OpenAI 制限付きアクセスレビュー: 変更されたコンテンツフィルターというフォームを介してのみ、完全なコンテンツフィルター制御を適用できます。現時点では、管理対象のお客様になることはできません。

コンテンツフィルターは、リソースレベルで構成できます。新しい構成を作成したら、1 つ以上のデプロイに関連付けることができます。モデルデプロイの詳細については、リソースデプロイガイドを参照してください。

前提条件

コンテンツフィルターを構成するには、Azure OpenAI リソースと大規模言語モデル (LLM) のデプロイが必要です。クイックスタートに従って始めてください。

コンテンツフィルターの構成可否について

Azure OpenAI Service には、(Azure OpenAI Whisper を除く) すべてのモデルに適用される既定の安全性の設定が含まれています。これらの構成により、コンテンツフィルタリングモデル、ブロックリスト、プロンプト変換、コンテンツ資格情報など、責任あるエクスペリエンスが既定で提供されます。詳細については、こちらを参照してください。

また、すべてのお客様は、コンテンツフィルターを構成し、ユースケースの要件に合わせたカスタム安全性ポリシーを作成することもできます。この構成機能を使用すると、利用者はプロンプトと補完の設定を個別に調整し、以下の表に示す異なる重大度レベルで各コンテンツカテゴリのコンテンツをフィルター処理できます。重大度レベル "安全" で検出されたコンテンツは注釈でラベル付けされますが、フィルタリングの対象ではなく、構成もできません。

フィルタリングされた重大度	プロンプト用に構成可能	入力候補用に構成可能	説明
[低]、[中]、[高]	はい	はい	最も厳密なフィルタリング構成。重大度レベルが低、中、高で検出されたコンテンツはフィルタリングされます。
中、高	はい	はい	低い重大度レベルの検出されたコンテンツはフィルター処理されず、中および高のコンテンツはフィルター処理されます。
高	はい	はい	重大度レベルが低および中で検出されたコンテンツはフィルター処理されません。重大度レベルが高のコンテンツのみがフィルタリングされます。
フィルターなし	承認された場合 ¹	承認された場合 ¹	重大度レベルの検出に関係なく、コンテンツはフィルタリングされません。承認が必要¹.
注釈のみ	承認された場合 ¹	承認された場合 ¹	フィルター機能を無効にするため、コンテンツはブロックされませんが、注釈は API 応答を介して返されます。承認が必要¹.

¹ Azure OpenAI モデルの場合、変更されたコンテンツフィルタリングを承認されたお客様のみコンテンツのフィルター処理を完全に制御でき、コンテンツフィルターをオフにできます。次のフォームから修正コンテンツフィルターを申請してください: Azure OpenAI 制限付きアクセスレビュー: 修正コンテンツフィルター。 Azure Government のお客様の場合は、次のフォームから修正コンテンツフィルターを申請してください: Azure Government - Azure OpenAI Service の修正コンテンツフィルタリングのリクエスト。

入力 (プロンプト) と出力 (入力候補) の構成可能なコンテンツフィルターは、すべての Azure OpenAI モデルで利用できます。

コンテンツフィルタリング構成は、Azure AI Foundry ポータルのリソース内に作成され、デプロイに関連付けることができます。構成可能性の詳細については、こちらを参照してください。

Azure OpenAI を統合するアプリケーションが倫理規定に準拠していることを確認する責任は、お客様にあります。

その他のフィルターについて

既定の危害カテゴリフィルターに加えて、次のフィルターカテゴリを構成できます。

フィルターカテゴリー	状態	既定の設定	プロンプトと入力候補のどちらに適用されますか?	説明
直接攻撃に関するプロンプトシールド (ジェイルブレイク)	GA	オン	ユーザープロンプト	ジェイルブレイクリスクがあるかもしれないユーザープロンプトをフィルター処理/注釈付けします。注釈の詳細については、「Azure AI Foundry のコンテンツフィルタリング」を参照してください。
間接攻撃に関するプロンプトシールド	GA	"オフ"	ユーザープロンプト	生成 AI システムがアクセスして処理できるドキュメント内に、第三者が悪意のある命令を配置する潜在的な脆弱性である間接攻撃 (別名、間接プロンプト攻撃またはクロスドメインプロンプトインジェクション攻撃) をフィルター処理/注釈付けします。必須: ドキュメントの埋め込みと書式設定。
保護された素材 - コード	GA	オン	完了	保護されたコードをフィルター処理するか、GitHub Copilot を利用して何らかのパブリックコードソースと一致するコードスニペット用の注釈内の引用とライセンスの情報の例を取得します。注釈の使用に関する詳細については、「コンテンツのフィルター処理の概念のガイド」を参照してください
保護された素材 - テキスト	GA	オン	完了	既知のテキストコンテンツを識別し、モデル出力内でそれが表示されることをブロックします (たとえば、曲の歌詞、レシピ、選択した Web コンテンツなど)。
グラウンデッドネス*	プレビュー	"オフ"	完了	大規模言語モデル (LLM) のテキスト応答が、ユーザーが提供するソース資料に基づいているかどうかを検出します。根拠なしとは、ソース資料に存在していた事実に基づかない、または不正確な情報が LLM から生成されることを指します。必須: ドキュメントの埋め込みと書式設定。

Azure AI Foundry でコンテンツフィルターを作成する

Azure AI Foundry 内のモデルデプロイに対しては、既定のコンテンツフィルターを直接使用できますが、より詳細な制御が必要な場合があります。たとえば、フィルターをより厳密にしたり、より緩やかにしたり、プロンプトシールドや保護されたマテリアルの検出などのより高度な機能を有効にしたりできます。

ヒント

Azure AI Foundry プロジェクトでのコンテンツフィルターに関するガイダンスについては、Azure AI Foundry コンテンツフィルタリングに関するページを参照してください。

コンテンツフィルターを作成するには、以下の手順に従います。

Azure AI Foundry にアクセスし、プロジェクトに移動します。次に、左側のメニューから [安全性とセキュリティ] ページを選択し、[コンテンツフィルター] タブを選択します。
[+ コンテンツフィルターの作成] を選択します。
[基本情報] ページで、コンテンツフィルタリングの構成の名前を入力します。コンテンツフィルターに関連付ける接続を選択します。 [次へ] を選択します。

次に、入力フィルター (ユーザープロンプト用) と出力フィルター (モデル補完用) を構成できます。
[入力フィルター] ページでは、入力プロンプトのフィルターを設定できます。最初の 4 つのコンテンツカテゴリには、低、中、高の 3 つの重大度レベルを構成できます。アプリケーションまたは使用シナリオで既定値とは異なるフィルター処理が必要であると判断した場合は、スライダーを使用して重大度のしきい値を設定できます。フィルターの中には、たとえば "プロンプトシールド" や "保護されたマテリアルの検出" のように、モデルがコンテンツに注釈を付けたりブロックしたりする必要があるかどうかの判断に利用できるものがあります。 [注釈のみ] を選択すると、それぞれのモデルが実行されて注釈が API 応答を介して返されますが、コンテンツのフィルタリングは行われません。注釈を付けるだけでなく、コンテンツをブロックすることもできます。

お客様のユースケースで修正済みコンテンツフィルターの使用が承認された場合は、お客様はコンテンツフィルタリング構成のあらゆる面の制御が可能であり、フィルタリングを部分的または完全にオフにするかどうか、または有害なコンテンツカテゴリ (暴力、憎悪、性的、自傷行為) に対してのみ注釈を付けるかどうかを選択できます。

コンテンツはカテゴリによって注釈付けされ、ユーザーが設定したしきい値に従ってブロックされます。暴力、ヘイト、性的、自傷行為のカテゴリに関して、スライダーを調整して、重大度が高、中、または低のコンテンツをブロックします。
[出力フィルター] ページでは、出力フィルターを構成できます。このフィルターは、お使いのモデルによって生成されるあらゆる出力コンテンツに適用されます。以前と同じように個々のフィルターを構成します。このページには、ストリーミングモードオプションもあります。このオプションでは、モデルによって生成されるほぼリアルタイムのタイミングでコンテンツにフィルターを適用できます。待ち時間が短縮されます。完了したら、[次へ] を選択します。

コンテンツは各カテゴリによって注釈付けされ、しきい値に従ってブロックされます。暴力コンテンツ、ヘイトコンテンツ、性的コンテンツ、自傷行為コンテンツカテゴリに関して、しきい値を調整して、重大度レベルがそれ以上の有害なコンテンツをブロックします。
必要に応じて、[デプロイ] ページで、コンテンツフィルターをデプロイに関連付けることができます。選択されたデプロイにフィルターが既にアタッチされている場合、その置換を望むことを確定する必要があります。コンテンツフィルターを後でデプロイに関連付けることもできます。 ［作成］ を選択します

コンテンツフィルタリングの構成は、Azure AI Foundry ポータルのハブレベルで作成されます。 Azure OpenAI Service のドキュメントで構成可能性の詳細を確認してください。
[確認] ページで、設定を確認した後、[フィルターの作成] を選択します。

ブロックリストをフィルターとして使用する

ブロックリストは、入力フィルター、出力フィルター、またはその両方として適用できます。 [入力フィルター] または [出力フィルター] ページ、あるいはその両方で [ブロックリスト] オプションを有効にします。ドロップダウンから 1 つ以上のブロックリストを選択するか、組み込みの不適切表現のブロックリストを使用します。複数のブロックリストを同じフィルターに結合することができます。

コンテンツフィルターを適用する

フィルター作成プロセスには、必要なデプロイにフィルターを適用するオプションがあります。デプロイのコンテンツフィルターはいつでも変更または削除することもできます。

コンテンツフィルターをデプロイに適用するには、以下の手順に従います。

Azure AI Foundry に移動し、プロジェクトを選択します。
左側のペインで [モデルとエンドポイント] を選択し、いずれかのデプロイを選択してから、[編集] を選択します。
[デプロイの更新] ウィンドウで、デプロイに対して適用したいコンテンツフィルターを選択します。次に、保存して終了 を選択します。

必要に応じて、コンテンツフィルター構成を編集および削除することもできます。コンテンツフィルタリング構成を削除する前に、[デプロイ] タブでデプロイへの割り当てを解除して置き換える必要があります。

これで、プレイグラウンドに移動して、コンテンツフィルターが想定どおりに動作するかどうかをテストできます。

コンテンツフィルタリングのフィードバックを報告する

コンテンツフィルタリングの問題が発生した場合は、プレイグラウンドの上部にある [フィードバックをフィルター処理] ボタンを選択してください。これは、プロンプトを送信すると、画像、チャット、補完のプレイグラウンドで有効になります。

ダイアログが表示されたら、該当するコンテンツフィルタリングの問題を選択します。コンテンツフィルタリングの問題に関連する情報をできるだけ詳しく記述してください。たとえば、具体的なプロンプトと発生したコンテンツフィルタリングエラーです。個人情報や機密情報が含まれないようにしてください。

サポートが必要な場合は、サポートチケットを提出してください。

ベストプラクティスに従う

反復的な特定 (レッドチームテスト、ストレステスト、分析など) と測定のプロセスを通じてコンテンツフィルタリング構成の決定を通知し、特定のモデル、アプリケーション、デプロイシナリオに関連する潜在的な損害に対処することをお勧めします。コンテンツフィルタリングなどの軽減策を実装した後、測定を繰り返して有効性をテストします。 Microsoft Responsible AI Standard に基づいた Azure OpenAI の Responsible AI に関する推奨事項とベストプラクティスについては、「Azure OpenAI の Responsible AI の概要」を参照してください。

Azure OpenAI の Responsible AI プラクティスの詳細については、「Azure OpenAI モデルの Responsible AI プラクティスの概要」に関するページを参照してください。
Azure AI Foundry を使用したコンテンツフィルタリングカテゴリと重大度レベルに関するページで詳細を参照してください。
レッドチーミングの詳細については、「大規模言語モデル (LLM) のレッドチーミングの概要」の記事を参照してください。

次の方法で共有

Azure AI Foundry を使用してコンテンツフィルターを構成する方法

前提条件

コンテンツフィルターの構成可否について

その他のフィルターについて

Azure AI Foundry でコンテンツフィルターを作成する

ブロックリストをフィルターとして使用する

コンテンツフィルターを適用する

コンテンツフィルタリングのフィードバックを報告する

ベストプラクティスに従う

フィードバック

その他のリソース

次の方法で共有

Azure AI Foundry を使用してコンテンツ フィルターを構成する方法

前提条件

コンテンツ フィルターの構成可否について

その他のフィルターについて

Azure AI Foundry でコンテンツ フィルターを作成する

ブロックリストをフィルターとして使用する

コンテンツ フィルターを適用する

コンテンツ フィルタリングのフィードバックを報告する

ベスト プラクティスに従う

関連するコンテンツ

フィードバック

その他のリソース

Azure AI Foundry を使用してコンテンツフィルターを構成する方法

コンテンツフィルターの構成可否について

Azure AI Foundry でコンテンツフィルターを作成する

コンテンツフィルターを適用する

コンテンツフィルタリングのフィードバックを報告する

ベストプラクティスに従う