トレーニング可能な分類子の使用を開始する

[アーティクル]
12/20/2024

Microsoft Purview トレーニング可能な分類子は、さまざまな種類のコンテンツを認識するためにトレーニングできるツールです。このツールを使用して、見るサンプルを提供します。トレーニングが完了したら、それを使用して、Office 秘密度ラベル、コミュニケーションコンプライアンスポリシー、保持ラベルポリシーの適用項目を特定できます。

カスタムトレーニング可能な分類子を実装するために、次の 2 つの手順が必要です。

2 セットのサンプルデータ (人間が選択) を指定します。
1. カテゴリに属する項目のみを含むセット。
2. カテゴリに属 していない 項目のみを含むセット。
一致を検出する分類子の機能をテストします。

この記事では、カスタム分類子を作成してテストする方法について説明します。

さまざまな種類の分類子の詳細については、「トレーニング可能な分類子について」を参照してください。

ヒント

E5 のお客様でない場合は、90 日間の Microsoft Purview ソリューション試用版を使用して、Purview の追加機能が組織のデータセキュリティとコンプライアンスのニーズの管理にどのように役立つかを確認してください。 Microsoft Purview 試用版ハブから開始します。サインアップと試用期間の詳細については、こちらをご覧ください。

前提条件

ライセンスの要件

分類子は、Microsoft 365 E3と E5 コンプライアンスの機能です。それらを使用するには、これらのサブスクリプションのいずれかが必要です。

アクセス許可

次のシナリオで分類子を使用するには、次のアクセス許可が必要です。

シナリオ	必要なロールのアクセス許可
保持ラベルポリシー	レコード管理保持管理
秘密度ラベルポリシー	セキュリティ管理者コンプライアンス管理者コンプライアンスデータ管理者
コミュニケーションコンプライアンスポリシー	Insider Risk Management 管理者監督レビュー管理者

重要

既定では、カスタム分類子を作成するユーザーのみが、その分類子によって行われた予測をトレーニングおよびレビューできます。

カスタムトレーニング可能な分類子の準備

詳しく説明する前に、カスタムトレーニング可能な分類子の作成に何が関係しているのかを理解しておくと役立ちます。

全体的なワークフロー

カスタムトレーニング可能な分類子を作成する全体的なワークフローの詳細については、カスタムトレーニング可能な分類子を作成するためのプロセスフローに関するページを参照してください。

シードコンテンツ

トレーニング可能な分類子が、アイテムが特定のコンテンツカテゴリに属していることを個別かつ正確に識別できるようにするには、カテゴリ内にあるコンテンツの種類のサンプルを多数提示する必要があります。このトレーニング可能な分類子へのサンプルのフィードは 、シード処理と呼ばれます。人間はシードコンテンツを選択する必要があり、そのコンテンツには、分類子が検出するように設計されたコンテンツを強く表す項目 (正のサンプル) と、明確に属していない項目の 2 番目のセット (負のサンプル) のみを含む 2 つのデータセットが含まれている必要があります。

分類器をトレーニングするには、少なくとも 50 個の陽性サンプル (最大 500 個) と少なくとも 150 個の陰性サンプル (最大 1500 個) が必要です。提供するサンプルが多いほど、分類子が行う予測の精度が高くなります。トレーニング可能な分類子は、最後に作成された 2000 個までのサンプルを (ファイルで作成された日付/タイムスタンプによって) 処理します。

ヒント

最良の結果を得るには、少なくとも 50 個の正の例と少なくとも 150 個の負の例を含む、少なくとも 200 個の項目をテストサンプルセットに含めます。

トレーニング可能な分類子を作成する方法

現在使用しているポータルに該当するタブを選択してください。 Microsoft 365 プランによっては、Microsoft Purview コンプライアンスポータルは廃止されるか、間もなく廃止されます。

Microsoft Purview ポータルの詳細については、Microsoft Purview ポータルを参照してください。コンプライアンスポータルの詳細については、「Microsoft Purview コンプライアンスポータル」を参照してください。

プレビュー中: 次のプロセスでは、トレーニング可能な分類子のテストが自動化され、作成ワークフローが 12 日から 2 日に短縮されます。 (場合によっては、プロセスに数時間かかる場合があります)。

分類子がカテゴリ内にあると肯定的に識別するデータを強く表す 50 から 500 個のシードコンテンツ項目を収集します。サポートされているファイルの種類の一覧については、「 SharePoint Server の既定のクロールされたファイル名拡張子と解析されたファイルの種類」を参照してください。
カテゴリに属していないデータを表すシードコンテンツの 2 番目のセット (150 から 1500 アイテム) を収集します。
正と負のシードコンテンツを別の SharePoint フォルダーに配置します。各フォルダーは、 シードコンテンツのみを保持する専用である必要があります。各セットのサイト、ライブラリ、フォルダーの URL を書き留めます。

ヒント

シードデータの新しい SharePoint サイトとフォルダーを作成する場合は、そのシードデータを使用するトレーニング可能な分類子を作成する前に、その場所のインデックスを作成するために少なくとも 1 時間を許可します。
コンプライアンス管理者またはセキュリティ管理者ロールアクセス権を使用して Microsoft Purview ポータルまたはMicrosoft Purview コンプライアンスポータルにサインインし、データ損失防止>Data 分類>Classifiers に移動します。
[トレーニング可能な分類子] タブを選択します。
[トレーニング可能な分類子を作成] を選択します。
正の例のソースを追加します。分類子によって検出されるシードコンテンツの SharePoint サイト、ライブラリ、フォルダー URL を選択し、[次へ] を選択します。
否定的な例のソースを追加する: 分類子によって無視されるシードコンテンツの SharePoint サイト、ライブラリ、およびフォルダー URL を選択し、[次へ] を選択します。
設定を確認し、[ トレーニング可能な分類子の作成] を選択します。
トレーニング可能な分類子は、24 時間以内にシードデータを処理し、予測モデルを構築します。シードデータの処理中、分類子の状態は [進行中] になります。分類子がシードデータの処理を完了すると、状態 が [トレーニング] に変わり、項目がテストされました。
トレーニングが完了し、項目が (自動的に) テストされたら、 使用するために [発行] を選択して分類子を発行します。

公開されると、分類子は、機密ラベルを使用した Office の自動ラベル付け、条件に基づく保持ラベルポリシーの自動適用、およびコミュニケーションコンプライアンスの条件として使用できます。

分類子をテストする

トレーニング可能な分類子が、予測モデルを構築するのに十分な正と負のサンプルを処理したら、予測をテストする必要があります。分類子のテストでは、その予測が正しいかどうかを確認します。すべてのデータが処理されたら、結果を手動で調べて、各予測が正しいか正しくないか、わからないかを確認します。 Microsoft では、このフィードバックを集計して予測モデルを改善します。

次の方法で共有

トレーニング可能な分類子の使用を開始する

前提条件

ライセンスの要件

アクセス許可

カスタムトレーニング可能な分類子の準備

全体的なワークフロー

シードコンテンツ

トレーニング可能な分類子を作成する方法

分類子をテストする

関連項目

フィードバック

その他のリソース

次の方法で共有

トレーニング可能な分類子の使用を開始する

前提条件

ライセンスの要件

アクセス許可

カスタム トレーニング可能な分類子の準備

全体的なワークフロー

シード コンテンツ

トレーニング可能な分類子を作成する方法

分類子をテストする

関連項目

フィードバック

その他のリソース

カスタムトレーニング可能な分類子の準備

シードコンテンツ