Azure AI Language の個人を特定できる情報 (PII) の検出とは
PII 検出は、Azure AI Language に用意されている機能の 1 つであり、書き表された言語が関係するインテリジェントなアプリケーションを開発するためのクラウド内の機械学習と AI アルゴリズムのコレクションです。 PII 検出機能を使用すると、非構造化テキストに含まれる機密情報を特定、分類、編集することができます。 たとえば、電話番号、メール アドレス、身分証明書のフォームなどです。 Azure AI Language では、一般的なテキスト PII の編集だけでなく、音声の文字起こしや、会議や通話のより砕けた会話調の音声テキストを処理するための特殊なモデルである会話 PII もサポートされています。 このサービスでは、入力と出力が構造化ドキュメント ファイルであるネイティブ ドキュメント PII 編集もサポートされています。
新機能
Text PII と Conversational PII 検出プレビュー API (バージョン 2024-11-15-preview
) では、検出された機密エンティティを、単なる編集文字以外のラベルでマスクするオプションがサポートされるようになりました。 お客様は、名前や電話番号などの個人を特定できる情報コンテンツ (“John Doe received a call from 424-878-9192”
) を編集文字 (“******** received a call from ************”
) でマスクするか、エンティティ ラベル (“[PERSON_1] received a call from [PHONENUMBER_1]”
) でマスクするかを指定できます。出力の編集ポリシー スタイルを指定する方法の詳細については、ハウツー ガイドを参照してください。
Conversational PII 検出モデル (バージョン 2024-11-01-preview
と GA
の両方) が更新され、AI の品質と精度が向上しました。 数値識別子エンティティの種類には、運転免許証とメディケア受益者識別子も含まれるようになりました。
2024 年 6 月の時点で、会話 PII サービスの一般提供サポートが提供されるようになります (英語のみ)。 お客様は、AI の品質により自信を持って、Azure SLA のサポートと運用環境のサポート、エンタープライズ グレードのセキュリティを念頭に置いて、会話形式で書かれた音声テキスト、チャット、その他のテキストを ("えーっと" や "あー" が含まれるテキスト、複数の話者、単語のスペルアウトをわかりやすくするために) 編集できるようになりました。
ヒント
Azure AI Foundry ポータル で PII 検出を試してみてください。ここでは、既存の Language Studio リソースを利用するか、新しい Azure AI Foundry リソースを作成することができます
- クイックスタートは、サービスへの要求の実行方法を説明する概要手順です。
- 攻略ガイドには、より具体的またはカスタマイズした方法でサービスを使用するための手順が記載されています。
- 概念に関する記事では、サービスの機能と特長が詳しく説明されています。
一般的なワークフロー
この機能を使用するには、分析のためのデータを送信し、アプリケーションで API 出力を処理します。 分析はそのままの状態で行われ、データに使用されるモデルに対して追加のカスタマイズは行われません。
Azure AI Language リソースを作成します。これにより、Azure AI Language によって提供される機能にアクセスできるようになります。 API 要求の認証に使用するパスワード (キーと呼ばれる) とエンドポイント URL が生成されます。
REST API か、C#、Java、JavaScript、Python のクライアント ライブラリを使用して、要求を作成します。 バッチ要求で非同期呼び出しを送信して、複数の機能の API 要求を 1 回の呼び出しに統合することもできます。
テキスト データを含む要求を送信します。 キーとエンドポイントを使用して認証が行われます。
応答をローカルでストリームまたは保存します。
ネイティブ ドキュメントのサポート
ネイティブ ドキュメントとは、Microsoft Word (docx) やポータブル ドキュメント ファイル (pdf) などの元のドキュメントを作成するために使われるファイル形式のことです。 ネイティブ ドキュメントのサポートにより、Azure AI Language リソースの機能を使う前に、テキストの前処理を行う必要がなくなります。 現在、ネイティブ ドキュメントのサポートは、PiiEntityRecognition 機能で利用できます。
現在、PII では、次のネイティブ ドキュメント形式がサポートされています。
ファイルの種類 | [ファイル拡張子] | 説明 |
---|---|---|
テキスト | .txt |
書式設定のないテキスト ドキュメント。 |
Adobe PDF | .pdf |
移植可能なドキュメント ファイル形式のドキュメント。 |
Microsoft Word | .docx |
Microsoft Word 文書ファイル。 |
詳細については、「言語処理にネイティブ ドキュメントを使用する」を "参照してください"
PII 検出の概要
PII 検出を使うには、分析対象のテキストを送信し、API の出力をアプリケーションで処理します。 分析はそのままの状態で行われ、データに使用されるモデルに対してカスタマイズは行われません。 PII 検出を使用するには、次の 2 つの方法があります。
開発オプション | 説明 |
---|---|
Language Studio | Language Studio は Web ベースのプラットフォームであり、Azure アカウントがなければテキストの例で、サインアップしたら独自のデータで、エンティティ リンクを試すことができます。 詳しくは、Language Studio の Web サイトまたは Language Studio のクイックスタートに関する記事をご覧ください。 |
REST API またはクライアント ライブラリ (Azure SDK) | さまざまな言語で使用できる REST API ライブラリ、またはクライアント ライブラリを使用して、PII 検出をお使いのアプリケーションに統合します。 詳細については、PII 検出のクイックスタートを参照してください。 |
リファレンス ドキュメントとコード サンプル
アプリケーションでこの機能を使用する場合は、次の Azure AI Language のリファレンス ドキュメントとサンプルをご覧ください。
開発オプション/言語 | リファレンス ドキュメント | サンプル |
---|---|---|
REST API | REST API のドキュメント | |
C# | C# 関連のドキュメント | C# のサンプル |
Java | Java のドキュメント | Java のサンプル |
JavaScript | JavaScript のドキュメント | JavaScript のサンプル |
Python | Python のドキュメント | Python のサンプル |
責任ある AI
AI システムには、テクノロジだけでなく、それを使用する人、それによって影響を受ける人、デプロイ環境も含まれます。 システムでの責任ある AI の使用と展開については、PII の透過性のためのメモの記事を参照してください。 詳細については、次の記事をご覧ください。
シナリオの例
- 秘密度ラベルの適用 - たとえば、PII サービスからの結果に基づいて、PII エンティティが検出されないドキュメントにパブリック秘密度ラベルが適用される場合があります。 米国の住所と電話番号が認識されるドキュメントでは、機密ラベルが適用される場合があります。 銀行支店コードが認識されるドキュメントには、極秘のラベルが使用される場合があります。
- 広く読まれるドキュメントから個人情報のいくつかのカテゴリを編集する - たとえば、顧客の連絡先レコードに最前線のサポート担当者がアクセスできる場合、その会社では顧客のプライバシーを保護するために、顧客履歴のバージョンから名前を除く顧客の個人情報を編集したいと考えることがあります。
- 無意識のバイアスを減らすために個人情報を編集する - たとえば、会社で履歴書を確認するプロセスにおいて、性別やその他の無意識のバイアスを減らすために、名前、住所、電話番号をブロックしたい場合があります。
- 機械学習のソース データ内の個人情報を置き換えて不公平を減らす – たとえば、機械学習モデルのトレーニング時に性別を明らかにする可能性のある名前を削除したい場合は、このサービスを使ってそれらを識別し、モデル トレーニング用の汎用プレースホルダーに置き換えることができます。
- コール センターの文字起こしから個人情報を削除する – たとえば、コール センターのシナリオで、担当者と顧客の間で発生する名前やその他の PII データを削除したい場合などです。 このサービスを使ってそれらを識別し、削除できます。
- データ サイエンス用のデータ クリーニング - PII を使ってデータの準備を整え、データ サイエンティストやエンジニアがこれらのデータを使って各自の機械学習モデルをトレーニングできるようにすることができます。 データを編集して、顧客データが公開されないようにします。
次のステップ
エンティティ リンク設定機能を使い始めるには、2 つの方法があります。
- Language Studio。コードを記述することなく Language サービスの複数の機能を試すことができる Web ベースのプラットフォームです。
- クイックスタート記事。REST API とクライアント ライブラリ SDK を使用してサービス要求を行う方法が記載されています。