会話で個人を識別する情報を検出して編集する

[アーティクル]
2025-04-04

Azure AI 言語会話 PII API は、さまざまな定義済みのカテゴリを使用してオーディオの言説を分析し、機密情報 (PII) を識別して編集します。この API は、文字起こしされたテキスト (トランスクリプトと呼ばれます) とチャットの両方で機能します。トランスクリプトの場合、これらのセグメントのタイミング情報を提供することで、PII を含むオーディオセグメントの再編集も容易になります。

データの処理方法を決定する (省略可能)

PII 検出モデルを指定する

既定では、この機能では、入力で使用可能な最新の AI モデルが使用されます。特定のバージョンのモデルを使うように API 要求を構成することもできます。

サポートされている言語

詳細については、「PII 言語サポート」ページを参照してください。現在、会話 PII GA モデルでサポートされているのは英語のみです。プレビューモデルと API では、他の言語サービスと同じ言語がサポートされます。

リージョンのサポート

会話 PII API では、言語サービスでサポートされているすべての Azure リージョンがサポートされています。

データの送信

入力は、会話項目のリストとして API に送信できます。要求が受信されると分析が実行されます。 API は非同期なので、API 要求を送信してから、結果を受信するまでに、遅延が発生する可能性があります。 1 分および 1 秒あたりに送信できる要求のサイズと数については、次のデータ制限を参照してください。

非同期機能を使用すると、API の結果は要求が取り込まれた時点から 24 時間使用でき、応答に示されます。この時間が経過すると、結果は消去され、取得できなくなります。

会話 PII にデータを送信する際には、要求ごとに 1 つの会話 (チャットまたは音声) を送信できます。

API は、特定の会話入力に対して定義されているすべてのエンティティカテゴリの検出を試みます。検出されて返されるエンティティを指定する場合は、オプションの piiCategories パラメーターを適切なエンティティカテゴリと共に使用します。

音声トランスクリプトの場合、検出されたエンティティは、指定された redactionSource パラメーター値で返されます。現在、 redactionSource でサポートされている値は、 text、 lexical、 itn、および maskedItn です (それぞれ Speech からテキスト REST API の display\displayText、 lexical、 itn、および maskedItn 形式にマップされます)。さらに、音声トランスクリプト入力の場合、この API はオーディオの編集を支援するためのオーディオタイミング情報も提供します。 audioRedaction 機能を使用する場合は、省略可能な includeAudioRedaction フラグに true の値を使用します。オーディオの編集は、字句入力形式に基づいて実行されます。

注

会話 PII でドキュメントサイズとして 40,000 文字がサポートされるようになりました。

PII の結果の取得

PII 検出から結果を取得するときは、結果をアプリケーションにストリーミングしたり、ローカルシステム上のファイルに出力を保存したりできます。 API の応答には、認識されたエンティティと、そのカテゴリ、サブカテゴリ、信頼度スコアなどが含まれます。 PII エンティティが編集されたテキスト文字列も返されます。

Azure portal でリソースの概要ページに移動します
左側のメニューで [キーとエンドポイント] を選びます。 API 要求を認証するには、いずれかのキーとエンドポイントが必要です。
選択した言語のクライアントライブラリパッケージをダウンロードしてインストールします。

言語パッケージのバージョン

.NET 1.0.0

パイソン 1.0.0
クライアントと return オブジェクトの詳細については、次のリファレンスドキュメントを 参照してください 。
- C#
- Python

言語	パッケージのバージョン
.NET	1.0.0
パイソン	1.0.0

校正ポリシー（2024年11月15日プレビュー版のみ）

バージョン 2024-11-15-preview では、 redactionPolicy パラメーターを定義して、応答でドキュメントを編集するときに使用する編集ポリシーを反映できます。ポリシーフィールドでは、以下の 3 種類のポリシーがサポートされています。

noMask
characterMask (既定)
entityMask

noMask ポリシーを使用すると、ユーザーは redactedText フィールドなしで応答を返すことができます。

characterMask ポリシーでは、元のテキストの長さとオフセットを保持して、redactedTextを文字でマスクできます。この動作は、既存の期待値です。

redactionCharacter ポリシーを使用している場合は、編集で使用される文字を入力できる characterMask という名前のオプションフィールドも存在します

entityMask ポリシーを使用すると、検出された PII エンティティテキストを検出されたエンティティの種類でマスクできます

編集ポリシーを変更する場合は、次の例を使用します。

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
'
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "1",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "2",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "3",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview",
                "redactionCharacter"
                "redactionPolicy": {
                    "policyKind": "characterMask",
                    //characterMask|entityMask|noMask
                    "redactionCharacter": "*"
                }
            }
        }
    ]
}
`

音声テキスト変換を使用してトランスクリプトを送信する

Speech サービスの音声テキスト変換機能を使用して会話を文字起こしする場合は、次の例を使用してください。

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
'
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

テキストチャットを送信する

テキストで発信された会話がある場合は、次の例を使用してください。たとえば、テキストベースのチャットクライアントを介した会話などです。

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
'
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview"
            }
        }
    ]
}
`

結果を取得する

operation-location を応答ヘッダーから取得します。値は次の URL のようになります。

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

要求の結果を取得するには、次の cURL コマンドを使用します。 my-job-id を、前の operation-location 応答ヘッダーから受け取った数値 ID 値に必ず置き換えてください。

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

サービスとデータの制限

分単位および秒単位で送信できる要求のサイズと数については、サービスの制限に関する記事を参照してください。