대화에서 PII(개인 식별 정보) 검색 및 수정 방법

아티클
11/19/2024

대화형 PII 기능은 대화를 평가하여 미리 정의된 여러 범주의 콘텐츠에서 중요한 정보(PII)를 추출하고 수정할 수 있습니다. 이 API는 전사된 텍스트(음성 텍스트로 참조됨)와 채팅 모두에서 작동합니다. 음성 텍스트의 경우 API를 사용하면 오디오 세그먼트를 편집할 수도 있습니다. 이 편집에는 해당 오디오 세그먼트에 대한 오디오 타이밍 정보를 제공하여 PII 정보가 포함됩니다.

데이터 처리 방법 결정(선택 사항)

PII 검색 모델 지정

기본적으로 이 기능은 입력에서 사용 가능한 최신 AI 모델을 사용합니다. 특정 모델 버전을 사용하도록 API 요청을 구성할 수도 있습니다.

언어 지원

자세한 내용은 PII 언어 지원 페이지를 참조하세요. 현재 대화형 PII GA 모델은 영어만 지원합니다. 미리 보기 모델 및 API는 다른 언어 서비스와 동일한 목록 언어를 지원합니다.

지역 지원

대화형 PII API는 언어 서비스에서 지원하는 모든 Azure 지역을 지원합니다.

데이터 제출

참고 항목

Language Studio를 사용하여 제출할 대화 텍스트 서식에 대한 자세한 내용은 Language Studio 문서를 참조하세요.

API에 입력을 대화 항목 목록으로 제출할 수 있습니다. 요청을 받으면 분석이 수행됩니다. API는 비동기이므로 API 요청을 보내고 결과를 받는 사이에 지연이 있을 수 있습니다. 분당 및 초당 보낼 수 있는 요청의 크기와 수에 대한 정보는 아래 데이터 제한을 참조하세요.

비동기 기능을 사용하는 경우 요청이 수집된 시간부터 24시간 동안 API 결과를 사용할 수 있으며 응답에 표시됩니다. 이 기간이 지나면 결과가 제거되고 더 이상 검색할 수 없습니다.

대화형 PII에 데이터를 제출하면 요청당 하나의 대화(채팅 또는 음성)를 보낼 수 있습니다.

API는 지정된 대화 입력에 대해 정의된 모든 엔터티 범주 를 검색하려고 시도합니다. 검색되고 반환되는 엔터티를 지정하려면 적절한 엔터티 범주와 함께 선택적 piiCategories 매개 변수를 사용합니다.

음성 대화 내용의 경우 검색된 엔터티는 제공된 매개 변수 값에 redactionSource 반환됩니다. 현재 redactionSource에 대해 지원되는 값은 text, lexical, itn 및 maskedItn입니다(각각 음성 텍스트 변환 REST API의 display\displayText, lexical, itn 및 maskedItn 형식에 매핑). 또한 음성 대본 입력의 경우 이 API는 오디오 편집 기능을 강화하기 위한 오디오 타이밍 정보도 제공합니다. audioRedaction 기능을 사용하려면 true 값과 함께 선택적 includeAudioRedaction 플래그를 사용합니다. 오디오 편집은 어휘 입력 형식에 따라 수행됩니다.

참고 항목

대화 PII는 이제 문서 크기로 40,000자를 지원합니다.

PII 결과 가져오기

PII 검색에서 결과를 얻은 경우 결과를 애플리케이션으로 스트리밍하거나 출력을 로컬 시스템의 파일에 저장할 수 있습니다. API 응답에는 해당 범주 및 하위 범주 및 신뢰도 점수를 포함하여 인식된 엔터티가 포함됩니다. PII 엔터티가 수정된 텍스트 문자열도 반환됩니다.

Azure Portal에서 스토리지 계정 개요 페이지로 이동합니다.
왼쪽 메뉴에서 키 및 엔드포인트를 선택합니다. API 요청을 인증하려면 키와 엔드포인트 중 하나가 필요합니다.
선택한 언어에 대한 클라이언트 라이브러리 패키지를 다운로드하여 설치합니다.

언어 패키지 버전

.NET 1.0.0

Python 1.0.0
클라이언트 및 반환 개체에 대한 자세한 내용은 다음 참조 문서를 참조하세요.
- C#
- Python

언어	패키지 버전
.NET	1.0.0
Python	1.0.0

수정 정책(버전 2024-11-15-preview에만 해당)

버전 2024-11-15-preview에서는 응답에서 문서를 수정할 때 사용할 편집 정책을 반영하도록 매개 변수를 정의 redactionPolicy 할 수 있습니다. 정책 필드는 다음 세 가지 정책 유형을 지원합니다.

noMask
characterMask(기본값)
entityMask

이 noMask 정책을 사용하면 사용자가 필드 없이 응답을 반환할 수 있습니다 redactedText .

정책을 characterMask 사용하면 redactedText 문자로 마스킹하여 원래 텍스트의 길이와 오프셋을 유지할 수 있습니다. 이는 기존 동작입니다.

정책을 사용하는 characterMask 경우 편집에 사용할 문자를 입력할 수 있는 선택 redactionCharacter 적 필드도 있습니다.

이 entityMask 정책을 사용하면 검색된 PII 엔터티 텍스트를 검색된 엔터티 형식으로 마스킹할 수 있습니다.

수정 정책을 변경하려면 다음 예제를 사용합니다.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
'
{ 
    "displayName": "Analyze conversations from xxx", 
    "analysisInput": { 
        "conversations": [ 
            { 
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5", 
                "language": "en", 
                "modality": "text", 
                "conversationItems": [ 
                    { 
                        "participantId": "agent_1", 
                        "id": "1", 
                        "text": "Good morning." 
                    }, 
                    { 
                        "participantId": "agent_1", 
                        "id": "2", 
                        "text": "Can I have your name?" 
                    }, 
                    { 
                        "participantId": "customer_1", 
                        "id": "3", 
                        "text": "Sure that is John Doe." 
                    } 
                ] 
            } 
        ] 
    }, 
    "tasks": [ 
        { 
            "taskName": "analyze 1", 
            "kind": "ConversationalPIITask", 
            "parameters": { 
                "modelVersion": "2023-04-15-preview", 
                “redactionCharacter” 
                "redactionPolicy": { 
                    "policyKind": "characterMask", 
                    //characterMask|entityMask|noMask 
                    "redactionCharacter": "*" 
                } 
            } 
        } 
    ] 
} 
`

음성 텍스트 변환을 사용하여 대본 제출

Speech Service의 음성 텍스트 변환 기능을 사용하여 대화가 전사된 경우 다음 예제를 사용합니다.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "transcript",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning.",
                        "lexical": "good morning",
                        "itn": "good morning",
                        "maskedItn": "good morning",
                        "audioTimings": [
                            {
                                "word": "good",
                                "offset": 11700000,
                                "duration": 2100000
                            },
                            {
                                "word": "morning",
                                "offset": 13900000,
                                "duration": 3100000
                            }
                        ]
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?",
                        "lexical": "can i have your name",
                        "itn": "can i have your name",
                        "maskedItn": "can i have your name",
                        "audioTimings": [
                            {
                                "word": "can",
                                "offset": 44200000,
                                "duration": 2200000
                            },
                            {
                                "word": "i",
                                "offset": 46500000,
                                "duration": 800000
                            },
                            {
                                "word": "have",
                                "offset": 47400000,
                                "duration": 1500000
                            },
                            {
                                "word": "your",
                                "offset": 49000000,
                                "duration": 1500000
                            },
                            {
                                "word": "name",
                                "offset": 50600000,
                                "duration": 2100000
                            }
                        ]
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe.",
                        "lexical": "sure that is john doe",
                        "itn": "sure that is john doe",
                        "maskedItn": "sure that is john doe",
                        "audioTimings": [
                            {
                                "word": "sure",
                                "offset": 5400000,
                                "duration": 6300000
                            },
                            {
                                "word": "that",
                                "offset": 13600000,
                                "duration": 2300000
                            },
                            {
                                "word": "is",
                                "offset": 16000000,
                                "duration": 1300000
                            },
                            {
                                "word": "john",
                                "offset": 17400000,
                                "duration": 2500000
                            },
                            {
                                "word": "doe",
                                "offset": 20000000,
                                "duration": 2700000
                            }
                        ]
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview",
                "redactionSource": "text",
                "includeAudioRedaction": true,
                "piiCategories": [
                    "all"
                ]
            }
        }
    ]
}
`

텍스트 채팅 제출

텍스트에서 시작된 대화가 있는 경우 다음 예제를 사용합니다. 예를 들어 텍스트 기반 채팅 클라이언트를 통한 대화입니다.

curl -i -X POST https://your-language-endpoint-here/language/analyze-conversations/jobs?api-version=2024-05-01 \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here" \
-d \
' 
{
    "displayName": "Analyze conversations from xxx",
    "analysisInput": {
        "conversations": [
            {
                "id": "23611680-c4eb-4705-adef-4aa1c17507b5",
                "language": "en",
                "modality": "text",
                "conversationItems": [
                    {
                        "participantId": "agent_1",
                        "id": "8074caf7-97e8-4492-ace3-d284821adacd",
                        "text": "Good morning."
                    },
                    {
                        "participantId": "agent_1",
                        "id": "0d67d52b-693f-4e34-9881-754a14eec887",
                        "text": "Can I have your name?"
                    },
                    {
                        "participantId": "customer_1",
                        "id": "08684a7a-5433-4658-a3f1-c6114fcfed51",
                        "text": "Sure that is John Doe."
                    }
                ]
            }
        ]
    },
    "tasks": [
        {
            "taskName": "analyze 1",
            "kind": "ConversationalPIITask",
            "parameters": {
                "modelVersion": "2023-04-15-preview"
            }
        }
    ]
}
`

결과 가져오기

응답 헤더에서 operation-location을 가져옵니다. 값은 다음 URL과 유사합니다.

https://your-language-endpoint/language/analyze-conversations/jobs/12345678-1234-1234-1234-12345678

요청 결과를 가져오려면 다음 cURL 명령을 사용합니다. my-job-id를 이전 operation-location 응답 헤더에서 받은 숫자 ID 값으로 바꾸어야 합니다.

curl -X GET    https://your-language-endpoint/language/analyze-conversations/jobs/my-job-id \
-H "Content-Type: application/json" \
-H "Ocp-Apim-Subscription-Key: your-key-here"

서비스 및 데이터 제한

분당 및 초당 보낼 수 있는 요청의 크기와 수에 대한 내용은 서비스 제한 문서를 참조하세요.

다음을 통해 공유