텍스트 조정 개념
Important
Azure Content Moderator는 2024년 2월부터 더 이상 사용되지 않으며 2027년 2월에 사용 중지됩니다. 고급 AI 기능과 향상된 성능을 제공하는 Azure AI 콘텐츠 보안으로 바뀌었습니다.
Azure AI 콘텐츠 안전은 애플리케이션 및 서비스에서 유해한 사용자 생성 콘텐츠 및 AI 생성 콘텐츠를 탐지하도록 설계된 포괄적인 솔루션입니다. Azure AI 콘텐츠 안전은 온라인 마켓플레이스, 게임 회사, 소셜 메시징 플랫폼, 엔터프라이즈 미디어 회사, 초등 및 중등 교육 솔루션 공급자와 같은 많은 시나리오에 적합합니다. 기능에 대한 개요는 다음과 같습니다.
- 텍스트 및 이미지 감지 API: 텍스트 및 이미지에서 여러 심각도 수준의 성적 콘텐츠, 폭력, 혐오, 자해 관련 내용이 있는지 검사합니다.
- 콘텐츠 안전 스튜디오: 최신 콘텐츠 조정 ML 모델을 사용하여 잠재적으로 공격적이거나 위험하거나 바람직하지 않은 콘텐츠를 처리하도록 설계된 온라인 도구입니다. 템플릿과 사용자 지정된 워크플로를 제공하므로 사용자는 자신만의 콘텐츠 조정 시스템을 선택하고 구축할 수 있습니다.
- 언어 지원: Azure AI 콘텐츠 안전은 100개 이상의 언어를 지원하며 영어, 독일어, 일본어, 스페인어, 프랑스어, 이탈리아어, 포르투갈어, 중국어로 특별히 학습됩니다.
Azure AI 콘텐츠 안전은 콘텐츠 조정 요구 사항에 대한 강력하고 유연한 솔루션을 제공합니다. Content Moderator에서 Azure AI 콘텐츠 안전으로 전환하면 최신 도구와 기술을 활용하여 콘텐츠가 항상 정확한 사양으로 조정되도록 할 수 있습니다.
Azure AI 콘텐츠 안전에 대해 자세히 알아보고 콘텐츠 조정 전략을 향상하는 방법을 알아봅니다.
Azure Content Moderator의 텍스트 조정 모델을 사용하여 채팅방, 토론 보드, 챗봇, 전자 상거래 카탈로그 및 문서와 같은 텍스트 콘텐츠를 분석할 수 있습니다.
서비스 응답에는 다음 정보가 포함됩니다.
- 욕설: 다양한 언어의 기본 제공 욕설 목록을 사용하는 용어 기반 일치
- 분류: 세 가지 범주의 기계 지원 분류
- 개인 데이터
- 자동 고침 텍스트
- Original text
- 언어
욕설
API가 지원되는 언어의 욕설을 감지하면 해당 용어가 응답에 포함됩니다. 응답에는 원래 텍스트에서 해당 위치(Index
)도 포함됩니다. 다음 샘플 JSON의 ListId
는 사용자 지정 용어 목록(사용 가능한 경우)에 있는 용어를 가리킵니다.
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 0,
"Term": "<offensive word>"
}
참고 항목
매개 변수의 language
경우 할당 eng
하거나 비워 두면 컴퓨터 지원 분류 응답(미리 보기 기능)을 볼 수 있습니다. 이 기능은 영어만 지원합니다.
욕설 감지의 경우 이 문서에 나열된 지원되는 언어의 ISO 639-3 코드를 사용하거나 비워 둡니다.
분류
Content Moderator의 기계 지원 텍스트 분류 기능은 영어만 지원하며, 잠재적으로 원치 않는 콘텐츠를 감지하는 데 도움이 됩니다. 플래그가 지정된 콘텐츠는 컨텍스트에 따라 부적절한 것으로 평가될 수 있습니다. 각 범주의 가능성을 전달합니다. 이 기능은 학습된 모델을 사용하여 모욕적이거나 경멸적이거나 차별적인 언어를 식별합니다. 여기에는 속어, 축약어, 불쾌감을 주는 단어 및 의도적으로 철자가 틀린 단어가 포함됩니다.
JSON 추출의 다음 추출은 예제 출력을 보여 줍니다.
"Classification": {
"ReviewRecommended": true,
"Category1": {
"Score": 1.5113095059859916E-06
},
"Category2": {
"Score": 0.12747249007225037
},
"Category3": {
"Score": 0.98799997568130493
}
}
설명
Category1
는 특정 상황에서 성적으로 노골적이거나 성인으로 간주될 수 있는 언어의 잠재적 존재 여부를 나타냅니다.Category2
는 특정 상황에서 성적으로 암시적이거나 성숙한 것으로 간주될 수 있는 언어의 잠재적 존재를 나타냅니다.Category3
은 특정 상황에서 모욕적인 것으로 간주될 수 있는 언어의 잠재적 존재를 나타냅니다.Score
는 0에서 1 사이입니다. 점수가 높을수록 범주를 적용할 확률이 높아질 수 있습니다. 이 기능은 수동으로 코딩된 결과가 아닌 통계 모델을 사용합니다. 고유한 콘텐츠로 테스트하여 각 범주가 요구 사항과 얼마나 일치하는지 확인하는 것이 좋습니다.ReviewRecommended
는 내부 점수 임계값에 따라 true 또는 false입니다. 고객은 이 값을 사용할지 또는 콘텐츠 정책에 따라 사용자 지정 임계값을 결정할지를 평가해야 합니다.
개인 데이터
개인 데이터 기능은 잠재적으로 다음과 같은 정보가 있는지 감지합니다.
- 메일 주소
- 미국 우편 주소
- IP 주소
- 미국 전화 번호
다음 예제에서는 샘플 응답을 보여 줍니다.
"pii":{
"email":[
{
"detected":"abcdef@abcd.com",
"sub_type":"Regular",
"text":"abcdef@abcd.com",
"index":32
}
],
"ssn":[
],
"ipa":[
{
"sub_type":"IPV4",
"text":"255.255.255.255",
"index":72
}
],
"phone":[
{
"country_code":"US",
"text":"6657789887",
"index":56
}
],
"address":[
{
"text":"1 Microsoft Way, Redmond, WA 98052",
"index":89
}
]
}
자동 고침
텍스트 조정 응답은 필요에 따라 기본 자동 고침이 적용된 텍스트를 반환할 수 있습니다.
예를 들어 다음 입력 텍스트의 철자가 잘못되었습니다.
The quick brown fox jumps over the lazzy dog.
자동 고침을 지정하면 응답에 수정된 텍스트 버전이 포함됩니다.
The quick brown fox jumps over the lazy dog.
사용자 지정 용어 목록 만들기 및 관리
대부분의 경우 기본, 전역 용어 목록이 적합하지만 비즈니스 요구 사항과 관련된 용어를 차단할 수 있습니다. 예를 들어 사용자가 게시물에서 경쟁 브랜드 이름을 필터링할 수 있습니다.
참고 항목
각 목록이 10,000개의 용어를 초과하지 않는 최대 5개의 용어 목록이 있습니다.
다음 예제에서는 일치하는 목록 ID를 보여 줍니다.
"Terms": [
{
"Index": 118,
"OriginalIndex": 118,
"ListId": 231.
"Term": "<offensive word>"
}
Content Moderator는 사용자 지정 용어 목록 관리 작업이 포함된 용어 목록 API를 제공합니다. Visual Studio 및 C#에 익숙한 경우 용어 목록 .NET 빠른 시작을 확인하세요.