콘텐츠 필터

3분

AI 콘텐츠 필터는 유해하거나 부적절한 콘텐츠를 검색하고 방지하도록 설계된 시스템입니다. 신경 분류 모델을 사용하여 불쾌한 표현, 성적 콘텐츠, 폭력, 자해와 같은 구체적인 범주를 식별하고 입력 프롬프트와 출력 완료를 평가하는 방식으로 작동합니다. 이러한 필터는 AI가 생성한 콘텐츠가 안전 지침을 준수하고 고품질 정보를 제공하는지 확인하는 데 도움이 됩니다.

Microsoft의 콘텐츠 보안 스튜디오는 제품 검토, 포럼 게시물, 이미지 등 사용자가 생성한 모든 콘텐츠가 조직의 콘텐츠 지침에 부합하도록 보장하는 데 도움을 줍니다.

콘텐츠 보안 스튜디오는 콘텐츠를 실시간으로 모니터링하고 조정하도록 설계된 일련의 기능을 제공합니다. 다음을 포함합니다.

텍스트 조정: 불쾌한 표현, 폭력, 부적절한 언어 등 텍스트에서 유해한 콘텐츠를 검색하고 필터링합니다.
이미지 조정: 안전하지 않거나 공격적인 것으로 간주될 수 있는 콘텐츠를 식별하고 차단하기 위해 이미지를 분석합니다.
다중 모드 콘텐츠 분석: 다양한 형식의 콘텐츠에 걸쳐 작동하여 포괄적인 콘텐츠 보안 전략을 보장합니다.
근거 감지: 모델 출력에서 잘못된 정보를 검색하고 차단하여 제공된 원본 재질을 기반으로 대규모 언어 모델의 텍스트 응답이 실제이고 정확하도록 보장합니다.
프롬프트 쉴드: LLM 입력을 분석하고 사용자 프롬프트 공격 및 문서 공격을 검색합니다.
온라인 작업 모니터링: 다양한 양식에 걸쳐 중재 API 사용 및 추세를 추적합니다.

여기서는 콘텐츠 필터링이 올바르게 작동하는 예와 실패하는 예를 볼 수 있습니다.

가드 레일 보호 및 오류 모드의 스크린샷.

콘텐츠 필터

피드백