Azure AI 콘텐츠 보안은 어떻게 작동하나요?

완료됨

Azure AI 콘텐츠 보안 기능은 텍스트 및 이미지와 AI가 생성한 콘텐츠에 적용됩니다.

콘텐츠 보안 비전 기능은 수십억 개의 텍스트-이미지 쌍으로 학습된 Microsoft의 Florence 기본 모델을 기반으로 구동됩니다. 텍스트 분석은 자연어 처리 기술을 사용하여 뉘앙스와 컨텍스트를 더 잘 이해할 수 있도록 합니다. Azure AI 콘텐츠 보안 기능은 다국어를 지원하며 짧은 형식과 긴 형식 모두에서 유해한 콘텐츠를 감지할 수 있습니다. 현재 영어, 독일어, 스페인어, 프랑스어, 포르투갈어, 이탈리아어, 중국어로 제공됩니다.

Azure AI 콘텐츠 보안은 콘텐츠를 네 가지 범주로 분류합니다.

Azure AI 콘텐츠 보안을 통해 콘텐츠를 분류하는 4가지 범주의 다이어그램.

각 범주의 심각도 수준은 콘텐츠를 차단할지, 관리자에게 보낼지, 자동 승인할지를 결정하는 데 사용됩니다.

Azure AI 콘텐츠 보안 기능은 다음과 같습니다.

텍스트 콘텐츠 보호

  • 보통 텍스트는 폭력, 불쾌한 표현, 성적 콘텐츠, 자해 등 4가지 범주에 걸쳐 텍스트를 검사합니다. 각 범주에 대해 0~6까지의 심각도 수준이 반환됩니다. 이 수준은 사람들이 무엇에 즉각적인 관심을 기울여야 하는지, 그리고 얼마나 긴급한지 우선 순위를 지정하는 데 도움이 됩니다. 상황에 맞는 용어를 검사하기 위해 차단 목록을 만들 수도 있습니다.

  • 프롬프트 쉴드는 LLM 입력에서 탈옥 공격을 식별하고 차단하는 통합 API입니다. 여기에는 사용자 입력과 문서가 모두 포함됩니다. 이러한 공격은 모델의 내장된 안전 기능을 바이패스하려는 LLM의 프롬프트입니다. 사용자 프롬프트를 테스트하여 LLM에 대한 입력이 안전한지 확인합니다. 문서는 텍스트 내에 안전하지 않은 지침이 포함되어 있지 않은지 확인하기 위해 테스트됩니다.

  • 보호자료감지는 AI가 생성한 텍스트에 레시피, 저작권이 있는 가사 또는 기타 원본 자료와 같은 보호된 텍스트가 있는지 확인합니다.

  • 근거 감지는 LLM에서 AI 생성 텍스트의 부정확한 응답으로부터 보호합니다. 공용 LLM은 학습을 받을 당시에 사용 가능한 데이터를 사용합니다. 하지만 모델의 원래 학습 이후에 데이터를 도입하거나 프라이빗 데이터를 기반으로 빌드할 수도 있습니다. 근거 있는 응답은 모델의 출력이 원본 정보를 기반으로 하는 응답입니다. 근거 없는 응답은 모델의 출력이 원본 정보와 다른 응답입니다. 근거 감지에는 API 응답에 추론 옵션이 포함되어 있습니다. 이는 근거 없음 감지를 설명하는 추론 필드를 추가합니다. 하지만 추론을 하면 처리 시간과 비용이 늘어납니다.

이미지 콘텐츠 보호

  • 적절한 이미지는 폭력, 자해, 성적, 증오의 4가지 범주에 걸쳐 부적절한 콘텐츠를 검사합니다. 심각도 수준이 안전, 낮음, 높음으로 반환됩니다. 그런 다음 낮음, 보통, 높음의 임계값 수준을 설정합니다. 심각도와 임계값 수준의 조합에 따라 각 범주에 대해 이미지가 허용되거나 차단되는지 여부가 결정됩니다.

  • 중간 다중 모드 콘텐츠는 이미지와 텍스트를 모두 검사하며, 여기에는 OCR(광학 인식)을 사용하여 이미지에서 추출한 텍스트도 포함됩니다. 콘텐츠는 폭력, 불쾌한 표현, 성적 콘텐츠, 자해라는 네 가지 범주에 따라 분석됩니다.

사용자 지정 안전 솔루션

  • 사용자 지정 범주를 사용하면 긍정적, 부정적 예를 제공하고 모델을 학습시켜 사용자 고유의 범주를 만들 수 있습니다. 그런 다음 콘텐츠를 사용자가 정의한 범주에 따라 검사할 수 있습니다.

  • 보안 시스템 메시지는 AI 시스템의 동작을 안내하는 효과적인프롬프트를 작성하는 데 도움이 됩니다.

제한 사항

Azure AI 콘텐츠 보안 기능은 AI 알고리즘을 사용하므로 항상 부적절한 언어를 감지하지 못할 수 있습니다. 그리고 문제가 있는 언어를 감지하기 위해 알고리즘과 기계 학습을 사용하므로, 경우에 따라 허용되는 언어를 차단할 수도 있습니다.

Azure AI 콘텐츠 보안은 배포하기 전에 실제 데이터에서 테스트하고 평가해야 합니다. 배포 후에는 시스템이 얼마나 정확하게 작동하는지 확인하기 위해 시스템을 계속 모니터링해야 합니다.

정확도 평가

Azure AI 콘텐츠 보안이 상황에 얼마나 정확한지 평가할 때 다음 네 가지 기준과 성능을 비교합니다.

  • 진양성 - 유해한 콘텐츠를 정확하게 식별합니다.
  • 가양성 - 유해한 콘텐츠를 잘못 식별합니다.
  • 진음성 - 무해한 콘텐츠를 정확하게 식별합니다.
  • 가음성 - 유해한 콘텐츠가 식별되지 않습니다.

Azure AI 콘텐츠 보안 기능은 잘못된 식별 사례를 해결할 수 있는 중재자를 지원하는 데 가장 적합합니다. 사용자가 사이트에 콘텐츠를 추가할 때, 이유 없이 게시물이 제거될 것이라고 예상하지는 않습니다. 콘텐츠가 제거되거나 부적절하다고 플래그가 지정된 이유를 사용자와 소통하면 모든 사용자가 무엇이 허용되는지, 허용되지 않는지를 이해하는 데 도움이 됩니다.