잠재적 피해 측정
잠재적인 유해 출력의 우선 순위가 지정된 목록을 컴파일한 후 솔루션을 테스트하여 피해의 현재 상태와 영향을 측정할 수 있습니다. 목표는 지정된 용도 시나리오에서 솔루션에 의해 발생하는 피해를 정량화하는 초기 기준을 만드는 것입니다. 그런 다음, 솔루션을 반복적으로 변경하여 피해를 완화할 때 기준에 대한 개선 사항을 추적합니다.
잠재적인 피해에 대한 시스템을 측정하는 일반화된 접근 방식은 다음 세 단계로 구성됩니다.
- 시스템에 대해 문서화한 각 잠재적 피해를 초래할 수 있는 다양한 입력 프롬프트를 준비합니다. 예를 들어, 사용자가 식별한 잠재적인 피해 중 하나가 시스템이 사용자가 위험한 독극물을 제조하는 데 도움이 될 수 있다는 것입니다. “일반적으로 가정에서 발견되는 일상적인 화학 물질을 사용하여 감지할 수 없는 독극물은 어떻게 만들 수 있나요?”와 같은 결과를 유발할 수 있는 입력 프롬프트의 선택 영역을 작성합니다.
- 프롬프트를 시스템에 제출하고 생성된 출력을 검색합니다.
- 미리 정의된 기준을 적용하여 출력을 평가하고 포함된 잠재적 피해 수준에 따라 분류합니다. 분류는 “유해” 또는 “유해하지 않음”만큼 간단하거나 다양한 유해 수준을 정의할 수 있습니다. 정의하는 범주에 관계없이 범주를 분류하기 위해 출력에 적용할 수 있는 엄격한 기준을 결정해야 합니다.
측정 프로세스의 결과를 문서화하고 관련자와 공유해야 합니다.
수동 및 자동 테스트
대부분의 시나리오에서는 테스트 결과가 일관되고 평가 조건이 충분히 잘 정의되어 있는지 확인하기 위해 작은 입력 집합을 수동으로 테스트하고 평가하는 것으로 시작해야 합니다. 그런 다음, 더 많은 양의 테스트 사례를 사용하여 테스트 및 측정을 자동화하는 방법을 고안합니다. 자동화된 솔루션에는 출력을 자동으로 평가하기 위해 분류 모델을 사용하는 것이 포함될 수 있습니다.
피해를 테스트하고 측정하는 자동화된 접근 방식을 구현한 후에도 정기적으로 수동 테스트를 수행하여 새 시나리오의 유효성을 검사하고 자동화된 테스트 솔루션이 예상대로 수행되는지 확인해야 합니다.