분류 모델의 공정성 및 바이어스스 모니터링
Databricks Lakehouse 모니터링을 사용하면 분류 모델의 예측을 모니터링하여 모델이 다른 그룹과 연결된 데이터에 대해 유사하게 수행되는지 확인할 수 있습니다. 예를 들어 대출 기본 분류자가 다른 인구 통계의 신청자에 대해 동일한 가양성 비율을 생성하는지 여부를 조사할 수 있습니다.
공정성 및 바이어스 메트릭 작업
공정성 및 바이어스 모니터링을 위해 부울 조각 식을 만듭니다. 평가되는 True
조각 식에 의해 정의된 그룹은 보호된 그룹(즉, 바이어스를 확인하는 그룹)으로 간주됩니다. 예를 들어 만드는 slicing_exprs=["age < 25"]
경우 = "age < 25"slice_value
True
= 로 식별되고 slice_key
보호된 그룹으로 간주되는 조각과 = "age < 25"slice_value
False
= 로 식별된 slice_key
조각은 보호되지 않은 그룹으로 간주됩니다.
모니터는 그룹 간 분류 모델의 성능을 비교하는 메트릭을 자동으로 계산합니다. 다음 메트릭은 프로필 메트릭 테이블에 보고됩니다.
predictive_parity
- 그룹 간 모델의 전체 자릿수를 비교합니다.predictive_equality
- 그룹 간의 가양성 비율을 비교합니다.equal_opportunity
두 그룹에 대해 레이블이 동일하게 잘 예측되는지 여부를 측정하는 입니다.statistical_parity
- 그룹 간의 예측 결과 차이를 측정합니다.
이러한 메트릭은 분석 유형 InferenceLog
이 있는 problem_type
경우에만 계산됩니다 classification
.
이러한 메트릭에 대한 정의는 다음 참조를 참조하세요.
- 기계 학습의 공정성에 관한 Wikipedia 문서:
https://en.wikipedia.org/wiki/Fairness_(machine_learning)
- 공정성 정의 설명, Verma 및 Rubin, 2018
공정성 및 바이어스 메트릭 출력
이러한 메트릭에 대한 세부 정보 및 메트릭 테이블에서 해당 메트릭을 보는 방법은 API 참조를 참조하세요. 모든 공정성 및 바이어스 메트릭은 아래와 동일한 데이터 형식을 공유하며, 모든 예측 클래스에서 "일 대 모든" 방식으로 키-값 쌍으로 계산된 공정성 점수를 보여 줍니다.
이러한 메트릭에 대한 경고를 만들 수 있습니다. 예를 들어, 모델의 소유자는 공정성 메트릭이 일부 임계값을 초과할 때 경고를 설정한 다음, 해당 경고를 조사를 위해 통화 중인 사용자 또는 팀에 라우팅할 수 있습니다.