Azure AI Foundry 포털에서 평가 결과를 보는 방법
Azure AI Foundry 포털 평가 페이지는 결과를 시각화하고 평가할 뿐만 아니라 배포 요구 사항에 적합한 AI 모델을 최적화, 문제 해결 및 선택하기 위한 제어 센터 역할을 하는 다목적 허브입니다. AI Foundry 프로젝트에서 데이터 기반 의사 결정 및 성능 향상을 위한 원스톱 솔루션입니다. 흐름, 플레이그라운드 빠른 테스트 세션, 평가 제출 UI, SDK 등 다양한 원본의 결과에 원활하게 액세스하고 해석할 수 있습니다. 이러한 유연성을 통해 워크플로 및 기본 설정에 가장 적합한 방식으로 결과와 상호 작용할 수 있습니다.
평가 결과를 시각화한 후에는 철저한 검사를 살펴볼 수 있습니다. 여기에는 개별 결과를 볼 뿐만 아니라 여러 평가 실행에서 이러한 결과를 비교할 수 있는 기능이 포함됩니다. 이렇게 하면 추세, 패턴 및 불일치를 식별하여 다양한 조건의 AI 시스템 성능에 대한 귀중한 인사이트를 얻을 수 있습니다.
이 문서에서는 다음을 설명합니다.
- 평가 결과 및 메트릭을 봅니다.
- 평가 결과를 비교합니다.
- 기본 제공 평가 메트릭을 이해합니다.
- 성능을 향상합니다.
- 평가 결과 및 메트릭을 봅니다.
평가 결과 찾기
평가를 제출하면 평가 페이지로 이동하여 실행 목록 내에서 제출된 평가 실행을 찾을 수 있습니다.
실행 목록 내에서 평가 실행을 모니터링하거나 관리할 수 있습니다. 열 편집기를 사용하여 열을 수정하고 필터를 구현할 수 있는 유연성을 통해 고유한 버전의 실행 목록을 사용자 지정하고 만들 수 있습니다. 또한 실행에서 집계된 평가 메트릭을 신속하게 검토하여 빠른 비교를 수행할 수 있습니다.
팁
모든 버전의 promptflow-evals SDK 또는 azure-ai-evaluation 버전 1.0.0b1, 1.0.0b2, 1.0.0b3으로 실행되는 평가를 보려면 "모든 실행 표시" 토글을 사용하여 실행을 찾습니다.
평가 메트릭이 파생되는 방식을 자세히 이해하려면 '메트릭에 대한 자세한 정보' 옵션을 선택하여 포괄적인 설명에 액세스할 수 있습니다. 이 자세한 리소스는 평가 프로세스에 사용되는 메트릭의 계산 및 해석에 대한 중요한 인사이트를 제공합니다.
특정 실행을 선택하면 실행 세부 정보 페이지로 이동할 수 있습니다. 여기에서 테스트 데이터 세트, 작업 유형, 프롬프트, 온도 등과 같은 평가 세부 정보를 포함하여 포괄적인 정보에 액세스할 수 있습니다. 또한 각 데이터 샘플과 연결된 메트릭을 볼 수 있습니다. 메트릭 점수 차트는 데이터 세트 전체에서 각 메트릭에 대해 점수가 분산되는 방식을 시각적으로 표현합니다.
메트릭 대시보드 차트
AI 품질(AI 지원), 위험 및 안전성, NLP(AI 품질) 및 사용자 지정에 따라 다양한 유형의 메트릭을 사용하여 집계 보기를 분석합니다. 평가된 데이터 세트에서 점수 분포를 보고 각 메트릭별 집계 점수를 볼 수 있습니다.
- AI 품질(AI 지원)의 경우 각 메트릭의 모든 점수에서 평균을 계산하여 집계합니다. Groundedness Pro를 계산하는 경우 출력은 이진이므로 집계된 점수는 100을 ×(#trues/#instances)에 의해 계산되는 전달 속도입니다.
- 위험 및 안전 메트릭의 경우 각 메트릭에 대한 결함 비율을 계산하여 집계합니다.
- NLP(AI Quality) 메트릭의 경우 0에서 1 사이의 메트릭 분포 히스토그램을 보여 줍니다. 각 메트릭의 모든 점수에서 평균을 계산하여 집계합니다.
- 사용자 지정 메트릭의 경우 사용자 지정 차트 추가를 선택하여 선택한 메트릭을 사용하여 사용자 지정 차트를 만들거나 선택한 입력 매개 변수에 대한 메트릭을 볼 수 있습니다.
차트 종류를 변경하여 기본 제공 메트릭에 대한 기존 차트를 사용자 지정할 수도 있습니다.
자세한 메트릭 결과 테이블
메트릭 세부 정보 테이블 내에서 각 개별 데이터 샘플을 포괄적으로 검사할 수 있습니다. 여기서는 생성된 출력과 해당 평가 메트릭 점수를 면밀히 조사할 수 있습니다. 이러한 수준의 세부 정보를 통해 데이터 기반 결정을 내리고 특정 작업을 수행하여 모델의 성능을 향상시킬 수 있습니다.
평가 메트릭을 기반으로 하는 몇 가지 잠재적 작업 항목에는 다음이 포함될 수 있습니다.
- 패턴 인식: 숫자 값 및 메트릭을 필터링하여 점수가 낮은 샘플로 드릴다운할 수 있습니다. 이러한 샘플을 조사하여 모델의 응답에서 반복되는 패턴 또는 문제를 식별합니다. 예를 들어 모델이 특정 주제에 대한 콘텐츠를 생성할 때 낮은 점수가 자주 발생할 수 있습니다.
- 모델 구체화: 점수가 낮은 샘플의 인사이트를 사용하여 시스템 프롬프트 명령을 개선하거나 모델을 미세 조정합니다. 일관성 또는 관련성과 같은 일관된 문제가 관찰되는 경우 모델의 학습 데이터 또는 매개 변수를 적절하게 조정할 수도 있습니다.
- 열 사용자 지정: 열 편집기를 사용하면 평가 목표와 가장 관련성 있는 메트릭과 데이터에 중점을 두어 사용자 지정된 보기의 테이블을 만들 수 있습니다. 이렇게 하면 분석을 간소화하고 추세를 보다 효과적으로 파악할 수 있습니다.
- 키워드 검색: 검색 상자를 사용하면 생성된 출력에서 특정 단어 또는 구를 찾을 수 있습니다. 특정 항목 또는 키워드와 관련된 문제 또는 패턴을 정확히 찾아내고 구체적으로 해결하는 데 유용할 수 있습니다.
메트릭 세부 정보 테이블은 패턴을 인식하는 것부터 효율적인 분석을 위해 보기를 사용자 지정하고 식별된 문제에 따라 모델을 구체화하는 것까지 모델 개선 노력을 이끌어 줄 수 있는 풍부한 데이터를 제공합니다.
다음은 질문 답변 시나리오에 대한 메트릭 결과의 몇 가지 예입니다.
다음은 대화 시나리오에 대한 메트릭 결과의 몇 가지 예입니다.
멀티 턴 대화 시나리오의 경우 “턴당 평가 결과 보기”를 선택하여 “대화의 각 턴에 대한 평가 메트릭을 확인할 수 있습니다.
위험 및 안전 메트릭의 경우 평가는 각 점수별 심각도 점수와 추론을 제공합니다. 다음은 질문 답변 시나리오에 대한 위험 및 안전 메트릭 결과의 몇 가지 예입니다.
평가 결과는 여러 대상 그룹에서 서로 다른 의미가 있을 수 있습니다. 예를 들어 안전 평가는 특정 폭력 콘텐츠가 얼마나 심각한지에 대한 인간 검토자의 정의에 맞지 않을 수 있는 폭력적인 콘텐츠의 "낮음" 심각도에 대한 레이블을 생성할 수 있습니다. 평가 결과를 검토할 때 엄지손가락과 엄지손가락이 아래로 표시된 사용자 피드백 열을 제공하여 인간 검토자가 승인하거나 잘못된 것으로 플래그가 지정한 인스턴스를 표시합니다.
콘텐츠별 위험 메트릭을 이해하는 경우 차트 위의 메트릭 이름을 선택하여 팝업에서 자세한 설명을 확인함으로써 각 메트릭 정의 및 심각도 크기를 쉽게 볼 수 있습니다.
실행에 문제가 있는 경우 로그를 사용하여 평가 실행을 디버그할 수도 있습니다.
다음은 평가 실행을 디버그하는 데 사용할 수 있는 로그의 몇 가지 예입니다.
프롬프트 흐름을 평가하는 경우 흐름의 보기 단추를 선택하여 평가된 흐름 페이지로 이동하여 흐름을 업데이트할 수 있습니다. 예를 들어 메타 프롬프트 명령을 추가하거나 일부 매개 변수를 변경하고 다시 평가합니다.
보기 옵션을 사용하여 보기 관리 및 공유
평가 세부 정보 페이지에서 사용자 지정 차트를 추가하거나 열을 편집하여 보기를 사용자 지정할 수 있습니다. 사용자 지정한 후에는 보기 옵션을 사용하여 보기를 저장하거나 다른 사용자와 공유할 수 있습니다. 이렇게 하면 기본 설정에 맞는 형식으로 평가 결과를 검토하고 동료와의 공동 작업을 용이하게 할 수 있습니다.
평가 결과 비교
두 개 이상의 실행 간에 포괄적인 비교를 편리하게 수행할 수 있도록 원하는 실행을 선택한 후 프로세스를 시작할 때 비교 단추를 선택할 수도 있고 일반적인 세부 대시보드 보기의 경우 대시보드 보기로 전환 단추를 선택할 수도 있습니다. 이 기능을 사용하면 여러 실행의 성능과 결과를 분석하고 대조할 수 있으므로 보다 정보에 입각한 의사 결정 및 목표에 맞는 개선을 수행할 수 있습니다.
대시보드 보기에서는 메트릭 분포 비교 차트와 비교 테이블이라는 두 가지 중요한 구성 요소에 액세스할 수 있습니다. 이러한 도구를 사용하면 선택한 평가 실행을 나란히 분석하여 각 데이터 샘플의 다양한 측면을 쉽고 정밀하게 비교할 수 있습니다.
비교 테이블 내에서 참조 지점으로 사용하려는 특정 실행을 마우스로 가리키고 기준으로 설정하여 비교 기준을 설정할 수 있습니다. 그뿐 아니라, '델타 표시' 토글을 활성화하면 기준 실행과 숫자 값에 대한 다른 실행 간의 차이를 쉽게 시각화할 수 있습니다. 그리고 '차이점만 표시' 토글을 사용하도록 설정하면 테이블에 선택한 실행 간에 서로 다른 행만 표시되어 고유한 변형을 식별할 수 있습니다.
이러한 비교 기능을 사용하면 정보에 입각한 결정을 내려 적절한 버전을 선택할 수 있습니다.
- 기준 비교: 기준 실행을 설정하여 다른 실행을 비교할 참조 지점을 식별할 수 있습니다. 이를 통해 각 실행이 선택한 표준에서 어떻게 벗어나는지 확인할 수 있습니다.
- 숫자 값 평가: '델타 표시' 옵션을 사용하도록 설정하면 기준과 다른 실행 간의 차이점을 파악할 수 있습니다. 이는 특정 평가 메트릭 측면에서 다양한 실행이 수행되는 방식을 평가하는 데 유용합니다.
- 차이점 격리: '차이점만 표시' 기능은 실행 간에 불일치가 있는 영역만 강조 표시하여 분석을 간소화합니다. 이는 개선 또는 조정이 필요한 위치를 정확히 파악하는 데 중요한 역할을 할 수 있습니다.
이러한 비교 도구를 효과적으로 사용하면 정의된 기준 및 메트릭과 관련하여 최상의 성능을 나타내는 모델 또는 시스템의 버전을 식별할 수 있으므로 궁극적으로 애플리케이션에 가장 적합한 옵션을 선택하는 데 도움이 됩니다.
탈옥 취약성 측정
탈옥 평가는 AI 지원 메트릭이 아닌 비교 측정입니다. 서로 다른 두 가지 레드 팀 데이터 세트에 대한 평가를 실행합니다. 즉, 기본 적대 테스트 데이터 세트와 첫 번째 탈옥 주입이 포함된 동일한 적대적 테스트 데이터 세트입니다. 악의적인 데이터 시뮬레이터를 사용하여 탈옥 주입 유무에 관계없이 데이터 세트를 생성할 수 있습니다.
애플리케이션이 탈옥에 취약한지 이해하려면 기준선을 지정한 다음 비교 표에서 “탈옥 결함률” 토글을 켤 수 있습니다. 탈옥 결함율은 탈옥 주입은 전체 데이터 세트 크기 기준과 관련한 일체의 콘텐츠 위험 메트릭에 대한 심각성 점수를 더 높게 생성하는 테스트 데이터 세트 내 인스턴스의 백분율로 정의됩니다. 비교 대시보드에서 여러 평가를 선택하여 결함율의 차이를 볼 수 있습니다.
팁
탈옥 결함률은 데이터 세트들 간의 크기가 같고 모든 실행에 콘텐츠 위험과 안전 메트릭이 포함된 경우에만 비교적으로 계산됩니다.
기본 제공 평가 메트릭 이해
기본 제공 메트릭을 이해하는 것은 AI 애플리케이션의 성능과 효율성을 평가하는 데 매우 중요합니다. 이러한 주요 측정 도구에 대한 인사이트를 확보하면 결과를 해석하고, 정보에 입각한 결정을 내리고, 애플리케이션을 미세 조정하여 최적의 결과를 얻을 수 있습니다. 각 메트릭의 중요성, 계산 방법, 모델의 다양한 측면을 평가하는 역할 및 데이터 기반 개선을 위해 결과를 해석하는 방법에 대해 자세히 알아보려면 평가 및 모니터링 메트릭 을 참조하세요.
다음 단계
생성 AI 애플리케이션을 평가하는 방법에 대해 자세히 알아봅니다.
피해 완화 기술에 대해 자세히 알아보세요.