성능 평가: 중요한 메트릭
이 문서에서는 검색, 응답 및 시스템 성능의 품질에 대한 RAG 애플리케이션의 성능을 측정하는 것에 대해 설명합니다.
검색, 응답 및 성능
평가 집합을 사용하면 다음을 비롯한 다양한 차원에서 RAG 애플리케이션의 성능을 측정할 수 있습니다.
- 검색 품질: 검색 메트릭은 RAG 애플리케이션이 관련 지원 데이터를 성공적으로 검색하는 방법을 평가합니다. 정밀도 및 회수는 두 가지 주요 검색 메트릭입니다.
- 응답 품질: 응답 품질 메트릭은 RAG 애플리케이션이 사용자의 요청에 얼마나 잘 응답하는지 평가합니다. 예를 들어 응답 메트릭은 결과 답변이 지상 진실에 따라 정확한 경우, 검색된 컨텍스트(예: LLM 환각 여부)를 얼마나 잘 접지했는지 또는 응답이 얼마나 안전한지(즉, 독성 없음)를 측정할 수 있습니다.
- 시스템 성능(비용 및 대기 시간): 메트릭은 RAG 애플리케이션의 전체 비용 및 성능을 캡처합니다. 전체 대기 시간 및 토큰 사용량은 체인 성능 메트릭의 예입니다.
응답 및 검색 메트릭을 모두 수집하는 것이 매우 중요합니다. RAG 애플리케이션은 올바른 컨텍스트를 검색했음에도 불구하고 제대로 응답하지 않습니다. 또한 잘못된 검색을 기반으로 좋은 응답을 제공할 수 있습니다. 두 구성 요소를 모두 측정해야만 애플리케이션의 문제를 정확하게 진단하고 해결할 수 있습니다.
성능 측정 방법
이러한 메트릭에서 성능을 측정하는 두 가지 주요 접근 방법이 있습니다.
- 결정적 측정: 비용 및 대기 시간 메트릭은 애플리케이션의 출력에 따라 결정적으로 계산할 수 있습니다. 평가 집합에 질문에 대한 답변이 포함된 문서 목록이 포함된 경우 검색 메트릭의 하위 집합을 결정적으로 계산할 수도 있습니다.
- LLM 판사 기반 측정: 이 접근 방식에서 별도의 LLM은 RAG 애플리케이션의 검색 및 응답의 품질을 평가하는 판사 역할을 합니다. 응답 정확성과 같은 일부 LLM 심사위원은 인간 레이블이 지정된 지상 진리와 앱 출력을 비교합니다. 접지와 같은 다른 LLM 심사위원은 앱 출력을 평가하기 위해 인간 레이블이 지정된 지상 진리가 필요하지 않습니다.
Important
LLM 판사가 효과적이려면 사용 사례를 이해하도록 조정되어야 합니다. 이렇게 하려면 판사가 제대로 작동하고 작동하지 않는 곳을 이해하는 데 세심한 주의를 기울인 다음 실패 사례를 개선하기 위해 판사를 조정해야합니다.
Mosaic AI 에이전트 평가 는 이 페이지에서 설명하는 각 메트릭에 대해 호스트된 LLM 판사 모델을 사용하여 기본 구현을 제공합니다. 에이전트 평가의 설명서에서는 이러한 메트릭 및 심사위원이 구현되는 방법에 대한 세부 정보를 설명하고 정확도를 높이기 위해 데이터로 심사위원을 조정하는 기능을 제공합니다.
메트릭 개요
다음은 Databricks가 RAG 애플리케이션의 품질, 비용 및 대기 시간을 측정하기 위해 권장하는 메트릭에 대한 요약입니다. 이러한 메트릭은 Mosaic AI 에이전트 평가에서 구현됩니다.
차원 | 메트릭 이름 | 질문 | 측정 기준 | 지상 진실이 필요합니까? |
---|---|---|---|---|
검색 | chunk_relevance/전체 자릿수 | 검색된 청크 중 요청과 관련된 비율은 무엇인가요? | LLM 판사 | 아니요 |
검색 | document_recall | 검색된 청크에 표시되는 지상 진리 문서의 비율은 무엇인가요? | 결정적 | 예 |
검색 | 문맥 충분성 | 검색된 청크가 예상 응답을 생성하기에 충분합니까? | LLM 판사 | 예 |
응답 | 정확성 | 전반적으로 에이전트가 올바른 응답을 생성했나요? | LLM 판사 | 예 |
응답 | relevance_to_query | 응답이 요청과 관련이 있나요? | LLM 판사 | 아니요 |
응답 | 접지성 | 응답이 가공입니까 아니면 컨텍스트에 근거합니까? | LLM 판사 | 아니요 |
응답 | 안전성 | 응답에 유해한 콘텐츠가 있나요? | LLM 판사 | 아니요 |
Cost | total_token_count, total_input_token_count, total_output_token_count | LLM 세대의 총 토큰 수는 어떻게 되나요? | 결정적 | 아니요 |
대기 시간 | latency_seconds | 앱 실행 대기 시간은 어떻게 됩니까? | 결정적 | 아니요 |
검색 메트릭의 작동 방식
검색 메트릭은 검색기가 관련 결과를 제공하는지 여부를 이해하는 데 도움이 됩니다. 검색 메트릭은 정밀도 및 회수를 기반으로 합니다.
메트릭 이름 | 답변된 질문 | 세부 정보 |
---|---|---|
Precision | 검색된 청크 중 요청과 관련된 비율은 무엇인가요? | 전체 자릿수는 사용자의 요청과 실제로 관련된 검색된 문서의 비율입니다. LLM 판사는 검색된 각 청크가 사용자의 요청과 관련성을 평가하는 데 사용할 수 있습니다. |
재현율 | 검색된 청크에 표시되는 지상 진리 문서의 비율은 무엇인가요? | 회수는 검색된 청크에 표시되는 지상 진리 문서의 비율입니다. 이는 결과의 완전성을 측정한 것입니다. |
정밀도 및 재현율
다음은 뛰어난 Wikipedia 문서에서 적용된 정밀도 및 재현율에 대한 빠른 입문서입니다.
전체 자릿수 수식
정밀도 측정값 "검색한 청크 중 실제로 사용자 쿼리와 관련된 항목의 비율은 무엇인가요?" 전체 자릿수를 계산해도 모든 관련 항목을 알 필요는 없습니다.
회수 수식
회수 측정값 "내 사용자 쿼리와 관련된 모든 문서 중에서 청크를 검색한 비율은 무엇인가요?" 리콜을 계산하려면 모든 관련 항목을 포함해야 합니다. 항목은 문서 또는 문서의 청크일 수 있습니다.
아래 예제에서는 검색된 결과 3개 중 2개가 사용자의 쿼리와 관련이 있으므로 전체 자릿수는 0.66(2/3)이었습니다. 검색된 문서에는 총 4개의 관련 문서 중 2개가 포함되었으므로 리콜은 0.5(2/4)였습니다.