다음을 통해 공유


측정 사용: 인프라 지원

이 문서에서는 품질을 측정하는 데 필요한 인프라와 Databricks에서 제공하는 방법을 자세히 설명합니다. 품질 측정은 쉬운 작업이 아니며 상당한 인프라 투자가 필요합니다.

자세한 로그 추적

RAG 애플리케이션 논리의 핵심은 일련의 체인 단계입니다. 품질을 평가하고 디버그하려면 체인의 각 단계와 연결된 입력 및 출력과 함께 체인의 입력 및 출력을 추적하는 계측을 구현해야 합니다. 배치한 계측은 개발 및 프로덕션에서 동일한 방식으로 작동해야 합니다.

Databricks에서 MLflow 추적은 이 기능을 제공합니다. MLflow 로그 추적을 사용하면 프로덕션 환경에서 코드를 계측하고 개발 중 및 프로덕션 환경에서 동일한 추적을 얻을 수 있습니다. 프로덕션 추적은 유추 테이블의 일부로 기록됩니다.

이해 관계자 검토 UI

대부분의 경우 개발자는 개발 중인 애플리케이션의 콘텐츠에 대한 도메인 전문가가 아닐 수 있습니다. 애플리케이션 품질을 평가할 수 있는 사용자 전문가의 피드백을 수집하려면 애플리케이션과 상호 작용하고 자세한 피드백을 제공할 수 있는 인터페이스가 필요합니다. 또한 이해 관계자가 품질을 평가할 수 있도록 특정 애플리케이션 출력을 로드하는 방법이 필요합니다.

이 인터페이스는 전체 애플리케이션 추적 및 자세한 피드백을 데이터 테이블에 저장하여 구조화된 방식으로 애플리케이션의 출력 및 관련 피드백을 추적해야 합니다.

Databricks에서 에이전트 평가 검토 앱은 이 기능을 제공합니다.

품질, 비용 및 대기 시간 메트릭 프레임워크

체인의 각 구성 요소와 엔드투엔드 애플리케이션의 품질을 포괄적으로 측정하는 메트릭을 정의하는 방법이 필요합니다. 이상적으로 프레임워크는 사용자 지정 지원 외에도 기본 제공 표준 메트릭 제품군을 제공하므로 비즈니스에 고유한 특정 품질 측면을 테스트하는 메트릭을 추가할 수 있습니다.

Databricks에서 에이전트 평가는 필요한 품질, 비용 및 대기 시간 메트릭을 위해 호스팅 LLM 심사 모델을 사용하여 기본 구현을 제공합니다.

평가 하네스

평가 집합의 모든 질문에 대한 체인의 출력을 빠르게 효율적으로 가져와 관련 메트릭에서 각 출력을 평가하는 방법이 필요합니다. 이 하네스는 품질 향상을 위해 모든 실험 후에 평가를 실행하므로 최대한 효율적이어야 합니다.

Databricks에서 에이전트 평가는 MLflow와 통합된 평가 하네스를 제공합니다.

평가 집합 관리

평가 집합은 애플리케이션의 개발 및 프로덕션 수명 주기 동안 반복적으로 업데이트할 라이브 질문 집합입니다.

Databricks에서 평가 집합을 Delta Table로 관리할 수 있습니다. MLflow를 사용하여 평가할 때 MLflow는 사용된 평가 집합 버전의 스냅샷을 자동으로 기록합니다.

실험 추적 프레임워크

애플리케이션 개발 과정에서 다양한 실험을 시도합니다. 실험 추적 프레임워크를 사용하면 각 실험을 기록하고 메트릭과 다른 실험을 추적할 수 있습니다.

Databricks에서 MLflow는 실험 추적 기능을 제공합니다.

체인 매개 변수화 프레임워크

많은 실험을 수행하려면 코드에서 사용하는 다양한 매개 변수를 반복하는 동안 체인의 코드 상수를 보유해야 합니다. 이 작업을 수행할 수 있는 프레임워크가 필요합니다.

Databricks에서 MLflow 모델 구성은 이러한 기능을 제공합니다.

온라인 모니터링

배포되면 애플리케이션의 상태와 진행 중인 품질, 비용 및 대기 시간을 모니터링하는 방법이 필요합니다.

Databricks에서 모델 서빙은 애플리케이션 상태 모니터링을 제공하며, 레이크하우스 모니터링은 대시보드에 진행 중인 출력을 제공하고, 품질, 비용 및 대기 시간을 모니터링합니다.

< 이전: 성능 평가

다음: 평가 기반 개발 >