6단계 AI 에이전트에서 품질 수정 만들기 및 평가
이 문서에서는 근본 원인 분석을 기반으로 생성 AI 에이전트의 품질 수정을 반복하고 평가하는 단계를 안내합니다.
AI 에이전트 평가에 대한 자세한 내용은 Mosaic AI 에이전트 평가란?을 참조하세요.
요구 사항
- 근본 원인 분석에 따라 검색 또는 생성을 구현하고 평가할 수 있는 잠재적 수정 사항을 확인했습니다.
- POC 애플리케이션(또는 다른 기준 체인)은 동일한 실행에 저장된 에이전트 평가 평가를 사용하여 MLflow 실행에 기록됩니다.
이 섹션의 샘플 코드는 GitHub 리포지토리에서 확인하세요.
에이전트 평가의 예상 결과
위의 이미지는 MLflow의 에이전트 평가 출력을 보여 줍니다.
AI 에이전트에서 수정, 평가 및 반복하는 방법
모든 유형의 경우 B_quality_iteration/02_evaluate_fixes Notebook을 사용하여 결과 체인과 기준 구성, POC를 평가하고 "승자"를 선택합니다. 이 Notebook을 사용하면 성공적인 실험을 선택하고 검토 앱 또는 프로덕션 준비가 완료되고 확장 가능한 REST API에 배포할 수 있습니다.
- Azure Databricks에서 B_quality_iteration/02_evaluate_fixes Notebook을 엽니다.
- 구현하는 수정 유형에 따라 다음을 수행합니다.
- 데이터 파이프라인 수정의 경우:
- 6단계(파이프라인)를 따릅니다 . 데이터 파이프라인 수정을 구현하여 새 데이터 파이프라인을 만들고 결과 MLflow 실행의 이름을 가져옵니다.
- 변수에 실행 이름을 추가합니다
DATA_PIPELINE_FIXES_RUN_NAMES
.
- 체인 구성 수정의 경우:
- 02_evaluate_fixes Notebook 섹션의 지침에
Chain configuration
따라 변수에 체인 구성 수정을 추가합니다CHAIN_CONFIG_FIXES
.
- 02_evaluate_fixes Notebook 섹션의 지침에
- 체인 코드 수정의 경우:
- 수정된 체인 코드 파일을 만들고 B_quality_iteration/chain_code_fixes 폴더에 저장합니다. 또는 해당 폴더에서 제공된 체인 코드 수정 중 하나를 선택합니다.
- 02_evaluate_fixes Notebook 섹션의 지침에
Chain code
따라 체인 코드 파일 및 변수에 필요한 추가 체인 구성을CHAIN_CODE_FIXES
추가합니다.
- 데이터 파이프라인 수정의 경우:
- 다음은 셀에서 Notebook을 실행할 때 발생합니다
Run evaluation
.- 각 수정 사항을 평가합니다.
- 최상의 품질/비용/대기 시간 메트릭을 사용하여 수정 사항을 결정합니다.
- 검토 앱 및 프로덕션 준비 REST API에 최상의 리소스를 배포하여 관련자 피드백을 얻습니다.