다음을 통해 공유


6단계 AI 에이전트에서 품질 수정 만들기 및 평가

이 문서에서는 근본 원인 분석을 기반으로 생성 AI 에이전트의 품질 수정을 반복하고 평가하는 단계를 안내합니다.

POC 워크플로 다이어그램, 반복 단계

AI 에이전트 평가에 대한 자세한 내용은 Mosaic AI 에이전트 평가란?을 참조하세요.

요구 사항

  1. 근본 원인 분석에 따라 검색 또는 생성을 구현하고 평가할 수 있는 잠재적 수정 사항을 확인했습니다.
  2. POC 애플리케이션(또는 다른 기준 체인)은 동일한 실행에 저장된 에이전트 평가 평가를 사용하여 MLflow 실행에 기록됩니다.

이 섹션의 샘플 코드는 GitHub 리포지토리에서 확인하세요.

에이전트 평가의 예상 결과

Databricks MLflow에서 에이전트 평가 실행의 출력을 보여 주는 애니메이션 GIF입니다.

위의 이미지는 MLflow의 에이전트 평가 출력을 보여 줍니다.

AI 에이전트에서 수정, 평가 및 반복하는 방법

모든 유형의 경우 B_quality_iteration/02_evaluate_fixes Notebook을 사용하여 결과 체인과 기준 구성, POC를 평가하고 "승자"를 선택합니다. 이 Notebook을 사용하면 성공적인 실험을 선택하고 검토 앱 또는 프로덕션 준비가 완료되고 확장 가능한 REST API에 배포할 수 있습니다.

  1. Azure Databricks에서 B_quality_iteration/02_evaluate_fixes Notebook을 엽니다.
  2. 구현하는 수정 유형에 따라 다음을 수행합니다.
    • 데이터 파이프라인 수정의 경우:
      • 6단계(파이프라인)를 따릅니다 . 데이터 파이프라인 수정을 구현하여 새 데이터 파이프라인을 만들고 결과 MLflow 실행의 이름을 가져옵니다.
      • 변수에 실행 이름을 추가합니다 DATA_PIPELINE_FIXES_RUN_NAMES .
    • 체인 구성 수정의 경우:
      • 02_evaluate_fixes Notebook 섹션의 지침에 Chain configuration 따라 변수에 체인 구성 수정을 추가합니다CHAIN_CONFIG_FIXES.
    • 체인 코드 수정의 경우:
      • 수정된 체인 코드 파일을 만들고 B_quality_iteration/chain_code_fixes 폴더에 저장합니다. 또는 해당 폴더에서 제공된 체인 코드 수정 중 하나를 선택합니다.
      • 02_evaluate_fixes Notebook 섹션의 지침에 Chain code 따라 체인 코드 파일 및 변수에 필요한 추가 체인 구성을 CHAIN_CODE_FIXES 추가합니다.
  3. 다음은 셀에서 Notebook을 실행할 때 발생합니다 Run evaluation .
    • 각 수정 사항을 평가합니다.
    • 최상의 품질/비용/대기 시간 메트릭을 사용하여 수정 사항을 결정합니다.
    • 검토 앱 및 프로덕션 준비 REST API에 최상의 리소스를 배포하여 관련자 피드백을 얻습니다.

다음 단계

6단계(파이프라인)를 계속 진행합니다. 데이터 파이프라인 수정을 구현합니다.

< 이전: 5.2단계. 디버그 생성 품질

다음: 6.1단계. 데이터 파이프라인 수정 >