생성 AI 애플리케이션 평가
Important
이 문서에 표시된 항목(미리 보기)은 현재 퍼블릭 미리 보기에서 확인할 수 있습니다. 이 미리 보기는 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다. 자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.
빠르게 진화하는 인공 지능 환경에서 GenAIOps(생성 AI 운영)의 통합은 조직이 AI 애플리케이션을 개발하고 배포하는 방식을 변화시키고 있습니다. 기업은 AI에 점점 더 의존하여 의사 결정을 향상시키고, 고객 환경을 개선하고, 혁신을 추진함에 따라 강력한 평가 프레임워크의 중요성을 과장할 수 없습니다. 평가는 AI 중심 애플리케이션에 대한 신뢰와 신뢰를 구축하기 위한 생성 AI 수명 주기의 필수 구성 요소입니다. 신중하게 설계되지 않은 경우 이러한 애플리케이션은 컨텍스트에서 조작되고 비경관적인 출력을 생성할 수 있으며, 이로 인해 고객 환경이 좋지 않거나, 사회적 고정관념을 영속시키고, 잘못된 정보를 홍보하고, 조직을 악의적인 공격에 노출하거나, 기타 광범위한 부정적인 영향을 초래할 수 있습니다.
평가자는 AI 응답에서 콘텐츠 위험 또는 바람직하지 않은 동작의 빈도와 심각도를 평가하는 데 유용한 도구입니다. 올바른 평가자를 사용하여 반복적이고 체계적인 평가를 수행하면 팀이 초기 모델 선택부터 사후 프로덕션 모니터링까지 AI 개발 수명 주기 전반에 걸쳐 잠재적인 응답 품질, 안전 또는 보안 문제를 측정하고 해결하는 데 도움이 될 수 있습니다. GenAI Ops 수명 주기 프로덕션 내에서 평가.
조직은 각 단계에서 효과적인 평가 전략을 이해하고 구현함으로써 AI 솔루션이 초기 기대치를 충족할 뿐만 아니라 실제 환경에서도 적응하고 번창할 수 있도록 할 수 있습니다. AI 수명 주기의 세 가지 중요한 단계에 평가가 어떻게 적합한지 알아보겠습니다.
기본 모델 선택
AI 수명 주기의 첫 번째 단계는 적절한 기본 모델을 선택하는 것입니다. 생성 AI 모델은 기능, 강점 및 제한 사항 측면에서 매우 다양하므로 특정 사용 사례에 가장 적합한 모델을 식별해야 합니다. 기본 모델 평가 중에는 애플리케이션과 관련된 조건 집합에 대해 출력을 테스트하여 다른 모델을 비교하기 위해 "쇼핑"합니다.
이 단계의 주요 고려 사항은 다음과 같습니다.
- 정확도/품질: 모델이 관련성 있고 일관된 응답을 얼마나 잘 생성하나요?
- 특정 작업의 성능: 모델에서 사용 사례에 필요한 프롬프트 및 콘텐츠 유형을 처리할 수 있나요? 대기 시간 및 비용은 어떻게 합니까?
- 편견 및 윤리적 고려 사항: 모델이 유해한 고정관념을 영속하거나 촉진할 수 있는 출력을 생성하나요?
- 위험 및 안전성: 모델이 안전하지 않거나 악의적인 콘텐츠를 생성할 위험이 있나요?
Azure AI Foundry 벤치마크를탐색하여 공개적으로 사용 가능한 데이터 세트의 모델을 평가하고 비교하는 동시에 자체 데이터에 대한 벤치마크 결과를 다시 생성할 수 있습니다. 또는 설명된 대로 Azure AI 평가 SDK를 통해 여러 기본 생성 AI 모델 중 하나를 평가할 수 있습니다. 모델 엔드포인트 평가 샘플을 참조하세요.
사전 프로덕션 평가
기본 모델을 선택한 후 다음 단계는 AI 기반 챗봇, RAG(검색 보강 세대) 애플리케이션, 에이전트 AI 애플리케이션 또는 기타 생성 AI 도구와 같은 AI 애플리케이션을 개발하는 것입니다. 개발 후 사전 프로덕션 평가가 시작됩니다. 프로덕션 환경에서 애플리케이션을 배포하기 전에 모델이 실제로 사용할 준비가 되었는지 확인하기 위해 엄격한 테스트가 필요합니다.
사전 프로덕션 평가에는 다음이 포함됩니다.
- 평가 데이터 세트를 사용하여 테스트: 이러한 데이터 세트는 실제 사용자 상호 작용을 시뮬레이션하여 AI 애플리케이션이 예상대로 수행되도록 합니다.
- 에지 사례 식별: AI 애플리케이션의 응답 품질이 저하되거나 바람직하지 않은 출력을 생성할 수 있는 시나리오를 찾습니다.
- 견고성 평가: 모델이 품질이나 안전성을 크게 떨어뜨리지 않고 다양한 입력 변형을 처리할 수 있는지 확인합니다.
- 주요 메트릭 측정: 응답 근거, 관련성 및 안전성과 같은 메트릭을 평가하여 프로덕션 준비 상태를 확인합니다.
사전 프로덕션 단계는 최종 품질 검사 역할을 하여 원하는 성능 또는 안전 표준을 충족하지 않는 AI 애플리케이션을 배포할 위험을 줄입니다.
- 사용자 고유의 데이터 가져오기: 생성 품질, 안전 또는 사용자 지정 평가자를 포함하여 Azure AI Foundry 또는 Azure AI Evaluation SDK의 지원되는 평가자를 사용하여 자체 평가 데이터를 사용하여 사전 프로덕션 환경에서 AI 애플리케이션을 평가하고 Azure AI Foundry 포털을 통해 결과를 볼 수 있습니다.
- 시뮬레이터: 평가 데이터(테스트 데이터)가 없는 경우 Azure AI Evaluation SDK의 시뮬레이터 는 토픽 관련 쿼리 또는 악의적인 쿼리를 생성하여 도움이 될 수 있습니다. 이러한 시뮬레이터는 상황에 적합한 쿼리 또는 공격과 유사한 쿼리(에지 사례)에 대한 모델의 응답을 테스트합니다.
- 악의적인 시뮬레이터는 잠재적인 보안 위협을 모방하거나 탈옥을 시도하는 쿼리를 삽입하여 제한을 식별하고 예기치 않은 조건에 대한 모델을 준비하는 데 도움을 줍니다.
- 상황에 맞는 시뮬레이터는 응답 품질을 테스트하기 위해 사용자가 기대하는 일반적인 관련 대화를 생성합니다.
또는 생성 AI 애플리케이션을 테스트하기 위해 Azure AI Foundry의 평가 위젯을 사용할 수도 있습니다.
만족스러운 결과가 달성되면 AI 애플리케이션을 프로덕션에 배포할 수 있습니다.
프로덕션 후 모니터링
배포 후 AI 애플리케이션은 온라인 평가 또는 모니터링이라고도 하는 사후 프로덕션 평가 단계에 들어갑니다. 이 단계에서 모델은 실제 제품 내에 포함되며 실제 사용자 쿼리에 응답합니다. 모니터링을 통해 모델이 예상대로 계속 동작하고 사용자 동작 또는 콘텐츠의 변경 내용에 맞게 조정됩니다.
- 지속적인 성능 추적: 일관된 출력 품질을 보장하기 위해 주요 메트릭을 사용하여 AI 애플리케이션의 응답을 정기적으로 측정합니다.
- 인시던트 대응: 실제 사용 중에 발생할 수 있는 유해하거나 불공정하거나 부적절한 출력에 신속하게 대응합니다.
프로덕션 환경에서 AI 애플리케이션의 동작을 지속적으로 모니터링하여 고품질 사용자 환경을 유지하고 표면적인 문제를 신속하게 해결할 수 있습니다.
결론
GenAIOps는 수명 주기 동안 생성 AI 애플리케이션을 관리하기 위한 안정적이고 반복 가능한 프로세스를 설정하는 것입니다. 평가는 기본 모델 선택부터 사전 프로덕션 테스트, 지속적인 포스트 프로덕션 모니터링에 이르기까지 각 단계에서 중요한 역할을 합니다. 팀은 모든 단계에서 위험을 체계적으로 측정하고 해결하고 AI 시스템을 구체화함으로써 강력할 뿐만 아니라 실제 사용을 위해 신뢰할 수 있고 안전한 생성 AI 솔루션을 빌드할 수 있습니다.
참고 자료:
목적 | Process | 매개 변수 |
---|---|---|
무엇을 평가하고 있나요? | 관련 평가자 식별 또는 빌드 | - 품질 및 성능 ( 품질 및 성능 샘플 Notebook) - 안전 및 보안 (안전 및 보안 샘플 Notebook) - 사용자 지정 (사용자 지정 샘플 Notebook) |
어떤 데이터를 사용해야 하나요? | 관련 데이터 세트 업로드 또는 생성 | 품질 및 성능을 측정하기 위한 제네릭 시뮬레이터(일반 시뮬레이터 샘플 Notebook) - 안전 및 보안을 측정하기 위한 적대적 시뮬레이터(적대적 시뮬레이터 샘플 Notebook) |
평가를 수행해야 하는 리소스는 무엇인가요? | 평가 실행 | - 로컬 실행 - 원격 클라우드 실행 |
모델/앱은 어떻게 수행했나요? | 결과 분석 | 집계 점수 보기, 세부 정보 보기, 점수 세부 정보, 평가 실행 비교 |
어떻게 개선할 수 있나요? | 모델, 앱 또는 평가자를 변경합니다. | - 평가 결과가 사용자 피드백에 맞지 않는 경우 평가자를 조정합니다. - 평가 결과가 사용자 피드백에 부합하지만 품질/안전 임계값을 충족하지 않는 경우 대상 완화를 적용합니다. |