다음을 통해 공유


Azure OpenAI 미세 조정을 사용하는 경우

미세 조정이 지정된 사용 사례에 대해 탐색할 수 있는 올바른 솔루션인지 여부를 결정할 때는 다음과 같은 몇 가지 주요 용어를 잘 알고 있어야 합니다.

  • 프롬프트 엔지니어링은 자연어 처리 모델에 대한 프롬프트를 디자인하는 기술입니다. 이 프로세스는 응답의 정확도와 관련성을 향상시켜 모델의 성능을 최적화합니다.
  • RAG(검색 증강 생성)는 외부 원본에서 데이터를 검색하고 프롬프트에 통합하여 LLM(대규모 언어 모델) 성능을 향상시킵니다. RAG를 사용하면 기업은 데이터 관련성을 유지하고 비용을 최적화하면서 사용자 지정 솔루션을 달성할 수 있습니다.
  • 미세 조정은 예제 데이터를 사용하여 기존 큰 언어 모델을 다시 학습시키므로 제공된 예제를 사용하여 최적화된 새로운 "사용자 지정" 대규모 언어 모델이 생성됩니다.

Azure OpenAI를 사용하는 미세 조정이란?

미세 조정에 대해 이야기할 때, 실제로는 지속적인 사전 학습 또는 RLHF(사용자 피드백을 통한 보충 학습)가 아닌 미세 조정을 의미합니다. 감독 미세 조정은 특정 데이터 세트에 대해 미리 학습된 모델을 재학습시키는 프로세스를 의미하며, 일반적으로 특정 작업에 대한 모델 성능을 향상시키거나 기본 모델이 처음에 학습되었을 때는 잘 표현되지 않던 정보를 도입합니다.

미세 조정은 적절하게 사용하기 위해 전문 지식이 필요한 고급 기술입니다. 아래 질문은 미세 조정할 준비가 되었는지 여부와 해당 프로세스를 통해 얼마나 적절히 판단했는지를 평가하는 데 도움이 됩니다. 이를 사용하여 다음 단계를 안내하거나 더 적합할 수 있는 다른 방법을 식별할 수 있습니다.

모델을 미세 조정하려는 이유는 무엇인가요?

  • 미세 조정을 위해 특정 사용 사례를 명확하게 설명하고 미세 조정하려는 모델을 식별할 수 있어야 합니다.
  • 미세 조정에 적합한 사용 사례로는 사용자 지정된 특정 스타일, 톤 또는 형식으로 콘텐츠를 출력하도록 모델을 조정하는 경우나, 모델을 조정하는 데 필요한 정보가 너무 길거나 복잡하여 프롬프트 창에 맞지 않는 시나리오가 포함됩니다.

아직 미세 조정할 준비가 되지 않았을 수 있는 일반적인 징후:

  • 미세 조정에 대한 명확한 사용 사례가 없거나 "더 나은 모델을 만들고 싶음"보다 훨씬 더 명확하게 표현할 수 없습니다.
  • 비용이 주요 동기 부여자라고 판단할 경우 신중하게 진행합니다. 미세 조정은 프롬프트를 줄이거나 더 작은 모델을 사용할 수 있도록 하여 특정 사용 사례에 대한 비용을 줄일 수 있지만 학습의 선불 비용이 더 높으므로 사용자 고유의 사용자 지정 모델을 호스팅하는 비용을 지불해야 합니다. Azure OpenAI 미세 조정 비용에 대한 자세한 내용은 가격 책정 페이지를 참조하세요.
  • 모델에 도메인 지식을 추가하려는 경우 Azure OpenAI의 on your data 또는 포함과 같은 기능을 사용하여 RAG(검색 증상 생성)로 시작해야 합니다. 종종 이 옵션은 사용 사례 및 데이터에 따라 더 저렴하고, 적응 가능하며, 잠재적으로 더 효과적인 옵션입니다.

지금까지 어떤 작업을 시도했나요?

미세 조정은 생성 AI 여정의 시작점이 아니라 고급 기능입니다. LLM(대규모 언어 모델) 사용의 기본 사항을 미리 숙지하는 것이 좋습니다. 먼저 프롬프트 엔지니어링 및/또는 RAG(검색 증강 생성)를 통해 기본 모델의 성능을 평가하여 성능 기준을 결정해야 합니다.

미세 조정 없는 성능에 대한 기준을 설정하는 작업은 미세 조정이 모델 성능을 향상시켰는지 여부를 파악하는 데 필수적입니다. 잘못된 데이터로 미세 조정하면 기본 모델이 악화되지만 기준이 없으면 회귀를 감지하기가 어렵습니다.

미세 조정할 준비가 되면 다음을 수행합니다.

  • 프롬프트 엔지니어링 및 RAG 기반 접근 방식에 대한 증거와 지식을 입증할 수 있어야 합니다.
  • 사용 사례에 대해 이미 시도된 미세 조정 이외의 기술을 사용해본 경험과 관련 문제점을 공유할 수 있습니다.
  • 가능하면 기준 성능에 대한 정량적 평가가 필요합니다.

아직 미세 조정할 준비가 되지 않았을 수 있는 일반적인 징후:

  • 다른 기술을 테스트하지 않고 미세 조정부터 시작합니다.
  • 세부 조정이 특히 LLM(대규모 언어 모델)에 적용되는 방법에 대한 지식이나 이해가 부족합니다.
  • 미세 조정을 평가할 벤치마크 측정값이 없습니다.

대체 접근 방식에 작용하지 않는 것은 무엇인가요?

프롬프트 엔지니어링이 부족한 지점을 이해하면 미세 조정 방향을 파악할 수 있습니다. 기본 모델이 에지 사례 또는 예외에서 실패하나요? 기본 모델이 출력을 올바른 형식으로 일관되게 제공하지 않아서 컨텍스트 창에서 문제를 해결할만큼 충분한 예제를 제공할 수 없나요?

기본 모델 및 프롬프트 엔지니어링 오류의 예는 미세 조정을 위해 수집해야 하는 데이터와 미세 조정된 모델을 평가하는 방법을 식별하는 데 도움이 됩니다.

예를 들어 고객은 GPT-3.5-Turbo를 사용하여 자연어 질문을 특정 비표준 쿼리 언어의 쿼리로 전환하려고 했습니다. 프롬프트에 지침("항상 GQL 반환")을 제공하고 RAG를 사용하여 데이터베이스 스키마를 검색했습니다. 그러나 구문이 항상 올바른 것은 아니었으며 에지 사례에 대해 종종 실패했습니다. 이전에 모델이 실패한 경우를 포함하여 수천 개의 자연어 질문 예제와 해당 데이터베이스에 대한 동급의 쿼리를 수집했으며 해당 데이터를 사용하여 모델을 미세 조정했습니다. 미세 조정된 새 모델을 엔지니어링된 프롬프트 및 검색과 결합하여 모델 출력의 정확도가 사용 가능한 표준까지 증가했습니다.

미세 조정할 준비가 되면 다음을 수행합니다.

  • 대체 접근 방식의 문제에 대한 접근 방식과 성능을 향상시키기 위해 가능한 해결 방법으로 테스트된 방식에 대한 명확한 예제를 제공합니다.
  • 에지 케이스의 성능 불일치, 컨텍스트 창에서 모델을 조종할 수 있는 몇 개의 샷 프롬프트에 맞지 않는 기능, 높은 대기 시간 등과 같은 기본 모델을 사용하여 단점을 식별했습니다.

미세 조정 준비가 되지 않은 일반적인 징후는 다음과 같습니다.

  • 모델 또는 데이터 원본에 대한 지식이 부족합니다.
  • 모델에 제공할 올바른 데이터를 찾을 수 없습니다.

미세 조정에 사용할 데이터는 무엇인가요?

유용한 사용 사례에도 불구하고 미세 조정은 제공할 수 있는 데이터의 품질 정도로만 유용합니다. 미세 조정이 제대로 작동하려면 시간과 노력을 기꺼이 투자해야 합니다. 모델마다 다른 데이터 볼륨이 필요하지만 상당히 많은 양의 큐레이팅된 고품질 데이터를 제공할 수 있어야 하는 경우가 많습니다.

또 다른 중요한 점은 데이터가 미세 조정에 필요한 형식이 아닌 경우에도 고품질 데이터를 사용하려면 데이터의 형식을 올바르게 지정하기 위해 엔지니어링 리소스를 커밋해야 한다는 것입니다.

데이터 Babbage-002
Davinci-002
GPT-3.5-Turbo
GPT-4o 및 GPT-4o mini
GPT-4
볼륨 수천 가지 예제 수천 가지 예제
형식 프롬프트/완료 대화형 채팅

미세 조정할 준비가 되면 다음을 수행합니다.

  • 미세 조정을 위한 데이터 세트를 식별했습니다.
  • 학습을 위해 데이터 세트의 형식을 적절하게 지정했습니다.
  • 품질을 보장하기 위해 데이터 세트를 큐레이팅했습니다.

아직 미세 조정할 준비가 되지 않았을 수 있는 일반적인 징후:

  • 데이터 세트가 아직 확인되지 않았습니다.
  • 데이터 세트 형식이 미세 조정하려는 모델과 일치하지 않습니다.

미세 조정된 모델의 품질을 측정하려면 어떻게 해야 하나요?

이 질문에 대해 한 가지 정답이 있는 것은 아니지만 미세 조정의 성공 목표를 명확하게 정의해야 합니다. 이상적으로는 정성적일 뿐만 아니라 유효성 검사를 위해 홀드아웃 데이터 세트를 활용하는 것과 같은 성공에 대한 정량적 측정값과 사용자 승인 테스트 또는 기본 모델에 대해 미세 조정된 모델을 테스트하는 A/B 테스트를 포함해야 합니다.

다음 단계