다음을 통해 공유


개념 - 소규모 및 대규모 언어 모델

이 문서에서는 사용하는 시기와 AKS(Azure Kubernetes Service)에서 AI 및 기계 학습 워크플로와 함께 사용할 수 있는 방법을 포함하여 소규모 및 대규모 언어 모델에 대해 알아봅니다.

언어 모델이란?

언어 모델은 텍스트 생성 및 감정 분석과 같은 NLP(자연어 처리) 작업에 사용되는 강력한 기계 학습 모델입니다. 이러한 모델은 지정된 상황에서 발생하는 단어 또는 단어 시퀀스의 가능성을 기반으로 자연어를 나타냅니다.

기존 언어 모델은 특정 작업에 대해 잘 레이블이 지정된 텍스트 데이터 세트에 대해 모델을 학습시키는 연구 목적의 감독 설정에서 사용되었습니다. 미리 학습된 언어 모델은 AI를 시작할 수 있는 액세스 가능한 방법을 제공하며 최근 몇 년 동안 더욱 널리 사용되고 있습니다. 이러한 모델은 심층 신경망을 사용하여 인터넷의 대규모 텍스트 말뭉치에 대해 학습되었으며 특정 작업을 위해 더 작은 데이터 세트로 미세 조정할 수 있습니다.

언어 모델의 크기는 모델이 입력 데이터를 처리하고 출력을 생성하는 방법을 결정하는 매개 변수 수 또는 가중치에 따라 결정됩니다. 모델의 예측과 실제 데이터 간의 차이를 최소화하기 위해 모델 계층 내의 가중치를 조정하여 학습 프로세스 중에 매개 변수를 학습합니다. 모델에 매개 변수가 많을수록 모델이 더 복잡하고 표현력이 풍부해지지만, 학습하고 사용하는 데 계산 비용이 더 많이 듭니다.

일반적으로 소규모 언어 모델에는 100억 개 미만의 매개 변수가 있고, 대규모 언어 모델에는 100억 개가 넘는 매개 변수가 있습니다. 예를 들어, 새로운 Microsoft Phi-3 모델 제품군에는 미니(38억 매개 변수), 소형(70억 매개 변수), 중간(140억 매개 변수) 등 다양한 크기의 세 가지 버전이 있습니다.

작은 언어 모델을 사용해야 하는 경우

장점

다음과 같은 모델을 원하는 경우 소규모 언어 모델을 선택하는 것이 좋습니다.

  • 학습 및 실행이 더 빠르고 비용 효율적입니다.: 데이터와 컴퓨팅 성능이 덜 필요합니다.
  • 배포 및 유지 관리가 용이함: 스토리지와 메모리 공간이 더 작습니다.
  • 모델이 학습 데이터의 노이즈나 특정 패턴을 학습하고 새 데이터를 일반화하지 못하는 과잉 맞춤이 발생할 가능성이 적습니다.
  • 해석 및 설명 가능: 이해하고 분석할 매개 변수와 구성 요소가 적습니다.

사용 사례

소규모 언어 모델은 다음이 필요한 사용 사례에 적합합니다.

  • 제한된 데이터 또는 리소스, 빠르고 단순한 솔루션이 필요합니다.
  • 잘 정의되거나 좁은 작업, 결과에 창의성이 많이 필요하지 않습니다.
  • 정밀도가 높고 재현율이 낮은 작업이며 범위와 수량보다 정확도와 품질을 중요하게 생각합니다.
  • 중요하거나 규제된 작업이며 모델의 투명성과 책임성을 보장해야 합니다.

다음 표에는 널리 사용되는 고성능 소규모 언어 모델이 나열되어 있습니다.

모델 제품군 모델 크기(매개 변수 수) 소프트웨어 라이선스
Microsoft Phi-3 Phi-3-mini(38억), Phi-3-small(70억) MIT 라이선스
Microsoft Phi-2 Phi-2(27억) MIT 라이선스
Falcon Falcon-7B(70억) Apache 2.0 라이선스

대규모 언어 모델을 사용해야 하는 경우

장점

다음과 같은 모델을 원하는 경우 대규모 언어 모델을 선택하는 것이 좋습니다.

  • 강력하고 표현력이 풍부함: 데이터에서 더욱 복잡한 패턴과 관계를 캡처할 수 있습니다.
  • 일반적이고 적응 가능함: 광범위한 작업을 처리하고 여러 분야에 걸쳐 지식을 전송할 수 있습니다.
  • 강력하고 일관됨: 노이즈가 많거나 불완전한 입력을 처리하고 일반적인 오류와 바이어스를 피할 수 있습니다.

사용 사례

대규모 언어 모델은 다음이 필요한 사용 사례에 적합합니다.

  • 풍부한 데이터와 리소스: 복잡한 솔루션을 빌드하고 유지 관리할 예산이 있습니다.
  • 정밀도는 낮고 재현율은 높은 작업: 정확도와 품질보다 적용 범위와 수량을 중요하게 생각합니다.
  • 도전적이거나 탐구적인 작업: 모델의 학습 및 적응 역량을 활용하려고 합니다.

다음 표에는 널리 사용되는 고성능 대규모 언어 모델이 나열되어 있습니다.

모델 제품군 모델 크기(매개 변수 수) 소프트웨어 라이선스
Microsoft Phi-3 Phi-3-medium(140억) MIT 라이선스
Falcon Falcon-40B(400억) Apache 2.0 라이선스

AKS에서 소규모 및 대규모 언어 모델 실험

KAITO(Kubernetes AI 툴체인 운영자)는 Kubernetes 클러스터에서 소규모 및 대규모 언어 모델 배포를 자동화하는 오픈 소스 운영자입니다. AKS용 KAITO 추가 기능은 온보딩을 간소화하고 AKS 클러스터의 오픈 소스 모델에 대한 유추 시간을 단축합니다. 추가 기능은 적절한 크기의 GPU 노드를 자동으로 프로비전하고 연결된 방해 서버를 선택한 모델에 대한 엔드포인트 서버로 설정합니다.

자세한 내용은 AI 툴체인 운영자를 사용하여 AKS에 AI 모델 배포를 참조하세요. 유추 워크플로를 위해 지원되는 다양한 소형 및 대규모 언어 모델을 시작하려면 KAITO 모델 GitHub 리포지토리를 참조하세요.

Important

오픈 소스 소프트웨어는 AKS 설명서와 샘플 전반에서 언급되어 있습니다. 배포하는 소프트웨어는 AKS 서비스 수준 계약, 제한된 보증 및 Azure 지원 제외됩니다. AKS와 함께 오픈 소스 기술을 사용하는 경우 각 커뮤니티 및 프로젝트 유지 관리자에서 사용할 수 있는 지원 옵션을 참조하여 계획을 개발합니다.

예를 들어 Ray GitHub 리포지 토리는 응답 시간, 목적 및 지원 수준에 따라 달라지는 여러 플랫폼을 설명합니다.

Microsoft는 AKS에 배포하는 오픈 소스 패키지를 빌드하는 역할을 담당합니다. 해당 책임에는 컨테이너 이미지의 이진 파일에 대한 제어와 함께 빌드, 스캔, 서명, 유효성 검사 및 핫픽스 프로세스의 완전한 소유권이 포함됩니다. 자세한 내용은 AKS의 취약성 관리AKS 지원 범위를 참조하세요.

다음 단계

AKS의 컨테이너화된 AI 및 기계 학습 워크로드에 대해 자세히 알아보려면 다음 문서를 참조하세요.