다음을 통해 공유


자습서: Foundation Model 미세 조정 실행 만들기 및 배포

Important

이 기능은 , centralus, eastus, eastus2, northcentralus 지역에서 westus로 제공됩니다.

이 문서에서는 기본 모델 미세 조정(현재 Mosaic AI 모델 학습의 일부) API를 사용하여 실행을 만들고 구성한 다음, 결과를 검토하고 Databricks UI 및 Mosaic AI Model Serving를 사용하여 모델을 배포하는 방법을 설명합니다.

요구 사항

  • centralus, eastus, eastus2, northcentralus, westcentralus, westus, westus3 같은 Azure 지역 중 하나에 있는 작업 영역.
  • Databricks Runtime 12.2 LTS ML 이상.
  • 이 자습서는 Databricks Notebook에서 실행해야 합니다.
  • 허용되는 형식의 학습 데이터. 파운데이션 모델 미세 조정을 위한 데이터 준비를 참조 하세요.

1단계: 학습을 위해 데이터 준비

파운데이션 모델 미세 조정을 위한 데이터 준비를 참조 하세요.

2단계: databricks_genai SDK 설치

다음을 사용하여 databricks_genai SDK를 설치합니다.

%pip install databricks_genai

그런 다음, foundation_model 라이브러리를 가져옵니다.

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

3단계: 학습 실행 만들기

Foundation Model 미세 조정 create() 함수를 사용하여 학습 실행을 만듭니다. 다음 parameters 필요합니다.

  • model: 학습할 모델.
  • train_data_path: 학습 데이터 세트의 위치.
  • register_to: 체크포인트를 저장할 Unity Catalogcatalog 및 schemawhere.

예시:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

4단계: 실행 상태 보기

학습 실행을 완료하는 데 걸리는 시간은 토큰 수, 모델 및 GPU 가용성에 따라 달라집니다. 더 빠른 학습을 위해 Databricks는 예약 컴퓨팅을 사용하도록 권장합니다. 자세한 내용은 Databricks 계정 팀에 문의하세요.

실행을 실행한 후에는 get_events()를 사용하여 해당 실행을 모니터링할 수 있습니다.

run.get_events()

5단계: 메트릭 및 출력 보기

다음 단계를 수행하여 Databricks UI에서 결과를 봅니다.

  1. Databricks 작업 영역의 왼쪽 탐색 모음에서 실험을 클릭합니다.
  2. Select 당신의 실험을 list부터.
  3. 차트 탭에서 메트릭 차트를 검토합니다. 학습 메트릭은 각 학습 실행에 대해 생성되며, 평가 메트릭은 평가 데이터 경로가 제공된 경우에만 생성됩니다.
    1. 진행률을 보여 주는 기본 학습 메트릭은 손실 상태입니다. 평가 손실은 모델이 학습 데이터에 과잉 맞춤되어 있는지 확인하는 데 사용할 수 있습니다. 그러나 감독 학습 작업에서 모델이 계속 개선되는 동안 평가 손실은 과잉 맞춤을 나타낼 수 있으므로 손실에 전적으로 의존해서는 안 됩니다.
    2. 정확도가 높을수록 모델의 성능이 개선되지만 100%에 가까운 정확도는 과잉 맞춤을 나타낼 수 있습니다.
    3. 다음 메트릭은 실행 후 MLflow에 표시됩니다.
      • LanguageCrossEntropy는 언어 모델링 출력에 대한 교차 엔트로피를 계산합니다. 점수가 낮을수록 좋습니다.
      • LanguagePerplexity는 언어 모델이 이전 단어 또는 문자를 기반으로 텍스트 블록에서 다음 단어 또는 문자를 예측하는 정도를 측정합니다. 점수가 낮을수록 좋습니다.
      • TokenAccuracy는 언어 모델링에 대한 토큰 수준 정확도를 계산합니다. 점수가 높을수록 좋습니다.
    4. 이 탭에서는 사용자가 지정한 경우 평가 프롬프트의 출력을 볼 수도 있습니다.

6단계: 배포하기 전에 Mosaic AI 에이전트 평가를 사용하여 여러 사용자 지정된 모델 평가

Mosaic AI 에이전트 평가란?을 참조하세요.

7단계: 모델 배포

학습 실행이 완료되면 Unity Catalog에 모델이 자동으로 등록됩니다. 모델은 실행 register_to 메서드의 create() 필드에 지정한 내용에 따라 등록됩니다.

지원을 위해 모델을 배포하려면 다음 단계를 수행합니다.

  1. Unity Catalog모델로 이동합니다.
  2. 이 모델 지원을 클릭합니다.
  3. 지원 엔드포인트 만들기를 클릭합니다.
  4. 이름 필드에서 엔드포인트 이름을 입력합니다.
  5. 만들기를 클릭합니다.

추가 리소스