자습서: Foundation Model 미세 조정 실행 만들기 및 배포

아티클
01/22/2025

Important

이 기능은 , centralus, eastus, eastus2, northcentralus 지역에서 westus로 제공됩니다.

이 문서에서는 기본 모델 미세 조정(현재 Mosaic AI 모델 학습의 일부) API를 사용하여 실행을 만들고 구성한 다음, 결과를 검토하고 Databricks UI 및 Mosaic AI Model Serving를 사용하여 모델을 배포하는 방법을 설명합니다.

요구 사항

centralus, eastus, eastus2, northcentralus, westcentralus, westus, westus3 같은 Azure 지역 중 하나에 있는 작업 영역.
Databricks Runtime 12.2 LTS ML 이상.
이 자습서는 Databricks Notebook에서 실행해야 합니다.
허용되는 형식의 학습 데이터. 파운데이션 모델 미세 조정을 위한 데이터 준비를 참조 하세요.

1단계: 학습을 위해 데이터 준비

파운데이션 모델 미세 조정을 위한 데이터 준비를 참조 하세요.

2단계: `databricks_genai` SDK 설치

다음을 사용하여 databricks_genai SDK를 설치합니다.

%pip install databricks_genai

그런 다음, foundation_model 라이브러리를 가져옵니다.

dbutils.library.restartPython()
from databricks.model_training import foundation_model as fm

3단계: 학습 실행 만들기

Foundation Model 미세 조정 create() 함수를 사용하여 학습 실행을 만듭니다. 다음 매개 변수가 필요합니다.

model: 학습할 모델.
train_data_path: 학습 데이터 세트의 위치.
register_to: 검사점을 저장할 Unity 카탈로그 및 스키마입니다.

예시:

run = fm.create(model='meta-llama/Meta-Llama-3.1-8B-Instruct',
                train_data_path='dbfs:/Volumes/main/my-directory/ift/train.jsonl', # UC Volume with JSONL formatted data
                register_to='main.my-directory',
                training_duration='1ep')

run

4단계: 실행 상태 보기

학습 실행을 완료하는 데 걸리는 시간은 토큰 수, 모델 및 GPU 가용성에 따라 달라집니다. 더 빠른 학습을 위해 Databricks는 예약 컴퓨팅을 사용하도록 권장합니다. 자세한 내용은 Databricks 계정 팀에 문의하세요.

실행을 실행한 후에는 get_events()를 사용하여 해당 실행을 모니터링할 수 있습니다.

run.get_events()

5단계: 메트릭 및 출력 보기

다음 단계를 수행하여 Databricks UI에서 결과를 봅니다.

Databricks 작업 영역의 왼쪽 탐색 모음에서 실험을 클릭합니다.
목록에서 실험을 선택합니다.
차트 탭에서 메트릭 차트를 검토합니다. 학습 메트릭은 각 학습 실행에 대해 생성되며, 평가 메트릭은 평가 데이터 경로가 제공된 경우에만 생성됩니다.
1. 진행률을 보여 주는 기본 학습 메트릭은 손실 상태입니다. 평가 손실은 모델이 학습 데이터에 과잉 맞춤되어 있는지 확인하는 데 사용할 수 있습니다. 그러나 훈련 작업에서 모델이 계속 개선되는 동안 평가 손실이 과적합처럼 보일 수 있으므로 손실에 완전히 의존해서는 안 됩니다.
2. 정확도가 높을수록 모델의 성능이 개선되지만 100%에 가까운 정확도는 과잉 맞춤을 나타낼 수 있습니다.
3. 다음 메트릭은 실행 후 MLflow에 표시됩니다.
  - LanguageCrossEntropy는 언어 모델링 출력에 대한 교차 엔트로피를 계산합니다. 점수가 낮을수록 좋습니다.
  - LanguagePerplexity는 언어 모델이 이전 단어 또는 문자를 기반으로 텍스트 블록에서 다음 단어 또는 문자를 예측하는 정도를 측정합니다. 점수가 낮을수록 좋습니다.
  - TokenAccuracy는 언어 모델링에 대한 토큰 수준 정확도를 계산합니다. 점수가 높을수록 좋습니다.
4. 이 탭에서는 사용자가 지정한 경우 평가 프롬프트의 출력을 볼 수도 있습니다.

6단계: 배포하기 전에 Mosaic AI 에이전트 평가를 사용하여 여러 사용자 지정된 모델 평가

Mosaic AI 에이전트 평가란?을 참조하세요.

7단계: 모델 배포

학습 실행은 완료된 후 Unity 카탈로그에 모델을 자동으로 등록합니다. 모델은 실행 register_to 메서드의 create() 필드에 지정한 내용에 따라 등록됩니다.

지원을 위해 모델을 배포하려면 다음 단계를 수행합니다.

Unity 카탈로그에서 모델로 이동합니다.
이 모델 지원을 클릭합니다.
지원 엔드포인트 만들기를 클릭합니다.
이름 필드에서 엔드포인트 이름을 입력합니다.
만들기를 클릭합니다.

추가 리소스

Foundation Model 미세 조정 API를 사용하여 학습 실행 만들기
파운데이션 모델 미세 조정
Mosaic AI 모델을 사용하여 모델 배포
데이터 준비, 학습 실행 구성 및 배포를 미세 조정하는 지침 미세 조정 예제는 지침 미세 조정: 명명된 엔터티 인식 데모 Notebook을 참조하세요.

다음을 통해 공유

자습서: Foundation Model 미세 조정 실행 만들기 및 배포

요구 사항

1단계: 학습을 위해 데이터 준비

2단계: `databricks_genai` SDK 설치

3단계: 학습 실행 만들기

4단계: 실행 상태 보기

5단계: 메트릭 및 출력 보기

6단계: 배포하기 전에 Mosaic AI 에이전트 평가를 사용하여 여러 사용자 지정된 모델 평가

7단계: 모델 배포

추가 리소스

피드백

추가 리소스

다음을 통해 공유

자습서: Foundation Model 미세 조정 실행 만들기 및 배포

요구 사항

1단계: 학습을 위해 데이터 준비

2단계: databricks_genai SDK 설치

3단계: 학습 실행 만들기

4단계: 실행 상태 보기

5단계: 메트릭 및 출력 보기

6단계: 배포하기 전에 Mosaic AI 에이전트 평가를 사용하여 여러 사용자 지정된 모델 평가

7단계: 모델 배포

추가 리소스

피드백

추가 리소스

2단계: `databricks_genai` SDK 설치