単一 GPU 向けに Hugging Face モデルを微調整する
この記事では、単一 GPU で Hugging Face transformers
ライブラリを使用して、Hugging Face モデルを微調整する方法について説明します。 また、レイクハウスからデータを読み込み、モデルを MLflow に記録するための Databricks 固有の推奨事項も含まれています。これにより、Azure Databricks でモデルを使用して管理できます。
Hugging Face transformers
ライブラリには、Transformers モデルの読み込みと微調整を可能にする Trainer ユーティリティと Auto Model クラスが用意されています。
これらのツールは、単純な変更を加えた次のタスクで使用できます。
- 微調整するモデルの読み込み。
- Hugging Face Transformers Trainer ユーティリティの構成の構築。
- 単一 GPU でのトレーニングの実行。
「Hugging Face Transformers とは」を参照してください
必要条件
- ドライバーに単一 GPU が搭載されている単一ノード クラスター。
- Databricks Runtime 13.0 ML 以降の GPU バージョン。
- この微調整の例では、Transformers、Datasets、Evaluate パッケージ (Databricks Runtime 13.0 ML 以降に含まれている) が必要です。
- MLflow 2.3。
- Transformers を使用してモデルを微調整するために準備および読み込まれたデータ。
Hugging Face データセットをトークン化する
Hugging Face Transformers モデルでは、ダウンロードされたデータ内のテキストではなく、トークン化された入力が想定されます。 基本モデルとの互換性を確保するには、基本モデルから読み込まれる AutoTokenizer を使用します。 Hugging Face datasets
を使用すると、トレーニングとテスト データの両方にトークナイザーを一貫して直接適用できます。
次に例を示します。
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(base_model)
def tokenize_function(examples):
return tokenizer(examples["text"], padding=False, truncation=True)
train_test_tokenized = train_test_dataset.map(tokenize_function, batched=True)
トレーニング構成を設定する
Hugging Face トレーニング構成ツールを使用して、Trainer を構成できます。 Trainer クラスでは、ユーザーは以下を指定する必要があります。
- メトリック
- 基本モデル
- トレーニング構成
Trainer
が計算する既定の loss
メトリックに加え、評価メトリックを構成できます。 次の例では、メトリックとして accuracy
を追加する方法を示します。
import numpy as np
import evaluate
metric = evaluate.load("accuracy")
def compute_metrics(eval_pred):
logits, labels = eval_pred
predictions = np.argmax(logits, axis=-1)
return metric.compute(predictions=predictions, references=labels)
NLP の Auto Model クラスを使用して、タスクに適したモデルを読み込みます。
テキスト分類の場合は、AutoModelForSequenceClassification を使用して、テキスト分類の基本モデルを読み込みます。 モデルを作成するときに、データセットの準備中に作成されたクラスの数とラベル マッピングを指定します。
from transformers import AutoModelForSequenceClassification
model = AutoModelForSequenceClassification.from_pretrained(
base_model,
num_labels=len(label2id),
label2id=label2id,
id2label=id2label
)
次に、トレーニング構成を作成します。 TrainingArguments クラスを使用すると、出力ディレクトリ、評価戦略、学習率、およびその他のパラメーターを指定できます。
from transformers import TrainingArguments, Trainer
training_args = TrainingArguments(output_dir=training_output_dir, evaluation_strategy="epoch")
データ コレーターを使用すると、トレーニングと評価データセットの入力がバッチ処理されます。 DataCollatorWithPadding により、テキスト分類のベースライン パフォーマンスが向上します。
from transformers import DataCollatorWithPadding
data_collator = DataCollatorWithPadding(tokenizer)
これらすべてのパラメーターが構築されたので、Trainer
を作成できるようになりました。
trainer = Trainer(
model=model,
args=training_args,
train_dataset=train_test_dataset["train"],
eval_dataset=train_test_dataset["test"],
compute_metrics=compute_metrics,
data_collator=data_collator,
)
トレーニングして MLflow に記録する
Hugging Face は MLflow と適切に連動し、MLflowCallback を使用してモデル トレーニング中にメトリックを自動的にログに記録します。 しかし、トレーニング済みのモデルは自分でログに記録する必要があります。
MLflow 実行でトレーニングをラップします。 これにより、トークナイザーとトレーニング済みのモデルから Transformers パイプラインが構築され、ローカル ディスクに書き込まれます。 最後に、mlflow.transformers.log_model を使用してモデルを MLflow に記録します。
from transformers import pipeline
with mlflow.start_run() as run:
trainer.train()
trainer.save_model(model_output_dir)
pipe = pipeline("text-classification", model=AutoModelForSequenceClassification.from_pretrained(model_output_dir), batch_size=1, tokenizer=tokenizer)
model_info = mlflow.transformers.log_model(
transformers_model=pipe,
artifact_path="classification",
input_example="Hi there!",
)
パイプラインを作成する必要がない場合は、トレーニングで使用されるコンポーネントをディクショナリに送信できます。
model_info = mlflow.transformers.log_model(
transformers_model={"model": trainer.model, "tokenizer": tokenizer},
task="text-classification",
artifact_path="text_classifier",
input_example=["MLflow is great!", "MLflow on Databricks is awesome!"],
)
推論のためにモデルを読み込む
モデルがログに記録され、準備ができたら、推論のためにモデルを読み込むのは、MLflow でラップされた事前トレーニング済みモデルの読み込みと同じです。
logged_model = "runs:/{run_id}/{model_artifact_path}".format(run_id=run.info.run_id, model_artifact_path=model_artifact_path)
# Load model as a Spark UDF. Override result_type if the model does not return double values.
loaded_model_udf = mlflow.pyfunc.spark_udf(spark, model_uri=logged_model, result_type='string')
test = test.select(test.text, test.label, loaded_model_udf(test.text).alias("prediction"))
display(test)
詳細については、「Azure Databricks でのモデルの提供」を参照してください。
一般的な CUDA エラーのトラブルシューティング
このセクションでは、一般的な CUDA エラーとその解決方法に関するガイダンスについて説明します。
OutOfMemoryError: CUDA のメモリ不足
大規模なモデルをトレーニングするときに発生する可能性がある一般的なエラーは、CUDA のメモリ不足エラーです。
例:
OutOfMemoryError: CUDA out of memory. Tried to allocate 20.00 MiB (GPU 0; 14.76 GiB total capacity; 666.34 MiB already allocated; 17.75 MiB free; 720.00 MiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF.
このエラーを解決するには、次の推奨事項を試します。
トレーニングのバッチ サイズを小さくします。 TrainingArguments で
per_device_train_batch_size
の値を小さくできます。精度の低いトレーニングを使用します。 TrainingArguments で
fp16=True
を設定できます。TrainingArguments で gradient_accumulation_steps を使用して、全体的なバッチ サイズを効果的に増やします。
8 ビットの Adam オプティマイザーを使用します。
トレーニングの前に GPU メモリをクリーンアップします。 GPU メモリが未使用のコードによって占有される場合があります。
from numba import cuda device = cuda.get_current_device() device.reset()
CUDA カーネル エラー
トレーニングを実行しているときに、CUDA カーネル エラーが発生する可能性があります。
例:
CUDA kernel errors might be asynchronously reported at some other API call, so the stacktrace below might be incorrect.
For debugging, consider passing CUDA_LAUNCH_BLOCKING=1.
トラブルシューティングを行うには:
CPU でコードを実行してみて、エラーを再現できるかどうかを確認します。
もう 1 つのオプションは、
CUDA_LAUNCH_BLOCKING=1
を設定して、より良いトレースバックを取得することです。import os os.environ["CUDA_LAUNCH_BLOCKING"] = "1"
ノートブック: 単一 GPU でテキスト分類を微調整する
コード例をすぐに使い始めるために、この例のノートブックでは、テキスト分類のモデルを微調整するためのエンドツーエンドの例が提供されます。 この記事の以降のセクションでは、Azure Databricks で Hugging Face を使用して微調整する方法について詳しく説明します。
Hugging Face テキスト分類モデル ノートブックの微調整
その他のリソース
Azure Databricks での Hugging Face についてさらに学習します。
- Hugging Face Transformers とは
- Spark で Hugging Face Transformers モデルを使用して、NLP バッチ アプリケーションをスケールアウトできます (NLP に Hugging Face Transformers を使用するモデル推論に関するページを参照してください)。