LLM について理解する

大規模言語モデル (LLM) は、自然言語テキストを処理して生成できる AI の一種です。書籍、記事、Web ページ、画像などのソースから収集された大量のデータから学習し、言語のパターンやルールを検出します。

LLM の規模

LLM は、ニューラルネットワークアーキテクチャを使用して構築されます。入力を受け取り、いくつかの隠れ層で言語のさまざまな側面を分解し、出力層で生成します。

最新の基本モデルは前回のモデルよりどの程度大きいかという内容がよく報告されますが、これはどういう意味でしょうか。簡単に言うと、モデルに含まれる "パラメータ" が多いほど、処理、学習、生成できるデータが多くなります。

ニューラルネットワークアーキテクチャの 2 つのニューロン間の接続ごとに、重み * 入力 + バイアスという関数があります。このネットワークは、モデルが言語を処理する方法を決定する数値を生成します。

LLM は非常に大規模で、急速に成長しています。一部のモデルが 2018 年に計算したパラメータは数百万個に上ります。しかし現在、GPT-4 では "数兆個" のパラメータを計算することが可能です。

各モデルに含まれるパラメーターの数が関連付けられた、さまざまな世代の LLM を示す図。

"基本モデル" は、LLM の特定のインスタンスまたはバージョンです。たとえば、GPT-3、GPT-4、Codex などです。

基本モデルは、テキストの大規模なコーパス (Codex モデルインスタンスの場合はコード) でトレーニングされ、微調整されます。

基本モデルはさまざまな形式のトレーニングデータを取り込み、トランスフォーマーアーキテクチャを使用して一般的なモデルを構築します。適応と特殊化を作成すると、プロンプトまたは微調整を使用して特定のタスクを実行できます。

従来の NLP と LLM には相違点がいくつかあります。

従来の NLP	大規模言語モデル
機能ごとに 1 つのモデルが必要。	1 つのモデルが多くの自然言語ユースケースで使用される。
ML モデルをトレーニングするためのラベル付きデータのセットを提供。	基本モデルでは、何テラバイトものラベルなしデータを使用。
モデルで実行する内容を自然言語で記述。	特定のユースケース向けに高度に最適化されている。

LLM にできないことを理解することは、LLM にできることを理解するのと同じくらい重要です。これを理解することで、ジョブに適したツールを選択できるようになります。

言語を理解する: LLM は、既存のテキストに基づいてパターンをまとめて抽出し、より多くのテキストを生成する予測エンジンです。 LLM は、言語や数式を理解しません。
事実を理解する: LLM には、情報の取得やクリエイティブな文書作成のための個別モードはありません。次に最も可能性の高いトークンを予測するだけです。
マナー、感情、倫理を理解する: LLM は、擬人化を示したり、倫理を理解したりすることはできません。基本モデルの出力は、トレーニングデータとプロンプトを組み合わせたものです。