言語モデルを使用する
組織や開発者は、独自の言語モデルをゼロからトレーニングできますが、ほとんどの場合、既存の基盤モデルを使用し、必要に応じて独自のトレーニング データで微調整する方が現実的です。 使用できるモデルのソースは多数あります。
Microsoft Azure では、Azure OpenAI サービスと Model Catalog に基盤モデルがあります。 Model Catalog は、Azure AI Studio と Azure Machine Learning を使用するデータ サイエンティストや開発者向けの選別されたモデルのソースです。 これにより、(ChatGPT や Microsoft の独自の生成 AI サービスの基になる) モデルの生成事前学習トランスフォーマー (GPT) コレクションや画像生成用の DALL-E モデルなどの最先端の言語モデルの利点が得られます。 Azure OpenAI サービスのこれらのモデルを使用すると、モデルがホストされている安全かつスケーラブルな Azure クラウド プラットフォームの利点も得られます。
モデル カタログには、Azure OpenAI モデルに加えて、Microsoft と複数のパートナーからの最新のオープンソース モデルが含まれています。これには次のものが含まれます。
- OpenAI
- HuggingFace
- ミストラル
- メタなど。
一般的な Azure OpenAI モデルのいくつかを次に示します。
- GPT-3.5-Turbo、GPT-4、GPT-4o:会話入力、メッセージ出力の言語モデル。
- GPT-4 Turbo with Vision:OpenAI によって開発された言語モデル。画像を分析し、それに関する質問に対してテキストの回答を提供することができます。 自然言語処理とビジュアル解釈の両方が組み込まれています。
- DALL-E:オリジナルの画像や画像のバリエーションを生成し、画像を編集できる言語モデル。
大規模/小規模言語モデル
生成 AI アプリケーションを動かすために使用できる言語モデルは多数あります。 一般に、検討できる言語モデルは次の 2 つに分類されます。"大規模言語モデル" (LLM) と "小規模言語モデル" (SLM) です。
大規模言語モデル (LLM) | 小規模言語モデル (SLM) |
---|---|
LLM は、広い範囲の一般的な主題を表す膨大な量のテキストでトレーニングされます (通常、データのソースとしてインターネットやその他の一般提供されているパブリケーションが使用されます)。 | SLM は、より小さい、より主題に重点を置いたデータセットを使ってトレーニングされます。 |
トレーニング時、LLM には数十億 (または数兆もの) パラメーターがあります (予測されたトークン シーケンスを計算するためにベクター埋め込みに適用できる重み)。 | 通常、パラメーターの数は LLM よりも少なくなります。 |
幅広い会話コンテキストで包括的な言語生成能力を発揮できます。 | この重点を置いたボキャブラリにより、特定の会話トピックでは非常に効果が高くなりますが、より一般的な言語生成では効果が低くなります。 |
サイズが大きいとパフォーマンスに影響し、デバイスやコンピューターにローカルに展開するのが困難になる可能性があります。 | SLM のサイズが小さいほど、デバイスやオンプレミス コンピューターへのローカル展開など、展開のオプションが増える可能性があり、これにより、高速化が実現され、微調整が簡単になります。 |
追加のデータを使用してモデルを微調整してその主題の専門知識をカスタマイズするのは時間がかかり、追加のトレーニングを実行するのに必要なコンピューティング能力の面でコストがかかる場合があります。 | 微調整すると、時間とコストが削減される可能性があります。 |