使用语言模型
组织和开发人员可以从头开始定型其语言模型,但在大多数情况下,使用现有基础模型更实用,并可以选择使用自己的定型数据对其进行微调。 可以使用许多模型源。
在 Microsoft Azure 上,可以在 Azure OpenAI 服务和模型目录中找到基础模型。 模型目录是为使用 Azure AI Studio 和 Azure 机器学习的数据科学家和开发人员策展的模型源。 这提供了尖端语言模型的权益,如生成式预训练转换器 (GPT) 模型集合(ChatGPT 和 Microsoft 自己的生成式 AI 服务基于此)以及用于图像生成的 DALL-E 模型。 使用 Azure OpenAI 服务中的这些模型表示还可以获得托管模型的安全、可缩放的 Azure 云平台的权益。
除了 Azure OpenAI 模型外,模型目录还包括来自 Microsoft 和多个合作伙伴的最新开放源代码模型,包括:
- OpenAI
- HuggingFace
- Mistral
- Meta 和其他模型。
一些常见的 Azure OpenAI 模型包括:
- GPT-3.5-Turbo、GPT-4 和 GPT-4o:对话传入和消息传出语言模型。
- GPT-4 Turbo with Vision:OpenAI 开发的语言模型,可以分析图像,并为关于它们的问题提供文本响应。 它结合了自然语言处理和视觉理解。
- DALL-E:生成原创图像、图像变体并且可以编辑图像的语言模型。
大型和小型语言模型
有许多可用语言模型可以用来为生成式 AI 应用提供动力。 一般来说,语言模型可以分为两类:大型语言模型 (LLM) 和小型语言模型 (SLM)。
大型语言模型 (LLM) | 小型语言模型 (SLM) |
---|---|
LLM 使用大量代表广泛一般主题的文本进行定型,通常通过从互联网和其他正式发布的发布中获取数据。 | SLM 使用更小、更注重主题的数据集进行定型 |
定型时,LLM 具有数十亿(甚至数万亿)的参数(可以应用于向量嵌入以计算预测的令牌序列的权重)。 | 通常具有比 LLM 更少的参数。 |
能够在广泛的会话环境中表现出全面的语言生成能力。 | 这种集中的词汇使其在特定对话主题中非常有效,但在更一般的语言生成中效果较差。 |
它们的大型大小会影响其性能,并使它们难以在设备和计算机上进行本地部署。 | SLM 的较小尺寸可以提供更多部署选择,包括在设备和本地计算机上进行本地部署;并使它们更快、更易于微调。 |
用额外的数据对模型进行微调以定制其主题专长可能比较耗时,而且就执行额外定型所需的计算能力而言较为昂贵。 | 微调可能不那么耗时和昂贵。 |