Использование языковых моделей

Завершено

Организации и разработчики могут обучать свои собственные языковые модели с нуля, но в большинстве случаев практичнее использовать существующую базовую модель и при необходимости проводить ее тонкую настройку с помощью собственных обучающих данных. Существует множество источников моделей, которые можно использовать.

В Microsoft Azure можно найти базовые модели в службе Azure OpenAI и в каталоге моделей. Каталог моделей — это курируемый источник моделей для специалистов по обработке и анализу данных и разработчиков с помощью Azure AI Studio и Машинное обучение Azure. Это создает преимущество в виде наличия передовых языковых моделей, таких как набор моделей генеративных предварительно обученных преобразователей, или GPT (на которых основаны ChatGPT и собственные службы генеративного ИИ Microsoft), а также модель DALL-E для генерации изображений. Использование этих моделей из службы Azure OpenAI означает также, что вы используете безопасную масштабируемую облачную платформу Azure, на которой размещены модели.

Помимо моделей Azure OpenAI, в каталоге моделей содержатся новейшие модели с открытым исходным кодом от Microsoft и ряда партнеров, в том числе:

  • OpenAI
  • HuggingFace
  • Mistral
  • Мета и другие.

Ниже приведены некоторые распространенные модели Azure OpenAI:

  • GPT-3.5-Turbo, GPT-4 и GPT-4o: языковые модели бесед и сообщений.
  • GPT-4 Turbo с vision: языковая модель, разработанная OpenAI, которая может анализировать изображения и предоставлять текстовые ответы на вопросы о них. Он включает как обработку естественного языка, так и визуальное понимание.
  • DALL-E: языковая модель, которая создает исходные изображения, вариации изображений и может изменять изображения.

Крупные и небольшие языковые модели

Существует множество языковых моделей, которые можно использовать для решений генеративного ИИ. Как правило, языковые модели можно рассматривать в рамках двух категорий: большие языковые модели  (LLM) и малые языковые модели (SLM).

Большие языковые модели (LLM) Малые языковые модели (SLM)
LLM обучаются с использованием большого количества текста с широким спектр тем общей направленности, как правило, путем получения данных из Интернета и общедоступных публикаций. SMS обучены с меньшими, более ориентированными на субъекты наборами данных
При обучении LLM имеет много миллиардов параметров (даже триллионов) параметров (весов, которые можно применить к векторным внедрениям для вычисления прогнозируемых последовательностей токенов). Обычно имеют меньше параметров, чем LLM.
Возможность демонстрировать комплексные возможности создания языков в широком спектре контекстов общения. Благодаря специализированному словарю они весьма эффективны в конкретных тематиках, но менее эффективны при генерировании языка для более общих тем.
Их большой размер может повлиять на производительность и затруднить их локальное развертывание на устройствах и компьютерах. Благодаря меньшему размеру SLM может предлагать больше возможностей для развертывания, включая локальное развертывание на устройствах и локальных компьютерах, а также более быструю и простую тонкую настройку.
Тонкой настройке модели с дополнительными данными для настройки опыта субъекта может быть много времени и дорого с точки зрения вычислительной мощности, необходимой для выполнения дополнительного обучения. Точное настройка может быть менее трудоемкой и дорогой.