Общие сведения о LLM

Завершено

Большая языковая модель (LLM) — это тип ИИ, который может обрабатывать и создавать текст естественного языка. Он учится на большом количестве данных, собранных из источников, таких как книги, статьи, веб-страницы и изображения для обнаружения шаблонов и правил языка.

Насколько они большие?

LLM создается с помощью архитектуры нейронной сети. Он принимает входные данные, имеет несколько скрытых слоев, которые разбивают различные аспекты языка и создаются на выходном слое.

Люди часто сообщают, как последняя базовая модель больше последней, но что это означает? Короче говоря, чем больше параметров у модели, тем больше данных он может обрабатывать, учиться и создавать.

Для каждого соединения между двумя нейронами архитектуры нейронной сети есть функция: вес * входные и предвзятость. Эта сеть создает числовые значения, определяющие способ обработки языка модели.

LLM действительно большие, и быстро растет. Некоторые модели могут вычислить миллионы параметров в 2018 году. Но сегодня GPT-4 может вычислить триллионы параметров.

Схема, показывающая различные поколения LLM, связанных с количеством параметров каждой модели.

Где базовые модели вписываются в LLM?

Базовая модель относится к конкретному экземпляру или версии LLM. Например, GPT-3, GPT-4 или Codex.

Базовые модели обучены и настраиваются на большом корпусе текста или коде, если это экземпляр модели Codex.

Базовая модель принимает данные обучения во всех разных форматах и использует архитектуру преобразователя для создания общей модели. Адаптации и специализации можно создавать для достижения определенных задач с помощью запросов или тонкой настройки.

Как LLM отличается от более традиционной обработки естественного языка (NLP)?

Существует несколько вещей, которые отделяют традиционные NLP от LLM.

Традиционная NLP Большие языковые модели
Требуется одна модель для каждой возможности. Одна модель используется для многих вариантов использования естественного языка.
Предоставляет набор помеченных данных для обучения модели машинного обучения. Использует много терабайтов неназначенных данных в базовой модели.
Описывается на естественном языке, что вы хотите сделать модель. Высокооптимизировался для конкретных вариантов использования.

Что не делает LLM?

Так же важно, как понять, что может сделать LLM, важно понять, что он не может сделать так, чтобы вы выбрали правильный инструмент для задания.

  • Общие сведения о языке: LLM — это прогнозный механизм, который объединяет шаблоны на основе уже существующего текста, чтобы создать больше текста. Он не понимает язык или математику.

  • Понять факты: LLM не имеет отдельных режимов для получения информации и творческой записи; он просто прогнозирует следующий наиболее вероятный токен.

  • Понимание манер, эмоций или этики: LLM не может проявлять антропоморфизм или понимать этику. Выходные данные базовой модели — это сочетание обучающих данных и запросов.