Общие сведения о LLM
Большая языковая модель (LLM) — это тип ИИ, который может обрабатывать и создавать текст естественного языка. Он учится на большом количестве данных, собранных из источников, таких как книги, статьи, веб-страницы и изображения для обнаружения шаблонов и правил языка.
Насколько они большие?
LLM создается с помощью архитектуры нейронной сети. Он принимает входные данные, имеет несколько скрытых слоев, которые разбивают различные аспекты языка и создаются на выходном слое.
Люди часто сообщают, как последняя базовая модель больше последней, но что это означает? Короче говоря, чем больше параметров у модели, тем больше данных он может обрабатывать, учиться и создавать.
Для каждого соединения между двумя нейронами архитектуры нейронной сети есть функция: вес * входные и предвзятость. Эта сеть создает числовые значения, определяющие способ обработки языка модели.
LLM действительно большие, и быстро растет. Некоторые модели могут вычислить миллионы параметров в 2018 году. Но сегодня GPT-4 может вычислить триллионы параметров.
Где базовые модели вписываются в LLM?
Базовая модель относится к конкретному экземпляру или версии LLM. Например, GPT-3, GPT-4 или Codex.
Базовые модели обучены и настраиваются на большом корпусе текста или коде, если это экземпляр модели Codex.
Базовая модель принимает данные обучения во всех разных форматах и использует архитектуру преобразователя для создания общей модели. Адаптации и специализации можно создавать для достижения определенных задач с помощью запросов или тонкой настройки.
Как LLM отличается от более традиционной обработки естественного языка (NLP)?
Существует несколько вещей, которые отделяют традиционные NLP от LLM.
Традиционная NLP | Большие языковые модели |
---|---|
Требуется одна модель для каждой возможности. | Одна модель используется для многих вариантов использования естественного языка. |
Предоставляет набор помеченных данных для обучения модели машинного обучения. | Использует много терабайтов неназначенных данных в базовой модели. |
Описывается на естественном языке, что вы хотите сделать модель. | Высокооптимизировался для конкретных вариантов использования. |
Что не делает LLM?
Так же важно, как понять, что может сделать LLM, важно понять, что он не может сделать так, чтобы вы выбрали правильный инструмент для задания.
Общие сведения о языке: LLM — это прогнозный механизм, который объединяет шаблоны на основе уже существующего текста, чтобы создать больше текста. Он не понимает язык или математику.
Понять факты: LLM не имеет отдельных режимов для получения информации и творческой записи; он просто прогнозирует следующий наиболее вероятный токен.
Понимание манер, эмоций или этики: LLM не может проявлять антропоморфизм или понимать этику. Выходные данные базовой модели — это сочетание обучающих данных и запросов.