Основные понятия LLM
Существует несколько основных понятий, которые важно понимать для эффективного использования LLM, а именно маркеров и запросов.
- Запрос. Запрос — это текстовое предложение, используемое для указания LLM. В зависимости от того, как вы говорите предложение, вы получите разные результаты.
- Токен: маркер может быть одним символом, дробной частью слова или целым словом. Один маркер можно использовать для представления общих слов, а для представления менее распространенных слов требуется несколько маркеров.
Запросы
Текстовый запрос — это предложение. LLM понимает несколько различных языков. Запросы можно написать на своем языке без необходимости учиться конкретному языку для работы с LLM. См. следующие примеры запросов:
Создайте изображение розового попугая с пиратской шляпой.
Создайте веб-приложение в Python, которое обрабатывает клиентов.
Чем более конкретно вы говорите о том, что вы просите, тем лучше результат.
Токены
Маркер — это основной текст единицы или код, который LLM может понять и обработать.
Модели естественного языка OpenAI не работают с словами или символами в виде единиц текста, а на чем-то между: токенами.
OpenAI предоставляет полезный веб-сайт токенизатора, который поможет понять, как он маркеризирует ваши запросы. Дополнительные сведения см. в разделе "Токенизатор OpenAI".
Примечание.
После ввода в поле запроса токенизатора OpenAI счетчик будет подсчитывать общее количество маркеров в поле.
При активном вводе счетчик может занять несколько секунд.
Сколько маркеров есть в следующих словах?
Давайте попробуем определить количество маркеров для следующих слов apple
, blueberries
и Skarsgård
.
Поскольку слово является общим словом apple
, оно требует представления одного маркера. С другой стороны, слово blueberries
требует двух маркеров (blue
и berries
) для представления. Если слово не является общим, правильные имена, такие как Skarsgård
требование представления нескольких маркеров.
Это представление маркера позволяет моделям ИИ создавать слова, которые нельзя найти в словаре, не создавая текст на основе букв.
Примечание.
Создание текста по буквам может легко привести к гиббериш.
Как работает завершение?
Модели естественного языка создают завершения по одному маркеру за раз в недетерминированном режиме.
На каждом шаге модель выдает список маркеров и их связанных весов. Затем API примерирует один маркер из списка на основе его веса. Скорее всего, будут выбраны взвешированные маркеры.
API добавляет выбранный маркер в запрос и повторяет процесс до достижения максимальной длины маркеров для завершения или до тех пор, пока модель не создаст специальный маркер, называемый маркером остановки, что предотвращает создание новых маркеров.
Этот недетерминированный процесс заключается в том, что модель создает новые слова при каждом отправке запроса на завершение.
Примечание.
Каждый LLM имеет ограничение на количество маркеров, которые он может создать. В завершениях это ограничение применяется к общему количеству маркеров в исходном запросе и вновь созданным, как они добавляются вместе. Дополнительные сведения об ограничениях маркеров см. в моделях службы Azure OpenAI.
Более крупные ограничения маркеров позволяют выполнять более длинные завершения и гораздо больше запросов.