Základní koncepty LLM

Dokončeno

Existuje několik základních konceptů, kterým je důležité porozumět efektivnímu používání LLM, konkrétně tokenů a výzev.

  • Výzva: Výzva je textová věta, která slouží k zadání pokynu LLM. V závislosti na tom, jak větu oslovíte, získáte různé výsledky.
  • Token: Token může být jeden znak, zlomek slova nebo celé slovo. Jeden token lze použít k reprezentaci běžných slov, zatímco k reprezentaci méně běžných slov je potřeba více tokenů.

Výzvy

Textová výzva je věta. LLM rozumí několika různým jazykům. Výzvy můžete psát ve vlastním jazyce, aniž byste se museli učit konkrétní jazyk pro práci s LLM. Podívejte se na následující příklady výzev:

  • Vygenerujte obraz růžového papouška s pirátským kloboukem.

  • Vytvořte webovou aplikaci v Pythonu, která zpracovává zákazníky.

Konkrétnější je, co požadujete, tím lepší je výsledek.

Tokeny

Token je základní text jednotky nebo kód, který LLM dokáže pochopit a zpracovat.

Modely přirozeného jazyka OpenAI nepracují se slovy nebo znaky jako s jednotkami textu, ale na něčem mezi: tokeny.

OpenAI poskytuje užitečný web tokenizátoru, který vám pomůže pochopit, jak tokenizuje vaše požadavky. Další informace naleznete v tématu OpenAI tokenizer.

Poznámka:

Po zahájení zadávání do pole výzvy OpenAI tokenizer se zobrazí čítač, který spočítá celkový počet tokenů v poli.

Pokud aktivně píšete, aktualizace čítače může trvat několik sekund.

Kolik tokenů je v následujících slovech?

Pojďme se pokusit určit počet tokenů pro následující slova apple, blueberriesa Skarsgård.

Vzhledem k tomu, že slovo apple je běžné slovo, vyžaduje, aby byl reprezentován jeden token. Na druhé straně slovo blueberries vyžaduje, aby byly reprezentovány dva tokeny (blue a berries). Pokud není slovo běžné, musí být reprezentované správné názvy Skarsgård jako více tokenů.

Toto vyjádření tokenu umožňuje modelům AI generovat slova, která nemůžete najít v žádném slovníku, aniž byste museli generovat text podle písmen.

Poznámka:

Generování textu po písmenech by mohlo snadno vést k gibberish.

Jak funguje dokončení?

Modely přirozeného jazyka generují dokončování po jednom tokenu nedeterministickým způsobem.

V každém kroku model vygeneruje seznam tokenů a jejich přidružené váhy. Rozhraní API pak na základě své váhy vypíše jeden token ze seznamu. S větší pravděpodobností budou vybrány silně vážené tokeny.

Diagram znázorňující více čtvercových bloků, které představují n počet vstupních tokenů se šipkou vedle nich ukazující na jeden čtvercový blok, který představuje jeden výstupní token

Rozhraní API přidá vybraný token do výzvy a tento proces opakuje, dokud nedosáhne maximální délky tokenů pro dokončení nebo dokud model negeneruje speciální token s názvem token stop, který brání generování nových tokenů.

Díky tomuto nedeterministickému procesu model při každém odeslání požadavku na dokončení generuje nová slova.

Poznámka:

Každý LLM má limit počtu tokenů, které může vygenerovat. V dokončení se tento limit vztahuje na celkový počet tokenů v původní výzvě a nově vygenerované tokeny, které se přidají dohromady. Další informace o limitech tokenů najdete v modelech služby Azure OpenAI.

Větší limity tokenů umožňují delší dokončení a mnohem větší výzvy.