Principy LLM

5 min

Velký jazykový model (LLM) je typ AI, který dokáže zpracovat a vytvořit text přirozeného jazyka. Učí se z obrovského množství dat shromážděných ze zdrojů, jako jsou knihy, články, webové stránky a obrázky, a zjišťuje vzory a pravidla jazyka.

Jak velké jsou?

LLM se sestavuje pomocí architektury neurální sítě. Přebírá vstup, má několik skrytých vrstev, které rozdělují různé aspekty jazyka a vytvářejí se ve výstupní vrstvě.

Lidé často hlásí, jak je nejnovější základní model větší než poslední, ale co to znamená? Stručně řečeno, čím více parametrů model má, tím více dat může zpracovávat, učit se a generovat.

Pro každé spojení mezi dvěma neurony architektury neurální sítě existuje funkce: váha * vstup + předsudky. Tato síť vytváří číselné hodnoty, které určují, jak model zpracovává jazyk.

LLM jsou skutečně velké a rychle rostou. Některé modely můžou vypočítat miliony parametrů v roce 2018. Dnes ale GPT-4 dokáže vypočítat bilióny parametrů.

Diagram znázorňující různé generace LLM přidružených k počtu parametrů, které má každý model

Kde se základní modely vejdou do LLM?

Základní model odkazuje na konkrétní instanci nebo verzi LLM. Například GPT-3, GPT-4 nebo Codex.

Základní modely se trénují a dolaďují na rozsáhlém korpusu textu nebo kódu, pokud se jedná o instanci modelu Codex.

Základní model přebírá trénovací data ve všech různých formátech a k vytvoření obecného modelu používá architekturu transformátoru. Přizpůsobení a specializace je možné vytvořit k dosažení určitých úkolů prostřednictvím výzev nebo vyladění.

Jak se LLM liší od tradičního zpracování přirozeného jazyka (NLP)?

Existuje několik věcí, které oddělují tradiční vyrovnávání zatížení sítě od LLM.

Tradiční NLP	Velké jazykové modely
Je potřeba jeden model pro každou schopnost.	Jeden model se používá pro mnoho případů použití přirozeného jazyka.
Poskytuje sadu označených dat pro trénování modelu ML.	Používá mnoho terabajtů neoznačeného dat v základním modelu.
Popisuje v přirozeném jazyce, co má model dělat.	Vysoce optimalizované pro konkrétní případy použití.

Co dělá LLM?

Stejně důležité je pochopit, co může LLM dělat, je stejně důležité pochopit, co nemůže udělat, abyste zvolili správný nástroj pro úlohu.

Vysvětlení jazyka: LLM je prediktivní modul, který na základě existujícího textu vytváří více textu. Nerozumí jazyku ani matematickým operacím.
Vysvětlení faktů: LLM nemá samostatné režimy pro načítání informací a kreativní psaní. Jednoduše předpovídá další nejpravděpodobnější token.
Pochopení způsobů, emocí nebo etiky: LLM nemůže vykazovat antropomorfismus ani pochopit etiku. Výstupem základního modelu je kombinace trénovacích dat a výzev.

Principy LLM

Jak velké jsou?

Kde se základní modely vejdou do LLM?

Jak se LLM liší od tradičního zpracování přirozeného jazyka (NLP)?

Co dělá LLM?

Váš názor