了解 LLM

大型語言模型 (LLM) 是一種可處理及產生自然語言文字的 AI 類型。此模型會從收集自書籍、文章、網頁和影像等來源的大量資料中學習，以探索語言的模式和規則。

其規模為何？

LLM 是使用神經網路架構建置的。模型需要輸入、有數個隱藏層細分了語言的不同層面，並且在輸出層產生結果。

常有報告指出，最新的基礎模型又創下了最大規模，這是什麼意思？簡言之，模型的參數越多，所能處理、學習及產生的資料越多。

神經網路架構的兩個神經元之間的每個連線，都適用一個函式：權數 * 輸入 + 偏差。此網路會產生數值，以決定模型處理語言的方式。

LLM 確實很大，且發展迅速。 2018 年，有些模型可計算數百萬個參數。但時至今日，GPT-4 已可計算數兆個參數。

此圖顯示與每個模型擁有的參數數目相關聯的不同代 LLM。

基礎模型是指 LLM 的特定執行個體或版本。例如，GPT-3、GPT-4 或 Codex。

基礎模型會根據文字的大型語料庫來定型和微調 (若是 Codex 模型執行個體，則根據程式碼)。

基礎模型採用各種不同格式的定型資料，並使用轉換器架構來建置一般模型。您可以建立調整和特製化，以透過提示或微調完成特定工作。

有若干因素產生了傳統 NLP 與 LLM 的區別。

除了要了解 LLM 的功能，了解什麼是 LLM 做不到的也同樣重要，這樣您才能選擇正確的工具。