了解 LLM
大型語言模型 (LLM) 是一種可處理及產生自然語言文字的 AI 類型。 此模型會從收集自書籍、文章、網頁和影像等來源的大量資料中學習,以探索語言的模式和規則。
其規模為何?
LLM 是使用神經網路架構建置的。 模型需要輸入、有數個隱藏層細分了語言的不同層面,並且在輸出層產生結果。
常有報告指出,最新的基礎模型又創下了最大規模,這是什麼意思? 簡言之,模型的參數越多,所能處理、學習及產生的資料越多。
神經網路架構的兩個神經元之間的每個連線,都適用一個函式:權數 * 輸入 + 偏差。 此網路會產生數值,以決定模型處理語言的方式。
LLM 確實很大,且發展迅速。 2018 年,有些模型可計算數百萬個參數。 但時至今日,GPT-4 已可計算數兆個參數。
基礎模型適用於 LLM 之處為何?
基礎模型是指 LLM 的特定執行個體或版本。 例如,GPT-3、GPT-4 或 Codex。
基礎模型會根據文字的大型語料庫來定型和微調 (若是 Codex 模型執行個體,則根據程式碼)。
基礎模型採用各種不同格式的定型資料,並使用轉換器架構來建置一般模型。 您可以建立調整和特製化,以透過提示或微調完成特定工作。
LLM 與傳統的自然語言處理 (NLP) 有何不同?
有若干因素產生了傳統 NLP 與 LLM 的區別。
傳統 NLP | 大型語言模型 |
---|---|
每個功能需要一個模型。 | 單一模型可用於多個自然語言使用案例。 |
提供一組已標記的資料來定型 ML 模型。 | 在基礎模型中使用數 TB 的未標記資料。 |
以自然語言描述您想要讓模型執行的動作。 | 針對特定使用案例進行高度最佳化。 |
什麼是 LLM 做不到的?
除了要了解 LLM 的功能,了解什麼是 LLM 做不到的也同樣重要,這樣您才能選擇正確的工具。
理解語言:LLM 是一種預測引擎,會根據預先存在的文字彙整模式,以產生更多文字。 它無法理解語言或數學。
理解事實:LLM 在資訊擷取和創意寫作方面沒有個別的模式;它只會預測下一個最有可能的語彙基元。
理解禮節、情感或道德:LLM 無法表現擬人化特質或理解道德。 基礎模型的輸出是定型資料和提示的組合。