了解 LLM

已完成

大型語言模型 (LLM) 是一種可處理及產生自然語言文字的 AI 類型。 此模型會從收集自書籍、文章、網頁和影像等來源的大量資料中學習,以探索語言的模式和規則。

其規模為何?

LLM 是使用神經網路架構建置的。 模型需要輸入、有數個隱藏層細分了語言的不同層面,並且在輸出層產生結果。

常有報告指出,最新的基礎模型又創下了最大規模,這是什麼意思? 簡言之,模型的參數越多,所能處理、學習及產生的資料越多。

神經網路架構的兩個神經元之間的每個連線,都適用一個函式:權數 * 輸入 + 偏差。 此網路會產生數值,以決定模型處理語言的方式。

LLM 確實很大,且發展迅速。 2018 年,有些模型可計算數百萬個參數。 但時至今日,GPT-4 已可計算數個參數。

此圖顯示與每個模型擁有的參數數目相關聯的不同代 LLM。

基礎模型適用於 LLM 之處為何?

基礎模型是指 LLM 的特定執行個體或版本。 例如,GPT-3、GPT-4 或 Codex。

基礎模型會根據文字的大型語料庫來定型和微調 (若是 Codex 模型執行個體,則根據程式碼)。

基礎模型採用各種不同格式的定型資料,並使用轉換器架構來建置一般模型。 您可以建立調整和特製化,以透過提示或微調完成特定工作。

LLM 與傳統的自然語言處理 (NLP) 有何不同?

有若干因素產生了傳統 NLP 與 LLM 的區別。

傳統 NLP 大型語言模型
每個功能需要一個模型。 單一模型可用於多個自然語言使用案例。
提供一組已標記的資料來定型 ML 模型。 在基礎模型中使用數 TB 的未標記資料。
以自然語言描述您想要讓模型執行的動作。 針對特定使用案例進行高度最佳化。

什麼是 LLM 做不到的?

除了要了解 LLM 的功能,了解什麼是 LLM 做不到的也同樣重要,這樣您才能選擇正確的工具。

  • 理解語言:LLM 是一種預測引擎,會根據預先存在的文字彙整模式,以產生更多文字。 它無法理解語言或數學。

  • 理解事實:LLM 在資訊擷取和創意寫作方面沒有個別的模式;它只會預測下一個最有可能的語彙基元。

  • 理解禮節、情感或道德:LLM 無法表現擬人化特質或理解道德。 基礎模型的輸出是定型資料和提示的組合。