LLM 的核心概念
請務必了解一些核心概念,以有效地使用 LLM,即語彙基元和提示。
- 提示:提示是用來指示 LLM 的文字句子。 視您表達句子的方式而定,您會收到不同的結果。
- 權杖:語彙基元可以是單一字元、單字的片段或整個單字。 單一語彙基元可用來表示一般單字,然而需要多個語彙基元來表示較不常見的單字。
提示
文字提示是一個句子。 LLM 了解數種不同的語言。 您可以用自己的語言撰寫提示,而不需要學習特定語言來處理 LLM。 請參閱下列提示範例:
產生粉紅色鸚鵡與海賊帽的影像。
在 Python 中建立處理客戶的 Web 應用程式。
您要求的內容越具體,結果就越好。
語彙基元
語彙基元是 LLM 可以了解和處理的基本單位文字或程式碼。
OpenAI 自然語言模型不會以單字或字元作為文字單位來運作,而是以中間概念為基礎:語彙基元。
OpenAI 提供實用的權杖化工具網站,可協助您了解其如何將要求權杖化。 如需詳細資訊,請參閱 OpenAI 權杖化工具。
注意
在您開始在 OpenAI 權杖化工具提示方塊內輸入之後,計數器就會顯示計算方塊中的語彙基元的總數。
如果您主動輸入,則計數器可能需要幾秒鐘的時間才能更新。
下列字組有多少個語彙基元?
讓我們嘗試判斷下列字組 apple
、blueberries
和 Skarsgård
的語彙基元數目。
因為單字 apple
是一個常見的單字,所以需要一個語彙基元來表示。 另一方面,單字 blueberries
需要兩個語彙基元 (blue
和 berries
) 來表示。 除非這個字是常見的,否則適當的名稱如 Skarsgård
需要表示多個語彙基元。
此語彙基元表示法可讓 AI 模型產生無法在任何字典中找到的文字,不需要以逐個字母的方式產生文字。
注意
逐字母產生文字很容易產生無意義語句。
完成如何運作?
自然語言模型會以非決定性的方式一次產生完成一個語彙基元。
在每個步驟中,模型都會發出語彙基元清單及其相關聯的權數。 然後,API 會根據其權數從清單中取樣一個語彙基元。 重加權語彙基元更有可能被選取。
API 會將選取的語彙基元新增至提示,並重複此程序,直到到達完成的語彙基元長度上限,或直到模型產生稱為停止語彙基元的特殊語彙基元為止,這可防止產生新的語彙基元。
此非決定性程序會在每次我們傳送完成要求時,讓模型產生新的字組。
注意
每個 LLM 都有可產生語彙基元數目的限制。 在完成時,此限制會套用至原始提示中的語彙基元總數,以及加在一起時新產生的語彙基元。 如需語彙基元限制的詳細資訊,請參閱 Azure OpenAI 服務模型。
較大的語彙基元限制允許較長的完成和較大的提示。