LLM 的核心概念

已完成

請務必了解一些核心概念,以有效地使用 LLM,即語彙基元和提示

  • 提示:提示是用來指示 LLM 的文字句子。 視您表達句子的方式而定,您會收到不同的結果。
  • 權杖:語彙基元可以是單一字元、單字的片段或整個單字。 單一語彙基元可用來表示一般單字,然而需要多個語彙基元來表示較不常見的單字。

提示

文字提示是一個句子。 LLM 了解數種不同的語言。 您可以用自己的語言撰寫提示,而不需要學習特定語言來處理 LLM。 請參閱下列提示範例:

  • 產生粉紅色鸚鵡與海賊帽的影像。

  • 在 Python 中建立處理客戶的 Web 應用程式。

您要求的內容越具體,結果就越好。

語彙基元

語彙基元是 LLM 可以了解和處理的基本單位文字或程式碼。

OpenAI 自然語言模型不會以單字或字元作為文字單位來運作,而是以中間概念為基礎:語彙基元。

OpenAI 提供實用的權杖化工具網站,可協助您了解其如何將要求權杖化。 如需詳細資訊,請參閱 OpenAI 權杖化工具

注意

在您開始在 OpenAI 權杖化工具提示方塊內輸入之後,計數器就會顯示計算方塊中的語彙基元的總數。

如果您主動輸入,則計數器可能需要幾秒鐘的時間才能更新。

下列字組有多少個語彙基元?

讓我們嘗試判斷下列字組 appleblueberriesSkarsgård 的語彙基元數目。

因為單字 apple 是一個常見的單字,所以需要一個語彙基元來表示。 另一方面,單字 blueberries 需要兩個語彙基元 (blueberries) 來表示。 除非這個字是常見的,否則適當的名稱如 Skarsgård 需要表示多個語彙基元。

此語彙基元表示法可讓 AI 模型產生無法在任何字典中找到的文字,不需要以逐個字母的方式產生文字。

注意

逐字母產生文字很容易產生無意義語句。

完成如何運作?

自然語言模型會以非決定性的方式一次產生完成一個語彙基元。

在每個步驟中,模型都會發出語彙基元清單及其相關聯的權數。 然後,API 會根據其權數從清單中取樣一個語彙基元。 重加權語彙基元更有可能被選取。

圖表顯示代表 n 個輸入語彙基元數目的方塊,其旁邊有一個箭號指向代表一個輸出語彙基元的方塊。

API 會將選取的語彙基元新增至提示,並重複此程序,直到到達完成的語彙基元長度上限,或直到模型產生稱為停止語彙基元的特殊語彙基元為止,這可防止產生新的語彙基元。

此非決定性程序會在每次我們傳送完成要求時,讓模型產生新的字組。

注意

每個 LLM 都有可產生語彙基元數目的限制。 在完成時,此限制會套用至原始提示中的語彙基元總數,以及加在一起時新產生的語彙基元。 如需語彙基元限制的詳細資訊,請參閱 Azure OpenAI 服務模型

較大的語彙基元限制允許較長的完成和較大的提示。