共用方式為


了解權杖

語彙基元是字組、字元集或字組與標點符號的組合,被大型語言模型 (LLM) 用來分解文字。 語彙基元化是定型的第一個步驟。 LLM 會分析語彙基元之間的語意關聯性,例如其一起使用的頻率,或其是否用於類似的內容中。 定型之後,LLM 會使用這些模式和關聯性,根據輸入序列產生輸出語彙基元的序列。

將文字轉換成語彙基元

定型 LLM 所依據的唯一語彙基元集稱為其「詞彙」

例如,您可以參考以下句子:

我聽到一隻狗大聲地對著貓吠

此文字可以語彙基元化為:

  • I
  • heard
  • 上午
  • bark
  • loudly
  • 時間
  • a
  • cat

藉由具有足夠大的定型文字集,語彙基元化可以編譯數千個語彙基元的詞彙。

常見的語彙基元化方法

特定語彙基元化方法因 LLM 而異。 常見的語彙基元化方法包括:

  • 字組語彙基元化 (文字根據分隔符號分割成個別字組)
  • 字元語彙基元化 (文字分割成個別字元)
  • 詞根語彙基元化 (文字分割成部分字組或字元集)

例如,由 OpenAI 開發的 GPT 模型會使用稱為「位元組配對編碼」 (BPE) 的詞根語彙基元化類型。 OpenAI 會提供工具來視覺化文字將如何語彙基元化

每個語彙基元化方法都有優點和缺點:

語彙基元大小 優點 缺點
較小的語彙基元 (字元或詞根語彙基元化) - 讓模型能夠處理更廣泛的輸入,例如未知字組、錯字或複雜語法。
- 可能允許減少詞彙大小,藉此需要較少的記憶體資源。
- 給定文字會分成更多的語彙基元,這在處理時需要額外的計算資源
- 假設有固定的語彙基元限制,模型輸入和輸出的大小上限較小
較大的語彙基元 (字組語彙基元化) - 給定文字會分成更少的語彙基元,這在處理時需要更少的計算資源。
- 假設有相同的語彙基元限制,模型輸入和輸出的大小上限較大。
- 可能會導致詞彙大小增加,這需要更多記憶體資源。
- 可以限制模型處理未知字組、錯字或複雜語法的能力。

LLM 如何使用語彙基元

在 LLM 完成語彙基元化之後,其會將識別碼指派給每個唯一語彙基元。

請考慮我們的範例句子:

我聽到一隻狗大聲地對著貓吠

在模型使用字組語彙基元化方法之後,其可以指派語彙基元識別碼,如下所示:

  • 我 (1)
  • 聽到 (2)
  • 一隻 (3)
  • 狗 (4)
  • 吠 (5)
  • 大聲地 (6)
  • 對著 (7)
  • a ("a" 語彙基元已獲指派識別碼 3)
  • 貓 (8)

藉由指派識別碼,文字可以表示為一連串的語彙基元識別碼。 範例句子將表示為 [1, 2, 3, 4, 5, 6, 7, 3, 8]。 句子「我聽到貓叫聲」將表示為 [1, 2, 3, 8]。

隨著定型繼續,模型會將定型文字中的任何新語彙基元新增至其詞彙,並為其指派識別碼。 例如:

  • 喵 (9)
  • run (10)

您可以使用這些語彙基元識別碼序列,來分析語彙基元之間的語意關聯性。 多重值數值向量,稱為內嵌,用來表示這些關聯性。 根據每個語彙基元與其他語彙基元搭配使用或在類似內容中使用的頻率,一個內嵌會指派給該語彙基元。

在其定型之後,模型可為包含多個語彙基元的文字計算內嵌。 模型會將文字語彙基元化,然後根據了解的個別語彙基元內嵌來計算整體內嵌值。 此技術可用於語意文件搜尋或為 AI 增加向量儲存

在輸出產生期間,模型會預測序列中下一個語彙基元的向量值。 然後,模型會根據這個向量值,從其詞彙中選取下一個語彙基元。 實際上,模型會使用先前語彙基元內嵌的各種元素來計算多個向量。 然後,模型會從這些向量評估所有潛在的語彙基元,並選取最有可能的語彙基元以繼續序列。

輸出產生是反覆作業。 到目前為止,模型會將預測的語彙基元附加至序列,並使用該語彙基元作為下一個反覆項目的輸入,一次一個語彙基元建置最終輸出。

語彙基元限制

LLM 對於可以用作輸入或作為輸出產生的語彙基元數目上限有所限制。 這項限制通常會導致輸入和輸出語彙基元合併成最大內容視窗。

例如,GPT-4 支援最多 8,192 個內容語彙基元。 輸入和輸出語彙基元的合併大小不能超過 8,192。

總而言之,模型的語彙基元限制和語彙基元化方法決定了可以作為輸入提供或作為輸出產生的文字長度上限。

例如,考慮最大內容視窗為 100 個語彙基元的模型。 模型會將我們的範例句子當作輸入文字處理:

我聽到一隻狗大聲地對著貓吠

藉由使用字組型語彙基元化方法,輸入是九個語彙基元。 這會留下 91 個字組語彙基元供輸出使用。

藉由使用字元型語彙基元化方法,輸入是 34 個語彙基元 (包括空格)。 這只會留下 66 個字元語彙基元供輸出使用。

語彙基元型定價和價格限制

生成式 AI 服務通常會使用語彙基元型定價。 每個要求的成本取決於輸入和輸出語彙基元的數目。 輸入和輸出之間的定價可能會有所不同。 例如,請參閱 Azure OpenAI 服務定價

對於每分鐘語彙基元數目上限 (TPM),生成式 AI 服務也可能受到限制。 這些價格限制可能會有所不同,取決於服務區域和 LLM。 如需特定區域的詳細資訊,請參閱 Azure OpenAI 服務配額和限制