共用方式為


.NET 中的內嵌

內嵌是 LLM 擷取語意意義的方式。 它們是非數值資料的數值表示法,LLM 可用來判斷概念之間的關聯性。 您可以使用內嵌來協助 AI 模型了解輸入的意義,以便其可以執行比較和轉換,例如摘要文字或從文字描述建立影像。 LLM 可以立即使用內嵌,而且您可以將內嵌儲存在向量資料庫中,視需要為 LLM 提供語意記憶體。

內嵌的使用案例

本節列出內嵌的主要使用案例。

使用您自己的資料來改善完成相關性

使用您自己的資料庫,為您的資料產生內嵌,並將其與 LLM 整合,使其可用於完成。 這種內嵌的使用是擷取增強世代的重要元件。

增加您可以在提示中容納的文字數量

使用內嵌來增加您可以在提示中容納的內容數量,而不會增加所需的語彙基元數目。

例如,假設您想要在提示中包含 500 頁的文字。 該大量原始文字的語彙基元數目將會超過輸入語彙基元限制,因此無法直接包含在提示中。 您可以使用內嵌來摘要該大量文字,並將其細分為足夠小的片段以容納於一個輸入中,接著評估每個片段與整個原始文字的相似度。 然後,您可以選擇最能保留原始文字語意意義的片段,並在您的提示中使用該片段,而不會達到語彙基元限制。

執行文字分類、摘要或翻譯

使用內嵌來協助模型了解文字的意義和內容,然後分類、摘要或翻譯該文字。 例如,您可以使用內嵌來協助模型將文字分類為正面或負面、垃圾郵件或非垃圾郵件,或是新聞或觀點。

產生和轉錄音訊

使用音訊內嵌來處理您應用程式中的音訊檔案或輸入。

例如,語音服務支援一系列音訊內嵌,包括語音轉換文字文字轉換語音。 您可以即時或批次處理音訊。

將文字轉換成影像或將影像轉換成文字

語意影像處理需要大部分 LLM 都無法產生的影像內嵌。 使用影像內嵌模型,例如 ViT,來建立影像的向量內嵌。 然後,您可以使用這些內嵌搭配影像產生模型,來使用文字建立或修改影像,反之亦然。 例如,您可以使用 DALL·E 模型來產生影像,如標誌、人臉、動物和景觀。

產生或記錄程式碼

透過將不同的程式碼或文字運算式轉換成通用表示法,以使用內嵌協助模型從文字建立程式碼,反之亦然。 例如,您可以使用內嵌,來協助模型在 C# 或 Python 中產生或記錄程式碼。

選擇內嵌模型

您可以使用 AI 內嵌模型,為未經處理資料產生內嵌,可將非數值資料編碼為向量 (一長串數字)。 模型也可以將內嵌解碼為非數值資料,其具有與原始資料相同或相似的意義。 有許多內嵌模型可供您使用,OpenAI 的 text-embedding-ada-002 模型是其中一個常用的模型。 如需更多範例,請參閱 Azure OpenAI 上可用的內嵌模型清單。

在向量資料庫中儲存和處理內嵌

在產生內嵌之後,您將需要一種方式來儲存這些內嵌,以便稍後可以透過呼叫 LLM 來擷取這些內嵌。 向量資料庫是專為儲存和處理向量而設計,因此其是內嵌的天然家園。 不同的向量資料庫會提供不同的處理功能,因此您應該根據原始資料和目標來選擇一個。 如需選項的相關資訊,請參閱可用的向量資料庫解決方案

在您的 LLM 解決方案中使用內嵌

建置 LLM 型應用程式時,您可以使用語意核心,來整合內嵌模型和向量存放區,以便可以快速提取文字資料,並產生和儲存內嵌。 這可讓您使用向量資料庫解決方案,來儲存和擷取語意記憶體。