讓您的資料可供搜尋
當您想要建立一個使用您自己的資料來產生準確答案的 Copilot 時,您需要能夠有效地搜尋您的資料。 當您使用 Azure AI Studio 建置一個 Copilot 時,您可以使用與 Azure AI 搜尋服務的整合來擷取聊天流程中的相關內容。
Azure AI 搜尋服務是一個擷取器,您可以在建置具有提示流程的語言模型應用程式時包含它。 Azure AI 搜尋服務可讓您引入您自己的資料、為您的資料編製索引,以及查詢索引以擷取您所需的任何資訊。
使用向量索引
雖然文字型索引可改善搜尋效率,但您通常可以使用向量型索引來達成更好的資料擷取解決方案,其中包含內嵌,代表資料來源中的文字權杖。
內嵌是一種特殊的資料表示格式,搜尋引擎可以使用它來輕鬆找到相關的資訊。 更具體地說,內嵌是浮點數的向量。
例如,假設您有兩個包含以下內容的文件:
- 「孩子們在公園裡玩得很開心。」
- 「孩子們高興地在操場上跑來跑去。」
這兩個文件包含了語意相關的文字,儘管使用了不同的單字。 藉由為文件中的文字建立向量內嵌,即可以用數學方法計算文字中單字之間的關係。
想像一下從文件中擷取關鍵字並在多維空間中繪製成向量:
向量之間的距離可以透過測量兩個向量之間夾角的餘弦來計算,也稱為餘弦相似度。 換句話說,餘弦相似度會計算文件和查詢之間的語意相似度。
透過以向量來表示單字及其含義,即使您的資料以不同的格式 (文字或影像) 和語言儲存,您也可以從您的資料來源中擷取相關的內容。
當您想要能夠使用向量搜尋來搜尋您的資料時,您必須在建立搜尋索引時建立內嵌。 若要為您的搜尋索引建立內嵌,您可以使用 Azure AI Studio 中所提供的 Azure OpenAI 內嵌模型。
提示
深入了解 Azure OpenAI 服務中的內嵌。
建立搜尋索引
在 Azure AI 搜尋服務中,搜尋索引描述如何組織您的內容以使其可供搜尋。 想像一下一間包含許多書籍的圖書館。 您希望能夠輕鬆且有效率地在圖書館中搜尋並擷取相關的書籍。 為了讓圖書館可供搜尋,您建立了一個目錄,其中包含關於書籍的任何相關資料,以便能夠輕鬆地找到任何書籍。 圖書館的目錄可充當搜尋索引。
雖然建立索引有各種不同的方法,但是 Azure AI Studio 中 Azure AI 搜尋服務的整合可讓您輕鬆地建立適合於語言模型的索引。 您可以將您的資料新增至 Azure AI Studio,然後您可以使用 Azure AI 搜尋服務在 Azure AI Studio 中使用內嵌模型來建立索引。 索引資產會儲存在 Azure AI 搜尋服務中,並在聊天流程中使用時由 Azure AI Studio 來查詢。
如何設定您的搜尋索引取決於您所擁有的資料以及您希望語言模型使用的內容。 例如,關鍵字搜尋可讓您擷取完全符合搜尋查詢的資訊。 語意搜尋已更進一步的提升,它是使用語意模型 (而不是確切的關鍵字) 來擷取符合查詢意思的資訊。 目前,最先進的技術是向量搜尋,它會建立內嵌來代表您的資料。
提示
深入了解向量搜尋。
搜尋索引
有數種方式可在索引中查詢資訊:
- 關鍵字搜尋:根據提供做為輸入的特定關鍵字或字詞,識別相關的文件或段落。
- 語意搜尋:藉由了解查詢的意義,並使用語意相關內容對文件或段落進行比對,而非僅依賴關鍵字完全相符項目,來擷取文件或段落。
- 向量搜尋:使用文字 (向量) 的數學表示法,根據其語意意義或內容來尋找類似的文件或段落。
- 混合式搜尋:結合任何其他搜尋技術。 查詢會以平行方式執行,並在統一的結果集中傳回。
當您在 Azure AI Studio 中建立搜尋索引時,系統會引導您設定最適合與語言模型搭配使用的索引。 當您的搜尋結果用於生成式 AI 應用程式時,混合式搜尋可提供最精確的結果。
混合式搜尋是關鍵字 (和全文) 與向量搜尋的組合,您可以選擇性地對其新增語意排名。 當您建立與混合式搜尋相容的索引時,若能找到確切相符項時 (使用關鍵字),所擷取到的資訊會是精確的;若只能找到在概念上相似的資訊時 (使用向量搜尋),所擷取到的資訊仍會是相關的。
提示
深入了解混合式搜尋。