Azure Machine Learning 中的向量存放區 (預覽)
重要
此功能目前處於公開預覽。 此預覽版本沒有服務等級協定,不建議用於處理生產工作負載。 可能不支援特定功能,或可能已經限制功能。
如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
本文描述 Azure Machine Learning 中的向量索引,您可以用來執行擷取擴增生成。 向量索引會儲存內嵌,這些內嵌是概念 (資料) 轉換成數字序列的數值表示法。 內嵌可讓大型語言模型 (LLM) 了解概念之間的關聯性。 您可以建立向量存放區,以使用例如 GPT-4 的 LLM 連線您的資料,並有效率地擷取資料。
Azure Machine Learning 支援兩個向量存放區,其中包含 RAG 工作流程中使用的補充資料:
向量存放區 | 描述 | 功能和使用方式 |
---|---|---|
Faiss | 開放原始碼程式庫 | - 使用本機檔案型存放區 - 產生最低成本 - 支援僅限向量資料 - 支援聊天機器人開發與測試 |
Azure AI 搜尋服務 | Azure PaaS 資源 | - 在搜尋索引中儲存文字資料 - 使用單一服務裝載大量索引 - 支援企業級商務需求 - 存取混合式資訊擷取 |
下列各節會探索使用這些向量存放區的考量。
Faiss 程式庫
Faiss 是提供本機檔案型存放區的開放原始碼程式庫。 向量索引會儲存在 Azure Machine Learning 工作區的 Azure 儲存體帳戶中。 若要使用 Faiss,您可以下載程式庫,並將其作為解決方案的元件。 由於索引是儲存在本機,因此成本最低。
您可以使用 Faiss 程式庫作為向量存放區,並執行下列動作:
在本機儲存向量資料,不需建立索引的成本 (只需儲存體成本)
在記憶體中建置和查詢索引
共用複本以供個別使用,並設定應用程式索引的裝載
隨著基礎計算載入索引進行調整
Azure AI 搜尋服務
Azure AI 搜尋服務 (先前稱為認知搜尋) 是您在 Azure 訂用帳戶中建立的專用 Azure PaaS 資源。 資源支援在搜尋索引中儲存的向量和文字資料上擷取資訊。 提示流程可以建立、填入及查詢儲存在 Azure AI 搜尋服務中的向量資料。 單一搜尋服務可以裝載大量索引,該索引可在 RAG 模式中進行查詢及使用。
以下是對向量存放區使用 Azure AI 搜尋服務的一些重點:
支援企業層級商業對於規模調整、安全性和可用性的需求。
存取混合式資訊擷取。 向量資料可以與非向量資料共存,這表示您可以使用 Azure AI 搜尋服務的任何功能來編製索引和查詢,包括混合式搜尋和語意重新調整。
請記住,向量支援處於預覽狀態。 目前,向量必須在外部產生,然後傳遞至 Azure AI 搜尋服務以編製索引和查詢編碼。 提示流程會為您處理這些轉換。
若要將 AI 搜尋服務用作 Azure Machine Learning 的向量存放區,您必須要有搜尋服務。 服務存在且您已授與開發人員存取權之後,便可在提示流程中,選擇 Azure AI 搜尋服務作為向量索引。 提示流程會在 Azure AI 搜尋服務上建立索引、從來源資料產生向量、將向量傳送至索引、在 AI 搜尋服務上叫用相似度搜尋,以及傳回回應。