使用 Azure Machine Learning 提示流程擷取擴增生成 (預覽)
重要
此功能目前處於公開預覽。 此預覽版本沒有服務等級協定,不建議用於處理生產工作負載。 可能不支援特定功能,或可能已經限制功能。
如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款。
擷取擴增生成 (RAG) 是一種模式,可與預先定型的大型語言模型 (LLM) 和您自己的資料搭配運作來產生回應。 在 Azure Machine Learning 中,您可以在提示流程中實作 RAG。 RAG 支援目前為公開預覽階段。
本文列出 RAG 的一些優點、提供技術概觀,以及說明 Azure Machine Learning 中的 RAG 支援。
注意
LLM 和 RAG 概念的新功能? 此 Microsoft 簡報中的影片剪輯提供簡單的說明。
為何要使用 RAG?
傳統上,基本模型會使用時間點資料定型,以確保其執行特定工作並適應所需領域的有效性。 不過,有時候您必須使用較新或更多最新的資料。 有兩種方法可以補充基本模型:使用新資料微調或進一步定型基本模型,或是使用提示工程來即時補充或引導模型的 RAG。
微調適用於連續領域調整,可大幅改善模型品質,但通常會產生較高的費用。 相反地,RAG 提供替代方法,允許對提示中提供的新資料使用與推理引擎相同的模型。 這項技術可讓使用者在不需要昂貴微調的情況下進行內容內學習,讓企業更有效率地使用 LLM。
RAG 可讓企業達成自訂解決方案,同時維持資料相關性並將成本最佳化。 公司採用 RAG 後,可以使用 LLM 的推理功能,利用其現有的模型,根據新的資料處理及產生回應。 RAG 可協助定期資料更新,無需微調,從而簡化了 LLM 與商務的整合。
- 提供補充資料做為指示詞或 LLM 的提示
- 在現有的模型上新增事實檢查元件
- 在最新資料上定型模型,而不會產生與微調相關聯的額外時間和成本
- 定型您的商務特定資料
在大型語言模型上使用 RAG 的技術概觀 (LLM)
在資訊擷取中,RAG 這種方法可讓您利用自己的資料控管 LLM 的強大功能。 讓 LLM 存取自訂資料牽涉到下列步驟。 首先,大型資料應該分成可管理的片段。 其次,區塊必須轉換成可搜尋的格式。 第三,轉換的資料應該儲存在允許有效率存取的位置。 此外,當 LLM 提供回應時,請務必儲存引文或參考的相關中繼資料。
讓我們更詳細地查看圖表。
來源資料:這是您資料所在的位置。 其可以是您電腦上的檔案/資料夾、雲端儲存空間中的檔案、Azure Machine Learning 資料資產、Git 存放庫或 SQL 資料庫。
資料區塊化:來源中的資料必須轉換成純文本。 例如,文字文件或 PDF 必須破解開啟並轉換成文字。 然後,文字會區分成較小的片段。
將文字轉換成向量:稱為內嵌。 向量是將數值表示法轉換為數列的概念,以便電腦了解這些概念間的關係。
來源資料與內嵌之間的連結:此資訊會儲存為所建立區塊的中繼資料,然後用來協助 LLM 在產生回應時產生引用。
RAG 與 Azure Machine Learning (預覽)
Azure Machine Learning 中的 RAG 是透過與 Azure OpenAI Service 整合來啟用,適用於大型語言模型和向量化、支援 Faiss 和 Azure AI 搜尋服務 (先前稱為認知搜尋) 做為向量存放區,以及支援開放原始碼供應項目工具和架構,例如用於資料區塊化的 LangChain。
若要實作 RAG,必須符合幾項重要需求。 首先,應該以可提高有效可搜尋性的方式將資料格式化,然後再將其傳送至 LLM,最終可減少權杖耗用量。 為了確保 RAG 的有效性,請務必定期更新您的資料。 此外,能夠使用您的資料來評估 LLM 的輸出,可讓您測量技術的有效性。 Azure Machine Learning 不僅可讓您輕鬆地在這些方面開始使用,也可讓您將 RAG 改善及生產化。 Azure Machine Learning 提供:
- 啟動以 RAG 為基礎的 Q&A 案例範例。
- 以精靈為基礎的 UI 體驗,可建立及管理資料,並將其併入提示流程中。
- 測量及增強 RAG 工作流程的功能,包括測試資料產生、自動提示建立,以及可視化的提示評估計量。
- 進階案例使用新的內建 RAG 元件在筆記本中建立自訂管線,因而具有更多控制權。
- 程式碼體驗,可讓您利用 LangChain 等開放原始碼供應項目建立的資料。
- 使用管線和作業將 RAG 工作流程順暢地整合至 MLOps 工作流程。
推論
Azure Machine Learning 可讓您使用 Azure Machine Learning 工作室或搭配 Azure Machine Learning 管線使用程式碼,在 AI 中納入 RAG。 其提供數個附加價值項目,例如測量及增強 RAG 工作流程的功能、測試資料產生、自動提示建立,以及可視化的提示評估計量。 其可使用管線將 RAG 工作流程順暢地整合至 MLOps 工作流程。 您也可以使用您的資料搭配開放原始碼供應項目,例如 LangChain。
下一步
使用向量存放區與 Azure Machine Learning (預覽)