步骤 1. 克隆代码存储库并创建计算
有关本部分中的示例代码,请参阅 GitHub 存储库。 还可以使用存储库代码作为用于创建自己的 AI 应用程序的模板。
按照以下步骤将示例代码加载到 Databricks 工作区并配置应用程序的全局设置。
要求
- 启用了无服务器计算和 Unity Catalog 的 Azure Databricks 工作区。
- 现有的 Mosaic AI 矢量搜索终结点或创建新矢量搜索终结点(在本例中,设置笔记本会创建一个)的权限。
- 对现有 Unity Catalog 架构(其中存储了包含已分析和已分块文档和矢量搜索索引的输出 Delta 表)的写权限,或者创建新目录和架构(在本例中,设置笔记本会创建一个)的权限。
- 运行 DBR 14.3 或更高版本的单个用户群集,有权访问 Internet。 需要 Internet 访问才可下载必要的 Python 和系统包。 请勿使用运行用于机器学习的 Databricks Runtime 的群集,因为这些教程的 Python 包与 Databricks Runtime ML 冲突。
教程流程图
此图显示了本教程中使用的步骤流。
说明
使用 Git 文件夹将此存储库克隆到工作区中。
打开 rag_app_sample_code/00_global_config 笔记本并在其中调整设置。
# The name of the RAG application. This is used to name the chain's model in Unity Catalog and prepended to the output Delta tables and vector indexes RAG_APP_NAME = 'my_agent_app' # Unity Catalog catalog and schema where outputs tables and indexes are saved # If this catalog/schema does not exist, you need create catalog/schema permissions. UC_CATALOG = f'{user_name}_catalog' UC_SCHEMA = f'rag_{user_name}' ## Name of model in Unity Catalog where the POC chain is logged UC_MODEL_NAME = f"{UC_CATALOG}.{UC_SCHEMA}.{RAG_APP_NAME}" # Vector Search endpoint where index is loaded # If this does not exist, it will be created VECTOR_SEARCH_ENDPOINT = f'{user_name}_vector_search' # Source location for documents # You need to create this location and add files SOURCE_PATH = f"/Volumes/{UC_CATALOG}/{UC_SCHEMA}/source_docs"
下一步
继续部署 POC。