步骤 1. 克隆代码存储库并创建计算

评估驱动的开发工作流

有关本部分中的示例代码,请参阅 GitHub 存储库。 还可以使用存储库代码作为用于创建自己的 AI 应用程序的模板。

按照以下步骤将示例代码加载到 Databricks 工作区并配置应用程序的全局设置。

要求

  • 启用了无服务器计算和 Unity Catalog 的 Azure Databricks 工作区。
  • 现有的 Mosaic AI 矢量搜索终结点或创建新矢量搜索终结点(在本例中,设置笔记本会创建一个)的权限。
  • 对现有 Unity Catalog 架构(其中存储了包含已分析和已分块文档和矢量搜索索引的输出 Delta 表)的写权限,或者创建新目录和架构(在本例中,设置笔记本会创建一个)的权限。
  • 运行 DBR 14.3 或更高版本的单个用户群集,有权访问 Internet。 需要 Internet 访问才可下载必要的 Python 和系统包。 请勿使用运行用于机器学习的 Databricks Runtime 的群集,因为这些教程的 Python 包与 Databricks Runtime ML 冲突。

教程流程图

此图显示了本教程中使用的步骤流。

教程中使用的笔记本流

说明

  1. 使用 Git 文件夹将此存储库克隆到工作区中。

    有关如何创建 git 文件夹的视频

  2. 打开 rag_app_sample_code/00_global_config 笔记本并在其中调整设置。

    # The name of the RAG application.  This is used to name the chain's model in Unity Catalog and prepended to the output Delta tables and vector indexes
    RAG_APP_NAME = 'my_agent_app'
    
    # Unity Catalog catalog and schema where outputs tables and indexes are saved
    # If this catalog/schema does not exist, you need create catalog/schema permissions.
    UC_CATALOG = f'{user_name}_catalog'
    UC_SCHEMA = f'rag_{user_name}'
    
    ## Name of model in Unity Catalog where the POC chain is logged
    UC_MODEL_NAME = f"{UC_CATALOG}.{UC_SCHEMA}.{RAG_APP_NAME}"
    
    # Vector Search endpoint where index is loaded
    # If this does not exist, it will be created
    VECTOR_SEARCH_ENDPOINT = f'{user_name}_vector_search'
    
    # Source location for documents
    # You need to create this location and add files
    SOURCE_PATH = f"/Volumes/{UC_CATALOG}/{UC_SCHEMA}/source_docs"
    
  3. 打开并运行 01_validate_config_and_create_resources 笔记本

下一步

继续部署 POC

< 上一篇:先决条件

下一步:步骤 2。部署 POC 并收集反馈 >