群集库

群集库可供群集上运行的所有笔记本和作业使用。 本文详细介绍如何在 Azure Databricks 工作区中使用“安装库”UI。

注意

如果使用强制安装库的策略创建计算,无法在计算上安装或卸载库。 工作区管理员控制策略级别的所有库管理。

可以使用以下方法将库安装到群集:

在群集上安装库

若要在群集上安装库,请执行以下操作:

  1. 单击侧栏中的““计算”图标 计算”
  2. 单击群集名称。
  3. 单击“库”选项卡。
  4. 单击“新安装”。
  5. 系统显示“安装库”对话框。
  6. 选择其中一个“库源”选项,完成所示的说明,然后单击“安装”。

重要

使用 Databricks Runtime 14.3 LTS 及更低版本时,可以从 DBFS 安装库。 但任何工作区用户都可以修改存储在 DBFS 中的库文件。 为了提高 Azure Databricks 工作区中库的安全性,从 Databricks Runtime 15.1 开始,在 DBFS 根目录中存储库文件的功能已被弃用且默认禁用。 请参阅已弃用并已默认禁用在 DBFS 根目录中存储库的功能

相反,Databricks 建议将所有库(包括 Python 库、JAR 文件和 Spark 连接器)上传到工作区文件或 Unity Catalog 卷,或使用库包存储库。 如果工作负载不支持这些模式,还可以使用存储在云对象存储中的库。

并非所有群集访问模式支持所有库配置。 请参阅作用域为群集的库

库源 说明
工作区 选择工作区文件,或者上传 Whl、压缩的 wheelhouse、JAR、ZIP、tar 或 requirements.txt 文件。 请参阅从工作区文件安装库
从卷中选择 Whl、JAR 或 requirements.txt 文件。 请参阅从卷安装库
文件路径/ADLS 选择库类型,并向库对象提供完整 URI(例如 /Workspace/path/to/library.whl/Volumes/path/to/library.whlabfss://container-name@storage-account-name.dfs.core.windows.net/path/to/library.whl)。 请参阅从对象存储安装库
PyPI 输入 PyPI 包名称。 请参阅 PyPI 包
Maven 指定 Maven 坐标。 请参阅 Maven 或 Spark 包
CRAN 输入包的名称。 请参阅 CRAN 包
DBFS(不推荐) 将 JAR 或 Whl 文件加载到 DBFS 根目录。 不推荐使用它,因为存储在 DBFS 中的文件可由任何工作区用户修改。

在群集上安装库时,已连接到该群集的笔记本不会立即看到新库。 必须先拆离笔记本,然后将笔记本重新附加到群集。

注意

安装时间超过 2 小时的库会被标记为失败。

使用策略安装库

如果使用强制安装库的策略创建群集,则指定的库会自动安装在群集上。 无法安装其他库,也无法卸载任何库。

工作区管理员可以将库添加到策略,这样他们就能在使用策略的所有计算上管理和强制实施库安装。 如需管理员说明,请参阅将库添加到策略

从群集中卸载库

注意

从群集中卸载库时,仅在重启群集时才会删除该库。 在重启群集之前,已卸载库的状态显示为“卸载等待重启”。

若要卸载库,可使用群集 UI:

  1. 单击侧栏中的““计算”图标 计算”
  2. 单击群集名称。
  3. 单击“库”选项卡。
  4. 选中要从中卸载库的群集旁边的复选框,然后依次单击“卸载”、“确认”。 状态将更改为“卸载等待重启”。

单击“重启”和“确认”以卸载该库。 该库将从群集的“库”选项卡中删除。

查看群集上安装的库

  1. 单击侧栏中的““计算”图标 计算”
  2. 单击群集名称。
  3. 单击“库”选项卡。对于每个库,该选项卡显示名称和版本、类型、安装状态以及源文件(如果已上传)。

更新群集安装的库

若要更新群集安装的库,请卸载旧版本的库,然后安装新版本。

注意

Requirements.txt 文件不需要卸载和重启。 如果修改了 requirements.txt 文件的内容,只需重新安装该文件即可更新已安装文件的内容。