什么是 Databricks CLI?
注意
此信息适用于 Databricks CLI 版本 0.205 及更高版本。 Databricks CLI 以公共预览版提供。
Databricks CLI 使用受 Databricks 许可证和 Databricks 隐私声明的约束,包括任何使用情况数据预配。
Databricks 命令行界面(也称 Databricks CLI)提供了一个工具,让用户通过终端、命令提示符或自动化脚本实现 Azure Databricks 平台的自动化。 还可以使用 Web 终端从 Databricks 工作区中运行 Databricks CLI 命令。 请参阅在 Azure Databricks Web 终端中运行 Shell 命令。
若要安装和配置 Databricks CLI 的身份验证,请参阅安装或更新 Databricks CLI 的 Databricks CLI 和身份验证。
旧版 Databricks CLI 用户的信息
- Databricks 计划不对旧版 Databricks CLI 提供支持或新功能。
- 有关旧版 Databricks CLI 的详细信息,请参阅 Databricks CLI(旧版)。
- 若要从 Databricks CLI 版本 0.18 或更低版本迁移到 Databricks CLI 版本 0.205 或更高版本,请参阅 Databricks CLI 迁移。
Databricks CLI 的工作原理是什么?
CLI 包装 Databricks REST API,此 API 提供用于修改或请求有关 Azure Databricks 帐户和工作区对象的信息的终结点。 请参阅 Azure Databricks REST API 参考。
例如,若要输出有关工作区中单个群集的信息,请按如下方式运行 CLI:
databricks clusters get 1234-567890-a12bcde3
对于 curl
,等效的操作如下所示:
curl --request GET "https://${DATABRICKS_HOST}/api/2.0/clusters/get" \
--header "Authorization: Bearer ${DATABRICKS_TOKEN}" \
--data '{ "cluster_id": "1234-567890-a12bcde3" }'
示例:创建 Azure Databricks 作业
以下示例使用 CLI 创建 Azure Databricks 作业。 该作业包含单个作业任务。 此任务运行指定的 Azure Databricks 笔记本。 此笔记本依赖于名为 wheel
的特定版本的 PyPI 包。 为了运行此任务,作业会临时创建一个会导出名为 PYSPARK_PYTHON
的环境变量的作业集群。 作业运行后,群集会终止。
databricks jobs create --json '{
"name": "My hello notebook job",
"tasks": [
{
"task_key": "my_hello_notebook_task",
"notebook_task": {
"notebook_path": "/Workspace/Users/someone@example.com/hello",
"source": "WORKSPACE"
},
"libraries": [
{
"pypi": {
"package": "wheel==0.41.2"
}
}
],
"new_cluster": {
"spark_version": "13.3.x-scala2.12",
"node_type_id": "Standard_DS3_v2",
"num_workers": 1,
"spark_env_vars": {
"PYSPARK_PYTHON": "/databricks/python3/bin/python3"
}
}
}
]
}'
后续步骤
- 若要了解如何安装并开始使用 CLI,请参阅 Databricks CLI 教程。
- 若要跳过本教程而仅安装 CLI,请参阅安装或更新 Databricks CLI。
- 若要设置 CLI 与 Azure Databricks 帐户和工作区之间的身份验证,请参阅 Databricks CLI 的身份验证。
- 若要使用配置文件在相关 CLI 设置组之间快速切换,请参阅 Databricks CLI 的配置文件。
- 若要了解 CLI 的基本用法,请参阅 Databricks CLI 的基本用法。
- 若要获取 CLI 命令的帮助,请参阅 Databricks CLI 命令。