Databricks 笔记本简介
笔记本是数据科学和机器学习中用于开发代码和呈现结果的常用工具。 在 Azure Databricks 中,笔记本是用于创建数据科学和机器学习工作流以及与同事协作的主要工具。 Databricks 笔记本以多种语言提供实时共同创作、自动版本控制和内置数据可视化。
使用 Azure Databricks 笔记本,可以:
- 使用 Python、SQL、Scala 和 R 开发代码。
- 使用你选择的库自定义环境。
- 创建定期计划作业以自动运行任务,包括多笔记本工作流。
- 浏览和访问表与卷。
- 以
.html
或.ipynb
格式导出结果和笔记本。 - 使用基于 Git 的存储库存储笔记本以及关联的文件和依赖项。
- 生成和共享仪表板。
- 在笔记本中开发和调试增量实时表管道。
- 使用高级编辑功能(试验)。
笔记本还可用于探索性数据分析 (EDA)。
如何导入和运行示例笔记本
Azure Databricks 文档包含许多用于演示如何使用 Databricks 功能的示例笔记本。 若要将其中一个笔记本导入 Databricks 工作区,请执行以下操作:
单击页面上显示的笔记本预览右上角的“复制链接以导入”。
MLflow autologging 快速入门 Python 笔记本
在工作区浏览器中,导航到要将笔记本导入到的位置。
右键单击该文件夹,然后从菜单中选择“导入”。
单击“URL”单选按钮,并将刚刚复制的链接粘贴到字段中。
单击“导入” 。 随即会导入该笔记本并在工作区中自动将其打开。 对笔记本所做的更改会自动保存。 有关在工作区中编辑笔记本的信息,请参阅在 Databricks 笔记本中开发代码。
若要运行笔记本,请单击笔记本顶部的 。 有关运行笔记本和各个笔记本单元格的详细信息,请参阅运行 Databricks 笔记本。
若要在工作区中创建新的空白笔记本,请参阅创建笔记本。
熟悉笔记本
开始使用 Databricks 笔记本
- 管理笔记本:创建、重命名、删除、获取笔记本路径、配置编辑器设置。
- 在笔记本中开发和编辑代码。
- 获取 AI 辅助编码帮助。
- 使用交互式调试程序。
- 处理单元格输出:下载结果和可视化效果、控制结果在笔记本中的显示方式。
- 运行笔记本和计划常规作业。
- 使用笔记本进行协作:共享笔记本、在笔记本中使用注释。
- 导入和导出笔记本。
- 测试笔记本。
- 自定义笔记本的库。
进阶资料
- 在笔记本中开发和调试增量实时表管道。