使用 Databricks 执行数据工程
Databricks 提供丰富的数据工程功能,包括用于数据科学家、工程师和分析师进行协作的可靠环境。 其中心是引入和转换数据的管道。 为轻松设计出最高效的管道,Databricks 提供结构化流式处理和增量实时表。 请参阅 Azure Databricks 上的流式处理以及什么是增量实时表?。
有关结构化流和增量实时表提供的数据的增量流处理为何是数据管道的最佳选项的概述,请参阅为什么进行增量流处理?。
其他数据工程资源
Databricks 为许多其他应用场景的数据工程任务提供相关功能:
- Databricks 笔记本 是一种常用的协作工具。
- 使用 Databricks 作业计划和协调工作流。
- 如果要构建机器学习解决方案,请参阅 Databricks 马赛克 AI 。
注意
如果主要使用 SQL 查询和 BI 工具,请参阅 Databricks SQL。
有关入门教程和介绍性信息,请参阅 Azure Databricks 入门指南和什么是 Azure Databricks?。
名称 | 在想要执行以下操作时使用此工具... |
---|---|
增量实时表 | 了解如何使用 Databricks Delta Live Tables 生成数据引入和转换管道。 |
结构化流 | 了解由 Databricks 上的结构化流式处理提供支持的流式处理、增量和实时工作负荷。 |