2019 年 2 月
这些功能和 Azure Databricks 平台的改进已于 2019 年 2 月发布。
注意
发布分阶段进行。 在初始发布日期后,可能最长需要等待一周,你的 Azure Databricks 帐户才会更新。
Databricks Light 已推出正式版
2019 年 2 月 26 日至 3 月 5 日:版本 2.92
Databricks Light(又称为轻量数据工程)现已正式推出。 Databricks Light 是开放源代码 Apache Spark 运行时的 Databricks 包。 它为不需要 Databricks Runtime 所提供的高级性能、可靠性或自动缩放优势的作业提供运行时选项。 仅当创建运行 JAR、Python 或 spark-submit 作业的群集时,才可以选择 Databricks Light;对于要在其上运行交互式或笔记本作业工作负荷的群集,不能选择此运行时。 请参阅 Databricks Light。
Azure Databricks 上的托管 MLflow 公共预览版
2019 年 2 月 26 日至 3 月 5 日:版本 2.92
MLflow 是用于管理端到端机器学习生命周期的开源平台。 它处理三个主要函数:
- 跟踪试验,以记录和比较参数与结果。
- 通过各种 ML 库管理模型,并将其部署到各种模型服务和推理平台。
- 将 ML 代码打包成可重用、可再现的格式,以便与其他数据科学家共享或转移到生产环境。
Azure Databricks 现提供与企业安全性功能、高可用性和其他 Azure Databricks 工作区功能(例如试验和运行管理,以及笔记本修订版捕获)集成的完全托管式 MLflow 版本。 Azure Databricks 上的 MLflow 提供集成体验用于跟踪和保护机器学习模型训练运行,以及运行机器学习项目。 通过在 Azure Databricks 上使用托管 MLflow,可以获得两个平台的优势,包括:
- 工作区:协同使用托管 MLflow 跟踪服务器和集成的试验 UI 跟踪和组织 Azure Databricks 工作区中的试验和结果。 在笔记本中使用 MLflow 时,Azure Databricks 会自动捕获笔记本修订,以便以后可重现相同的代码和运行。
- 安全性:通过 ACL 在整个机器学习生命周期中集中使用一种通用的安全模型。
- 作业:远程以及直接在 Azure Databricks 笔记本中将 MLflow 项目作为 Azure Databricks 作业运行。
以下演示 Azure Databricks 工作区中的跟踪工作流:
有关详细信息,请参阅跟踪 ML 和深度学习训练运行和在 Azure Databricks 上运行 MLflow 项目。
Azure Data Lake Storage Gen2 连接器已推出正式版
2019 年 2 月 15 日
Azure Data Lake Storage Gen2 (ADLS Gen2) 是用于大数据分析的下一代数据湖解决方案,与适用于 Azure Databricks 的 ADLS Gen2 连接器一样,现已正式推出。 此外,很高兴地宣布,在 Databricks Runtime 5.2 及更高版本上运行群集时,ADLS Gen2 支持 Databricks Delta。
Python 3 现已成为创建群集时的默认版本
2019 年 2 月 12 日至 19 日:版本 2.91
使用 UI 创建的群集的默认 Python 版本已从 Python 2 改为 Python 3。 使用 REST API 创建的群集的默认版本仍是 Python 2。
现有群集不会更改其 Python 版本。 但如果你习惯在新建群集时将 Python 2 作为默认版本,则需开始注意 Python 版本的选择。
Delta Lake 现已推出正式版
2019 年 2 月 1 日
现在,每个人都可以从 Databricks Delta 强大的事务性存储层和超快速读取中受益:从 2 月 1 日开始,Delta Lake 正式发布,并且适用于所有支持的 Databricks Runtime 版本。 有关 Delta 的信息,请参阅什么是 Delta Lake?。