2020 年 5 月
這些功能和 Azure Databricks 平臺改良功能於 2020 年 5 月發行。
注意
分階段發行。 您的 Azure Databricks 帳戶可能要到初始發行日期後至多一週才會更新。
Easv4 系列 VM (搶鮮版 (Beta))
2020 年 5 月 29 日
Azure Databricks 現在提供 Easv4 系列 VM 的 Beta 支援,其使用進階 SSD,並可達到 3.35GHz 的提升最大頻率。 這些實例類型可以優化記憶體密集型企業應用程式的工作負載效能。
適用於 Genomics 的 Databricks Runtime 6.6 已正式發行
2020 年 5 月 26 日
Databricks Runtime 6.6 for Genomics 建置在 Databricks Runtime 6.6 之上,並包含下列新功能:
- GFF3 讀取器
- 自定義參考基因組支援
- 個別範例管線逾時
- BAM 匯出選項
- 指令清單 Blob
Databricks Runtime 6.6 ML 已正式發行
2020 年 5 月 26 日
Databricks Runtime 6.6 ML 建置在 Databricks Runtime 6.6 之上,並包含下列新功能:
- 已升級的 mlflow:1.7.0 至 1.8.0
如需詳細資訊,請參閱完整的 Databricks Runtime 6.6 ML (EoS) 版本資訊。
Databricks Runtime 6.6 已正式發行
2020 年 5 月 26 日
Databricks Runtime 6.6 帶來許多連結庫升級和新功能,包括下列 Delta Lake 功能:
- 您現在可以隨著
merge
作業自動演進數據表的架構。 在您想要將數據向上插入數據表,以及數據架構隨著時間變更的案例中,這非常有用。 除了在更新插入之前偵測並套用架構變更,merge
還可以同時發展架構並向上插入變更。 請參閱 Delta Lake merge 的自動架構演進。 - 只有相符子句的合併作業效能,也就是只有
update
和 動作,delete
而且沒有insert
動作,已改善。 - Hive 中繼存放區中所參考的 Parquet 數據表現在可透過其數據表標識碼
CONVERT TO DELTA
,使用 轉換為 Delta Lake。
如需詳細資訊,請參閱完整的 Databricks Runtime 6.6 (EoS) 版本資訊。
DBFS REST API 刪除端點大小限制
2020 年 5 月 21-28 日:版本 3.20
當您使用 DBFS API 以遞歸方式刪除大量檔案時,刪除作業會以遞增方式完成。 呼叫會在大約 45s 之後傳回回應,並出現錯誤訊息,要求您重新叫用刪除作業,直到目錄結構完全刪除為止。 例如:
{
"error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}
輕鬆檢視大量的 MLflow 已註冊模型
2020 年 5 月 21-28 日:版本 3.20
MLflow 模型登錄現在支援已註冊模型的伺服器端搜尋和分頁,這可讓具有大量模型的組織有效率地執行清單和搜尋。 和之前一樣,您可以依名稱搜尋模型,並依名稱或上次更新時間排序結果。 不過,如果您有大量的模型,頁面會載入得更快,而搜尋將會擷取模型的最新檢視。
設定為安裝在所有叢集上的程式庫不會安裝在執行 Databricks Runtime 7.0 和更新版本之叢集上
2020 年 5 月 21-28 日:版本 3.20
在 Databricks Runtime 7.0 和更新版本中,Apache Spark 的基礎版本使用 Scala 2.12。 由於針對 Scala 2.11 編譯的連結庫可以非預期的方式停用 Databricks Runtime 7.0 叢集,因此執行 Databricks Runtime 7.0 和更新版本之叢集的叢集不會安裝設定為安裝在所有叢集上的連結庫。 [叢集連結 庫 ] 索引標籤會顯示與連結庫處理變更相關的狀態 Skipped
和淘汰訊息。
如果您在 3.20 之前於舊版 Databricks Runtime 上建立的叢集已發行至工作區,而您現在編輯該叢集以使用 Databricks Runtime 7.0,則所有叢集上設定要安裝的連結庫都會安裝在該叢集上。 在此情況下,已安裝連結庫中任何不相容的 JAR 都可能導致叢集停用。 因應措施是複製叢集或建立新的叢集。
適用於 Genomics 的 Databricks Runtime 7.0 (搶鮮版 (Beta))
2020 年 5 月 21 日
Databricks Runtime 7.0 for Genomics 建置在 Databricks Runtime 7.0 之上,並包含下列連結庫變更:
- ADAM 連結庫已從 0.30.0 版更新為 0.32.0。
- Hail 連結庫不包含在適用於 Genomics 的 Databricks Runtime 7.0 中,因為沒有以 Apache Spark 3.0 為基礎的版本。
Databricks Runtime 7.0 ML (搶鮮版 (Beta))
2020 年 5 月 21 日
Databricks Runtime 7.0 ML 建置在 Databricks Runtime 7.0 之上,並包含下列新功能:
- 筆記本範圍的 Python 連結庫和 conda 和 pip 命令所管理的自定義環境。
- 主要 Python 套件的更新,包括 tensorflow、tensorboard、pytorch、xgboost、sparkdl 和 hyperopt。
- 新增的 Python 套件 lightgbm、nltk、petastorm 和 plotly。
- RStudio Server 開放原始碼 v1.2。
如需詳細資訊,請參閱完整的 Databricks Runtime 7.0 ML (EoS) 版本資訊。
適用於 Genomics 的 Databricks Runtime 6.6 (搶鮮版 (Beta))
2020 年 5 月 7 日
Databricks Runtime 6.6 for Genomics 建置在 Databricks Runtime 6.6 之上,並包含下列新功能:
- GFF3 讀取器
- 自定義參考基因組支援
- 個別範例管線逾時
- BAM 匯出選項
- 指令清單 Blob
Databricks Runtime 6.6 ML (搶鮮版 (Beta))
2020 年 5 月 7 日
Databricks Runtime 6.6 ML 建置在 Databricks Runtime 6.6 之上,並包含下列新功能:
- 已升級的 mlflow:1.7.0 至 1.8.0
如需詳細資訊,請參閱完整的 Databricks Runtime 6.6 ML (EoS) 版本資訊。
Databricks Runtime 6.6 (搶鮮版 (Beta))
2020 年 5 月 7 日
Databricks Runtime 6.6 (Beta) 帶來了許多連結庫升級和新功能,包括下列 Delta Lake 功能:
- 您現在可以隨著
merge
作業自動演進數據表的架構。 在您想要將數據向上插入數據表,以及數據架構隨著時間變更的案例中,這非常有用。 除了在更新插入之前偵測並套用架構變更,merge
還可以同時發展架構並向上插入變更。 請參閱 Delta Lake merge 的自動架構演進。 - 只有相符子句的合併作業效能,也就是只有
update
和 動作,delete
而且沒有insert
動作,已改善。 - Hive 中繼存放區中所參考的 Parquet 數據表現在可透過其數據表標識碼
CONVERT TO DELTA
,使用 轉換為 Delta Lake。
如需詳細資訊,請參閱完整的 Databricks Runtime 6.6 (EoS) 版本資訊。
工作叢集現在已標記工作名稱和 ID
2020 年 5 月 5-12 日:版本 3.19
作業叢集會自動標記作業名稱和標識碼。 卷標會出現在可計費使用量報告中,讓您可以依作業輕鬆地將 DBU 使用量屬性化,並識別異常狀況。 標記會清理為叢集標記規格,例如允許的字元、大小上限和標籤數目上限。 作業名稱包含在標記中 RunName
,而作業標識符則包含在標記中 JobId
。
還原刪除的筆記本儲存格
2020 年 5 月 5-12 日:版本 3.19
您現在可以使用 (Z
) 鍵盤快捷方式或選取 [編輯 > 復原刪除儲存格] 來還原已刪除的儲存格。
擱置佇列限制的工作
2020 年 5 月 5-12 日:版本 3.19
工作區現在限製為1000個作用中(執行中和擱置中)作業執行。 由於工作區限制為 150 個並行(執行中)作業執行,因此工作區最多可以在擱置佇列中執行 850 個。