2020 年 9 月
這些功能和 Azure Databricks 平台改善功能於 2020 年 9 月發行。
注意
分階段發行。 您的 Azure Databricks 帳戶可能要到初始發行日期後至多一週才會更新。
Databricks Runtime 7.3、7.3 ML 和 7.3 Genomics 現已正式發行
2020 年 9 月 24 日
Databricks Runtime 7.3、適用於機器學習的 Databricks Runtime 7.3 和適用於基因體學的 Databricks Runtime 7.3 現已正式發行。 它們帶來許多功能和改進,包括:
- Delta Lake 效能最佳化可大幅降低額外負荷
- 複製計量
- Delta Lake
MERGE INTO
改善 - 指定 Delta Lake 結構化串流的初始位置
- 自動載入器改進
- 彈性查詢執行
- Azure Synapse Analytics 連接器資料行長度控制
- 改善了
dbutils.credentials.showRoles
的行為 - 簡化了 Pandas 到 Spark DataFrame 的轉換
toPandas()
通話中新的maxResultSize
- pandas 和 PySpark UDF 的偵錯性
- (僅限機器學習) 對背景工作角色啟用 Conda
- (僅限基因體學) 支援使用未壓縮或 zstd 壓縮的基因型讀取 BGEN 檔案
- 程式庫升級
如需詳細資訊,請參閱 Databricks Runtime 7.3 LTS (EoS) 和 Databricks Runtime 7.3 LTS for Machine Learning (EoS)。
單一節點叢集 (公開預覽)
2020 年 9 月 23-29 日:版本 3.29
單一節點叢集是包含 Spark 驅動程式的叢集,沒有 Spark 背景工作角色。 相反地,標準模式叢集至少需要一個 Spark 背景工作角色才能執行 Spark 工作。 在下列情況下,單一節點模式叢集很有幫助:
- 執行需要 Spark 載入和儲存資料的單一節點機器學習工作負載
- 輕量型探索性資料分析 (EDA)
如需詳細資訊,請參閱單一節點或多節點計算。
DBFS REST API 速率限制
2020 年 9 月 23-29 日:版本 3.29
為了確保負載過重時的服務品質,Azure Databricks 現在會針對 DBFS API 呼叫強制執行 API 速率限制。 每個工作區會設定限制,確保公平使用量和高可用性。 您可使用 Databricks CLI 0.12.0 版和更新版本來自動重試。 我們建議所有客戶都切換至最新的 Databricks CLI 版本。
新增側邊欄圖示
2020 年 9 月 23-29 日
我們已更新 Azure Databricks 工作區 UI 中的側邊欄。 不是多了不起的改動,但我們認為新的圖示看起來相當不錯。
執行中工作限制增加
2020 年 9 月 23-29 日:版本 3.29
並行執行工作的執行限制已從每個工作區 150 增加到 1000。 超過 150 次的執行將不再處於擱置狀態的佇列中。 當您要求無法立即啟動的執行時,會傳回 429 Too Many Requests
回應,而不是在並行執行上方執行要求的佇列。 此限制已逐步推出,現在可在所有區域的所有工作區上使用。
MLflow 中的成品存取控制清單 (ACL)
2020 年 9 月 23-29 日:版本 3.29
MLflow 實驗權限現在會在 MLflow 追蹤中的成品上強制執行,讓您輕鬆地控制模型、資料集和其他檔案的存取權。 根據預設,當您建立新的實驗時,其執行成品現在會儲存於 MLflow 管理的位置。 四個 MLflow 實驗權限等級 (NO PERMISSIONS、CAN READ、CAN EDIT 和 CAN MANAGE) 會自動套用至儲存於 MLflow 管理的位置中的成品,如下所示:
- 需要 CAN EDIT 或 CAN MANAGE 權限,才能將執行成品記錄至實驗。
- 需要 CAN READ 權限,才能從實驗列出並下載執行成品。
如需詳細資訊,請參閱 MLflow 實驗 ACL。
MLflow 可用性改善
2020 年 9 月 23-29 日:版本 3.29
本版本包含下列 MLflow 可用性改善功能:
- MLflow 實驗和已註冊的模型頁面現在有提示可協助新使用者開始使用。
- 模型版本資料表現在會顯示模型版本的描述文字。 新的資料行會顯示描述的前 32 個字元或第一行 (以較短者為準)。
新的 Azure Databricks Power BI 連接器 (公開預覽)
2020 年 9 月 22 日
Power BI Desktop 2.85.681.0 版包含新的 Azure Databricks Power BI 連接器,可讓 Azure Databricks 與 Power BI 之間的整合更加順暢和可靠。 新的連接器隨附下列改進:
- 簡單連線設定:新的 Power BI Azure Databricks 連接器已整合到 Power BI 中,而且您可以使用簡單的對話方塊進行設定,並按幾下滑鼠。
- 根據 Microsoft Entra ID 認證進行驗證—不再需要系統管理員設定 PAT 權杖。
- 透過新的 Azure Databricks ODBC 驅動程式,更快速地匯入和最佳化中繼資料呼叫,其具有顯著的效能改善。
- 透過 Power BI存取 Azure Databricks 資料會遵循 Azure Databricks 資料表訪問控制,以及與您 Microsoft Entra ID 身分識別相關聯的 Azure 儲存體帳戶權限。
如需詳細資訊,請參閱將 Power BI 連線到 Azure Databricks。
針對 DBFS 根目錄使用客戶自控金鑰 (公開預覽)
2020 年 9 月 15 日
您現在可在 Azure Key Vault 中使用自己的加密金鑰來加密 DBFS 儲存體帳戶。 請參閱DBFS 根目錄的客戶自控金鑰。
新的 JDBC 和 ODBC 驅動程式引進更快且延遲更低的 BI
2020 年 9 月 15 日
我們已發行新版本的 Databricks JDBC 和 ODBC 驅動程式 (下載),並具有下列改進:
- 效能:減少連線和縮短查詢延遲、根據 Apache Arrow 序列化改善結果傳送速率,以及改善中繼資料擷取效能。
- 使用者體驗:使用 Microsoft Entra ID OAuth2 存取權杖進行驗證、改善的錯誤訊息,以及在連線至關機叢集時自動重試,更強固地處理間歇性網路錯誤重試。
- 支援使用 HTTP Proxy 的連線。
如需使用 JDBC 和 ODBC 連線到 BI 工具的詳細資訊,請參閱 Databricks ODBC 和 JDBC 驅動程式。
MLflow 模型服務 (公開預覽)
2020 年 9 月 9-15 日:版本 3.28
MLflow 模型服務現在可在公開預覽中取得。 MLflow 模型服務可讓您將註冊於模型登錄中的 MLflow 模型部署為 Azure Databricks 所託管和管理的 REST API 端點。 在您為已註冊的模型啟用模型服務時,Azure Databricks 會建立叢集,並部署該模型的所有非封存版本。
您可使用標準 Azure Databricks 驗證,依 REST API 要求查詢所有模型版本。 模型存取權限繼承自模型登錄 - 具有已註冊模型讀取權限的任何人都可查詢任何已部署的模型版本。 雖然此服務處於預覽狀態,但是建議您將其用於低輸送量和非關鍵性應用程式。
如需詳細資訊,請參閱 Azure Databricks 提供的舊版 MLflow 模型服務。
叢集 UI 改良
2020 年 9 月 9-15 日:版本 3.28
[叢集] 頁面現在有適用於 [全用途叢集] 和 [工作叢集] 的單獨索引標籤。 每個索引標籤上的清單現在都會分頁。 此外,我們已修正在建立叢集和在 UI 中可見時,有時會發生的延遲。
工作、叢集、筆記本和其他工作區物件的可見度控制項
2020 年 9 月 9-15 日:版本 3.28
根據預設,任何使用者都可在 Azure Databricks UI 中看到其工作區中顯示的所有工作、叢集、筆記本和資料夾,並可使用 Databricks API 列出,即使這些物件已啟用存取控制,而且使用者對這些物件沒有權限。
現在,任何 Azure Databricks 系統管理員可啟用筆記本和資料夾 (工作區物件)、叢集和工作的可見度控制,以確保使用者只能檢視他們透過工作區、叢集或工作存取控制取得存取權的物件。
請參閱<無法再停用存取控制清單>。
預設不允許建立權杖的能力
2020 年 9 月 9-15 日:版本 3.28
針對在 Azure Databricks 平台 3.28 版發行之後建立的工作區,使用者將無法再預設產生個人存取權杖。 系統管理員必須明確授與這些權限,無論是對整個 users
群組,還是依使用者或群組逐一授與。 在發行 3.28 之前建立的工作區會維護已就緒的權限。
請參閱 監視和撤銷個人存取令牌。
MLflow 模型登錄支援跨工作區共用模型
2020 年 9 月 9 日
Azure Databricks 現在支援從多個工作區存取模型登錄。 您現在可註冊模型、追蹤模型執行,以及跨工作區載入模型。 多個團隊現在可以共用模型的存取權,或當您的組織有多個工作區來處理不同開發階段時。 如需詳細資料,請參閱跨工作區共用模型。
此功能需要 MLflow Python 用戶端 1.11.0 版或更新版本。
Databricks Runtime 7.3 (搶鮮版 (Beta))
2020 年 9 月 3 日
Databricks Runtime 7.3、適用於機器學習的 Databricks Runtime 7.3 和適用於基因體學的 Databricks Runtime 7.3 現已推出搶鮮版 (Beta)。
請參閱 Databricks Runtime 7.3 LTS 和 Databricks Runtime 7.3 LTS for Machine Learning。
Azure Databricks 工作負載類型名稱變更
2020 年 9 月 1 日
叢集所使用的工作負載的類型名稱已變更:
- 資料工程師 - > 工作計算
- 輕量資料工程 - > 輕量工作計算
- 資料分析 - > 全用途計算
這些新的名稱會顯示在發票和 EA 入口網站中,與您的定價方案結合 (例如,「進階 - 工作計算 - DBU」)。 如需詳細資訊,請參閱 Azure Databricks 計量。
使用者介面在平台 3.27 版中也已變更 (目標是在 8 月 25 日至 9 月 3 日之間分階段發行):
- 互動式叢集 - > 全用途叢集
- 自動化叢集 - > 工作叢集
當您設定工作的叢集時,[叢集類型] 選項已變更:
- 新增自動化叢集 - > 新增工作叢集
- 現有的互動式叢集 - > 現有的全用途叢集