Azure Databricks 概念
本文介紹您需要了解的基本概念,以便有效地使用 Azure Databricks。
帳戶與工作區
在 Azure Databricks 中,工作區是雲端中的 Azure Databricks 部署,可作為團隊存取 Databricks 資產的環境。 根據需求,您的組織可以選擇擁有多個工作區或只有一個工作區。
Azure Databricks 帳戶代表可包含多個工作區的單一實體。 針對 Unity 目錄啟用的帳戶 可用來管理使用者及其在帳戶中所有工作區集中存取數據。
計費:Databricks 單位 (DBU)
Azure Databricks 會根據 Databricks 單位 (DBU) 計費,這是以 VM 執行個體類型為基礎的每小時處理功能的單位。
驗證與授權
本節說明當您管理 Azure Databricks 身分識別,及其 Azure Databricks 資產存取權時需要知道的概念。
User
可以存取系統的唯一個人。 使用者識別會以電子郵件地址表示。 請參閱管理使用者。
服務主體
服務識別,用於作業、自動化工具和系統,例如指令碼、應用程式和 CI/CD 平台。 服務主體會以應用程式識別碼表示。 請參閱管理服務主體。
群組
身分識別的集合。 群組可簡化身分識別管理,讓您更輕鬆地指派對工作區、資料和其他安全性實體物件的存取權。 所有 Databricks 身分識別都可以指派為群組的成員。 請參閱管理群組。
存取控制清單 (ACL)
附加至工作區、叢集、作業、數據表或實驗的許可權清單。 ACL 會指定哪些使用者或系統進程會被授與物件存取權限,以及資產上允許哪些作業。 一般 ACL 中的每個項目都會指定主體和作業。 請參閱存取控制清單。
個人存取權杖 (PAT)
個人存取令牌是用來驗證 REST API 呼叫、技術合作夥伴 連線和其他工具的字串。 請參閱 Azure Databricks 個人存取權杖驗證。
Microsoft Entra ID 權杖也可用來向 REST API 進行驗證。
Azure Databricks 介面
本節說明了在 Azure Databricks 中存取資產的介面。
UI
Azure Databricks UI 是與功能互動的圖形化介面,例如工作區資料夾及其內含物件、資料物件和計算資源。
REST API
Databricks REST API 提供端點來修改或要求 Azure Databricks 帳戶和工作區物件的相關資訊。 請參閱帳戶參考和工作區參考。
SQL REST API
SQL REST API 可讓您將 SQL 物件上的工作自動化。 請參閱 SQL API。
CLI
Databricks CLI 託管於 GitHub 上。 CLI 建置於 Databricks REST API 之上。
資料管理
本節說明用來組織和控管 Azure Databricks 上數據的工具和邏輯物件。 請參閱 Azure Databricks 中的Database 物件。
Unity 目錄
Unity 目錄是 Azure Databricks 上數據和 AI 資產的統一治理解決方案,可跨 Databricks 工作區提供集中式訪問控制、稽核、譜系和數據探索功能。 請參閱 什麼是 Unity 目錄?。
目錄
目錄是組織及隔離 Azure Databricks 上數據的最高層級容器。 您可以在相同區域和帳戶內的工作區之間共享目錄。 請參閱 什麼是 Azure Databricks 中的目錄?。
圖式
架構也稱為資料庫包含在目錄內,並提供更細微的組織層級。 它們包含資料庫物件和 AI 資產,例如磁碟區、數據表、函式和模型。 請參閱 什麼是 Azure Databricks 中的架構?。
桌子
數據表會組織和管理結構化數據的存取權。 您可以使用 Apache Spark SQL 和 Apache Spark API 來查詢數據表。 請參閱 什麼是數據表和檢視?。
檢視
檢視是從一或多個資料表和其他檢視衍生而來的唯讀物件。 檢視會儲存針對數據表定義的查詢。 請參閱 什麼是檢視?。
音量
磁碟區代表雲端物件儲存區中的邏輯磁碟區,並組織和控管對非結構化資料的存取。 Databricks 建議使用磁碟區來管理雲端物件記憶體上非表格式數據的所有存取。 請參閱 什麼是 Unity 目錄磁碟區?。
Delta 表
根據預設,在 Azure Databricks 中建立的所有數據表都是 Delta 數據表。 Delta Tables 是基於 Delta Lake 開源專案的技術框架,提供在雲端物件儲存上進行高效能的 ACID 表格儲存。 Delta 數據表將資料儲存為雲端物件儲存上的檔案目錄,並將數據表元數據註冊至目錄和資料庫架構內的中繼存放區。
深入了解 Delta 品牌技術。
Metastore
Unity 目錄提供帳戶層級中繼存放區,可註冊有關數據、AI 的元數據,以及目錄、架構和數據表的許可權。 請參閱 中繼存放區。
Azure Databricks 為尚未採用 Unity 目錄的客戶提供舊版 Hive 中繼存放區。 請參閱Hive中繼存放區數據表訪問控制(舊版)。
目錄瀏覽器
目錄總管可讓您探索和管理數據和 AI 資產,包括架構(資料庫)、數據表、模型、磁碟區(非表格式數據)、函式和已註冊的 ML 模型。 您可以使用它來尋找數據對象和擁有者、了解數據表之間的數據關聯性,以及管理許可權和共用。 請參閱 什麼是目錄總管?。
DBFS 根目錄
重要
使用 DBFS 根或 DBFS 掛接來儲存和存取資料是已被取代的模式,Databricks 不建議這麼做。 相反地,Databricks 建議使用 Unity 目錄來管理所有數據的存取權。 請參閱 什麼是 Unity 目錄?。
DBFS 根目錄預設為所有使用者可用的儲存位置。 請參閱什麼是 DBFS?。
計算管理
本節說明在 Azure Databricks 中執行計算所需的概念。
Cluster
執行筆記本和作業的一組計算資源和組態。 叢集有兩種類型:通用和作業。 請參閱計算。
- 您可以使用 UI、CLI 或 REST API 來建立通用叢集。 您可以手動終止並重新啟動通用叢集。 多個使用者可以共用這類叢集,以執行共同作業的互動式分析。
- 當您在新工作叢集上執行工作時,Azure Databricks Job Scheduler 會建立工作叢集,並在工作完成時終止叢集。 您無法重新啟動作業叢集。
集區
一組閑置且現成可用的實例,可減少叢集啟動和自動調整時間。 連結至集區時,叢集會從集區配置其驅動程式和背景工作角色節點。 請參閱集區組態參考。
如果集區沒有足夠的閒置的執行個體,就會透過從執行個體提供者配置新的執行個體來進行擴充。 當連結的叢集終止時,所使用的執行個體會傳回集區,並可由不同的叢集重複使用。
Databricks Runtime
在 Azure Databricks 所管理的叢集上執行的一組核心元件。 請參閱計算。 Azure Databricks 具有下列執行階段:
- Databricks Runtime 包含 Apache Spark,但也新增了一些元件和更新,可大幅改善巨量資料分析的可用性、效能和安全性。
- Databricks Runtime for Machine Learning 建置在 Databricks Runtime 上,並提供預先建置的機器學習基礎結構,與 Azure Databricks 工作區的所有功能整合。 它包含多種熱門的函式庫,包括 TensorFlow、Keras、PyTorch 和 XGBoost。
工作流程
[工作流程] 工作區 UI 提供作業和 DLT 管線 UI 的項目,這是可讓您協調和排程工作流程的工具。
工作
協調和排程筆記本、程式庫和其他工作的非互動式機制。 請參閱 Databricks 的協調流程概觀
管線
Delta Live Tables Pipelines 提供宣告式架構,可建置可靠、可維護且可測試的數據處理管線。 請參閱 什麼是 Delta Live Tables?。
工作負載
工作負載是執行工作或工作群組所需處理功能的量。 Azure Databricks 會識別兩種類型的工作負載:資料工程 (作業) 和資料分析 (通用)。
- 資料工程:Azure Databricks 作業排程器為每個工作負載建立的作業叢集上執行 (自動化) 工作負載。
- 資料分析 在通用叢集上執行 (互動式) 工作負載。 互動式工作負載通常在 Azure Databricks 筆記本內執行命令。 不過,在現有的通用叢集上執行作業也會被視為互動式工作負載。
執行內容
每個支援的程式設計語言的「讀取、求值、輸出」迴圈 (REPL) 環境狀態。 僅支援 Python、R、Scala 和 SQL 語言。
資料工程
資料工程工具可協助資料科學家、資料工程師、資料分析師和機器學習工程師共同作業。
工作區
工作區是用來存取您所有 Azure Databricks 資產的環境。 工作區會將物件 (筆記本、程式庫、儀表板和實驗) 組織成資料夾,並提供資料物件和計算資源的存取權。
筆記本
Web 型介面,可用來建立資料科學和機器學習工作流程,其中包含可執行的命令、視覺效果和敘述文字。 請參閱 Databricks Notebook 簡介。
程式庫
叢集上執行的筆記本或作業可使用的程式碼套件。 Databricks Runtime 包含許多程式庫,您也可以上傳自己的程式庫。 請參閱程式庫。
Git 資料夾 (先前稱為 Repos)
資料夾,其內容會透過同步至遠端 Git 存放庫來共同建立版本。 Databricks Git 資料夾與 Git 整合,為您的專案提供來源和版本控制。
AI 和機器學習
Databricks 提供整合式端對端環境,並提供受控服務來開發和部署 AI 與機器學習應用程式。
Mosaic AI
Databricks Mosaic AI 研究的產品和服務廠牌名稱,這是負責 Databricks 在生成式 AI 中取得最大突破的研究人員和工程師團隊。 Mosaic AI 產品包括 Databricks 中的 ML 和 AI 功能。 請參閱 Mosaic 研究。
機器學習執行階段
為了協助您開發 ML 和 AI 模型,Databricks 提供 Databricks Runtime for Machine Learning,使用預先建置的機器學習和深度學習基礎結構 (包括最常見的 ML 和 DL 程式庫) 自動建立計算。 它也具有內建、預先設定的 GPU 支援,包括驅動程式和支援媒體櫃。 瀏覽至 Databricks Runtime 版本資訊版本和相容性中最新執行階段版本的相關資訊。
Experiment
MLflow 執行集合,用於訓練機器學習模型。 請參閱使用 MLflow 實驗組織訓練執行。
功能
功能是 ML 模型的重要元件。 功能存放區可在整個組織中啟用功能共用和探索,也可確保相同的功能計算程式碼用於模型訓練和推斷。 請參閱特徵工程與服務。
GenAI 模型
Databricks 支援探索、開發和部署生成式 AI 模型,包括:
- AI 遊樂場是工作區中類似聊天的環境,您可以在其中測試、提示和比較 LLM。 請參閱使用 AI 遊樂場與 LLM 和原型 GenAI 應用程式聊天。
- 內建的一組您可以查詢的預先設定基礎模型。
- 請參閱按權杖付費的 Foundation Model API。
- 請參閱 [建議] 從 Unity Catalog 部署基礎模型,以便您可以一鍵提供的基礎模型。
- 第三方託管的 LLM,稱為外部模型。 這些模型應依現況使用。
- 自定義基礎模型的功能,以優化特定應用程式的效能(通常稱為微調)。 請參閱 基礎模型微調。
模型登錄
Databricks 提供 Unity 目錄中裝載的 MLflow 模型登錄版本。 在 Unity 目錄中註冊的模型會繼承集中式訪問控制、譜系和跨工作區探索和存取。 請參閱 在 Unity 目錄中管理模型生命週期。
模型服務
Mosaic AI 模型服務提供整合介面,可用來部署、控管及查詢 AI 模型。 您提供的每個模型都可作為 REST API,您可將其整合到網頁或用戶端應用程式中。 使用 Mosaic AI 模型服務,您可以部署自己的模型、基礎模型或 Databricks 外部託管的第三方模型。 請參閱 使用馬賽克 AI 模型服務部署模型。
資料倉儲
資料倉儲是指從多個來源收集和儲存資料,以便快速存取商業見解和報告。 Databricks SQL 是一系列服務的集合,可將資料倉儲功能和效能帶入現有的 Data Lake。 請參閱什麼是 Azure Databricks 上的資料倉儲?。
Query
查詢是有效的 SQL 陳述式,可讓您與資料互動。 您可以使用平台 SQL 編輯器撰寫查詢,或使用 SQL 連接器、驅動程式或 API 進行連線。 請參閱存取和管理已儲存的查詢,以深入了解如何使用查詢。
SQL 倉儲
用於執行 SQL 查詢的計算資源。 SQL 倉儲有三種類型:傳統、Pro 和無伺服器。 Azure Databricks 建議使用可用的無伺服器倉儲。 請參閱 SQL 倉儲類型,以比較每個倉儲類型的可用功能。
查詢歷程記錄
已執行的查詢及其效能特性的清單。 查詢歷程記錄可讓您監視查詢效能,協助您找出瓶頸並優化查詢運行時間。 請參閱<查詢歷程記錄>。
視覺效果
執行查詢的結果的圖形化表示。 請參閱 Databricks 筆記本中的視覺效果。
儀表板
資料視覺效果和評論的呈現。 您可以使用儀表板自動將報表傳送給 Azure Databricks 帳戶中的任何人。 使用 Databricks Assistant 來協助您根據自然語言提示來建置視覺效果。 請參閱儀表板。 您也可以從筆記本建立儀表板。 請參閱筆記本中的儀表板。
如需舊版儀表板,請參閱舊版儀表板。
重要
- Databricks 建議使用 AI/BI 儀表板 (先前稱為 Lakeview 儀表板)。 舊版儀錶板,先前稱為 Databricks SQL 儀錶板,現在稱為 舊版儀錶板。 Databricks 不建議建立新的舊版儀表板。
終止支援時程表:
2025 年 4 月 7 日:舊版儀錶板的官方支援將會結束。 只會解決重要的安全性問題和服務中斷問題。
2025 年 11 月 3 日:Databricks 將開始封存過去六個月未存取的舊版儀錶板。 已封存的儀錶板將無法再存取,封存過程將會以循環方式進行。 正在使用中的儀表板的存取權會保持不變。
Databricks 將在 2025 年 11 月 3 日之後與客戶合作,制定正在使用的舊版儀表板的移轉計劃。
使用移轉工具或 REST API 轉換舊版儀表板。 如需使用內建移轉工具的指示,請參閱將舊版儀表板複製到 AI/BI 儀表板。 如需使用 REST API 建立和管理儀表板的教學課程,請參閱 儀表板 教學課程。