了解重要概念

已完成

Azure Databricks 是具有多種技術的單一服務平台,可大規模使用資料。 使用 Azure Databricks 時,有一些要了解的重要概念。

工作區

工作區 是存取所有 Databricks 資產的環境。 它提供使用者介面來管理筆記本、程式庫和實驗。 工作區可以組織成資料夾,並在小組成員之間共用,促進共同作業和資源管理。

Notebooks

Databricks 筆記本是互動文件,其中包含可執行的程式碼、視覺效果和敘述文字。 它們支援多種語言,包括 Python、R、Scala 和 SQL,可在相同的筆記本內同時使用。 筆記本是共同作業專案的核心,非常適合探索資料分析、資料視覺效果和複雜的資料工作流程。

叢集

叢集是 Azure Databricks 的計算引擎。 使用者可以根據所需的計算資源來建立和縮放叢集。 您可以手動設定叢集,或根據工作負載設定為自動縮放。 它們針對各種工作支援不同類型的節點,例如驅動程式和背景工作節點,以確保有效率的資源使用率。

工作

Azure Databricks 中的作業可用來排程和執行自動化工作。 這些工作可以是筆記本執行、Spark 作業或任意程式碼執行。 作業可以依排程觸發或執行,以回應特定事件,讓您輕鬆地將工作流程和定期資料處理工作自動化。

Databricks Runtime

Databricks Runtime 是一組效能最佳化的 Apache Spark 版本。 它包含改善效能的增強功能,以及超越標準 Spark 的其他功能,例如機器學習工作負載、圖形處理和基因體學的最佳化。

Delta Lake

Delta Lake 是一個開放原始碼儲存層,可讓 Data Lake 具有可靠性和可擴縮性。 它提供 ACID 交易、可縮放的中繼資料處理,以及統一串流和批次資料處理,這一切對於以一致且容錯的方式管理大規模資料至關重要。

Databricks SQL

Databricks SQL 提供對 Azure Databricks 內資料執行 SQL 查詢的方式。 它可讓資料分析師執行快速臨機操作查詢,並直接在巨量資料上建立報告。 它包含 SQL 編輯器、儀表板和自動視覺效果工具,可讓使用者對習慣於 SQL 環境的人使用。

MLflow

MLflow 是一個開放原始碼平台,可供您管理端對端機器學習生命週期。 它包含實驗追蹤、模型管理和部署的功能,可協助從業者有效率地管理及共用其 ML 模型和實驗。