什麼是 Azure Databricks?(機器翻譯)
Azure Databricks 是統一的開放式分析平臺,可大規模建置、部署、共用和維護企業級數據、分析和 AI 解決方案。 Databricks Data Intelligence Platform 會與雲端帳戶中的雲端記憶體和安全性整合,並代表您管理和部署雲端基礎結構。
數據智慧平臺如何運作?
Azure Databricks 會搭配 Data Lakehouse 使用產生式 AI 來了解數據的獨特語意。 然後,它會自動將效能優化並管理基礎結構,以符合您的業務需求。
自然語言處理會學習您企業的語言,因此您可以在自己的單字中提出問題來搜尋和探索數據。 自然語言協助可協助您撰寫程式代碼、疑難解答錯誤,並在文件中尋找答案。
最後,您的數據和 AI 應用程式可以依賴強式治理和安全性。 您可以整合 OpenAI 之類的 API,而不會影響數據隱私權和 IP 控制。
Azure Databricks 的用途為何?
Azure Databricks 提供的工具可協助您將數據源連線到一個平臺,以處理、儲存、共用、分析、模型,以及利用從 BI 到產生的 AI 的解決方案將數據集獲利。
Azure Databricks 工作區為大部分的數據工作提供統一的介面和工具,包括:
- 數據處理排程和管理,特別是 ETL
- 產生儀錶板和視覺效果
- 管理安全性、治理、高可用性和災害復原
- 數據探索、批注和探索
- 機器學習服務 (ML) 模型化、追蹤和模型服務
- Generative AI 解決方案
與 開放原始碼的Managed整合
Databricks 對 開放原始碼 社群有很強的承諾。 Databricks 會管理 Databricks Runtime 版本中 開放原始碼 整合的更新。 下列技術 開放原始碼 Databricks 員工最初建立的專案:
工具和程式設計存取
Azure Databricks 會維護一些專屬工具,以整合並擴充這些技術,以新增優化的效能和易於使用,例如下列各項:
除了工作區 UI 之外,您還可以以程序設計方式與 Azure Databricks 互動下列工具:
- REST API
- CLI
- Terraform
Azure Databricks 如何與 Azure 搭配運作?
Azure Databricks 平台架構包含兩個主要部分:
- Azure Databricks 用來部署、設定及管理平臺和服務的基礎結構。
- 由 Azure Databricks 和貴公司共同作業管理的客戶擁有基礎結構。
與許多企業數據公司不同,Azure Databricks 不會強制您將數據遷移至專屬記憶體系統以使用平臺。 相反地,您會設定 Azure Databricks 工作區,方法是設定 Azure Databricks 平臺與雲端帳戶之間的安全整合,然後 Azure Databricks 會使用您帳戶中的雲端資源來部署計算叢集,以在物件記憶體和其他您所控制的整合服務中處理和儲存數據。
Unity 目錄會進一步擴充此關聯性,讓您從 Azure Databricks 內使用熟悉的 SQL 語法來管理存取數據的許可權。
Azure Databricks 工作區符合全球一些最大且最具安全性意識的公司的安全性和網路需求。 Azure Databricks 可讓新用戶輕鬆開始使用平臺。 它可消除使用雲端基礎結構的許多負擔和疑慮,而不需要限制自定義和控制有經驗的數據、作業和安全性小組。
Azure Databricks 的常見使用案例為何?
Azure Databricks 上的使用案例會隨著平台上處理的數據,以及使用數據做為其工作核心部分的許多員工角色而有所不同。 下列使用案例強調整個組織的使用者如何運用 Azure Databricks 來完成處理、儲存和分析驅動重要商務功能與決策的數據不可或缺的工作。
建置企業 Data Lakehouse
Data Lakehouse 結合了企業數據倉儲和數據湖的優點,以加速、簡化及統一企業數據解決方案。 數據工程師、數據科學家、分析師和生產系統都可以使用 Data Lakehouse 作為其單一事實來源,以便及時存取一致的數據,並減少建置、維護和同步許多分散式數據系統的複雜性。 請參閱 什麼是 Data Lakehouse?。
ETL 和數據工程
無論您是產生儀錶板或為人工智慧應用程式提供動力,數據工程都提供以數據為中心的公司骨幹,方法是確保數據可供使用、清理及儲存在數據模型中,以有效率地探索和使用。 Azure Databricks 結合了 Apache Spark 與 Delta Lake 和自定義工具的強大功能,以提供無與倫比的 ETL(擷取、轉換、載入)體驗。 您可以使用 SQL、Python 和 Scala 來撰寫 ETL 邏輯,然後只按幾下滑鼠來協調排程的作業部署。
Delta 即時數據表 可更進一步簡化 ETL,方法是以智慧方式管理數據集之間的相依性,並自動部署和調整生產基礎結構,以確保根據您的規格及時準確地傳遞數據。
Azure Databricks 提供數種用於數據擷取的自定義工具,包括自動載入器,這是一種有效率且可調整的工具,可累加且具等冪地將數據從雲端物件記憶體和數據湖載入 Data Lakehouse。
機器學習、AI 和數據科學
Azure Databricks 機器學習服務擴充了平臺的核心功能,其中包含一套專為數據科學家和 ML 工程師需求量身打造的工具,包括適用於 機器學習 的 MLflow 和 Databricks Runtime。
大型語言模型和產生的 AI
databricks Runtime for 機器學習 包含如 Hugging Face Transformers 等連結庫,可讓您將現有的預先定型模型或其他開放原始碼連結庫整合到工作流程中。 Databricks MLflow 整合可讓您輕鬆地使用 MLflow 追蹤服務搭配轉換器管線、模型和處理元件。 此外,您可以在 Databricks 工作流程中整合 OpenAI 模型或解決方案,例如 John Snow Labs 。
使用 Azure Databricks,您可以針對特定工作自定義數據上的 LLM。 透過支援 開放原始碼 工具,例如擁抱臉部和 DeepSpeed,您可以有效率地採用基礎 LLM 並開始訓練您自己的數據,以更精確地進行網域和工作負載。
此外,Azure Databricks 提供 AI 函式,讓 SQL 數據分析師可以直接在其數據管線和工作流程記憶體取 LLM 模型,包括從 OpenAI 存取。 請參閱 Azure Databricks 上的 AI Functions。
數據倉儲、分析和 BI
Azure Databricks 結合了使用者易記的 UI 與符合成本效益的計算資源,以及無限可調整、負擔得起的記憶體,以提供強大的平臺來執行分析查詢。 系統管理員會將可調整的計算叢集設定為 SQL 倉儲,讓使用者執行查詢,而不必擔心在雲端中工作的任何複雜度。 SQL 使用者可以使用 SQL 查詢編輯器或筆記本,針對 Lakehouse 中的數據執行查詢。 筆記本除了 SQL 之外,還支援 Python、R 和 Scala,並允許使用者在舊版儀錶板中內嵌相同的視覺效果,以及以 Markdown 撰寫的連結、影像和評論。
數據控管和保護數據共用
Unity 目錄為 Data Lakehouse 提供統一的數據控管模型。 雲端系統管理員會設定及整合 Unity 目錄的粗略訪問控制許可權,然後 Azure Databricks 系統管理員可以管理小組和個人的許可權。 許可權是透過使用者易記 UI 或 SQL 語法以訪問控制清單 (ACL) 管理,讓資料庫管理員更輕鬆地保護資料的存取權,而不需要調整雲端原生身分識別存取管理 (IAM) 和網路功能。
Unity 目錄讓雲端中執行安全分析變得簡單,並提供責任劃分,以協助限制系統管理員和平台使用者所需的重新技能或提升技能。 請參閱什麼是 Unity Catalog?。
Lakehouse 可讓您在組織內共享數據,就像授與數據表或檢視表的查詢存取權一樣簡單。 為了在安全環境之外共用,Unity 目錄會提供受控版本的 Delta Sharing。
DevOps、CI/CD 和工作協調流程
ETL 管線、ML 模型和分析儀錶板的開發生命週期各有其獨特的挑戰。 Azure Databricks 可讓所有使用者利用單一數據源,以減少重複的工作和同步處理報告。 藉由為版本設定、自動化、排程、部署程式代碼和生產資源提供一套通用工具,您可以簡化監視、協調流程和作業的額外負荷。 作業 會排程 Azure Databricks 筆記本、SQL 查詢和其他任意程序代碼。 Git 資料夾 可讓您同步處理 Azure Databricks 專案與許多熱門 Git 提供者。 如需工具的完整概觀,請參閱 開發人員工具。
即時和串流分析
Azure Databricks 會利用 Apache Spark 結構化串流來處理串流數據和累加數據變更。 結構化串流與 Delta Lake 緊密整合,這些技術為 Delta 實時數據表和自動載入器提供了基礎。 請參閱 Azure Databricks 上的串流。