共用方式為


在 Azure 中使用雲端規模的分析流程

Azure 提供數個服務,將數據內嵌及發行至原生和第三方平臺。 您可以使用不同的服務,視音量、速度、多樣性和方向而定。 其中一些服務包括:

  • Azure Data Factory 是針對所有數據應用程式(來源對齊)需求和技能等級所建置的服務。 撰寫您自己的程式代碼或建構、擷取、載入和轉換程式在直覺式視覺環境中,而不需撰寫程序代碼。 使用超過90個原生建置且免維護的連接器,以可視化方式整合數據源,零額外成本。 工程師可以使用私人端點和鏈接服務,在不使用 PaaS 資源的公用端點的情況下安全地連線到 Azure 平臺即服務 (PaaS) 資源。 工程師可以使用整合執行環境,將工作流程延伸至第三方環境,例如內部部署數據源和其他雲端。

其中一些連接器支援用作來源(讀取)或匯入(寫入)。 Azure 原生服務、Oracle、SAP 和其他服務可作為來源或接收,但並非所有連接器都支援它。 在這些情況下,您可以使用一般連接器,例如 Open Database Connectivity (ODBC)、檔案系統或 SSH 檔案傳輸通訊協定 (SFTP) 連接器。

  • Azure Databricks 是一個基於 Apache Spark 的快速、簡單且協作的分析服務。 針對巨量數據管線,您可以透過Data Factory以批次方式將資料(未經處理或結構化)內嵌至 Azure,或使用 Apache Kafka、Azure 事件中樞或 IoT 中樞以近乎即時的方式串流。 此數據會落在 Azure Data Lake Storage 中,以長期儲存在該資料湖中。 Azure Databricks 可以從多個數據源讀取數據,作為工作流程的一部分。

  • Microsoft Power Platform 提供 連接器給數百個服務, 可以是事件、排程或推送驅動。 Microsoft Power Automate 可以處理事件,並觸發針對單一記錄或小型數據磁碟區優化的工作流程。

專有的原生和第三方工具套件提供獨特功能,可與特製化系統和接近實時的資料複製整合。

  • Azure Data Share 支持組織安全地與多個外部客戶和合作夥伴共享數據。 建立數據共享帳戶並新增數據產品之後,可以邀請客戶和合作夥伴加入數據共用。 數據提供者一律可控制其共享的數據。 Azure Data Share 可讓您輕鬆地管理和監視哪些數據被共用、何時共用,以及由誰共用。

重要

每個數據登陸區域可以有一個 數據擷取資源群組,適用於擁有數據中立擷取引擎的企業。 如果您沒有此框架引擎,唯一建議的資源是部署 Azure Databricks 分析工作區,這將用於支援數據整合並執行複雜的數據引入。 如需潛在的自動化模式,請參閱 資料中立的擷取引擎

匯入資料至 Azure Data Factory 時的考量

如果您有與數據無關的擷取引擎,您應該針對數據擷取資源群組中的每個數據登陸區域部署單一 Data Factory。 Data Factory 工作區應限制使用者存取,只有受控身份和服務主體才能存取以進行部署。 資料著陸區操作應該具有讀取許可權,以允許管線除錯。

數據應用程式可以有自己的 Data Factory 進行數據移動。 在每個數據應用程式資源群組中擁有 Data Factory,僅允許從 Azure DevOps 或 GitHub 部署管線,支援完整的持續整合 (CI) 和持續部署 (CD) 體驗。

Data Factory 工作區大多使用 Data Factory 中的受控虛擬網路(VNet)功能,或是 自我托管整合執行時間,作為其數據管理登陸區域中的數據著陸區。 建議工程師使用受控 VNet 功能安全地連線到 Azure PaaS 資源。

不過,您可以創建更多的整合執行環境,以從內部部署、第三方雲端和第三方軟體即服務(SaaS)數據源引入資料。

Azure Databricks 資料匯入考量

本指南詳細說明下列資訊:

  • 保護從 Azure Databricks 存取 Azure Data Lake Storage Gen2 的安全性

  • Azure Databricks 最佳做法

  • 為了開發,整合作業應先設置自己的 Azure Databricks 環境,然後再將程式碼簽入至單一的 Azure Databricks 工作區,以便在測試和生產過程中進行部署。

  • 數據應用程式中的 Data Factory(來源對齊)資源群組應該提供呼叫 Azure Databricks 作業的架構。

  • 數據應用程式小組可以在 Azure Databricks 上部署簡短、自動化的作業,並預期其叢集能夠快速啟動、執行作業並終止。 建議設定 Azure Databricks 集區,以減少叢集啟動作業所需的時間。

  • 我們建議組織使用 Azure DevOps 來實作新管線的部署架構。 此架構將用來建立數據集資料夾、指派訪問控制清單,以及使用 或不使用強制執行 Databricks 資料表存取控制來建立資料表。

串流擷取

組織可能需要支持發行者產生高速事件流的情境。 針對此模式,建議使用消息佇列,例如事件中樞或IoT中樞來內嵌這些數據流。

事件中樞和 IoT 中樞是可擴展的事件處理服務,可以低延遲和高可靠性擷取和處理大量事件和數據。 事件中樞被設計為大數據串流和事件接收服務。 IoT 中樞是受控服務,可作為 IoT 應用程式與其所管理裝置之間雙向通訊的中央訊息中樞。 從該處,數據可以定期(批次)匯出至數據湖,並透過 Azure Databricks 以近乎即時的方式,使用 Apache Spark 串流、Azure 資料總管、串流分析或時間序列深入解析進行處理。

使用案例特定登陸區域內的最後一個事件中樞或 Apache Kafka 登陸區域,應將其匯總數據傳送至數據登陸區域之一 Data Lake 的原始層,以及與數據登陸區域中數據應用程式(來源對齊)資源群組相關的事件中樞。

監視攝取

開箱即用的 Azure Data Factory 管線監視 可以用來監控和排除 Azure Data Factory 管線中的例外狀況。 其可減少開發自定義監視和報告解決方案的工作。

內建監視是使用 Azure Data Factory 作為主要協調流程工具的主要原因之一,而 Azure 原則可協助將此設定自動化。

後續步驟

在 Azure 中使用雲端規模分析進行 SAP 資料提取