描述資料整合模式
Microsoft Azure 提供各種不同的資料平台服務,可讓您執行不同類型的分析。 不論是資料倉儲中的描述性分析解決方案,或是 HDInsight、Azure Databricks 或機器學習服務內的預測性分析。 我們需要有服務來處理資料整合的重要層面。
首先,資料整合需要從一或多個來源收集資料。 視情況而言,通常會包含清理和轉換資料的流程,或可能透過額外的資料進行增強及準備。 最後,合併資料會儲存在資料平台服務中,此服務會處理您想要執行的分析類型。 在 Azure Data Factory 名為「解壓縮、轉換和載入」(ETL) 的模式中,可以將此流程自動化。
擷取
在擷取過程中,資料工程師會定義資料及其來源:
定義資料來源:識別來源詳細資料,例如資源群組、訂用帳戶,以及金鑰或祕密等身分識別資訊。
定義資料:識別要擷取的資料。 使用資料庫查詢、一組檔案,或適用於 Blob 儲存體的 Azure Blob 儲存體名稱來定義資料。
轉換
- 定義資料轉換:資料轉換作業可能包括分割、合併、衍生、新增、移除或樞紐分析資料行。 在資料來源與資料目的地之間對應欄位。 您可能也需要彙總或合併資料。
載入
定義目的地:在載入期間,許多 Azure 目的地可以接受 JavaScript 物件標記法 (JSON)、檔案或 Blob 格式的資料。 您可能需要撰寫程式碼來與應用程式 API 互動。
Azure Data Factory 提供 Azure Functions 的內建支援。 您也會找到許多程式設計語言的支援,包括 Node.js、.NET、Python 和 Java。 雖然可延伸標記語言 (XML) 在過去很常見,但大部分系統已移轉為 JSON,因為其提供作為半結構化資料類型的彈性。
啟動作業:在開發或測試環境中測試 ETL 作業。 然後將作業移轉到生產環境以載入生產系統。
監視作業:ETL 作業可能涉及許多複雜的程序。 設定主動式與反應式監視系統,在發生錯誤時提供資訊。 根據使用的技術來設定記錄。
ETL 工具
身為資料工程師,ETL 有一些可用的工具。 Azure Data Factory 為無程式碼和程式碼架構的使用者提供將近 100 種企業連接器和健全的資源,來完成其資料移動和轉換需求。
ETL 的演進
Azure 的問世讓技術可以無限制地處理非結構化資料。 這項變更會將載入和轉換資料的架構從 ETL 轉移到擷取、載入和轉換 (ELT)。
ELT 的優點是您能夠以其原始格式儲存資料,不論是 JSON、XML、PDF 還是影像都可以。 在 ELT 中,您會在轉換階段期間,定義資料的結構,讓您可以在多個下游系統中使用來源資料。
在 ELT 程序中,資料會以其原生格式擷取和載入。 這項變更會縮短將資料載入目的地系統所需的時間。 這項變更也會限制資料來源的資源爭用情況。
ELT 程序的步驟與 ETL 程序的步驟相同。 只有執行順序不同。
另一個類似 ELT 的程序稱為擷取、載入、轉換和載入 (ELTL)。 ELTL 的差異在於它最終會載入目的地系統。
Azure Data Factory 可以支援兩種常見的資料整合模式類型。
現代化資料倉儲工作負載:
現代化資料倉儲是集中式資料存放區,可使用結構化、非結構化或串流處理資料來源,提供整個企業的描述性分析及決策支援服務。 資料會從多個交易系統、關聯式資料庫和其他資料來源定期流入倉儲。 所儲存的資料會用來進行歷程記錄和趨勢分析報告。 此資料倉儲可充當許多主題領域的中央存放庫,並包含「單一事實來源」。
Azure Data Factory 通常用於將解壓縮、轉換和載入資料的流程自動化,並透過針對結構化和非結構化資料來源的批次處理方式來達成。
進階分析工作負載
您可以使用各種 Azure 資料平台服務,以預測性或先佔式分析的形式來執行進階分析。 Azure Data Factory 提供從來源系統到資料湖儲存之間的整合,並可啟動像 Azure Databricks 或 HDInsight 等計算資源,利用資料執行進階分析工作