什麼是 Azure Data Factory?
讓我們從 Azure Data Factory 概觀開始,幫助您判斷它是否適合用來組織您的資料,以建立商業見解。
Azure Data Factory 是一個雲端式擷取、轉換、載入 (ETL) 與資料整合服務,可協助您建立以資料驅動的工作流程並藉此:
- 協調資料移動。
- 大規模轉換資料。
注意
「資料驅動的工作流程」也被稱為管線。
藉由使用 Azure Data Factory,您可以將未經處理資料重新組織成有意義的資料存放區和資料湖,讓您能夠做出更好的商務決策。
資料分析是什麼?
資料分析是收集原始資料並進行檢視以從中得出結論的流程。 如果資料位於如位於主機資料庫和內部部署位置的多個位置,此流程可能會變得相當困難。
提示
「原始資料」是從來源收集但尚未處理的資料。 有時也被稱為「未整理資料」。
Azure 提供數種技術,可讓您用來協助組織的資料分析,包含:
- Azure Synapse Analytics
- Azure Blob 儲存體
- Azure Data Lake Storage
- Azure Data Lake Analytics
- Azure Analysis Services
- Azure HDInsight
- Azure Databricks
- Azure Machine Learning
您可以視需要使用部分或全部服務來分析組織的資料。 然而,這些服務都沒有解決資料整合的問題。 「資料整合」可讓您從多個來源收集資料,然後將這個合併的資料載入至適合資料分析的位置。 如有必要,您可以在此流程中轉換資料。 雖然您可以手動執行這些工作,但您也能考慮使用 Azure Data Factory。
Azure Data Factory 定義
Azure Data Factory 是雲端式資料整合服務,其設計目的是要解決兩個特定社群的需求,如下表所述:
社群 | 社群需求的描述 |
---|---|
巨量資料社群 | 這個社群依賴能管理大量多樣化資料的技術。 對他們來說,Azure Data Factory 提供了在雲端中建立和執行管線的方法。 這些管線可以同時存取雲端和內部部署資料服務。 這些管線通常會與 Azure Synapse Analytics、Azure Blob 和 Azure Data Lake 等技術一同使用。 此外還有 Azure HDInsight、Azure Databricks 和 Azure Machine Learning。 |
關聯式資料倉儲社群 | 這個什群通常依賴如 Microsoft SQL Server 等的技術。 SQL Server Integration Services (SSIS) 通常用來建立 SSIS 套件。 Azure Data Factory 提供此社群能在 Azure 上執行 SSIS 套件,並藉此存取雲端和內部部署資料服務。 |
注意
「套件」與 Azure Data Factory 管線類似。 每個套件都會定義一個進程,用以解壓縮、載入、轉換或使用資料。
重點是,Azure Data Factory 是用於資料整合的單一雲端服務。 它能為您所有的資料整合提供一組工具和一般管理介面,並支援您所有的資料來源,不論它們位於何處:
- Azure
- 內部部署
- 協力廠商公用雲端平臺
Azure Data Factory 能如何協助資料分析
藉由使用 Azure Data Factory,您可以:
打造複雜的 ETL 流程。 這些流程能以視覺化方式轉換資料,藉由使用如下的資料流程或計算服務:
- Azure HDInsight Hadoop
- Azure Databricks
- Azure SQL Database
將此經轉換的資料發佈至資料存放區,以供商業智慧應用程式使用。
在下圖中,外部資料來源會連接到 Azure Data Factory。 儲存體 Blob 會用來內嵌資料,而 Azure Synapse Analytics 會用來作為儲存體。 這些元素提供了協調流程。 分析和視覺效果元件、Azure Analysis Service 和 Power BI 也會連接到 Azure Data Factory。
提示
Azure Data Factory 提供了超過 90 個的內建且無須維護的連接器。