什麼是 Azure Data Factory?

已完成

讓我們從 Azure Data Factory 概觀開始,幫助您判斷它是否適合用來組織您的資料,以建立商業見解。

Azure Data Factory 是一個雲端式擷取、轉換、載入 (ETL) 與資料整合服務,可協助您建立以資料驅動的工作流程並藉此:

  • 協調資料移動。
  • 大規模轉換資料。

注意

「資料驅動的工作流程」也被稱為管線。

藉由使用 Azure Data Factory,您可以將未經處理資料重新組織成有意義的資料存放區和資料湖,讓您能夠做出更好的商務決策。

資料分析是什麼?

資料分析是收集原始資料並進行檢視以從中得出結論的流程。 如果資料位於如位於主機資料庫和內部部署位置的多個位置,此流程可能會變得相當困難。

提示

「原始資料」是從來源收集但尚未處理的資料。 有時也被稱為「未整理資料」

Azure 提供數種技術,可讓您用來協助組織的資料分析,包含:

  • Azure Synapse Analytics
  • Azure Blob 儲存體
  • Azure Data Lake Storage
  • Azure Data Lake Analytics
  • Azure Analysis Services
  • Azure HDInsight
  • Azure Databricks
  • Azure Machine Learning

您可以視需要使用部分或全部服務來分析組織的資料。 然而,這些服務都沒有解決資料整合的問題。 「資料整合」可讓您從多個來源收集資料,然後將這個合併的資料載入至適合資料分析的位置。 如有必要,您可以在此流程中轉換資料。 雖然您可以手動執行這些工作,但您也能考慮使用 Azure Data Factory。

Azure Data Factory 定義

Azure Data Factory 是雲端式資料整合服務,其設計目的是要解決兩個特定社群的需求,如下表所述:

社群 社群需求的描述
巨量資料社群 這個社群依賴能管理大量多樣化資料的技術。 對他們來說,Azure Data Factory 提供了在雲端中建立和執行管線的方法。 這些管線可以同時存取雲端和內部部署資料服務。 這些管線通常會與 Azure Synapse Analytics、Azure Blob 和 Azure Data Lake 等技術一同使用。 此外還有 Azure HDInsight、Azure Databricks 和 Azure Machine Learning。
關聯式資料倉儲社群 這個什群通常依賴如 Microsoft SQL Server 等的技術。 SQL Server Integration Services (SSIS) 通常用來建立 SSIS 套件。 Azure Data Factory 提供此社群能在 Azure 上執行 SSIS 套件,並藉此存取雲端和內部部署資料服務。

注意

「套件」與 Azure Data Factory 管線類似。 每個套件都會定義一個進程,用以解壓縮、載入、轉換或使用資料。

重點是,Azure Data Factory 是用於資料整合的單一雲端服務。 它能為您所有的資料整合提供一組工具和一般管理介面,並支援您所有的資料來源,不論它們位於何處:

  • Azure
  • 內部部署
  • 協力廠商公用雲端平臺

Azure Data Factory 能如何協助資料分析

藉由使用 Azure Data Factory,您可以:

  • 打造複雜的 ETL 流程。 這些流程能以視覺化方式轉換資料,藉由使用如下的資料流程或計算服務:

    • Azure HDInsight Hadoop
    • Azure Databricks
    • Azure SQL Database
  • 將此經轉換的資料發佈至資料存放區,以供商業智慧應用程式使用。

在下圖中,外部資料來源會連接到 Azure Data Factory。 儲存體 Blob 會用來內嵌資料,而 Azure Synapse Analytics 會用來作為儲存體。 這些元素提供了協調流程。 分析和視覺效果元件、Azure Analysis Service 和 Power BI 也會連接到 Azure Data Factory。

描繪使用 Azure Data Factory 的可能架構圖形。

提示

Azure Data Factory 提供了超過 90 個的內建且無須維護的連接器。