共用方式為


除了 Teradata 移轉之外,請在 Azure Microsoft中實作新式數據倉儲

本文是七部分系列的第七部分,提供如何從 Teradata 遷移至 Azure Synapse Analytics 的指引。 本文的重點為實作新式資料倉儲的最佳做法。

不僅止於將資料倉儲移轉至 Azure

將現有資料倉儲移轉至 Azure Synapse Analytics 的主要原因,是因為這麼做便可利用全域安全、可調整、低成本、雲端原生、隨用隨付的分析資料庫。 透過 Azure Synapse,您可以整合已移轉的資料倉儲與完整的 Microsoft Azure 分析生態系統,以利用其他 Microsoft 技術並將移轉的資料倉儲現代化。 這些技術包括:

  • Azure Data Lake Storage,此技術可用於符合成本效益的資料擷取、暫存、清除和轉換。 Data Lake Storage 可釋放快速成長暫存表格所佔用的資料倉儲容量。

  • Azure Data Factory,此技術可用於 IT 和自助式共同資料整合作業,並具有連接雲端和內部部署資料來源與串流資料的連接器

  • Common Data Model,此技術可讓多種技術共用一致的受信任資料,包括:

    • Azure Synapse
    • Azure Synapse Spark
    • Azure HDInsight
    • Power BI
    • Adobe 客戶體驗平台
    • Azure IoT
    • Microsoft ISV 合作夥伴
  • Microsoft 資料科學技術,包括:

    • Azure Machine Learning Studio
    • Azure Machine Learning
    • Azure Synapse Spark (Spark 即服務)
    • Jupyter Notebook
    • RStudio
    • ML.NET
    • 適用於 Apache Spark 的 .NET,可讓資料科學家使用 Azure Synapse 資料大規模定型機器學習模型。
  • Azure HDInsight,可處理大量資料,並透過使用 PolyBase 建立邏輯資料倉儲來聯結巨量資料與 Azure Synapse 資料。

  • Azure 事件中樞Azure 串流分析Apache Kafka,可與來自 Azure Synapse 的即時串流資料整合。

巨量資料的成長導致人們亟需機器學習啟用自訂建置且定型的機器學習模型,以在 Azure Synapse 使用。 機器學習模型可以事件驅動及隨選的方式大規模分批執行資料庫內分析。 從多個 BI 工具和應用程式利用 Azure Synapse 中資料庫內分析的能力,也可保證取得相同的預測和建議。

此外,您可以將 Azure Synapse 與 Azure 上的 Microsoft 合作夥伴工具整合,以縮短價值實現的時間。

讓我們進一步了解如何在移轉至 Azure Synapse 之後,利用 Microsoft 分析生態系統中的技術,將您的資料倉儲現代化。

將資料暫存和 ETL 處理卸載至 Data Lake Storage 和 Data Factory

數位轉型產生大量需要擷取和分析的新資料,為企業帶來重大挑戰。 一個良好的範例是開啟線上交易處理 (OLTP) 系統以從行動裝置存取服務所建立的交易資料。 許多這類資料都儲存在資料倉儲中,OLTP 系統是主要資料來源。 由於客戶現在推動的是交易率而非員工,資料倉儲暫存資料表中的資料量已經開始快速成長。

隨著資料快速流入企業和物聯網 (IoT) 等新資料來源,公司必須尋找擴大資料整合 ETL 處理的方式。 其中一個方法是將擷取、資料清除、轉換和整合卸載至資料湖,然後在該處大規模處理,並作為資料倉儲現代化程式的一部分。

在您將資料倉儲移轉至 Azure Synapse 之後,Microsoft 便可透過將資料內嵌和暫存至 Azure Data Lake Storage 來將您的 ETL 處理現代化。 接著,您可以使用 Data Factory 大規模清除、轉換和整合您的資料,再使用 PolyBase 將其平行載入 Azure Synapse。

針對 ELT 策略,請考慮將 ELT 處理卸載至 Data Lake Storage,以在資料量或頻率成長時輕鬆調整規模。

Microsoft Azure Data Factory

Azure Data Factory 是隨用隨付的混合式資料整合服務,適用於高度可調整的 ETL 和 ELT 處理。 Data Factory 會提供 Web 型 UI 來建置沒有程式碼的資料整合管線。 使用 Data Factory,您可以:

  • 建置無程式碼的可調整資料整合管線。

  • 輕鬆大規模取得資料。

  • 只需依據使用量付費。

  • 連線至內部部署、雲端和 SaaS 型資料來源。

  • 大規模內嵌、移動、清除、轉換、整合和分析雲端和內部部署資料。

  • 順暢地撰寫、監視及管理跨越內部部署和雲端中資料存放區的管線。

  • 讓隨用隨付隨著客戶成長擴大。

您無須撰寫程式碼便可使用這些功能,也可以將自訂程式碼新增至 Data Factory 管線。 以下螢幕擷取畫面顯示 Data Factory 管線範例。

Data Factory 管線範例的螢幕快照。

提示

Data Factory 可讓您建置可調整的數據整合管線,而不需要程序代碼。

您可從數個位置中的任何位置實作 Data Factory 管線開發,包括:

  • Microsoft Azure 入口網站。

  • Microsoft Azure PowerShell。

  • 使用多語言 SDK 以程式設計方式從 .NET 和 Python 開發管線。

  • Azure Resource Manager (ARM) 範本。

  • REST API。

提示

Data Factory 可以連線至內部部署、雲端和 SaaS 資料。

想要撰寫程式碼的開發人員和資料科學家,可以使用適用於這些程式設計語言的軟體發展套件 (SDK),輕鬆地在 JAVA、Python 和 .NET 中撰寫 Data Factory 管線。 Data Factory 管線可以是混合式資料管線,因為其可以連接、內嵌、清除、轉換和分析內部部署資料中心、Microsoft Azure、其他雲端和 SaaS 供應項目中的資料。

開發 Data Factory 管線以整合和分析資料之後,即可全域部署這些管線,並排程這些管線以批次方式執行、依需求叫用為服務,或以事件驅動為基礎即時執行。 Data Factory 管線也可以在一或多個執行引擎上執行,並監視管線執行,以確保效能並追蹤錯誤。

提示

在 Azure Data Factory 中,管線會控制資料整合和分析。 Data Factory 是企業級的資料整合軟體,以 IT 專業人員為目標客群,並具備商務使用者適用的資料整頓功能。

使用案例

Data Factory 支援多種使用案例,例如:

  • 準備、整合及擴充來自雲端和內部部署資料來源的資料,以填入 Microsoft Azure Synapse 上的移轉資料倉儲和資料超市。

  • 準備、整合和擴充來自雲端和內部部署資料來源的資料來產生定型資料,以用於機器學習模型開發和重新定型分析模型。

  • 協調資料準備和分析來建立預測性和規範性的分析管線,以批次方式處理及分析資料,例如情感分析。 您可按照分析結果採取行動,或將結果填入您的資料倉儲。

  • 在 Azure Cosmos DB 等作業資料存放區上,準備、整合及擴充在 Azure 雲端上所執行的資料驅動商務應用程式資料。

提示

在資料科學中建置定型資料集,以開發機器學習模型。

資料來源

Data Factory 可讓您使用來自雲端和內部部署資料來源的連接器。 代理程式軟體稱為「自我裝載整合執行階段」,可安全地存取內部部署資料來源,且支援安全、可調整的資料傳輸。

使用 Azure Data Factory 轉換資料

在 Data Factory 管線中,您可以內嵌、清除、轉換、整合及分析來自這些來源的所有資料類型。 資料可以是結構化、半結構化 (例如 JSON 或 Avro) 或非結構化的資料。

專業 ETL 開發人員可以使用 Data Factory 對應資料流來篩選、分割、聯結數種類型、查閱、樞紐、取消樞紐、排序、聯集和匯總資料,而不需要撰寫任何程式碼。 此外,Data Factory 也支援代理索引鍵、多個寫入處理選項 (例如插入、upsert、更新、資料表重新建立和資料表截斷),以及數種類型的目標資料存放區,也稱為接收器。 ETL 開發人員也可以建立匯總,包括需要在資料行上放置視窗的時間序列匯總。

提示

專業 ETL 開發人員可以使用 Data Factory 對應資料流來清除、轉換和整合資料,而不需要撰寫程式碼。

您可以執行將資料轉換成 Data Factory 管線中活動的對應資料流,如有必要,您可以在單一管線中包含多個對應資料流。 如此一來,您便可將具挑戰性的資料轉換和整合工作分成較小且可合併的對應資料流程,以管理複雜度。 而且,您可以在需要時新增自訂程式碼。 除了這項功能之外,Data Factory 對應資料流也包含下列功能:

  • 定義運算式來清除和轉換資料、計算匯總和擴充資料。 例如,這些運算式可以在日期欄位上執行特徵工程,將其分為多個欄位,以在機器學習模型開發期間建立定型資料。 您可以從一組豐富的函式建構運算式,其中包含數學、時態性、分割、合併、字串串連、條件、模式比對、取代和其他許多函式。

  • 自動處理結構描述漂移,讓資料轉換管線可以避免受到資料來源中結構描述變更的影響。 此能力對串流 IoT 資料特別重要,因為進行串流時,若裝置升級或收集 IoT 資料的閘道裝置遺漏讀數,結構描述變更可能會在不知情的情況下發生。

  • 分割資料,讓轉換能夠大規模平行執行。

  • 檢查串流資料,以檢視轉換中串流的中繼資料。

提示

Data Factory 支援自動偵測和管理輸入資料 (例如串流資料) 中的結構描述變更。

下列螢幕擷取畫面顯示 Data Factory 對應資料流範例。

Data Factory 對應數據流範例的螢幕快照。

資料工程師可以在開發期間啟用偵錯功能來分析資料品質,並檢視個別資料轉換的結果。

提示

Data Factory 也可以分割資料,讓 ETL 處理以大規模執行。

如有必要,您可以將包含您程式碼的連結服務新增至管線,以擴充 Data Factory 轉換和分析功能。 例如,Azure Synapse Spark 集區筆記本可能會包含 Python 程式碼,而此程式碼會使用定型的模型來評分對應資料流整合的資料。

您可以將整合式資料與 Data Factory 管線中的任何分析結果儲存在一或多個資料存放區中,例如 Data Lake Storage、Azure Synapse 或 HDInsight 中的 Hive 資料表。 您也可以叫用其他活動,以處理 Data Factory 分析管線所產生的深入解析。

提示

Data Factory 管線可以延伸,因為 Data Factory 可讓您撰寫自己的程式碼,並在管線中執行。

利用 Spark 調整資料整合

在執行階段,Data Factory 會在內部使用 Azure Synapse Spark 集區 (此為 Microsoft 的 Spark 即服務供應項目) 來清除及整合 Azure 雲端中的資料。 您可以大規模清除、整合及分析大量高速的資料,例如點選流資料。 Microsoft 的目的是同時在其他 Spark 散發套件上執行 Data Factory 管線。 除了在 Spark 上執行 ETL 作業之外,Data Factory 也可以叫用 Pig 指令碼和 Hive 查詢,以存取和轉換儲存在 HDInsight 中的資料。

資料整頓可讓商務使用者 (也稱為公民資料整合者和資料工程師) 利用平台以視覺化方式大規模探索、發掘及準備資料,而不需撰寫程式碼。 這種 Data Factory 功能十分易於使用,類似於 Microsoft Excel Power Query 或 Microsoft Power BI 資料流程,其中自助商務使用者會使用試算表樣式 UI 搭配下拉式轉換來準備和整合資料。 下列螢幕擷取畫面顯示 Data Factory 整頓資料流範例。

Data Factory 整頓數據流範例的螢幕快照。

與 Excel 和 Power BI 不同,Data Factory 整頓資料流會使用 Power Query 來產生 M 程式碼,並將其轉譯為高度平行記憶體內 Spark 作業,以進行雲端規模的執行。 在 Data Factory 中對應資料流和整頓資料流的組合,可讓專業 ETL 開發人員和商務使用者共同作業,以準備、整合及分析資料以用於一般商務用途。 上述 Data Factory 對應資料流的圖表顯示 Data Factory 和 Azure Synapse Spark 集區筆記本如何在相同的 Data Factory 管線中結合。 Data Factory 中對應和整頓資料流程的組合可協助 IT 和商務使用者了解兩者各自建立的資料流程,並支援資料流程重複使用,以將重新建立的情形減到最少,並將生產力和一致性最大化。

提示

Data Factory 同時支援整頓資料流程和對應資料流程,因此商務使用者和 IT 使用者可以在通用平台上共同整合資料。

除了清除和轉換資料之外,Data Factory 也可以在相同的管線中結合資料整合和分析。 您可以使用 Data Factory 來建立資料整合和分析管線,後者是前者的延伸。 您可以將分析模型放入管線,以建立可產生全新整合式資料供預測或建議使用的分析管線。 然後您可以立即處理預測或建議,或將其儲存在資料倉儲中,以提供可在 BI 工具中檢視的新深入解析和建議。

若要對資料進行批次評分,您可以開發分析模型,在 Data Factory 管線中叫用此模型作為服務使用。 您可以透過 Azure Machine Learning 工作室,或透過使用 Azure Synapse Spark 集區筆記本或 RStudio 中 R 的 Azure Machine Learning SDK,來開發無程式碼的分析模型。 當您在 Azure Synapse Spark 集區筆記本上執行 Spark 機器學習管線時,分析便會大規模執行。

您可以將整合式資料和 Data Factory 分析管線結果儲存在一或多個資料存放區中,例如 Data Lake Storage、Azure Synapse 或 HDInsight 中的 Hive 資料表。 您也可以叫用其他活動,以處理 Data Factory 分析管線所產生的深入解析。

使用 Lake 資料庫共用一致的受信任資料

任何資料整合設定的主要目標都是整合資料一次之後便可在任何位置重複使用資料的能力,而非僅在資料倉儲中使用。 例如,您可能會想要在資料科學中使用整合式資料。 重複使用可避免重新建立,並確保資料一致、易於理解,且每個人都可以信任。

Common Data Model 會描述可在整個企業中共用及重複使用的核心資料實體。 為了達到重複使用的目的,Common Data Model 會建立一組描述邏輯資料實體的通用資料名稱和定義。 常見的資料名稱範例包括客戶、帳戶、產品、供應商、訂單、付款和退貨。 IT 和商務專業人員可以使用資料整合軟體來建立及儲存通用資料資產,以最大化其重複使用,並推動所有位置之間的一致性。

Azure Synapse 會提供產業特定的資料庫範本,以協助將 Lake 中的資料標準化。 Lake 資料庫範本會提供預先定義業務區域的結構描述,讓資料以結構化方式載入 Lake 資料庫。 當您使用資料整合軟體來建立 Lake 資料庫通用資料資產時,此範本便會發揮效用,進而產生應用程式和分析系統可取用的自我描述受信任資料。 您可以使用 Data Factory 在 Data Lake Storage 中建立通用資料資產。

提示

Data Lake Storage 是支援 Microsoft Azure Synapse、Azure Machine Learning、Azure Synapse Spark 和 HDInsight 的共用儲存體。

Power BI、Azure Synapse Spark、Azure Synapse和 Azure Machine Learning 皆可取用通用資料資產。 下圖顯示如何在 Azure Synapse 中使用 Lake 資料庫。

顯示如何在 Azure Synapse 中使用 Lake 資料庫的螢幕快照。

提示

整合資料,在共用儲存體中建立 Lake 資料庫邏輯實體,進而將通用資料資產的重複使用最大化。

與 Azure 上的 Microsoft 資料科學技術整合

將資料倉儲現代化時的另一個重要目標是產生深入解析來促進競爭優勢。 您可以將移轉的資料倉儲與 Azure 中的 Microsoft 和協力廠商資料科學技術整合來產生深入解析。 下列各節將說明 Microsoft 所提供的機器學習和資料科學技術,供您了解這些技術如何與新式資料倉儲環境中的 Azure Synapse 搭配使用。

Azure 上資料科學的 Microsoft 技術

Microsoft 提供一系列支援進階分析的技術。 透過這些技術,您可以使用機器學習來建置預測性分析模型,或使用深度學習來分析非結構化資料。 這些技術包括:

  • Azure Machine Learning Studio

  • Azure Machine Learning

  • Azure Synapse Spark 集區筆記本

  • ML.NET (API、CLI 或適用於 Visual Studio 的 ML.NET Model Builder)

  • 適用於 Apache Spark 的 .NET

資料科學家可以使用 RStudio (R) 和 Jupyter Notebook (Python) 來開發分析模型,也可以使用 Keras 或 TensorFlow 等架構。

提示

使用無/低程式碼方法或 Python、R 和 .NET 等各種程式設計語言開發機器學習模型。

Azure Machine Learning Studio

Azure Machine Learning 工作室是完全受控的雲端服務,可讓您使用拖放 Web 型 UI 建置、部署及共用預測性分析。 下列螢幕擷取畫面顯示 Azure Machine Learning 工作室 UI。

顯示 Azure Machine Learning 工作室 UI 中預測性分析的螢幕快照。

Azure Machine Learning

Azure Machine Learning 提供適用於 Python 的 SDK 和服務,可支援您迅速準備資料,也能協助您定型及部署機器學習模型。 您可以使用 Jupyter Notebook 來使用 Azure 筆記本中的 Azure Machine Learning,搭配開放原始碼架構,例如 PyTorch、TensorFlow、scikit-learn 或 Spark MLlib (適用於 Spark 的機器學習程式庫)。

提示

Azure Machine Learning 提供 SDK,可讓您使用數個開放原始碼架構來開發機器學習模型。

您也可以使用 Azure Machine Learning 來建置機器學習管線,以管理端對端工作流程、以程式設計方式在雲端中進行調整,以及將模型部署至雲端和邊緣。 Azure Machine Learning 中包含工作區,此為一種邏輯空間,您可以在 Azure 入口網站以程式設計方式或手動建立。 這些工作區會將計算目標、實驗、資料存放區、定型的機器學習模型、Docker 映像和已部署的服務保留在一個位置,讓小組能夠一起工作。 您可以使用 Visual Studio 中的 Azure Machine Learning,搭配適用於 AI 的 Visual Studio 延伸模組。

提示

在工作區中組織及管理相關的資料存放區、實驗、定型模型、Docker 映像和已部署的服務。

Azure Synapse Spark 集區筆記本

Azure Synapse Spark 集區筆記本是 Azure 最佳化的 Apache Spark 服務。 使用 Azure Synapse Spark 集區筆記本,可享有下列效益:

  • 資料工程師可以使用 Data Factory 來建置及執行可調整的資料準備作業。

  • 資料科學家可以使用以 Scala、R、Python、Java 和 SQL 等語言撰寫的筆記本大規模建置及執行機器學習模型,並以視覺化方式呈現結果。

提示

Azure Synapse Spark 是 Microsoft 可動態調整的 Spark 即服務,提供可調整的資料準備、模型開發及已部署的模型執行。

在 Azure Synapse Spark 集區筆記本中執行的作業可以大規模擷取、處理和分析來自 Azure Blob 儲存體、Data Lake Storage、Azure Synapse、HDInsight 和串流資料服務 (例如 Apache Kafka) 的資料。

提示

Azure Synapse Spark 可以在 Azure 上的各種 Microsoft 分析生態系統資料存放區中存取資料。

Azure Synapse Spark 集區筆記本可支援自動調整和自動終止來減少擁有權總成本 (TCO)。 資料科學家可以使用 MLflow 開放原始碼架構來管理機器學習生命週期。

ML.NET

ML.NET 是使用開放原始碼的跨平台機器學習架構,可供 Windows、Linux 和 macOS 使用。 Microsoft 建立 ML.NET,是為了讓 .NET 開發人員可以使用現有的工具 (例如適用於 Visual Studio 的 ML.NET Model Builder) 來開發自訂機器學習模型,並將其整合至其 .NET 應用程式中。

提示

Microsoft 已將其機器學習功能延伸至 .NET 開發人員。

適用於 Apache Spark 的 .NET

適用於 Apache Spark 的 .NET 將 Spark 支援從 R、Scala、Python 和 Java 延伸到 .NET,目標是要讓 .NET 開發人員都能夠跨所有 Spark API 存取 Spark。 適用於 Apache Spark 的 .NET 目前僅可在 HDInsight 中的 Apache Spark 上使用,不過 Microsoft 也打算在 Azure Synapse Spark 集區筆記本提供適用於 Apache Spark 的 .NET。

搭配您的資料倉儲使用 Azure Synapse Analytics

若要結合機器學習模型與 Azure Synapse,您可以執行下列動作:

  • 在串流資料上以批次或即時方式使用機器學習模型來產生新的深入解析,並將其新增至您在 Azure Synapse 中已經知道的內容。

  • 使用 Azure Synapse 中的資料來開發和定型新的預測性模型,以便在其他位置部署,例如其他應用程式。

  • 在 Azure Synapse 中部署機器學習模型,包括在其他位置定型的模型,以分析您資料倉儲中的資料,並推動新的商業價值。

提示

使用 Azure Synapse 中的資料,在 Azure Synapse Spark 集區筆記本上大規模定型、測試、評估和執行機器學習模型。

資料科學家可以使用 RStudio、Jupyter Notebook 和 Azure Synapse Spark 集區筆記本,並搭配 Azure Machine Learning 來開發在 Azure Synapse Spark 集區筆記本上使用 Azure Synapse 中資料大規模執行的機器學習模型。 例如,資料科學家可以建立不受監督的模型來區隔客戶,以推動不同的行銷活動。 使用受監督的機器學習來定型模型以預測特定結果,例如預測客戶流失的傾向,或建議下一個最佳供應項目讓客戶嘗試增加自身價值。 下圖顯示如何將 Azure Synapse 用於 Azure Machine Learning。

Azure Synapse 定型和預測模型的螢幕快照。

在其他情況下,您可以將社交網路資料或檢閱網站資料內嵌至 Data Lake Storage,然後使用自然語言處理來評分客戶對您的產品或品牌的相關情緒,在 Azure Synapse Spark 集區筆記本上大規模地準備和分析資料。 然後,您可以將這些分數新增至資料倉儲。 藉由使用巨量資料分析來了解負面情感對產品銷售的影響,您便可針對資料倉儲中已經知道的內容進行補充。

提示

在 Azure 上以批次或即時方式使用機器學習產生新的深入解析,並針對資料倉儲中已經知道的內容進行補充。

將即時串流資料整合至 Azure Synapse Analytics

分析新式資料倉儲中的資料時,您必須能夠即時分析串流資料,並將其與資料倉儲中的歷程記錄資料聯結。 其中一個範例是將 IoT 資料與產品或資產資料結合。

提示

整合您的資料倉儲與來自 IoT 裝置或點擊流的串流資料。

成功將資料倉儲移轉至 Azure Synapse 之後,您可以利用 Azure Synapse 中的額外功能,在資料倉儲現代化練習中引進即時串流資料整合。 若要執行此動作,請透過事件中樞、Apache Kafka 等其他技術,或您現有的 ETL 工具 (若其支援串流資料來源) 來內嵌串流資料。 將資料儲存在 Data Lake Storage。 然後使用 PolyBase 在 Azure Synapse 中建立外部資料表,並將其指向串流至 Data Lake Storage 的資料。如此一來,您的資料倉儲中便會包含新的資料表,而此資料表會提供即時串流資料的存取權。 請從可存取 Azure Synapse 的 BI 工具使用標準 T-SQL 來查詢外部資料表,就像資料位在資料倉儲中。 您也可以將串流資料聯結至具有歷程記錄資料的其他資料表,以建立將即時串流資料聯結至歷程記錄資料的檢視,讓商務使用者更容易存取資料。

提示

從事件中樞或 Apache Kafka 將串流資料內嵌至 Data Lake Storage,並使用 PolyBase 外部資料表從 Azure Synapse 存取資料。

在下圖中,Azure Synapse 上的即時資料倉儲會與 Data Lake Storage 中的串流資料整合。

Azure Synapse 的螢幕快照,其中含有 Data Lake Storage 中的串流數據。

使用 PolyBase 建立邏輯資料倉儲

透過 PolyBase,您可以建立邏輯資料倉儲,以簡化使用者對多個分析資料存放區的存取。 除了資料倉儲,許多公司已在過去數年間採用「工作負載最佳化」分析資料存放區。 Azure 上的分析平台包括:

  • 使用 Azure Synapse Spark 集區筆記本 (Spark 即服務) 的 Data Lake Storage,適用於巨量資料分析。

  • HDInsight (Hadoop 即服務),也適用於巨量資料分析。

  • 適用於圖表分析的 NoSQL Graph 資料庫,可在 Azure Cosmos DB 中進行分析。

  • 事件中樞和串流分析,可即時分析運行中資料。

您可能擁有這些平台的非 Microsoft 對等平台,或主要資料管理 (MDM) 系統,其需要存取客戶、供應商、產品、資產等項目上的一致受信任資料。

提示

PolyBase 可簡化對 Azure 上多個基礎分析資料存放區的存取,讓商務使用者輕鬆使用。

這些分析平台之所以出現,是因為企業內外暴增許多新的資料來源,且商務使用者對擷取及分析新資料產生需求。 新的資料來源包括:

  • 機器產生的資料,例如 IoT 感應器資料和點擊流資料。

  • 人為產生的資料,例如社交網路資料、檢閱網站資料、客戶輸入電子郵件、影像和視訊。

  • 其他外部資料,例如公開政府資料和氣象資料。

此新資料不僅止於結構化交易資料和主要資料來源,而這些資料來源通常會饋送下列資料給資料倉儲:

  • JSON、XML 或 Avro 等半結構化資料。
  • 文字、語音、影像或視訊等非結構化資料,其處理和分析過程更為複雜。
  • 大量資料、高速資料,或兩者皆有。

因此,新種類且更複雜的分析已經出現,例如自然語言處理、圖表分析、深度學習、串流分析,或大量結構化資料的複雜分析。 這類分析通常不會在資料倉儲中發生,因此自然會出現不同類型的分析工作負載使用不同分析平台的情形,如下圖所示。

Azure Synapse 中不同分析工作負載類型之不同分析平台的螢幕快照。

提示

所謂的邏輯資料倉儲架構,就是讓多個分析資料存放區中的資料看起來像在一個系統中,並將其聯結至 Azure Synapse 的能力。

因為這些平台會產生新的深入解析,所以經常出現將新的深入解析與您在 Azure Synapse 中已知道的內容結合的需求,而 PolyBase 可以做到這一點。

藉由在 Azure Synapse 內使用 PolyBase 資料虛擬化,您可以實作邏輯資料倉儲,且在此倉儲中,Azure Synapse 中的資料會聯結至其他 Azure 和內部部署分析資料存放區中的資料,例如 HDInsight、Azure Cosmos DB,或是從串流分析或事件中樞流入 Data Lake Storage 的串流資料。 此方法會降低使用者操作時的複雜度,這些使用者可以存取 Azure Synapse 中的外部資料表,而不必知道存取的資料會儲存在多個基礎分析系統中。 下圖顯示透過相對簡單但仍然強大的 UI 方法存取的複雜資料倉儲結構。

此螢幕快照顯示透過UI方法存取的複雜數據倉儲結構範例。

此圖顯示 Microsoft 分析生態系統中的其他技術如何與 Azure Synapse 中的邏輯資料倉儲架構的功能結合。 例如,您可以使用 Data Factory 將資料內嵌至 Data Lake Storage 並對資料進行策展,以建立代表 Microsoft Lake 資料庫邏輯資料實體的受信任資料產品。 接著,您可以在不同的分析環境 (例如 Azure Synapse、Azure Synapse Spark 集區筆記本或 Azure Cosmos DB) 中取用和重複使用此受信任且易於理解的資料。 這些環境中產生的所有深入解析都可透過 PolyBase 所提供的邏輯資料倉儲資料虛擬化層來存取。

提示

邏輯資料倉儲架構可簡化商務使用者對資料的存取,並賦予您在資料倉儲中已經知道的內容全新價值。

結論

將資料倉儲移轉至 Azure Synapse 後,即可利用 Microsoft 分析生態系統中的其他技術。 利用這些技術,您不僅會將資料倉儲現代化,也會將其他 Azure 分析資料存放區中產生的深入解析結合為整合式分析架構。

您可以擴大 ETL 處理,將所有類型的資料內嵌至 Data Lake Storage,然後使用 Data Factory 來大規模準備及整合資料,以產生受信任且易於理解的資料資產。 這些資產可以讓您的資料倉儲取用,也可以讓資料科學家和其他應用程式進行存取。 您可以建置即時和批次導向的分析管線,並建立機器學習模型,以在串流資料和隨選即服務上以批次、即時方式執行。

您可以使用 PolyBase 或 COPY INTO 前往資料倉儲以外的平台,藉此簡化對 Azure 上多個基礎分析平台深入解析的存取。 若要執行此動作,請在支援存取串流、巨量資料和來自 BI 工具和應用程式的傳統資料倉儲深入解析的邏輯資料倉儲中,建立整體的整合檢視。

將資料倉儲移轉至 Azure Synapse,您便可利用在 Azure 上執行的豐富 Microsoft 分析生態系統,在企業中推動新的價值。

下一步

若要了解如何移轉至專用 SQL 集區,請參閱將資料倉儲移轉至 Azure Synapse Analytics 中的專用 SQL 集區