解決方案構想
本文說明解決方案概念。 您的雲端架構師可以使用本指南,協助視覺化此架構的一般實作的主要元件。 以本文為起點,設計符合您工作負載具體要求的完善解決方案。
當您將內部部署大型主機或中型應用程式移轉至 Azure 時,傳輸數據是主要考慮。 數個現代化案例需要快速復寫檔案至 Azure,或維護內部部署檔案與 Azure 檔案之間的同步處理。
本文說明將檔案傳輸至 Azure、轉換和轉換檔案數據,以及將數據儲存在內部部署和 Azure 中的數個程式。
架構
下圖顯示將內部部署檔案複寫和同步至 Azure 的一些選項:
下載此架構的 Visio 檔案。
資料流程
將檔案傳輸至 Azure:
在內部部署或 Azure 傳輸檔案的最簡單方式是使用 檔案傳輸通訊協定 (FTP) 。 您可以在 Azure 虛擬機器 (VM) 上裝載 FTP 伺服器。 簡單的 FTP 作業控制語言 (JCL) 會以二進位格式將檔案傳送至 Azure,這對於保留大型主機和中範圍計算和二進位數據類型至關重要。 您可以將傳輸的檔案儲存在內部部署磁碟、Azure VM 檔案記憶體或 Azure Blob 儲存體。
您也可以使用 AzCopy 之類的工具,將內部部署檔案上傳至 Blob 記憶體。
Azure Data Factory FTP/SFTP 連接器也可用來將數據從大型主機系統傳輸到 Blob 記憶體。 此方法需要安裝自我裝載整合運行時間 (SHIR) 的中繼 VM。
您也可以在 Azure Marketplace 中找到第三方工具,以將檔案從大型主機傳輸到 Azure。
協調、轉換和轉換資料:
Azure 無法讀取 Azure VM 磁碟或 Blob 記憶體中的 IBM 擴充二進位編碼十進位交換碼 (EBCDIC) 代碼頁檔案。 為了讓這些檔案與 Azure 相容,主機整合伺服器 (HIS) 會將這些檔案從 EBCDIC 轉換為美國資訊交換標準代碼 (ASCII) 格式。
Copybook 會定義 COBOL、PL/I 和元件語言檔案的數據結構。 HIS 會根據 copybook 版面配置將這些檔案轉換成 ASCII。
將資料傳輸到 Azure 資料存放區之前,您可能需要轉換資料或使用它進行分析。 Data Factory 可以管理這些擷取-轉換-載入 (ETL) 和擷取-載入轉換 (ELT) 活動,並將數據直接儲存在 Azure Data Lake Storage 中。
針對巨量數據整合,Azure Databricks 和 Azure Synapse Analytics 可以使用 Apache Spark 引擎來執行記憶體內部計算,以快速且有效地執行所有轉換活動。
儲存資料:
視您的需求而定,您可以將傳輸的數據儲存在數種可用的永續性 Azure 記憶體模式之一中。
如果不需要分析,Azure Data Factory 可以直接將數據儲存在各種記憶體選項中,例如 Data Lake Storage 和 Blob 記憶體。
Azure 會裝載各種資料庫,以因應不同的需求:
- 關係資料庫包括 SQL Server 系列,以及 PostgreSQL 和 MySQL 等開放原始碼資料庫。
- 非關係資料庫包括 Azure Cosmos DB、快速、多模型、全域散發的 NoSQL 資料庫。
檢閱分析和商業智慧:
Microsoft Fabric 是一種全方位分析解決方案,貴組織可用來研究數據移動、實驗數據科學,以及檢閱即時分析和商業智慧。 它提供完整的功能套件,包括數據湖、數據工程和數據整合。
元件
各種文件傳輸、整合和儲存案例會使用不同的元件。 請參閱 Azure 定價計算機,以估計 Azure 資源的成本。
網路
內部部署數據閘道是將內部部署數據連線到雲端服務的網橋軟體。 您可以在專用的內部部署 VM 上安裝閘道。
資料整合和轉換
主機檔案的數據提供者是 HIS 的元件,可將 EBCDIC 程式碼頁檔案轉換成 ASCII。 提供者可以在本機二進位檔中離線讀取和寫入記錄,或使用系統網路架構(SNA)或傳輸控制通訊協定/因特網通訊協定/因特網通訊協定(TCP/IP)來讀取和寫入遠端 IBM z/OS 大型主機數據集或 i5/OS 實體檔案中的記錄。 HIS 連接器適用於 BizTalk 和 Azure Logic Apps。
Azure Data Factory 是混合式數據整合服務,可用來建立、排程及協調 ETL 和 ELT 工作流程。
Azure Databricks 是針對 Azure 優化的 Apache Spark 分析平臺。 您可以使用 Databricks 將傳入的數據相互關聯,並與 Databricks 中儲存的其他數據進行擴充。
Azure Synapse Analytics 是一個快速且彈性的雲端數據倉儲,具有大量平行處理 (MPP) 架構,可用來彈性且獨立地調整、計算及儲存數據。
資料庫
Azure SQL 資料庫 是可調整的關係型雲端資料庫服務。 Azure SQL 資料庫 是常青的,且一律為最新狀態,且具有 AI 支援的自動化功能,可優化效能和持久性。 無伺服器計算和超大規模資料庫記憶體選項會自動視需要調整資源。 透過 Azure Hybrid Benefit,您可以在雲端上使用現有的內部部署 SQL Server 授權,而不需要額外費用。
Azure SQL 受控執行個體 結合最廣泛的 SQL Server 資料庫引擎相容性,以及完全受控且常綠的平臺即服務 (PaaS) 的所有優點。 透過 SQL 受管理執行個體,您可以使用熟悉的工具、技能和資源,大規模地將現有的應用程式現代化。
Azure 上的 SQL Server 虛擬機器 隨即轉移 SQL Server 工作負載並移轉至雲端,以結合 Azure 與 SQL Server 效能、安全性和分析的彈性和混合式連線。 您可以使用 100% 的程式代碼相容性來存取最新的 SQL Server 更新和版本。
適用於 PostgreSQL 的 Azure 資料庫 是以開放原始碼 PostgreSQL 資料庫引擎社群版本為基礎的完全受控關係資料庫服務。
適用於 MySQL 的 Azure 資料庫 是以開放原始碼 MySQL 資料庫引擎社群版本為基礎的完全受控關係資料庫服務。
Azure Cosmos DB 是完全受控的多模型 NoSQL 資料庫服務,可建置和現代化可調整且高效能的應用程式。 Azure Cosmos DB 可彈性且獨立地跨地理區域調整輸送量和記憶體,並保證全球第 99 個百分位數可用性的單一位數毫秒延遲。
其他數據存放區
Blob 記憶體 會儲存大量的非結構化數據,例如文字或二進位數據,您可以透過 HTTP 或 HTTPS 從任何地方存取。 您可以使用 Blob 記憶體公開資料,或私下儲存應用程式數據。
Data Lake Storage 是儲存原生原始格式大量數據的記憶體存放庫。 Data Lake Storage 可為巨量數據分析工作負載提供數 TB 和 PB 的數據調整。 數據通常來自多個異質來源,而且可能是結構化、半結構化或非結構化。
潛在使用案例
內部部署檔案複寫和同步處理使用案例包括:
下游或上游相依性,例如,如果在大型主機上執行的應用程式,以及在 Azure 上執行的應用程式需要透過檔案交換數據。
使用內部部署應用程式在 Azure 上平行測試重新裝載或重新設計的應用程式。
在無法立即補救或現代化之系統上緊密結合的內部部署應用程式。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- Ashish Khandelwal |首席工程架構管理員
- Nithish Aruldoss | 工程架構師
若要查看非公開的 LinkedIn 設定檔,請登入 LinkedIn。
下一步
- 如需詳細資訊,請連絡 sql 資料工程師 小組Microsoft。
- Azure 資料庫移轉指南