Apache®、Spark 和火焰標誌是 Apache Software Foundation 在美國和/或其他國家/地區的註冊商標或商標。 使用這些標記不會隱含 Apache Software Foundation 的背書。
本文說明大型主機和中型資料來源的端對端現代化方案。
架構
下載此架構的 Visio 檔案。
資料流程
下列資料流程概述將大型主機資料分層現代化的過程。 它會對應到前面的圖表。
大型主機和中層系統會將數據儲存在數據源中,例如文件系統(VSAM)、一般檔案、LTFS、關係資料庫(Db2 for z/OS、Db2 for IBM i、Db2 for Linux UNIX 和 Windows),或非關係資料庫 IMS(資訊管理系統)、ADABAS、IDMS(整合資料庫管理系統)。
物件轉換過程會從來源物件擷取物件定義。 定義接著會轉換成目標資料儲存區中的對應物件。
- db2 的 SQL Server Migration Assistant (SSMA) 會將架構和資料從 IBM Db2 資料庫遷移至 Azure 資料庫。
-
主機檔案的受控資料提供者會透過下列方式轉換物件:
- 剖析 COBOL 和 RPG 記錄版面配置,或複製手冊。
- 將複製手冊對應至 .NET 應用程式使用的 C# 物件。
- 利用 Db2toAzurePostgreSQL 工具,將資料庫物件從 Db2 遷移至適用於 PostgreSQL 的 Azure 資料庫。
- 第三方工具會在非關聯式資料庫、檔案系統,和其他資料儲存區上執行自動化物件轉換。
資料會被擷取並轉換。 大型主機和中型系統會將其檔案系統資料以 EBCDIC 編碼格式儲存在檔案格式,例如:
COBOL、PL/I 和元件語言複製手冊會定義這些檔案的資料結構。
a. FTP 會以二進位格式和對應到 Azure 的複製手冊,傳輸具有單一版面配置和解壓縮欄位的大型主機和中型檔案系統資料集。
b. 數據轉換是藉由使用主機整合伺服器的主機檔案元件開發自定義程式,或使用 Azure Logic Apps 中 IBM 主機檔案的內建連接器來完成。
Spark Notebook 轉換器是使用開放原始碼 Spark 架構所開發,並與 Spark 環境相容,例如 Microsoft Fabric、Azure Synapse Analytics 和 Databricks。
c. 關聯式資料庫資料已移轉。
IBM 大型主機和中型系統會將資料儲存在關聯式資料庫中,如下所示:
這些服務會移轉資料庫資料:
- Data Factory 會使用 Db2 連接器,從資料庫擷取和整合資料。
- SQL 伺服器整合服務會處理各種資料 ETL 工作。
- Microsoft Fabric Data Factory 會利用 IBM Db2 連接器來遷移 Db2 數據。
d. 非關聯式資料庫資料已移轉。
IBM 大型主機和中型系統會將資料儲存在非關聯式資料庫中,如下所示:
第三方產品會整合來自這些資料庫的資料。
Data Factory 和 AzCopy 等 Azure 服務會將資料載入至 Azure 資料庫和 Azure 資料儲存體。 您也可以使用第三方解決方案和自訂載入解決方案來載入資料。
Azure 提供各種資料庫服務,包括完全受控的關係資料庫,例如 Azure SQL Database 和 NoSQL 選項,例如 Azure Cosmos DB。 這些服務是專為延展性、彈性和全域散發而設計。
Azure 也提供一系列記憶體解決方案,包括非結構化數據的 Azure Blob 記憶體,以及適用於完全受控檔案共用的 Azure 檔案記憶體。
Azure 服務會使用現代化資料分層來計算、分析、儲存和建立網路連線。
用戶端應用程式也會使用現代化資料分層。
元件
資料存放區
此架構討論數據遷移至可調整、安全的雲端記憶體和受控資料庫,以在 Azure 中進行彈性、智慧型數據管理。
- SQL 資料庫是 Azure SQL 系列的一部分。 專為雲端設計,並提供完全受控且常綠平臺即服務的所有優點。 SQL 資料庫也會提供受 AI 支援,能將效能與持久性最佳化的自動化功能。 無伺服器計算和超大規模儲存體選項會自動視需要縮放資源。
- 適用於 PostgreSQL 的 Azure 資料庫 是以開放原始碼 PostgreSQL 資料庫引擎社群版本為基礎的完全受控關係資料庫服務。
- Azure Cosmos DB 是一種全域散發的多重模型NoSQL資料庫。
- 適用於 MySQL 的 Azure 資料庫 是以開放原始碼 MySQL 資料庫引擎社群版本為基礎的完全受控關係資料庫服務。
- SQL 受控執行個體是一種聰明、可縮放的雲端資料庫服務,可提供完全受控及長青平台即服務的所有優勢。 SQL 受控執行個體具有近乎 100% 相容於最新版的 SQL Server Enterprise edition 資料庫引擎。 它也提供解決常見安全性考量的原生虛擬網路實作。
- Azure Data Lake Storage 是一個存放庫,它以其原生、原始格式保存大量資料。 Data lake store 經過最佳化,可擴增到資料的兆位元組和拍位元組。 資料通常來自多個異質來源。 它可以是結構化的、半結構化的或非結構化的。
- Microsoft Fabric 中的 SQL Database 是以 Azure SQL Database 為基礎的易記事務資料庫,可讓您輕鬆地在 Fabric 中建立作資料庫。 Fabric 中的 SQL 資料庫會使用與 Azure SQL Database 相同的 SQL Database 引擎。
- Microsoft Fabric Lakehouse 是一個數據架構平臺,用於在單一位置儲存、管理和分析結構化和非結構化數據。
計算
- Data Factory 會使用整合執行階段 (IR) (一種計算基礎結構) 跨不同網路環境整合資料。 Data Factory 會使用自我裝載 IR,在雲端資料儲存區和內部部署網路中的資料儲存區之間複製資料。
- 內部部署數據閘道 是本機安裝的 Windows 用戶端應用程式,可作為Microsoft雲端中本機內部部署數據源和服務之間的橋樑。
- Azure 虛擬機器提供可視需要,且可縮放的運算資源。 Azure 虛擬機器 (VM) 提供虛擬化的彈性,但可排除實體硬體的維護需求。 Azure VM 提供作業系統的選擇,包括 Windows 和 Linux。
資料整合者
此架構概述可根據大型主機源數據和目標資料庫使用的各種 Azure 原生移轉工具。
- Azure Data Factory 是混合資料整合服務。 在此解決方案中,Azure Data Factory 使用原生聯機器從 Db2 sorce Azure 資料庫目標移轉數據的最低設定。
- AzCopy 是命令行公用程式,可將 Blob 或檔案移入和移出儲存體帳戶。
-
SQL Server 整合服務是可建立企業級資料整合與轉換解決方案的平台。 您可以使用它來解決複雜的商務問題,方法是:
- 複製或下載檔案。
- 載入資料倉儲。
- 清理和探勘資料。
- 管理 SQL Server 物件和資料。
- 主機整合伺服器 技術和工具可讓您將現有的 IBM 主機系統、程式、訊息與資料與 Azure 應用程式整合。 主機檔案用戶端元件可為從EBCDIC轉換成 ASCII 的數據提供彈性。 例如,您可以從已轉換的數據產生 JSON/XML。
- Azure Synapse Analytics 整合數據整合、企業數據倉儲和巨量數據分析。 此架構中使用的 Azure Synapse 轉換解決方案是以 Apache Spark 為基礎,適合用於巨大的大型主機資料集工作負載轉換。 它支援各種不同的大型主機資料結構和目標,且需要最少的編碼工作。
- Microsoft Fabric 是企業就緒的端對端分析平臺。 它會統一數據移動、數據處理、擷取、轉換、即時事件路由,以及報表建置。 它支持這些功能與整合式服務,例如數據工程、Data Factory、數據科學、Real-Time 分析、數據倉儲和資料庫。
其他工具
- Db2 的 SQL Server Migration Assistant 會自動從 Db2 移轉至 Microsoft 資料庫服務。 在 VM 上執行時,此工具會將 Db2 資料庫物件轉換成 SQL Server 資料庫物件,並在 SQL Server 中建立這些物件。
-
主機檔案的資料提供者是使用離線、SNA 或 TCP/IP 連線之主機整合伺服器的元件。
- 使用離線連線時,資料提供者會讀取和寫入本機二進位檔案中的記錄。
- 使用 SNA 和 TCP/IP 連線時,資料提供者會讀取和寫入儲存在遠端 z/OS (IBM Z 系列大型主機) 資料集或遠端 i5/OS (IBM AS/400 和 iSeries 系統) 實體檔案中的記錄。 只有 i5/OS 系統使用 TCP/IP。
- Azure 服務提供在公用雲端中開發和縮放新應用程式的環境、工具和程式。
案例詳細資料
Azure 資料平台等新式資料儲存體解決方案提供比大型主機和中型系統更好的可擴增性和效能。 藉由將系統現代化,您可以利用這些優點。 不過,更新技術、基礎結構和做法很複雜。 此過程涉及對商業和工程活動的詳盡調查。 當您將系統現代化時,資料管理是其中一個考慮。 您還需要查看資料視覺效果和整合。
成功的現代化會使用資料優先原則。 當您使用此方法時,您會專注於資料,而不是新的系統。 資料管理不再只是現代化檢查清單上的一個項目。 相反地,資料是中心。 協調、品質導向的資料解決方案會取代分散且控管不善的資料解決方案。
此解決方案會在資料優先方法中使用 Azure 資料平台元件。 具體來說,解決方案涉及:
- 物件轉換。 將物件定義從來源資料儲存區轉換成目標資料儲存區中的對應物件。
- 資料擷取。 連接到來源資料儲存區並擷取資料。
- 資料轉換。 將擷取的資料轉換成適當的目標資料儲存區結構。
- 資料儲存體。 一開始和持續將資料從來源資料儲存區載入到目標資料儲存區。
潛在使用案例
使用大型主機和中型系統的組織可受益於此解決方案,特別是當他們想要達成這些目標時:
- 現代化任務關鍵性工作負載。
- 取得商業智慧以改善營運並取得競爭優勢。
- 移除與大型主機和中型資料儲存區相關的高成本和死板僵化。
考量
這些考慮會實作 Azure Well-Architected Framework 的要素,這是一組可用來改善工作負載質量的指導原則。 如需更多資訊,請參閱 Microsoft Azure 結構完善的架構。
安全性
安全性可提供保證,以避免刻意攻擊和濫用您寶貴的資料和系統。 如需詳細資訊,請參閱 安全性的設計檢閱檢查清單。
- 請注意內部部署用戶端身分識別與 Azure 中的用戶端身分識別之間的差異。 您需要補償任何差異。
- 針對元件對元件資料流程使用受控身分識別 。
- 當您使用主機檔案的資料提供者來轉換資料時,請遵循主機檔案的資料提供者安全性和保護中的建議。
成本最佳化
成本優化是考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱 成本優化的設計檢閱檢查清單。
- SQL Server Migration Assistant 是免費的支援性工具,能簡化資料庫從 Db2 移轉到 SQL Server、SQL 資料集,和 SQL 受控執行個體的過程。 SQL Server Migration Assistant 會自動化進行所有層面的移轉,包括移轉評估分析、架構和 SQL 陳述式轉換,以及資料移轉。
- Azure Synapse Spark 型解決方案是從開放原始碼連結庫建置的。 它可消除授權轉換工具的財務負擔。
- 若要估計實作此解決方案的成本,請使用 Azure 定價計算機。
效能效率
效能效率可讓您的工作負載進行調整,以有效率的方式符合使用者對其放置的需求。 如需詳細資訊,請參閱 效能效率的設計檢閱檢查清單。
- 效能效率的主要支柱包括效能管理、產能規劃、可擴增性,以及選擇適當的效能模式。
- 您可以透過建立邏輯執行個體與處於雙主動模式的多台內部部署機器之間的關聯性橫向擴展自我裝載 IR 。
- Azure SQL Database 可讓您動態縮放資料庫。 在無伺服器分層中,它可以自動縮放計算資源。 彈性集區可讓資料庫共用集區中的資源,只能以手動方式進行縮放。
當您使用主機檔案的資料提供者用戶端來轉換資料時,請開啟連線集區以減少連線啟動時間。 當您使用 Data Factory 來擷取資料時,請微調複製活動的效能。
參與者
本文由 Microsoft 維護。 原始投稿人如下。
主要作者:
- Ashish Khandelwal |首席工程架構師主管
其他投稿人:
- Nithish Aruldoss | 工程架構師
若要查看非公開的 LinkedIn 設定檔,請登入 LinkedIn。
下一步
請檢閱 Azure 資料庫移轉指南。 如需詳細資訊,請洽 Azure 資料工程 - 大型主機 & 中型現代化。
請參閱以下文章: