30分钟内加载1TB 的数据——SSIS打破商业ETL工具的记录
许多企业拥有海量的数据,并将其存储在多个不同的数据源。为了给用户提供有意义和可靠的信息,企业需要提取、转换和加载数据(Extract, Transform, and Load data,简称 ETL)。SQL Server 集成服务 (SSIS)可以让企业把来自异构数据源的任意数据加载到数据库。
2008年2月,微软宣布了SQL Server 集成服务数据加载的一个破记录壮举:SQL Server集成服务用不到30分钟的时间把1 TB 的数据从平面文件加载到SQL Server 2008。这比其他商业ETL工具的最佳时间快了30%。
该项测试把数据源分布在四台服务器中,每一台数据源服务器都是UNISYS ES3220L(2 sockets each with 4 core Intel 2GHz CPUs, 4GB RAM, Windows Server 2008, SQL Server 2008)。数据目的地的服务器是一台UNISYS ES7000/One(32 sockets each with 2 core Intel 3.4 GHz CPUs 256 GB RAM, Windows Server 2008 and SQL Server 2008)。集成服务将海量的数据通过千兆以太网络加载到数据目的地。测试用的数据来自TPC-H的数据生成程序DBGEN。
图1 SSIS包裹概要
图2 硬件和配置
从MSDN白皮书中,我们可以详细了解关于该项测试所使用的软件、硬件和配置。同时,文章中也详细提供与这些技术相关的典型方案的建议。
SQLCRD BI团队
Comments
- Anonymous
May 20, 2009
尊敬的各位读者, 首先感谢您阅读我们这篇博客摘要。如果您对其中一篇博文有任何想法或疑问,请直接在相关博文后面直接留言,以便负责博客的相关研发工程师能給于及时跟踪或答复。如果您的问题与我们的博文内容没有直接的联系,建议您直接在微软中文技术论坛(