加载 Analytics Platform System 的服务器容量计划工作表

此容量计划工作表可帮助你确定加载服务器将数据加载到 SQL Server PDW 的要求。 使用此选项可创建用于购买或预配现有加载服务器的计划。

工作表备注

  1. 此工作表适用于将使用 dwloader 命令行加载工具加载数据的服务器。

  2. 要使用集成服务或第三方加载工具加载数据,要求可能会因加载过程的差异而不同。

  3. 大多数要求适用于加载压缩或未压缩的数据文件;要求中的任何差异都以粗体表示。

Clipboard 容量计划工作表

打印此工作表,并在其中填写自己的要求。

组件 要求 用自己的要求填写此列 建议
存储 计划在任何给定时间段内存储在加载服务器上的最大字节数。 Pencil icon 要确定存储要求,请明确计划在任何给定时间段在加载服务器上存储的数据量。 容量要求仅适用于加载文件;操作系统和加载文件应位于不同的磁盘阵列上。

例如:如果计划每天 3 次从磁盘加载 100 GB 数据,但直到周末才删除数据文件,则最少需要 2.1 TB 来存储数据文件。 我们建议保守一些,增加约 30% 的存储容量,以考虑差异和增长。 在此示例中,2.73 TB 的存储空间会更好。
加载速率 要加载到 PDW 的数据每小时的最大字节数。 Pencil icon 这是一个估计值。 计算此要求时,假设文件已在加载服务器上,并且其他加载条件尽可能好。

例如:无需考虑数据可压缩性,因为 dwloader 始终向 PDW 发送未压缩的数据。 无需考虑数据类型转换和目标表的大小。
网络 网络连接类型。 Pencil icon 确定符合负载速率要求的最佳网络连接类型。

例如:InfiniBand 或 10 Gbit 以太网将提供最佳的加载速率。 1 Gbit 以太网将负载速率限制为每小时 360 GB 或更低。
I/O 读取和写入的每小时字节数。 Pencil icon 要加载数据,dwloader 必须先从磁盘读取所有数据,然后再将其发送到 PDW。

每个加载服务器加载数据的速度不能快于设备从所有加载源接收数据的速度。 要节省资金,请计划 I/O 读取容量进行加载,使其不超过设备的加载容量。

例如:
PDW 以每小时 1.8 TB 的最大速率接收数据并将其加载到单机架设备中。 对于具有 2 个或以上机架的设备,最大加载速率为每小时 3.6 TB。

如果计划同时从多个加载服务器加载,则每个加载服务器的 I/O 要求将小于一台服务器执行所有加载操作时。

例如:对于单机架设备,一台加载服务器每小时最多可以加载 1.8 TB。 两台加载服务器可以可以每小时并发加载 900 GB 到一个单机架设备中。 更高的并发级别可以降低效率和最大吞吐量。

对于 I/O 容量,请考虑到加载服务器上发生的所有 I/O。 如果加载服务器除了数据加载之外还有其他 I/O 流量,例如从 ETL 服务器接收数据文件,I/O 要求也会增加。

对于压缩数据,I/O 要求取决于数据压缩率。 dwloader 读取压缩的数据,然后在将其发送到 PDW 之前将其解压缩。 压缩率越高,加载服务器需要从磁盘读取的数据就越少。

例如:如果所需的加载速率为每小时 1.8 TB,并且数据以 2:1 的压缩比存储在加载服务器上,则加载服务器只需从磁盘每小时读取 900 GB 而不是 1.8 TB。 3:1 的压缩比意味着加载服务器需要从磁盘每小时读取 600 GB。
CPU 套接字数量。 Pencil icon 对于加载未压缩的数据,dwloader 不是 CPU 密集型应用程序。 作为最低要求,我们建议使用最近制造的 2 套接字服务器。

要加载压缩数据,在将数据发送到 PDW 之前,需要有足够的 CPU 能力来解压缩数据。 dwloader 可以一次运行 10 个活动线程。 如果计划同时加载 10 个压缩文件,我们建议服务器至少具有 10 核 CPU 或两个 6 核 CPU。
RAM 允许 Windows 在加载期间缓存文件的 GB 内存。 Pencil icon dwloader 在加载服务器上使用很少的 RAM。 为了提高性能,Windows 在从磁盘读取加载文件后,使用内存来缓存加载文件。

要确定 RAM 要求,请参阅 Windows Server 安装和任何第三方应用程序要求。 如果没有来自其他源的要求,建议至少为 32 GB。

对于压缩数据,更快的 RAM 非常有用,因为它将加快解压缩速度。

另请参阅

获取并配置加载服务器dwloader 命令行加载器