数据重复删除概述

什么是重复数据删除?

重复数据删除(通常简称为删除重复)是一项功能,可以帮助减少冗余数据对存储成本的影响。 启用后,重复数据删除会检查卷上的数据(检查是否存在重复分区),优化卷上的可用空间。 卷数据集的重复分区只存储一次,并可以压缩,节省更多空间。 重复数据删除可优化冗余,而不会损坏数据保真度或完整性。 若要详细了解重复数据删除的工作原理,请参阅“重复数据删除是如何工作的?”部分, 位于了解重复数据删除页面。

重要

KB4025334 包含重复数据删除的修补程序汇总(包括重要的可靠性修补程序),我们强烈建议在将重复数据删除与 Windows Server 2016 和 Windows Server 2019 配合使用时安装该修补程序。

重复数据删除为什么有用?

重复数据删除可帮助存储管理员降低重复数据的相关成本。 大型数据集通常具有大量重复数据,这会增加存储数据的成本。 例如:

  • 用户文件共享可能会有相同或类似文件的多个副本。
  • 不同 VM 的虚拟化来宾可能几乎完全相同。
  • 每天的备份快照差别可能非常小。

通过重复数据删除可以节省的空间取决于卷上的数据集或工作负荷。 重复率很高的数据集的优化率最高可达 95%,存储使用率最高降低 20 倍。 下表主要显示了各种内容类型的典型的重复数据删除节省情况:

方案 内容 典型的空间节省率
用户文档 Office 文档、照片、音乐、视频等 30-50%
部署共享 软件二进制文件、cab 文件、符号等 70-80%
虚拟化库 ISO、虚拟硬盘文件等 80-95%
通用文件共享 以上都是 50-60%

注意

如果你只是想释放卷的空间,请考虑使用启用了云分层的 Azure 文件同步。 这样,你便可以在本地缓存最常访问的文件,并将不经常访问的文件分层到云中,从而节省本地存储空间,同时保持性能。 有关详细信息,请参阅规划 Azure 文件同步部署

何时可以使用重复数据删除?

场景示意图 说明
文件服务器的示意图。 常规用途文件服务器:常规用途文件服务器是常规使用的文件服务器,可能包含以下任意共享类型:常规用途文件服务器非常适合进行重复数据删除,因为多个用户可能有同一个文件的许多副本或版本。 软件开发共享也适合进行重复数据删除,因为不同内部版本的许多二进制文件基本保持不变。
VDI 服务器的示意图。 虚拟桌面基础结构 (VDI) 部署:VDI 服务器(如远程桌面服务)为组织提供了一种向用户预配桌面的轻型选项。 对于一个组织而言,有很多原因要依赖于此类技术:
  • 应用程序部署:可以在企业中快速部署应用程序。 如果你具有的应用程序经常更新、很少使用或难以管理,这项技术特别有用。
  • 应用程序整合:从一组集中管理的虚拟机安装并运行应用程序时,无需在客户端计算机上更新应用程序。 还可以减少访问应用程序所需的网络带宽量。
  • 远程访问:用户可以从家庭计算机等设备、展台、低功率硬件以及非 Windows 操作系统访问企业应用程序。
  • 分支机构访问:VDI 部署可以为需要访问集中式数据存储的分支机构工作人员提供更好的应用程序性能。 数据密集型应用程序有时没有针对低速连接进行优化的客户端/服务器协议。
VDI 部署非常适合进行重复数据删除,因为驱动用户远程桌面的虚拟硬盘基本相同。 此外,重复数据删除还可帮助用户应对所谓的 VDI 启动风暴,即当多个用户在早上同时登录到各自的桌面时存储性能下降。
备份应用程序的示意图。 备份目标(如虚拟化备份应用程序):备份应用程序(如 Microsoft Data Protection Manager [DPM])是重复数据删除的理想选择,因为备份快照之间存在大量重复。
其他工作负载的示意图。 其他工作负载其他工作负载也可能是重复数据删除的理想选择