Установка и включение дедупликации данных
В этой статье описано, как установить дедупликацию данных, оценить рабочие нагрузки для дедупликации, а также включить дедупликацию данных для отдельных томов.
Примечание.
Если вы планируете использовать дедупликацию данных в кластере с поддержкой отказоустойчивости, роль сервера дедупликации данных должна быть установлена на каждом узле кластера.
Установка дедупликации данных
Внимание
KB4025334 содержит свод исправлений для дедупликации данных, включая важные исправления надежности, и настоятельно рекомендуется установить его при использовании дедупликации данных с Windows Server 2016.
Установка дедупликации данных с помощью диспетчера сервера
- В мастере добавления ролей и компонентов выберите Роли сервера, а затем Дедупликация данных.
- Нажимайте кнопку Далее , пока не будет активирована кнопка Установить , а затем щелкните Установить.
Установка дедупликации данных с помощью PowerShell
Чтобы установить дедупликацию данных, выполните следующую команду PowerShell от имени администратора: Install-WindowsFeature -Name FS-Data-Deduplication
Чтобы установить дедупликацию данных, выполните приведенные действия.
На сервере под управлением Windows Server 2016 или более поздней версии или на компьютере с Windows с установленными средствами удаленного администрирования сервера (RSAT) установите дедупликацию данных с явной ссылкой на имя сервера (замените MyServer реальным именем экземпляра сервера):
Install-WindowsFeature -ComputerName <MyServer> -Name FS-Data-Deduplication
Или
Подключитесь удалённо к экземпляру сервера используя удалённое взаимодействие PowerShell и установите дедупликацию данных с помощью DISM.
Enter-PSSession -ComputerName MyServer dism /online /enable-feature /featurename:dedup-core /all
Включение дедупликации данных
Выявление кандидатов среди рабочих нагрузок для дедупликации
Дедупликация данных может очень эффективно снизить затраты, связанные с потреблением данных серверного приложения, уменьшая объем, занимаемый избыточными данными на дисках. Прежде чем включать дедупликацию, очень важно определить характеристики рабочей нагрузки. Это позволит добиться максимальной производительности хранилища. Существует два класса рабочих нагрузок, которые следует рассмотреть.
-
Рекомендуемые рабочие нагрузки доказали свою эффективность, поскольку они содержат наборы данных, которые значительно выигрывают от дедупликации, и используют схемы потребления ресурсов, совместимые с моделью постпроцессинга дедупликации данных. Мы рекомендуем всегда включить дедупликацию данных для этих рабочих нагрузок:
- файловые серверы общего назначения (GPFS) с такими общими ресурсами, как общие групповые папки, домашние папки пользователей, рабочие папки и общие ресурсы для разработки программного обеспечения;
- серверы инфраструктуры виртуальных рабочих столов (VDI);
- виртуализированные приложения резервного копирования, например Microsoft Data Protection Manager (DPM).
- Рабочие нагрузки, для которых дедупликация может дать преимущества, но только при соблюдении некоторых условий. Например, следующие рабочие нагрузки могут работать хорошо с дедупликацией, но сначала следует оценить преимущества дедупликации:
- узлы Hyper-V общего назначения
- Серверы SQL
- серверы для бизнес-приложений.
Оценка рабочих нагрузок для дедупликации данных
Внимание
Если вы используете рекомендуемые рабочие нагрузки, можно пропустить этот раздел и сразу включить дедупликацию данных.
Чтобы определить, насколько эффективно рабочая нагрузка совместима с дедупликацией, ответьте на следующие вопросы. Если вы не уверены в рабочей нагрузке, рассмотрите возможность выполнения пилотного развертывания дедупликации данных на тестовом наборе данных, чтобы увидеть, как это работает.
Есть ли в наборе данных рабочей нагрузки достаточный объем дублирующихся данных, чтобы включение дедупликации дало ощутимый эффект? Прежде чем включать дедупликацию данных для рабочей нагрузки, оцените объем дублирующихся данных в наборе данных, используя средство оценки экономии от дедупликации данных (DDPEval). После установки дедупликации данных это средство можно найти здесь:
C:\Windows\System32\DDPEval.exe
. DDPEval поможет вам оценить потенциальный эффект оптимизации для непосредственно подключенных томов (включая локальные диски или общие тома кластера), а также для сопоставленных или несопоставленных сетевых папок.При выполнении DDPEval.exe вы получите выходные данные следующего вида:
Data Deduplication Savings Evaluation Tool Copyright 2011-2012 Microsoft Corporation. All Rights Reserved. Evaluated folder: E:\Test Processed files: 34 Processed files size: 12.03MB Optimized files size: 4.02MB Space savings: 8.01MB Space savings percent: 66 Optimized files size (no compression): 11.47MB Space savings (no compression): 571.53KB Space savings percent (no compression): 4 Files with duplication: 2 Files excluded by policy: 20 Files excluded by error: 0
Какие шаблоны ввода-вывода использует моя рабочая нагрузка для своего набора данных? Какая производительность у моей рабочей нагрузки? Дедупликация данных оптимизирует файлы, выполняя периодическое задание, а не во время сохранения файла на диск. В связи с этим сначала следует оценить ожидаемые шаблоны рабочей нагрузки на чтение из дедуплицированного тома. Поскольку дедупликация данных перемещает содержимое файла в хранилище блоков и пытается организовывать его по файлам, операции чтения из последовательных диапазонов файла выполняются более эффективно.
Рабочие нагрузки, похожие на нагрузки баз данных, обычно характеризуются более случайными, чем последовательными операциями чтения, поскольку базы данных обычно не гарантируют оптимальное расположение данных для всех возможных выполняемых запросов. Поскольку разделы хранилища Chunk Store могут располагаться в разных частях тома, доступ к диапазонам данных в Chunk Store для выполнения запросов к базе данных может вызывать дополнительную задержку. Высокопроизводительные рабочие нагрузки особенно чувствительны к таким задержкам, но это справедливо не для всех баз данных.
Примечание.
Эти проблемы особенно важны для рабочих нагрузок, которые хранят данные на томах, состоящих из традиционных носителей с вращающимися дисками (жесткие диски или HDD). Любая инфраструктура флэш-памяти (твердотельные накопители или SSD) менее подвержена проблемам случайных операций ввода-вывода, так как флэш-память обеспечивает одинаковое время доступа ко всем расположениям на носителе. Таким образом, дедупликация не будет вызывать такую же величину задержки при операциях чтения для наборов данных рабочей нагрузки, хранящихся на носителях на основе флэш-памяти, как на традиционных вращающихся носителях.
Какие требования к ресурсам сервера предъявляет рабочая нагрузка? Так как дедупликация данных использует модель постобработки, она предполагает периодическое выделение значительных системных ресурсов для выполнения оптимизации и других заданий. Это означает, что рабочие нагрузки, имеющие определенные периоды простоя (например, в вечернее время или выходные дни), прекрасно подходят для дедупликации, в отличие от рабочих нагрузок, выполняющихся круглосуточно каждый день. Но при этом дедупликацию можно успешно применить и для рабочих нагрузок без периодов простоя, если такие нагрузки не имеют высоких требований к ресурсам сервера.
Включение дедупликации данных
Перед включением дедупликации данных следует выбрать тип использования, который соответствует вашей рабочей нагрузке. Существует три типа использования для дедупликации данных:
- По умолчанию — оптимальные настройки для файлового сервера общего назначения.
- Hyper-V — оптимизирован для серверов VDI.
- Резервное копирование — оптимальные настройки для виртуализированных приложений резервного копирования, таких как Microsoft DPM.
Включение дедупликации данных с помощью диспетчера сервера
- Выберите Файловые службы и службы хранения в диспетчере серверов.
- Выберите Тома из Файловых служб и служб хранилища.
- Щелкните правой кнопкой мыши нужный том и выберите пункт Настройка дедупликации данных.
- Выберите в раскрывающемся списке нужный тип использования и нажмите ОК.
- Если вы используете рекомендуемую рабочую нагрузку, на этом процесс окончен. Для других рабочих нагрузок изучите раздел Дополнительные вопросы.
Примечание.
Дополнительные сведения об исключении определенных расширений файлов или папок, а также о создании расписания дедупликации (включая описание причин этих изменений), см. на странице Настройка дедупликации данных.
Включение дедупликации данных с помощью PowerShell
Выполните следующую команду PowerShell с правами администратора:
Enable-DedupVolume -Volume <Volume-Path> -UsageType <Selected-Usage-Type>
Если вы используете рекомендуемую рабочую нагрузку, на этом процесс окончен. Для других рабочих нагрузок изучите раздел Дополнительные вопросы.
Примечание.
Командлеты PowerShell для дедупликации данных, включая Enable-DedupVolume
, можно запускать удаленно, добавляя параметр -CimSession
, используя сеанс CIM. Это особенно полезно, когда нужно выполнить удаленно командлеты PowerShell для дедупликации данных на экземпляре сервера. Для создания нового сеанса CIM запустите New-CimSession
.
Другие вопросы
Внимание
Если ваша рабочая нагрузка относится к категории рекомендуемых, этот раздел можно пропустить.
- Типы использования, доступные при дедупликации данных, предусматривают практические стандартные значения для рекомендуемых рабочих нагрузок, а также используются в качестве отправной точки для остальных рабочих нагрузок. Для рабочих нагрузок, не входящих в категорию рекомендуемых, вы можете изменить дополнительные параметры дедупликации данных, чтобы повысить ее эффективность.
- Если рабочая нагрузка характеризуется высокими требованиями к ресурсам сервера, задания дедупликации данных следует запланировать на период ожидаемого простоя рабочей нагрузки. Это особенно важно, если дедупликация выполняется на гиперконвергированном узле, ведь в рабочее время процессы дедупликации могут истощить ресурсы виртуальных машин.
- Если рабочая нагрузка не особо требовательна к ресурсам или быстрое выполнение заданий оптимизации важнее, чем обслуживание запросов рабочей нагрузки, вы можете настроить параметры выделения памяти, ЦП и приоритета для заданий дедупликации.
Вопросы и ответы
Я хочу выполнить дедупликацию данных в наборе данных для определенной рабочей нагрузки. Это поддерживается? За исключением рабочих нагрузок, известно, что они несовместимы с дедупликацией данных, мы полностью гарантируем целостность данных при использовании дедупликации данных с любой рабочей нагрузкой. Рекомендуемые рабочие нагрузки поддерживаются корпорацией Майкрософт для обеспечения производительности. Производительность других рабочих нагрузок в значительной мере зависит от того, какие действия они выполняют на сервере. Необходимо определить, каким образом дедупликация данных повлияла на вашу рабочую нагрузку и допустимо ли такое влияние для этой нагрузки.
Каковы требования к размеру тома для дедуплицированных томов? В Windows Server 2012 и Windows Server 2012 R2 размер тома следует выбирать осторожно, чтобы дедупликация данных выполнялась в соответствии со скоростью обновления данных в томе. Средний максимальный размер дедуплицированного тома для рабочей нагрузки с высокой скоростью обновления данных, как правило, составляет 1–2 ТБ, а абсолютный рекомендуемый максимальный размер — 10 ТБ. Эти ограничения устранены в Windows Server 2016. Дополнительные сведения см. в статье Новые возможности функции дедупликации данных.
Стоит ли изменять расписание или другие параметры дедупликации данных для рекомендуемых рабочих нагрузок? Нет. Предлагаемые типы использования предусматривают рациональные стандартные значения для всех рекомендуемых рабочих нагрузок.
Каковы требования к памяти для дедупликации данных?
При дедупликации данных следует выделить по меньшей мере 300 МБ, а также дополнительно 50 МБ на каждый терабайт логических данных. Например, если вы оптимизируете том размером 10 ТБ, для дедупликации следует выделить не менее 800 МБ памяти (300 MB + 50 MB * 10 = 300 MB + 500 MB = 800 MB
). Дедупликация данных может оптимизировать объем с таким малым количеством памяти, но такие ограниченные ресурсы замедлят выполнение заданий функции дедупликации данных.
Лучше всего, если для дедупликации данных будет выделено по 1 ГБ памяти на каждый 1 ТБ логических данных. Например, если вы оптимизируете том размером 10 ТБ, оптимальный объем памяти для дедупликации составит 10 ГБ (1 GB * 10
). Такое соотношение обеспечит максимальную производительность для заданий дедупликации данных.
Каковы требования к объему хранилища для дедупликации данных? В Windows Server 2016 дедупликация данных может поддерживать тома размером до 64 ТБ. Дополнительные сведения см. в статье What's new in Data Deduplication (Новые возможности функции дедупликации данных).