Deduplikacja magazynu programu DPM
Opublikowano: marzec 2016
W tym artykule opisano sposób zmniejszania użycia magazynu DPM przez włączenie deduplikacji magazynu DPM. W tym scenariuszu program DPM działający jako maszyna wirtualna z funkcją Hyper-V przechowuje dane kopii zapasowej w plikach VHD w folderach udostępnionych na serwerze plików z systemem Windows z włączoną deduplikacją danych.
Omówienie
W nowoczesnych środowiskach pracy administratorzy IT muszą stawiać czoła ogromnym wyzwaniom związanym ze wzrostem ilości danych, tak jak to przedstawiono na poniższej ilustracji prognozy firmy IDC dotyczącej danych na świecie do roku 2020. Wzrost ilości danych przedsiębiorstwa prowadzi do zwiększania potrzeb dotyczących magazynu kopii zapasowych.
Wzrost ilości danych powoduje zwiększenie kosztów konserwacji i sprzętu. Jak pokazano poniżej, 62% administratorów IT ma problemy spowodowane zwiększaniem kosztów sprzętu/oprogramowania oraz ich konserwacji. Pełną ankietę można znaleźć w temacie Is the Data Explosion Impacting You na blogu Informatica.
Administratorzy IT tworzą kopie zapasowe danych produkcyjnych w celu zaspokojenia potrzeb operacyjnych dotyczących odzyskiwania oraz wymagań dotyczących zgodności ze standardami w organizacji. Sam charakter kopii zapasowej wskazuje na to, że stanowi ona operację o dużym wykorzystaniu magazynu. Dlatego redukcja użycia magazynu kopii zapasowej jest jednym z głównych priorytetów dla administratorów IT.
Deduplikacja może zaspokoić potrzebę zmniejszenia użycia magazynu. Chociaż ilość redundancji w dowolnym danym zestawie danych zależy od obciążenia i typów używanych danych, dane kopii zapasowych przeważnie umożliwiają uzyskiwanie dużych oszczędności w przypadku korzystania z deduplikacji. Dodatkowa redundancja i wynikające z niej dodatkowe oszczędności związane z deduplikacją mogą powstawać podczas wspólnego przetwarzania danych kopii zapasowych pochodzących z podobnych obciążeń przy użyciu podobnych zestawów danych. Program DPM umożliwia uzyskiwanie tych korzyści dzięki zastosowaniu deduplikacji.
Omówienie programu DPM
Program System Center Data Protection Manager to rozwiązanie do tworzenia kopii zapasowych danych przedsiębiorstwa. Oferuje on następujące możliwości:
Tworzenie kopii zapasowej i odzyskiwanie z wykrywaniem aplikacji — program DPM chroni klientów, serwery, maszyny wirtualne, dane serwera plików i obciążenia aplikacji. Udostępnia on elastyczne opcje tworzenia kopii zapasowej, w tym możliwość tworzenia kopii zapasowej niektórych obciążeń nawet co 15 minut. Program DPM oferuje szeroką gamę możliwości odzyskiwania. Klienci mogą na przykład zastąpić bieżącą produkcyjną bazę danych programu SQL Server starszą kopią, odzyskiwać bazy danych do innej lokalizacji w celu przeprowadzenia badania bądź odzyskiwać dane jako pliki umożliwiające przekazywanie ich kopii do działu prawnego. Administratorzy IT mogą w programie DPM wybierać odpowiadający im rodzaj odzyskiwania. Program DPM obsługuje odzyskiwanie przez użytkownika końcowego. Na przykład administrator SQL, administrator systemu plików lub użytkownik klienta może odzyskać wszystkie swoje dane bezpośrednio, bez korzystania z pomocy administratora.
W środowisku dynamicznym serwery produkcyjne stale tworzą nowe dane. Program DPM zapewnia administratorom kopii zapasowej spokój dzięki funkcji ochrony na poziomie wystąpienia, która automatycznie wyszukuje i konfiguruje nowe dane utworzone za pośrednictwem obciążeń. Dlatego administratorzy kopii zapasowej nie muszą ręcznie wyszukiwać nowych wystąpień danych i dodawać ich do konfiguracji kopii zapasowej.
Skalowanie przedsiębiorstwa i scentralizowane zarządzanie — pojedynczy serwer programu DPM może chronić 80 TB danych produkcyjnych lub 100 serwerów produkcyjnych. Centralną konsolę programu DPM można wdrożyć do zarządzania maksymalnie 100 serwerami programu DPM ze scentralizowanej lokalizacji. Przy użyciu centralnej funkcji raportowania programu DPM można w prosty sposób generować niestandardowe raporty dotyczące wszystkich serwerów programu DPM.
Skuteczna ochrona chmury prywatnej — bez względu na to, czy centrum danych chmury prywatnej zostało skonfigurowane do uruchamiania maszyn wirtualnych Hyper-V na serwerach autonomicznych, czy też na serwerach z systemem Windows z połączeniami zdalnymi do udziałów plików SMB na serwerach plików systemu Windows, program DPM może wydajnie tworzyć kopie zapasowe maszyn wirtualnych przy użyciu unikatowej technologii tworzenia kopii zapasowej maszyny wirtualnej.
Program DPM może na przykład wykryć migrację maszyny wirtualnej i nadal automatycznie chronić tę maszynę wirtualną — bez aktywnego udziału administratora kopii zapasowej. Jeśli maszyna wirtualna przeprowadza migrację między hostami, ten sam serwer programu DPM będzie kontynuować tworzenie kopii zapasowej bez żadnych modyfikacji ani ręcznie wykonywanych kroków programu DPM.
Zintegrowana kopia zapasowa w chmurze — program DPM jest wystarczająco elastyczny, aby chronić obciążenia wdrożone w chmurze prywatnej funkcji Hyper-V, w chmurze publicznej platformy Azure i w chmurze hosta. Firmy używające obciążeń firmy Microsoft na platformie Azure mogą korzystać z programu DPM uruchomionego na platformie Azure w celu ochrony tych obciążeń. Program DPM obsługuje tworzenie kopii zapasowej na platformie Azure poza siedzibą przy użyciu usługi Kopia zapasowa Azure. Usługa Kopia zapasowa Azure została zintegrowana z przepływami pracy odzyskiwania i ochrony programu DPM, co ułatwia zarządzanie ustawieniami tworzenia kopii zapasowych poza siedzibą firmy i zachowywanie danych przez wiele lat. Usługa Kopia zapasowa Azure stanowi alternatywę dla tworzenia kopii zapasowych na taśmach, które wymaga również wysyłki i konserwacji taśm poza siedzibą. Administratorzy kopii zapasowej nie muszą teraz martwić się problemami związanymi z konserwacją taśm.
Omówienie deduplikacji danych
Deduplikacja danych została wprowadzona w systemie Windows Server 2012 jako zamiennik następnej generacji dla usługi SIS (Single-Instance Storage) w systemie Windows Storage Server 2008. Korzysta ona z zaawansowanego algorytmu dzielenia danych na części o zmiennym rozmiarze bloku, który umożliwia uzyskiwanie maksymalnych oszczędności wynikających z deduplikacji na wolumin. Podejście obejmujące przetwarzanie końcowe umożliwia zachowanie całej semantyki systemu plików i zapewnia, że wpływ na podstawową wydajność ścieżki danych nie będzie mieć znaczenia. Aby uzyskać więcej informacji, zobacz Omówienie deduplikacji danych.
Deduplikacja danych to funkcja przeznaczona do instalowania na podstawowych woluminach danych bez dodawania dedykowanego sprzętu, dzięki czemu nie ma ona wpływu na podstawowe obciążenie na serwerze. Ustawienia domyślne nie narzucają niczego, ponieważ dane mogą być przechowywane przez pięć dni przed rozpoczęciem przetwarzania danego pliku. Domyślny minimalny rozmiar pliku wynosi 32 KB. Implementacja została zaprojektowana z myślą o małym użyciu pamięci i procesora CPU. Deduplikację można zaimplementować w następujących obciążeniach:
Ogólne udziały plików: publikowanie i udostępnianie zawartości grupy, foldery macierzyste użytkownika i pliki offline/przekierowanie folderu.
Udziały wdrożenia oprogramowania: pliki binarne, obrazy i aktualizacje oprogramowania.
Biblioteki wirtualnego dysku twardego: magazyn plików wirtualnego dysku twardego na potrzeby inicjowania obsługi administracyjnej funkcji hypervisor.
Wdrożenia infrastruktury VDI (tylko system Windows Server 2012 R2): wdrożenia infrastruktury pulpitu wirtualnego (VDI) korzystające z funkcji Hyper-V.
Zwirtualizowana kopia zapasowa: rozwiązania do tworzenia kopii zapasowej (takie jak program DPM działający na maszynie wirtualnej z funkcją Hyper-V), które zapisują dane kopii zapasowej do plików VHD/VHDX na serwerze plików systemu Windows.
Dowiedz się więcej na temat planowania deduplikacji.
Korzyści dla firm
Korzystanie z deduplikacji w programie DPM może ułatwić uzyskiwanie dużych oszczędności. Ilość miejsca oszczędzanego przez funkcję deduplikacji podczas optymalizacji danych kopii zapasowej programu DPM zależy od typu danych uwzględnianych w tworzonej kopii zapasowej. Na przykład tworzenie kopii zapasowej zaszyfrowanego serwera baz danych może spowodować minimalne oszczędności, ponieważ wszystkie zduplikowane dane są ukrywane podczas procesu szyfrowania. Natomiast wykonanie kopii zapasowej dużego wdrożenia infrastruktury pulpitu wirtualnego (VDI) może spowodować uzyskanie bardzo dużych oszczędności, od 70 do ponad 90% zakresu, ponieważ przeważnie ilość danych duplikowana między środowiskami pulpitu wirtualnego jest duża. W konfiguracji opisanej w tym temacie firma Microsoft uruchomiła wiele obciążeń testowych i uzyskała oszczędności w zakresie od 50% do 90%.
Zalecane wdrożenie
W celu wdrożenia programu DPM jako maszyny wirtualnej tworzącej kopię zapasową danych na deduplikowanym woluminie zaleca się użycie następującej topologii wdrażania:
Program DPM działający na maszynie wirtualnej w klastrze hosta funkcji Hyper-V.
Magazyn programu DPM korzystający z plików VHD/VHDX przechowywanych w udziale SMB 3.0 na serwerze plików.
Dla tego przykładowego wdrożenia skonfigurowaliśmy serwer plików jako skalowany serwer plików (SOFS) wdrożony przy użyciu woluminów magazynu skonfigurowanych z poziomu pul miejsc do magazynowania z użyciem bezpośrednio połączonych dysków SAS. Należy zwrócić uwagę, że to wdrożenie zapewnia wydajność w odpowiedniej skali.
Należy pamiętać o następujących kwestiach:
Ten scenariusz jest obsługiwany w przypadku programu DPM 2012 R2.
Scenariusz jest obsługiwany w przypadku wszystkich obciążeń, dla których można utworzyć kopię zapasową danych w programie DPM 2012 R2.
W obrębie wszystkich węzłów serwera plików systemu Windows, w których znajdują się wirtualne dyski twarde programu DPM i na których zostanie włączona deduplikacja, musi zostać uruchomiony system Windows Server 2012 R2 z pakietem zbiorczym aktualizacji z listopada 2014.
Firma Microsoft udostępni ogólne zalecenia i instrukcje dotyczące wdrażania scenariusza. W każdym przykładzie odwołującym się do określonego sprzętu jako punkt odniesienia używany jest sprzęt wdrożony w systemie Microsoft Cloud Platform System (CPS).
Testowany sprzęt
W tym scenariuszu zdalne udziały SMB 3.0 są używane do przechowywania danych kopii zapasowej, dlatego podstawowe wymagania sprzętowe skupiają się wokół węzłów serwera plików, a nie węzłów funkcji Hyper-V. Następująca konfiguracja sprzętu jest używana w systemie CPS na potrzeby magazynu kopii zapasowej i produkcyjnego. Należy zwrócić uwagę na to, że ogólne elementy sprzętu są używane na potrzeby magazynów kopii zapasowej oraz produkcyjnego, natomiast liczba dysków wymieniona na liście dla obudów dysków na liście dotyczy tylko magazynów kopii zapasowej.
Klaster serwera plików skalowalny w poziomie z 4 węzłami
Konfiguracja każdego węzła
2 procesory CPU Intel(R) Xeon(R) E5-2650 0, 2,00 GHz, 2001 MHz, 8 rdzeni, 16 procesorów logicznych
128 GB pamięci RDIMM, 1333 MHz
Połączenia magazynu: 2 porty SAS, 1 port 10 GbE iWarp/RDMA
4 obudowy dysku JBOD
18 dysków w każdej obudowie JBOD — 16 dysków twardych o pojemności 4 TB i 2 dyski SSD o pojemności 800 GB
Podwójna ścieżka do każdego dysku — zasady równoważenia ładunku wielościeżkowego wejścia/wyjścia ustawione tylko na pracę w trybie failover
Dyski SSD skonfigurowane do zapisywania zwrotnego w pamięci podręcznej (WBC), a pozostałe dyski do dedykowanych napędów dziennika
Planowanie i konfigurowanie deduplikowanych woluminów
Zastanówmy się, jak duże powinny być woluminy, aby mogły obsługiwać deduplikowane pliki VHDX zawierające dane programu DPM. W systemie CPS utworzyliśmy woluminy o rozmiarze 7,2 TB każdy. Optymalny rozmiar woluminu zależy głównie od zakresu i częstotliwości zmian danych w tym woluminie oraz od wielkości przepustowości dostępu do danych w podsystemie magazynu dysku. Należy pamiętać, że jeśli przetwarzanie deduplikacji przebiega wolniej niż wprowadzanie dziennych zmian danych (liczba zmian), wielkość oszczędności będzie się zmniejszać do momentu ukończenia przetwarzania. Aby uzyskać szczegółowe informacje, zobacz Ustalanie rozmiaru woluminów na potrzeby deduplikacji danych. W przypadku woluminów deduplikacji zaleca się korzystanie z następujących zasad ogólnych:
W celu uzyskania odporności i zwiększonego wykorzystania dysku należy używać miejsc do magazynowania z opcją parzystości i wykrywaniem obudów.
Aby funkcja deduplikacji plików rozrzedzonych działa lepiej, należy sformatować system NTFS przy użyciu jednostek alokacji 64 KB i dużych segmentów rekordów plików.
W powyższej konfiguracji zalecany rozmiar woluminu to 7,2 TB, a woluminy zostaną skonfigurowane w następujący sposób:
Wykrywanie obudów, podwójna parzystość, 7,2 TB + 1 GB, zwrotne zapisywanie w pamięci podręcznej
ResiliencySettingName == Parity
PhysicalDiskRedundancy == 2
NumberOfColumns == 7
Interleave == 256 KB (wydajność podwójnej parzystości przy przeplocie 64 KB jest znacznie niższa niż przy domyślnym przeplocie wynoszącym 256 KB)
IsEnclosureAware == $true
AllocationUnitSize = 64KB
Usługa replikacji dużych plików
Skonfiguruj nowy wirtualny dysk w określonej puli magazynów w następujący sposób:
New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
Każdy z woluminów należy sformatować jako:
Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB –UseLargeFRS -Force
Następnie we wdrożeniu systemu CPS są one konfigurowane jako pliki CSV.
Na tych woluminach program DPM będzie przechowywać serię plików VHDX zawierających dane kopii zapasowej. Po sformatowaniu woluminu włącz jego deduplikację w następujący sposób:
Enable-DedupVolume –Volume <volume> -UsageType HyperV Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
To polecenie umożliwia również modyfikowanie następujących ustawień deduplikacji na poziomie woluminu:
Ustaw parametr UsageType na HyperV: spowoduje to przetwarzanie deduplikacji otwartych plików, które jest wymagane, ponieważ pliki VHDX użyte w magazynie kopii zapasowej programu DPM pozostają otwarte, jeśli w programie DPM zostanie uruchomiona odpowiednia maszyna wirtualna.
Wyłącz parametr PartialFileOptimization: spowoduje to deduplikację w celu zoptymalizowania wszystkich sekcji otwartego pliku, a nie skanowanie w poszukiwaniu zmienionych sekcji o minimalnym wieku.
Ustaw parametr MinFileAgeDays na 0: wyłączenie parametru PartialFileOptimization spowoduje zmianę zachowania parametru MinFileAgeDays — podczas deduplikacji będą brane pod uwagę tylko pliki, które nie zostały zmienione w ciągu wybranej liczby dni. Ponieważ chcemy, aby podczas deduplikacji przetwarzanie danych kopii zapasowej wszystkich plików VHDX programu DPM rozpoczęło się bez opóźnień, musimy ustawić parametr MinFileAgeDays na wartość 0.
Aby uzyskać więcej informacji na temat konfigurowania deduplikacji, zobacz Instalowanie i konfigurowanie duplikacji danych.
Planowanie i konfigurowanie magazynu programu DPM
Aby uniknąć problemów z fragmentacją i utrzymać wydajność, magazyn programu DPM jest przydzielany przy użyciu plików VHDX znajdujących się na deduplikowanym woluminie. Na każdym woluminie tworzonych jest 10 dynamicznych plików VHDX o rozmiarze 1 TB każdy, które są następnie dołączane do programu DPM. Należy pamiętać, że nadmiarowe inicjowanie obsługi administracyjnej magazynu o wielkości 3 TB jest przeprowadzane w celu skorzystania z oszczędności pojemności magazynu uzyskanych dzięki funkcji deduplikacji. Ze względu na to, że funkcja deduplikacji powoduje uzyskanie dodatkowych oszczędności związanych z magazynem, na tych woluminach można utworzyć nowe pliki VHDX w celu użycia zaoszczędzonego miejsca. Serwer programu DPM został przetestowany z maksymalnie dołączonymi do niego 30 plikami VHDX.
Uruchom następujące polecenie, aby utworzyć wirtualne dyski twarde, które zostaną później dodane do serwera programu DPM:
New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>
Następnie dodaj utworzone wirtualne dyski twarde do serwera programu DPM w następujący sposób:
Import-Module "DataProtectionManager" Set-StorageSetting -NewDiskPolicy OnlineAll $dpmdisks = @() $dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool – eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false} Add-DPMDisk $dpmdisks
Należy pamiętać, że ten krok obejmuje skonfigurowanie puli magazynów jako dysku lub dysków, na których program DPM przechowuje repliki i punkty odzyskiwania chronionych danych. Ta pula jest częścią konfiguracji programu DPM i jest inna niż pula miejsc do magazynowania służąca do tworzenia woluminów danych opisanych w poprzedniej sekcji. Aby uzyskać więcej informacji na temat pul magazynów programu DPM, zobacz Konfigurowanie magazynu dysków i pul magazynów.
Planowanie i konfigurowanie klastra serwera plików systemu Windows
Deduplikacja wymaga specjalnego zestawu opcji konfiguracji, który umożliwi obsługę zwirtualizowanego magazynu programu DPM z uwzględnieniem skali danych i rozmiaru poszczególnych plików. Są to opcje globalne względem klastra lub węzła klastra. W każdym węźle klastra należy włączyć deduplikację i indywidualnie skonfigurować ustawienia klastra.
Włącz deduplikację w magazynie serwera plików systemu Windows — rolę deduplikacji należy zainstalować na wszystkich węzłach klastra serwera plików systemu Windows. W tym celu uruchom następujące polecenie programu PowerShell w każdym węźle klastra:
Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
Dopasuj przetwarzanie deduplikacji do plików danych kopii zapasowej — uruchom następujące polecenie programu PowerShell, aby ustawić uruchamianie optymalizacji bez opóźnień i zrezygnować z optymalizacji częściowych zapisów w plikach. Należy pamiętać, że domyślnie wykonywanie zadań odzyskiwania pamięci jest zaplanowane co tydzień. Co cztery tygodnie zadanie to jest uruchamiane w trybie głębokiego odzyskiwania pamięci, który umożliwia przeprowadzenie dokładniejszego i bardziej czasochłonnego wyszukiwania danych do usunięcia. W przypadku obciążenia programu DPM tryb głębokiego odzyskiwania pamięci nie przynosi znaczących korzyści i skraca czas optymalizowania danych przy użyciu funkcji deduplikacji. Dlatego tryb głębokiego odzyskiwania pamięci jest wyłączany.
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
Dostosuj wydajność do wymagań operacji na dużą skalę — uruchom następujący skrypt programu PowerShell w celu:
wyłączenia dodatkowego przetwarzania i operacji we-wy po uruchomieniu trybu głębokiego odzyskiwania pamięci,
zarezerwowania dodatkowej pamięci na potrzeby przetwarzania skrótów,
włączenia optymalizacji w celu umożliwienia natychmiastowej defragmentacji dużych plików.
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70 Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
Te ustawienia służą do modyfikowania następujących elementów:
HashIndexFullKeyReservationPercent: ta wartość służy do kontrolowania ilości pamięci zadania optymalizacji, która jest używana na potrzeby istniejących skrótów fragmentu w stosunku do nowych skrótów fragmentu. Na dużą skalę ustawienie 70% powoduje skuteczniejszą optymalizację przepływności niż domyślne ustawienie 50%.
EnablePriorityOptimization: jeśli rozmiar plików zbliża się do 1 TB, fragmentacja pojedynczego pliku może spowodować zgromadzenie fragmentów, których łączny rozmiar wyniesie tyle co limit rozmiaru na plik. Przetwarzanie optymalizacji powoduje skonsolidowanie tych fragmentów i uniemożliwia osiągnięcie tego limitu. Dzięki ustawieniu tego klucza rejestru deduplikacja spowoduje dodanie dodatkowego procesu obsługującego bardzo pofragmentowane, deduplikowane pliki o wysokim priorytecie.
Planowanie i konfigurowanie programu DPM oraz harmonogramowania deduplikacji
Tworzenie kopii zapasowej i deduplikacja to procesy wymagające wielu operacji we-wy. Ich uruchomienie w tym samym czasie i wynikające z tego dodatkowe obciążenie podczas przełączania się między operacjami mogłoby być drogie i spowodować codzienne tworzenie kopii zapasowej bądź deduplikowanie mniejszej ilości danych. Zalecamy skonfigurowanie dedykowanych osobnych okien na potrzeby deduplikacji i tworzenia kopii zapasowej. Dzięki temu ruch we-wy dla każdej z tych operacji będzie efektywnie dystrybuowany podczas codziennego działania systemu. Podczas harmonogramowania zalecamy skorzystanie z następujących wskazówek:
Podziel dni na nienakładające się okna tworzenia kopii zapasowej i deduplikacji.
Skonfiguruj niestandardowe harmonogramy tworzenia kopii zapasowej.
Skonfiguruj niestandardowe harmonogramy deduplikacji.
Zaplanuj optymalizację w ramach okna codziennej deduplikacji.
Skonfiguruj oddzielne weekendowe harmonogramy deduplikacji, aby wykorzystać czas w celu wykonania zadań odzyskiwania pamięci i czyszczenia danych.
Harmonogramy programu DPM można skonfigurować przy użyciu następującego polecenia programu PowerShell:
Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime –
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime –DurationInHours
$duration
W tej konfiguracji program DPM jest konfigurowany tak, aby kopia zapasowa maszyn wirtualnych była tworzona między 22:00 i 6:00. Deduplikacja jest zaplanowania na pozostałe 16 godzin dnia. Należy pamiętać, że rzeczywisty konfigurowany czas deduplikacji będzie zależeć od rozmiaru woluminu. Aby uzyskać więcej informacji, zobacz Ustalanie rozmiaru woluminów na potrzeby deduplikacji danych. Okno deduplikacji o długości 16 godzin rozpoczynające się o 6:00 po zakończeniu okna tworzenia kopii zapasowej należy skonfigurować w następujący sposób w dowolnym węźle klastra:
#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}
Podczas każdorazowego modyfikowania okna tworzenia kopii zapasowej należy pamiętać o równoczesnym zmodyfikowaniu okna deduplikacji tak, aby okna te się nie nakładały. Okna deduplikacji i tworzenia kopii zapasowej nie muszą wypełniać wszystkich 24 godzin dnia. Zdecydowanie zaleca się pozostawienie czasu na ewentualne zmiany czasu przetwarzania wynikające z oczekiwanych dziennych zmian obciążeń i fragmentów danych.
Wpływ na wydajność tworzenia kopii zapasowej
Po zakończeniu deduplikacji zestawu plików można zauważyć nieznaczny spadek wydajności podczas uzyskiwania dostępu do plików. Wynika on z dodatkowych operacji przetwarzania wymaganych do uzyskiwania dostępu do używanego formatu deduplikowanych plików. W tym scenariuszu pliki są zestawem plików VHDX z ciągłym wykorzystaniem w programie DPM podczas tworzenia kopii zapasowych. Jeśli te pliki są deduplikowane, operacje tworzenia kopii zapasowej i odzyskiwania danych mogą przebiegać wolniej niż bez deduplikacji. Podobnie jak w przypadku każdego produktu do tworzenia kopii zapasowej program DPM stanowi obciążenie intensywnie wykorzystujące operacje zapisu, a operacje odczytu są najważniejsze podczas procesów odzyskiwania danych. Poniżej podano zalecenia dotyczące wpływu procesu deduplikacji na wydajność tworzenia kopii zapasowej.
Operacje odczytu/przywracania: wpływ na operacje odczytu jest przeważnie nieistotny i nie wymaga uwagi użytkownika, ponieważ funkcja deduplikacji buforuje deduplikowane fragmenty.
Operacje zapisu/tworzenia kopii zapasowej: podczas definiowania okna kopii zapasowej należy zaplanować wzrost czasu tworzenia kopii zapasowej o około 5–10%. (wzrost porównany z oczekiwanym czasem tworzenia kopii zapasowej podczas zapisywania na woluminach niededuplikowanych).
Monitorowanie
Program DPM i deduplikację danych można monitorować w celu zapewnienia, że:
Ilość miejsca na dysku, dla której zainicjowano obsługę administracyjną, jest wystarczająca do przechowywania danych kopii zapasowej.
Zadania tworzenia kopii zapasowej programu DPM są kończone w zwykły sposób.
Na woluminach kopii zapasowej włączono deduplikację.
Harmonogramy deduplikacji zostały prawidłowo ustawione.
Przetwarzanie deduplikacji jest codziennie wykonywane w zwykły sposób.
Wielkość oszczędności wynikających z deduplikacji odpowiada założeniom dla konfiguracji systemu.
Powodzenie deduplikacji zależy od ogólnych możliwości sprzętu systemu (w tym od szybkości przetwarzania procesora CPU, przepustowości operacji we/wy, pojemności magazynu), prawidłowej konfiguracji systemu, średniego obciążenia systemu i codziennej ilości modyfikowanych danych.
Program DPM można monitorować przy użyciu centralnej konsoli programu DPM. Zobacz Instalowanie konsoli centralnej.
Deduplikację można monitorować w celu sprawdzania jej stanu, wielkości oszczędności oraz stanu harmonogramu przy użyciu następującego polecenia programu PowerShell:
Uzyskaj informacje na temat stanu:
PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:
Uzyskaj informacje na temat oszczędności:
PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:
Aby uzyskać informacje na temat stanu harmonogramu, użyj polecenia cmdlet Get-DedupSchedule.
Monitorowanie zdarzeń
Monitorowanie dziennika zdarzeń może pomóc w zrozumieniu deduplikacji zdarzeń i stanu.
Aby przejrzeć zdarzenia deduplikacji, w Eksploratorze plików przejdź kolejno do pozycji Dzienniki aplikacji i usług > Microsoft > Windows > Deduplikacja.
Jeśli wartość LastOptimizationResult = 0x00000000 pojawia się w wynikach polecenia Get-DedupStatus |fl programu Windows PowerShell, cały zestaw danych został przetworzony podczas poprzedniego zadania optymalizacji. W przeciwnym razie system nie mógł ukończyć przetwarzania deduplikacji — należy sprawdzić ustawienia konfiguracji, na przykład rozmiar woluminu.
Aby zapoznać się z bardziej szczegółowymi przykładami poleceń cmdlet, zobacz Monitorowanie deduplikacji danych i tworzenie powiązanych raportów.
Monitorowanie magazynu kopii zapasowych
W naszym przykładzie konfiguracji woluminy 7,2 TB są wypełniane 10 TB danych „logicznych” (rozmiar danych niededuplikowanych) przechowywanych w 10 dynamicznych plikach VHDX o rozmiarze 1 TB. Ze względu na to, że dodatkowe dane kopii zapasowej będą gromadzone w tych plikach, pojemność woluminu będzie powoli wypełniana. Jeśli wartość procentowa oszczędności wynikających z deduplikacji jest wystarczająco wysoka, wszystkie 10 plików będzie mogło osiągnąć maksymalny rozmiar logiczny i nadal mieścić się na woluminie 7,2 TB (potencjalnie może nawet istnieć dodatkowe miejsce do użycia na potrzeby przydzielania dodatkowych plików VHDX na serwerach programu DPM). Ale jeśli oszczędności rozmiaru wynikające z deduplikacji nie są wystarczające, wolumin może być pełny (może zabraknąć na nim miejsca), zanim pliki VHDX osiągną pełen rozmiar logiczny. Aby zapobiec zapełnianiu woluminów, zalecamy:
Zastosowanie ostrożnego podejścia do wymagań dotyczących rozmiaru woluminów oraz zezwolenie na nadmiarowe inicjowanie obsługi administracyjnej magazynu. Zaleca się zapewnienie bufora o wielkości co najmniej 10% podczas planowania użycia magazynu kopii zapasowej. Bufor ten będzie przeznaczony do obsługi oczekiwanych zmian fragmentów danych i oszczędności wynikających z deduplikacji.
Monitorowanie woluminów używanych na potrzeby magazynu kopii zapasowej w celu zapewnienia wykorzystania miejsca i wielkości oszczędności wynikających z deduplikacji na oczekiwanym poziomie.
Jeśli wolumin jest pełen, można zauważyć następujące symptomy:
Maszyna wirtualna programu DPM będzie mieć krytyczny stan wstrzymania i nie będzie wydawać żadnych dodatkowych zadań tworzenia kopii zapasowej.
Wszystkie zadania kopii zapasowej, które korzystają z plików VHDX na pełnym woluminie, zakończą się niepowodzeniem.
Aby przywrócić normalne działanie systemu po zaistnieniu tej sytuacji, można zainicjować obsługę administracyjną dodatkowego magazynu i przeprowadzić migrację magazynu maszyny wirtualnej programu DPM lub jej pliku VHDX w celu zwolnienia miejsca:
Zatrzymaj serwer programu DPM, który jest właścicielem plików VHDX w pełnym udziale kopii zapasowej.
Utwórz dodatkowy udział woluminu i kopii zapasowej przy użyciu konfiguracji i ustawień używanych już do istniejących udziałów, takich jak ustawienia systemu plików NTFS i deduplikacji.
Przeprowadź migrację magazynu maszyny wirtualnej serwera programu DPM oraz migrację co najmniej jednego pliku VHDX z pełnego udziału kopii zapasowej do nowego udziału kopii zapasowej utworzonego w ramach kroku 2.
Uruchom zadanie odzyskiwania pamięci deduplikacji danych w źródłowym udziale kopii zapasowej, który jest pełny. To zadanie odzyskiwania pamięci powinno zakończyć się pomyślnie i spowodować odzyskanie wolnego miejsca.
Uruchom ponownie maszynę wirtualną serwera programu DPM.
Po rozpoczęciu następnego okna kopii zapasowej dla wszystkich źródeł danych z błędami zostanie wyzwolone zadanie sprawdzania spójności programu DPM.
Wszystkie zadania tworzenia kopii zapasowej powinny teraz zakończyć się pomyślnie.
Wniosek
Połączenie deduplikacji z programem DPM umożliwia uzyskiwanie znacznych oszczędności miejsca. Dzięki temu można przechowywać większe ilości danych, częściej tworzyć kopie zapasowe i obniżać całkowity koszt posiadania powiązany z wdrożeniem programu DPM. Wskazówki i zalecenia przedstawione w tym dokumencie powinny udostępnić narzędzia i wiedzę umożliwiające skonfigurowanie deduplikacji dla magazynu programu DPM oraz uzyskiwanie korzyści we własnych wdrożeniach.
Najczęściej zadawane pytania
Pyt.: Pliki VHDX programu DPM muszą mieć rozmiar 1 TB. Czy oznacza to, że program DPM nie może utworzyć kopii zapasowej maszyny wirtualnej, elementu programu SharePoint, bazy danych SQL ani pliku o rozmiarze większym niż 1 TB?
Odp.: Nie. Program DPM agreguje wiele woluminów na potrzeby przechowywania kopii zapasowych. Dlatego rozmiar pliku wynoszący 1 TB nie ma żadnego wpływu na rozmiary źródeł danych, których kopie zapasowe mogą być wykonywane w programie DPM.
Pyt.: Wygląda na to, że pliki VHDX magazynu programu DPM muszą być wdrażane tylko w zdalnych udziałach plików SMB. Co się stanie, jeśli będę przechowywać pliki VHDX na woluminach z włączoną deduplikacją w tym samym systemie, w którym działa maszyna wirtualna programu DPM?
Odp.: Jak opisano powyżej, program DPM, funkcja Hyper-V i deduplikacja to operacje z intensywnym wykorzystaniem magazynu i mocy obliczeniowej. Połączenie wszystkich trzech w jednym systemie może prowadzić do powstania operacji o intensywnym wykorzystaniu danych we-wy i procesów, które mogą zablokować dostęp do funkcji Hyper-V oraz powiązanych z nią maszyn wirtualnych. Jeśli zdecydujesz się na eksperymentowanie podczas konfigurowania programu DPM na maszynie wirtualnej z woluminami magazynu kopii zapasowej na tym samym komputerze, musisz uważnie monitorować wydajność, aby upewnić się, że przepustowość operacji we-wy i moce obliczeniowe wystarczają do obsługi wszystkich operacji na jednym komputerze.
Pyt.: Zalecane jest użycie dedykowanych osobnych okien na potrzeby deduplikacji i tworzenia kopii zapasowej. Dlaczego nie mogę włączyć deduplikacji podczas tworzenia kopii zapasowej programu DPM? Muszę tworzyć kopię zapasową mojej bazy danych SQL co 15 minut.
Odp.: Deduplikacja i program DPM stanowią operacje o znacznym wykorzystaniu magazynu. Ich równoczesne uruchamianie może być mało wydajne i prowadzić do zablokowania operacji we/wy. Dlatego aby chronić obciążenia więcej niż raz dziennie (na przykład program SQL Server co 15 minut) i aby w tym samym czasie włączyć deduplikację, upewnij się, że przepustowość operacji we-wy i możliwości komputera są wystarczające do uniknięcia zablokowania zasobów.
Pyt.: W opisanej konfiguracji program DPM należy uruchomić na maszynie wirtualnej. Dlaczego nie mogę włączyć deduplikacji bezpośrednio na woluminie repliki i woluminach kopii w tle zamiast w plikach VHDX?
Odp.: Deduplikacja jest przeprowadzana na poszczególnych woluminach działających w powiązaniu z pojedynczymi plikami. Ponieważ deduplikacja powoduje optymalizację na poziomie plików, nie może ona obsługiwać technologii VolSnap, której program DPM używa do przechowywania danych kopii zapasowej. Po uruchomieniu programu DPM na maszynie wirtualnej funkcja Hyper-V mapuje operacje woluminu programu DPM do poziomu pliku VHDX. Pozwala to funkcji deduplikacji na optymalizowanie danych kopii zapasowych i zapewnianie większych oszczędności pojemności magazynu.
Pyt.: Powyższa przykładowa konfiguracja powoduje utworzenie tylko woluminów o rozmiarze 7,2 TB. Czy mogę tworzyć woluminy większe lub mniejsze?
Odp.: Funkcja deduplikacji uruchamia jeden wątek na każdym woluminie. Wzrost rozmiaru woluminu spowoduje, że deduplikacja będzie wymagać dłuższego czasu, aby ukończyć jego optymalizację. Z drugiej strony małe woluminy oznaczają małą ilość danych, w obrębie których można znaleźć zduplikowane fragmenty, a co za tym idzie, oszczędności mogą być mniejsze. Dlatego też w celu uzyskania optymalnych oszczędności zaleca się dostosowywanie rozmiaru woluminu na podstawie łącznej wielkości fragmentów i sprzętu w systemie. Więcej szczegółowych informacji na temat określania rozmiarów woluminów używanych podczas deduplikacji można znaleźć w części Ustalanie rozmiarów woluminów na potrzeby deduplikacji w systemie Windows Server. Więcej szczegółowych informacji na temat określania rozmiarów woluminów używanych podczas deduplikacji można znaleźć w części Ustalanie rozmiarów woluminów na potrzeby deduplikacji danych.