Artigo
03/14/2016

Eliminar duplicação de armazenamento DPM

Publicado: março de 2016

Este artigo descreve como reduzir o consumo de armazenamento do DPM, permitindo a eliminação de duplicação no armazenamento do DPM. Neste cenário, o DPM é executado como uma máquina virtual do Hyper-V e armazena dados de backup para VHDs em pastas compartilhadas em um servidor de arquivos do Windows com eliminação de duplicação de dados habilitada.

Visão geral

No ambiente atual, os administradores de TI enfrentam o enorme de de crescimento de dados conforme ilustrado pela projeção do IDC para dados do mundo até o ano 2020 abaixo. O aumento no crescimento dos dados leva ao ao aumento das necessidades de armazenamento de backup.

DPM and deduplication

O crescimento de dados aumenta os custos de hardware e manutenção. Conforme mostrado abaixo, 62% dos administradores de TI têm questões sobre o aumento dos custos de HW/SW e seu custo de manutenção. Para a pesquisa completa, consulte A explosão de dados estão afetando você no blog Informatica.

DPM Deduplication

Os administradores de TI fazem backup dos dados de produção para atender aos requisitos de conformidade organizacional e às necessidades de recuperação operacional. Por natureza, o backup é uma operação bem intensa, e reduzir o consumo de armazenamento de backup é uma das principais prioridades para administradores de TI.

A eliminação de duplicação pode atender à necessidade de reduzir o consumo de armazenamento. Enquanto a quantidade de redundância em qualquer determinado conjunto de dados depende da carga de trabalho e dos tipos de dados usados, é comum que os dados de backup mostrem uma grande economia quando a eliminação de duplicação é usada. Pode haver uma redundância adicional e, portanto, mais economias na eliminação de duplicação, quando dados de backup de cargas de trabalho semelhantes com conjuntos de dados semelhantes são processados em conjunto. O DPM utiliza a eliminação de duplicação para fornecer esses benefícios.

Visão geral do DPM

O System Center Data Protection Manager é uma solução de backup corporativo que fornece:

Backup e recuperação com reconhecimento de aplicativos— O DPM protege os clientes, servidores, máquinas virtuais, dados de servidor de arquivos e cargas de trabalho do aplicativo. Ele fornece opções flexíveis de backup, incluindo a capacidade de fazer backup de algumas cargas de trabalho com uma frequência de 15 em 15 minutos. O DPM possui uma ampla gama de recursos de recuperação. Por exemplo, os clientes podem substituir um banco de dados do SQL Server de produção atual por uma cópia mais antiga, recuperar bancos de dados para outro local para investigação ou recuperar como arquivos para fornecer uma cópia ao departamento jurídico. O DPM ajuda os administradores de TI a escolher o tipo de recuperação que precisam. O DPM oferece suporte a recuperação pelos usuários finais. Por exemplo, um administrador do SQL, administrador de sistema de arquivo ou um usuário do cliente pode recuperar todos os dados diretamente sem precisar de assistência do administrador.

Em um ambiente dinâmico, os servidores de produção criam novos dados continuamente. O DPM dá tranquilidade aos administradores de backup, proporcionando proteção em nível de instância que localiza automaticamente e configura novos dados criados por cargas de trabalho. Isso elimina a necessidade dos administradores de backup de localizar novas instâncias de dados manualmente e adicioná-las à configuração de backup.
Gerenciamento centralizado e colocação em escala empresarial: um único servidor DPM pode proteger 80 TB de dados de produção ou 100 servidores de produção. Você pode implantar o Console Central do DPM para gerenciar até 100 servidores DPM de um local centralizado. Use a geração central de relatórios do DPM para a geração simples de relatórios personalizados para todos os servidores DPM.
Proteção de nuvem privada eficiente— Se seu datacenter de nuvem privada é configurado para executar máquinas virtuais do Hyper-V em servidores autônomos ou nos servidores Windows com conexões remotas para compartilhamentos de arquivos SMB em servidores de arquivos do Windows, o DPM pode fazer backup de máquinas virtuais com eficiência usando a tecnologia de backup de máquina virtual exclusiva do DPM.

Por exemplo, o DPM detecta a migração da máquina virtual e continua a protegê-la automaticamente, sem qualquer envolvimento ativo do administrador de backup. Se a máquina virtual migrar de host para host, o mesmo servidor DPM continuará a fazer backup sem modificações do DPM ou etapas manuais.
Backup integrado na nuvem— O DPM é flexível o suficiente para proteger as cargas de trabalho implantadas em uma nuvem privada Hyper-V, na nuvem pública do Azure ou em uma nuvem do hoster. As empresas que executam cargas de trabalho da Microsoft no Azure podem aproveitar o DPM em execução no Azure para proteger essas cargas de trabalho. O DPM oferece suporte a backup externo para o Azure usando o Serviço de Backup do Azure. O Serviço de Backup do Azure é integrado aos fluxos de trabalho de proteção e recuperação do DPM, facilitando gerenciar as configurações de backup externo e reter os dados por vários anos. O Backup do Azure fornece uma alternativa para o backup em fita, com a exigência de manutenção fita e envio externo. Os administradores de backup agora não precisam mais se preocupar com o trabalho de manutenção em fita.

Visão geral de eliminação de duplicação de dados

A eliminação de duplicação de dados (eliminação de duplicação) foi introduzida no Windows Server 2012 como uma substituição de última geração para o recurso de Armazenamento de Instância Única (SIS) no Windows Storage Server 2008. Ele usa um algoritmo de agrupamento de tamanho de bloco avançado e variável para trazer economia na eliminação de duplicação máxima por volume. Uma abordagem de pós-processamento é usada para preservar a semântica do sistema de todos os arquivos e garantir pouquíssimo impacto no desempenho do caminho de dados primário. Para obter mais informações, consulte Visão geral de eliminação de duplicação de dados.

A eliminação de duplicação de dados foi projetada para ser instalada em volumes de dados primários sem adicionar outro hardware dedicado para não afetar a carga de trabalho principal no servidor. As configurações padrão são não intrusivas, pois permitem que os dados completem cinco dias de existência antes de processar um arquivo específico, e tem um tamanho de arquivo mínimo padrão de 32 KB. A implementação foi criada para pouco uso da memória e da CPU. A eliminação de duplicação pode ser implementada nas seguintes cargas de trabalho

Compartilhamentos de arquivos gerais: publicação e compartilhamento de conteúdo de grupo, pastas base do usuário e Arquivos Offline/de Redirecionamento de Pasta
Compartilhamentos de implantação de software: binários, imagens e atualizações de software
Bibliotecas de VHD: armazenamento de arquivos do VHD (disco rígido virtual) para provisionamento em hipervisores
Implantações de VDI (somente Windows Server 2012 R2): implantações de VDI (Virtual Desktop Infrastructure) usando Hyper-V
Backup virtualizado: soluções de backup (por exemplo, o DPM em execução em uma máquina virtual do Hyper-V) que salvam dados de backup em arquivos VHD/VHDX em um Servidor de Arquivos do Windows.

Benefícios para os negócios

O uso da eliminação de duplicação com o DPM pode resultar em grandes economias. A quantidade de espaço poipado pela eliminação de duplicação ao otimizar o backup de dados do DPM varia dependendo do tipo de dados de backup. Por exemplo, um backup de um servidor de banco de dados criptografado pode resultar em uma economia mínima, pois todos os dados duplicados são ocultados pelo processo de criptografia. No entanto, o backup de uma grande implantação do Virtual Desktop Infrastructure (VDI) pode resultar em uma grande economia, na faixa de 70-90%, pois normalmente há uma grande quantidade de eliminação de duplicação de dados entre os ambientes de área de trabalho virtuais. Na configuração descrita neste tópico, executamos diversas cargas de trabalho de teste e conseguimos economias entre 50% e 90% de economia.

Implantação recomendada

Para implantar o DPM como uma máquina virtual fazendo backup de dados para um volume com eliminação de duplicação de dados, é recomendável a topologia de implantação a seguir:

DPM em execução em uma máquina virtual em um cluster de host do Hyper-V.
Armazenamento do DPM usando arquivos VHD/VHDX armazenados em um compartilhamento SMB 3.0 em um servidor de arquivos.
Para este exemplo de implantação, configuramos o servidor de arquivos como um servidor de arquivos expandido (SOFS) implantado com volumes de armazenamento configurados de pool de spaços de armazenamento criados usando unidades SAS conectadas diretamente. Observe que essa implantação garante o desempenho em grande escala.

Dedup and VHDX

Observe o seguinte:

Esse cenário tem suporte para o DPM 2012 R2
O cenário tem suporte para todas as cargas de trabalho para as quais podem ser feitos backup dos dados pelo DPM 2012 R2.
Todos os nós de servidor de arquivos do Windows em que os discos rígidos virtuais do DPM residem e nos quais eliminação de duplicação será habilitada devem estar executando o Windows Server 2012 R2 com a Atualização cumulativa de novembro de 2014.

Forneceremos recomendações gerais e instruções para a implantação do cenário. Sempre que são fornecidos exemplos específicos de hardware, o hardware implantado no Sistema de Plataforma de Nuvem da Microsoft (CPS) é usado para referência.

Hardware testado

Esse cenário usa compartilhamentos remotos do SMB 3.0 para armazenar os dados de backup, para que os requisitos de hardware sejam centralizadosem torno de nós do servidor de arquivos, em vez de nós do Hyper-V. A seguinte configuração de hardware é usada no CPS para armazenamento de backup e de produção. Observe que o hardware geral é usado para armazenamento de backup e de produção, mas as unidades listadas nos compartimentos de unidade são apenas aquelas usados para backup.

Cluster de servidor de arquivos de dimensionamento de 4 nós
Configuração por nó
- 2x Intel(R) Xeon(R) CPU E5-2650 0 @ 2.00GHz, 2001 MHz, 8 núcleos, 16 processadores lógicos
- Memória RDIMM 128GB 1333MHz
- Conexões de armazenamento: 2 portas de SAS, 1 porta de 10 GbE iWarp/RDMA
4 compartimentos de unidade JBOD
- 18 discos em cada JBOD – 16 x HDDs de 4 TB + 2 x SSDs de 800 GB
- Dois caminhos para cada unidade - Política de balanceamento de carga Multipath I/O definida somente para failover
- SSDs configurados para cache com write-back (WBC) e o restante para unidades de diário dedicadas

Planejar e implantar volumes com eliminação de duplicação

Vamos considerar qual deve ser o tamanho de grandes volumes para dar suporte aos arquivos VHDX com eliminação de duplicação que contenham dados do DPM. No CPS, criamos volumes de 7.2 TB cada um. O tamanho do volume ideal depende, principalmente, da intensidade e da frequência das alterações dos dados no volume, e nas taxas de produtividade de acesso dos dados do subsistema de armazenamento do disco. É importante observar que, se o processamento de eliminação de duplicação não puder acompanhar a taxa de alterações de dados diariamente (a rotatividade), a taxa de salvamento diminuirá até que o processamento pode ser concluído. Para obter mais informações detalhadas, consulte Dimensionando volumes para eliminação de duplicação de dados. As diretrizes gerais a seguir são recomendadas para os volumes de eliminação de duplicação:

Use espaços de armazenamento de paridade com reconhecimento de compartimento para aumentar a resiliência e a utilização do disco.
Formate o NTFS com unidades de alocação de 64 KB e grandes segmentos de registro de arquivo para trabalhar melhor com o uso da eliminação de duplicação de arquivos esparsos.
No hardware da configuração acima, o tamanho do volume recomendado é de 7,2 TB, e os volumes serão configurados da seguinte maneira:
- Dupla paridade com reconhecimento de compartimento de 7.2 TB + 1 GB de cache com write-back
  - ResiliencySettingName == Paridade
  - PhysicalDiskRedundancy == 2
  - NumberOfColumns == 7
  - Intercalar = = 256KB (o desempenho de paridade dupla a uma intercalação de 64 KB é muito menor que a intercalação padrão de 256 KB)
  - IsEnclosureAware == $true
  - AllocationUnitSize=64 KB
  - FRS grande
  Configure um novo disco virtual no pool de armazenamento especificado da seguinte maneira:
```
New-VirtualDisk -Size 7.2TB -PhysicalDiskRedundancy 2 -ResiliencySettingName Parity -StoragePoolFriendlyName BackupPool -FriendlyName BackupStorage -NumberOfColumns 7 -IsEnclosureAware $true
```
- Cada um desses volumes deve ser formatado como:
```
Format-Volume -Partition <volume> -FileSystem NTFS -AllocationUnitSize 64KB –UseLargeFRS -Force
```
  Na implantação do CPS, eles são configurados como CSVs.
- Dentro desses volumes, o DPM armazenará uma série de arquivos VHDX para manter os dados de backup. Habilite a eliminação de duplicação no volume após a formatação, como segue:
```
Enable-DedupVolume –Volume <volume> -UsageType HyperV
Set-DedupVolume -Volume <volume> -MinimumFileAgeDays 0 -OptimizePartialFiles:$false
```
  Este comando também modifica as seguintes configurações de eliminação de duplicação de nível de volume:
  - Definir UsageType como HyperV: isso resulta na eliminação de duplicação do processamento de arquivos abertos, que é necessário porque os arquivos VHDX usados para armazenamento de backup pelo DPM permanecem abertos com o DPM em execução em sua máquina virtual.
  - Desabilitar PartialFileOptimization: isso faz com que a eliminação de duplicação otimize a todas as seções de um arquivo aberto, em vez de procurar seções alteradas com idade mínima.
  - Definir o parâmetro MinFileAgeDays como 0: com PartialFileOptimization desabilitado, o MinFileAgeDays altera seu comportamento para que a eliminação de duplicação só considere arquivos que não tenham sido alterados nessa quantidade de dias. Como queremos que a eliminação de duplicação comece a processar os dados de backup em todos os arquivos VHDX DPM sem atraso, precisamos definir MinFileAgeDays como 0.

Para obter mais informações sobre como configurar a eliminação de duplicação, consulte Instalar e configurar a eliminação de duplicação de dados.

Planejar e configurar o armazenamento do DPM

Para evitar problemas de fragmentação e manter a eficiência, o armazenamento do DPM é alocado usando arquivos VHDX que residem em volumes com eliminação de duplicação. São criados 10 arquivos VHDX dinâmicos de 1 TB cada um em cada volume e anexados ao DPM. Observe que um super provisionamento de armazenamento de 3 TB é feito para aproveitar a economia de armazenamento produzida pela eliminação de duplicação. Como a eliminação de duplicação produz mais economia de armazenamento, novos arquivos VHDX podem ser criados nesses volumes para consumir o espaço salvo. Nós testamos o servidor do DPM com até 30 arquivos VHDX anexados a ele.

Execute o seguinte comando para criar discos rígidos virtuais que serão adicionados posteriormente ao servidor DPM:

New-SCVirtualDiskDrive -Dynamic -SCSI -Bus $Bus -LUN $Lun -JobGroup $JobGroupId -VirtualHardDiskSizeMB 1048576 -Path $Using:Path -FileName <VHDName>

Depois, adicione os discos rígidos virtuais criados no servidor DPM da seguinte maneira:
```
Import-Module "DataProtectionManager"
Set-StorageSetting -NewDiskPolicy OnlineAll
$dpmdisks = @()
$dpmdisks = Get-DPMDisk -DPMServerName $env:computername | ? {$_.CanAddToStoragePool –
eq $true -and $_.IsInStoragePool -eq $false -and $_.HasData -eq $false}
Add-DPMDisk $dpmdisks
```
Observe que esta etapa configura um pool de armazenamento como o disco ou os discos em que o DPM armazena réplicas e pontos de recuperação para dados protegidos. Esse pool é parte da configuração do DPM e é separado do pool de espaços de armazenamento usado para criar os volumes de dados descritos na seção anterior. Para obter mais informações sobre os pools de armazenamento de DPM, consulte Configurar pools de armazenamento e o armazenamento em disco.

Planejar e configurar o cluster do Servidor de Arquivos do Windows

A eliminação de duplicação requer um conjunto especial de opções de configuração para dar suporte ao armazenamento virtualizado do DPM devido à escala de dados e ao tamanho dos arquivos individuais. Essas opções são globais para o cluster ou o nó do cluster. A eliminação de duplicação deve estar habilitada e as configurações de cluster devem ser configuradas individualmente em cada nó do cluster.

Habilitar a eliminação de duplicação no armazenamento do Servidor de Arquivos do Windows— A função da eliminação de duplicação deve ser instalada em todos os nós do cluster do Servidor de Arquivos do Windows. Para fazer isso, execute o seguinte comando do PowerShell em cada nó do cluster:
```
Install-WindowsFeature -Name FileAndStorage-Services,FS-Data-Deduplication -ComputerName <node name>
```
Ajuste a eliminação de duplicação de processamento para arquivos de dados de backup— Execute o seguinte comando do PowerShell para definir o início da otimização sem atraso e não para otimizar as gravações de arquivo parcial. Observe que, por padrão, os trabalhos de coleta de lixo (GC) são agendados toda semana, e cada a quarta semana o trabalho do GC é executado no modo de "GC profundo" para uma busca mais completa e prolongada de dados para remover. Para a carga de trabalho do DPM, esse modo de "GC profundo" não resulta em nenhum ganho apreciativo e reduz a quantidade de tempo no qual a eliminação de duplicação pode otimizar dados. Portanto, nós desabilitamos esse modo profundo.
```
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name DeepGCInterval -Value 0xFFFFFFFF
```
Ajuste o desempenho para operações de grande escala— Execute o seguinte script do PowerShell para:
- Desativar o processamento adicional e de E/W ao executar a coleta de lixo profunda
- Reservar memória adicional para processamento de hash
- Habilitar a otimização de prioridade para permitir a desfragmentação imediata de arquivos grandes
```
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name HashIndexFullKeyReservationPercent -Value 70
Set-ItemProperty -Path HKLM:\Cluster\Dedup -Name EnablePriorityOptimization -Value 1
```
Essas configurações modificam o seguinte:
- HashIndexFullKeyReservationPercent: esse valor controla a quantidade de memória de trabalho de otimização usada para hashes de bloco existentes em vez de hashes de bloco novos. Em alta escala, 70% resulta em uma melhor taxa de transferência de otimização do que o padrão de 50%.
- EnablePriorityOptimization: com arquivos próximos a 1 TB, a fragmentação de um único arquivo pode acumular fragmentos suficientes para se aproximar do limite por arquivo. O processamento de otimização consolida esses fragmentos e impede que esse limite seja atingido. Ao configurar essa chave do registro, a eliminação de duplicação adiciona mais um processo para lidar com arquivos com eliminação de duplicação altamente fragmentados com alta prioridade.

Planejar e configurar o DPM e o agendamento de eliminação de duplicação

As operações de backup e eliminação de duplicação têm E/S intensivas. Se forem executadas ao mesmo tempo, uma sobrecarga adicional para alternar entre as operações pode ser cara e resultar em menos dados submetidos a backup ou com eliminação de duplicação diariamente. É recomendável que configurar eliminação de duplicação e janelas de backup separadas e dedicadas. Isso ajuda a garantir que o tráfego de E/S para cada uma dessas operações seja distribuído com eficiência durante a operação do sistema diariamente. As diretrizes recomendadas para o agendamento são:

Dividir dias em janelas de backup e eliminação de duplicação não sobrepostas.
Configurar agendas de backup personalizadas.
Configurar agendas de eliminação de duplicação personalizadas.
Agende a otimização na janela de eliminação de duplicação diária.
Defina os agendamentos da eliminação de duplicação separadamente, usando esse tempo para trabalhos de coleta de lixo e depuração de fim de semana.

Você pode configurar agendamentos do DPM com o seguinte comando do PowerShell:

Set-DPMConsistencyCheckWindow -ProtectionGroup $mpg -StartTime $startTime –
DurationInHours $duration
Set-DPMBackupWindow -ProtectionGroup $mpg -StartTime $startTime –DurationInHours
$duration

Nessa configuração, o DPM está configurado para fazer backup de máquinas virtuais entre 22h00 e 6h00. A eliminação de duplicação é agendada para as 16 horas restantes do dia. Observe que o tempo de eliminação de duplicação real configurado por você dependerá do tamanho do volume. Para obter mais informações detalhadas, consulte Dimensionamento de volumes para eliminação de duplicação de dados. Uma janela de eliminação de duplicação de 16 horas começando às 6h00 após o término da janela de backup será configurada da seguinte maneira de qualquer nó de cluster individual:

#disable default schedule
Set-DedupSchedule * -Enabled:$false
#Remainder of the day after an 8 hour backup window starting at 10pm $dedupDuration = 16
$dedupStart = "6:00am"
#On weekends GC and scrubbing start one hour earlier than optimization job.
# Once GC/scrubbing jobs complete, the remaining time is used for weekend
# optimization.
$shortenedDuration = $dedupDuration - 1
$dedupShortenedStart = "7:00am"
#if the previous command disabled priority optimization schedule
#reenable it
if ((Get-DedupSchedule -name PriorityOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name PriorityOptimization -Enabled:$true
}
#set weekday and weekend optimization schedules
New-DedupSchedule -Name DailyOptimization -Type Optimization -DurationHours $dedupDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -Days Monday,Tuesday,Wednesday,Thursday,Friday
New-DedupSchedule -Name WeekendOptimization -Type Optimization -DurationHours $shortenedDuration -Memory 50 -Priority Normal -InputOutputThrottleLevel None -Start $dedupShortenedStart -Days Saturday,Sunday
#re-enable and modify scrubbing and garbage collection schedules
Set-DedupSchedule -Name WeeklyScrubbing -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Sunday
Set-DedupSchedule -Name WeeklyGarbageCollection -Enabled:$true -Memory 50 -DurationHours $dedupDuration -Priority Normal -InputOutputThrottleLevel None -Start $dedupStart -StopWhenSystemBusy:$false -Days Saturday
#disable background optimization
if ((Get-DedupSchedule -name BackgroundOptimization -ErrorAction SilentlyContinue) -ne $null)
{
Set-DedupSchedule -Name BackgroundOptimization -Enabled:$false
}

Sempre que a janela de backup for modificada, é vital que a janela de eliminação de duplicação seja modificada com ela para que elas não se sobreponham. A janela de eliminação de duplicação e backup não precisam preencher todas as 24 horas do dia, mas é altamente recomendável que preencham para permitir variações no tempo de processamento devido às alterações diárias esperadas nas variações de cargas de trabalho e dados.

Implicações de desempenho do backup

Depois que um conjunto de arquivos tiver passado pela eliminação de duplicação, pode ocorrer uma ligeira redução do desempenho ao acessar os arquivos. Isso ocorre devido ao processamento adicional necessário para acessar o formato do arquivo usado por arquivos com eliminação de duplicação. Nesse cenário, os arquivos são um conjunto de arquivos VHDX que veem um uso contínuo pelo DPM durante a janela de backup. O impacto da eliminação de duplicação desses arquivos significa que as operações de backup e recuperação podem ser um pouco mais lentas do que sem eliminação de duplicação. Para qualquer produto de backup, o DPM é uma carga de trabalho pesada de gravação, sendo as suas operações de leitura, sendo as mais importantes durante operações de restauração. As recomendações para lidar com as implicações de desempenho do backup devido a eliminação de duplicação são:

Operações de leitura/restauração: os efeitos nas operações de leitura são geralmente muito importantes e não requerem considerações especiais, pois o recurso de eliminação de duplicação armazena em cache as partes com eliminação de duplicação.
Operações de backup/gravação: faça planos para um aumento no tempo de backup de aproximadamente 5% a 10% ao definir a janela de backup. (isso é um aumento comparado ao tempo de backup esperado ao gravar em volumes sem eliminação de duplicação).

Monitoramento

A eliminação de duplicação de dados e o DPM pode ser monitorada para garantir que:

Seja provisionado um espaço em disco suficiente para armazenar os dados de backup
Os trabalhos de backup do DPM sejam concluídos normalmente
A eliminação de duplicação seja habilitada nos volumes de backup
Os agendamentos de eliminação de duplicação sejam definidos corretamente
O processamento de eliminação de duplicação diário seja concluído normalmente
A taxa de economia de eliminação de duplicação corresponda às suposições feitas para a configuração do sistema

O sucesso da eliminação de duplicação depende dos recursos gerais do hardware do sistema (incluindo a capacidade de armazenamento, largura de banda de E/S, velocidade de processamento da CPU), da configuração correta do sistema, da carga média do sistema e da quantidade diária de dados modificados.

Você pode monitorar o DPM com o Console Central do DPM. Consulte Instalar o Console Central.

Você pode monitorar a eliminação de duplicação para verificar o status de eliminação de duplicação, a taxa de salvamento e o status do agendamento usando os seguintes comandos do PowerShell:

Obter status:

PS C:\> Get-DedupStatus
FreeSpace SavedSpace OptimizedFiles InPolicyFiles Volume
-------------- ---------- -------------- ------------- ------
280.26 GB 529.94 GB 36124 36125 X:
151.26 GB 84.19 GB 43017 43017 Z:

Obter economia:

PS C:\> Get-DedupVolume
Enabled SavedSpace SavingsRate Volume
------- ---------- ----------- ------
True 529.94 GB 74 % X:

Obtenha o status de agendamento usando o cmdlet Get-DedupSchedule.

Eventos de Monitoramento

Monitorar o log de eventos pode ajudar a entender os eventos da eliminação de duplicação e seus status.

Para exibir eventos de eliminação de duplicação, no Explorador de Arquivos, navegue até Logs de Aplicativos e Serviços > Microsoft > Windows > Eliminação de Duplicação.
Se o valor LastOptimizationResult = 0x00000000 aparecer nos resultados do Windows PowerShell Get-DedupStatus |f, isso significa que todo o conjunto de dados foi processado pelo trabalho de otimização anterior. Caso contrário, o sistema não conseguiu concluir o processamento de eliminação de duplicação e você talvez queira verificar as configurações, como o tamanho do volume.

Para obter mais exemplos de cmdlets, consulte Monitorar e relatar a eliminação de duplicação de dados.

Monitorando armazenamento de backup

Em nosso exemplo de configuração, os volumes 7.2 TB são preenchidos com 10 TB de dados "lógicos" (o tamanho dos dados sem eliminação de duplicação) armazenados em 10 arquivos VHDX dinâmicos de 1 TB. À medida que esses arquivos acumularem dados de backup adicionais, eles ocuparão lentamente todo o volume. Se a porcentagem de economia resultantes da eliminação de duplicação for alta o suficiente, todos os arquivos de 10 podem alcançar seu tamanho máximo de lógica, mas ainda se ajustar no volume 7.2 TB (pode haver até mesmo espaço adicional para alocar arquivos VHDX adicionais para uso pelos servidores do DPM). Mas se a economia de tamanho de eliminação de duplicação não for suficiente, o espaço no volume pode acabar antes que os arquivos VHDX cheguem ao seu tamanho lógico total e o volume ficará completo. Para impedir que os volumes fiquem cheios, recomendamos o seguinte:

Seja conservador nos requisitos de tamanho do volume e deixe espaço para provisionar armazenamento. É recomendável permitir um buffer de, pelo menos, 10% quando o planejamento de utilização de armazenamento de backup, para permitir uma variação esperada na variação de dados e economia e de eliminação de duplicação.
Monitore os volumes usados para armazenamento de backup para garantir que taxas de economia eliminação de duplicação e a utilização de espaço fiquem nos níveis esperados.

Se o volume ficar cheio, os seguintes sintomas ocorrem:

A máquina virtual DPM entrará em um estado de pausa crítica e nenhum outro trabalho de backup pode ser emitidos por essa VM.
Todos os trabalhos de backup que usam os arquivos VHDX no volume completo falharão.

Para recuperar essa condição e restaurar o sistema para a operação normal, pode ser provisionado um armazenamento adicional e pode ser realizada uma migração de armazenamento de máquina virtual DPM ou o VHDX para liberar espaço:

Pare o servidor DPM que possui os arquivos VHDX no compartilhamento de backup completo.
Crie um compartilhamento adicional de volume e backup usando a mesma configuração e definições usadas para os compartilhamentos existentes, incluindo definições para NTFS e eliminação de duplicação.
Migre o armazenamento para a máquina virtual do servidor DPM, e migre pelo menos um arquivo VHDX do compartilhamento de backup completo para o novo compartilhamento de backup criado na etapa 2.
Execute um trabalho de coleta de lixo (GC) de eliminação de duplicação de dados no compartilhamento de backup original que estava cheio. O trabalho do GC deve ter êxito e recuperar o espaço livre.
Reinicie a máquina virtual do servidor DPM.
Um trabalho de verificação de consistência do DPM será acionado durante o próximo backup de todas as fontes de dados que falharam anteriormente.
Todos os trabalhos de backup agora devem ser bem-sucedidos.

Conclusão

A combinação ae eliminação de duplicação e do DPM proporciona uma economia de espaço significativa. Isso permite que o melhor custo total de propriedade para a implantação do DPM, backups mais frequentes e taxas mais altas de retenção. As diretrizes e recomendações deste documento devem lhe dar as ferramentas e o conhecimento necessário para configurar a eliminação de duplicação para o armazenamento do DPM e ver os benefícios individuais na sua própria implementação.

Perguntas Frequentes

P: os arquivos VHDX do DPM precisam ter 1 TB. Isso significa que o DPM não pode fazer backup de um volume de arquivos ou VM ou SharePoint ou o banco de dados SQL > 1 TB?

R: não. O DPM agrega vários volumes em um só para armazenar backups. Portanto, o tamanho do arquivo de 1 TB não tem nenhuma implicação para tamanhos de fonte de dados que o DPM pode fazer backup.

P: parece que arquivos VHDX de armazenamento do DPM só devem ser implantados em compartilhamentos de arquivo SMB remotos. O que acontecerá se eu armazenar os arquivos VHDX de backup em volumes habilitados para eliminação de duplicação no mesmo sistema em que a máquina virtual DPM está operando?

R: como discutido anteriormente, o DPM, o Hyper-V e a eliminação de duplicação são operações de computação e armazenamento intensivas. Combinar os três em um único sistema podem levar a operações intensivas de de E/S e de processo que podem enfraquecer o Hyper-V e suas VMs. Se decidir experimentar a configuração do DPM em uma VM com os volumes de armazenamento de backup no mesmo computador, monitore o desempenho com cuidado para garantir que haja largura de banda de E/S suficiente e calcule a capacidade para manter todas as três operações na mesma máquina.

P: você recomendou janelas de backup e de eliminação de duplicação separadas e dedicadas. Por que não é possível habilitar a eliminação de duplicação enquanto o DPM está fazendo backup? Preciso fazer backup de meu banco de dados SQL a cada 15 minutos.

R: a eliminação de duplicação e o DPM são operações intensivas de armazenamento, e ter os dois em execução ao mesmo tempo pode ser ineficiente e levar à privação de E/S. Portanto, para proteger as cargas de trabalho mais de uma vez por dia (por exemplo, o SQL Server a cada 15 minutos) e habilitar a eliminação de duplicação ao mesmo tempo, garanta que haja capacidade de computador e largura de banda de E/S suficientes para evitar a privação de recursos.

Q: com base na configuração descrita, o DPM precisa ser executado em uma máquina virtual. Por que não é possível habilitar a eliminação de duplicação no volume de réplica e volumes de cópia de sombra diretamente em vez de em arquivos VHDX?

R: a eliminação de duplicação ocorre por volume operando em arquivos individuais. Como a eliminação de duplicação é otimizada no nível de arquivo, ela não foi projetada para oferecer suporte à tecnologia VolSnap que o DPM utiliza para armazenar seus dados de backup. Ao executar o DPM em uma VM, o Hyper-V direciona as operações de volume do DPM para o nível de arquivo VHDX, permitindo que a eliminação de duplicação otimize o backup de dados e proporcione maior economia de armazenamento.

P: a configuração de exemplo acima criou somente volumes de 7,2 TB. É possível criar volumes maiores ou menores?

R: a eliminação de duplicação executa um thread por volume. À medida que o tamanho do volume aumenta, a eliminação de duplicação precisa de mais tempo para concluir a otimização. Por outro lado, com pequenos volumes, há menos dados no qual encontrar partes duplicadas, o que pode resultar em menos economia. Portanto, é aconselhável ajustar o tamanho do volume com base na variação total e nos recursos de hardware do sistema para conseguir a economia ideal. Informações mais detalhadas sobre como determinar os tamanhos de volume usados com a eliminação de duplicação podem ser encontradas em Dimensionando volumes para eliminação de duplicação no Windows Server. Informações mais detalhadas sobre como determinar os tamanhos de volume usados com a eliminação de duplicação, consulte Dimensionando volumes para eliminação de duplicação no Windows Server.

Compartilhar via