Le novità per lo storage di Windows Server 2012: Data Deduplication
Riprendiamo il discorso iniziato nel post Storage Pools, Storage Spaces, ReFS in Windows Server 2012 e parliamo oggi di una nuova funzionalità: la Data Deduplication.
La potete già provare scaricando la Beta di Windows Server 2012.
Questa nuova funzionalità, il cui obiettivo è la riduzione dello spazio occupato nel disco dai file, tramite la riduzione dei blocchi duplicati, è frutto della collaborazione con Microsoft Research e può essere eseguita e sfruttata anche su hardware standard, senza particolari requisiti. E’ una funzionalità importante, considerando la proliferazione dei dati nei nostri sistemi, in particolare la crescita in modo esponenziale di file di grosse dimensioni: immagini ISO, WIM e file VHD.
L’algoritmo sviluppato da Microsoft Research divide i file in chunk che vanno dai 32 KB ai 128 KB: il file diviene in pratica un puntatore ai differenti blocchi che lo compongono e che sono condivisi con altri file. I chunk inoltre vengono sfruttati anche da Branch Cache, consentendo anche l’ottimizzazione dell’utilizzo della banda negli scenari di accesso ai file da remoto da sedi ed uffici distaccati.
La funzionalità una volta attivata funziona in modo del tutto trasparente per l’utente, che continua ad accedere in locale o da remoto ai file senza accorgersi del processo di deduplica che li coinvolge al livello dello storage su disco.
La valutazione dei blocchi duplicati avviene ad intervalli schedulati (default: ogni ora); il parametro MinimumFileAgeDays, inizialmente impostato a 5 giorni e modificabile dall’amministratore, determina l’età minima di un file su cui possono essere eseguite le operazioni di analisi e deduplica.
E’ possibile impostare delle esclusioni sia a livello di tipologia di file, che di percorso all’interno del volume soggetto a deduplica, e di default sono esclusi dal processo i file cifrati con EFS – Encrypted File System, i file inferiori a 32 KB e quelli con Extended Attributes.
Anche se sottoposto a deduplica il volume può essere comunque spostato su di un server differente e può essere utilizzato senza problemi, a patto che anche nella macchina di destinazione sia installato Windows Server 2012 e sia abilitata la funzionalità di deduplica.
La funzionalità è stata implementata in modo da consentire un utilizzo minimale delle risorse del server (vengono sfruttate in particolare RAM e CPU per eseguire le operazioni di analisi e creazione dei chunk) e per fornire quanto più possibile un elevato grado di sicurezza e di affidabilità in caso di danneggiamento dei chunk.
Il volume di sistema e/o di boot non può essere sottoposto a deduplica, mentre non ci sono problemi nel lavorare sia con volumi partizionati in MBR o in GPT. Il volume deve essere formattato in formato NTFS; e può anche risiedere su di uno storage condiviso, ad esempio un array SAS, uno storage Fibre Channel, una SAN iSCSI. Non è possibile eseguire la deduplica di un volume Cluster Shared Volumes (CSV) o di un volume formattato con il nuovo file system Resilient File System (ReFS). I volumi devono essere di tipologia “non rimovibile” e non è possibile eseguire la deduplica su di una share di rete montata come unità locale.
I test eseguiti durante il programma di beta di Windows Server 2012 hanno portato a questi risultati medi di risparmio di spazio disco, su volumi con almeno 0.5 TB di dati:
Mentre è consigliato l’utilizzo della Data Deduplication ad esempio sulle library e sugli archivi di macchine virtuali o sulle library con i backup di SQL Server ed Exchange, non è consigliato utilizzarla su volumi in cui sono presenti le macchine virtuali in esecuzione o sui volumi di storage attivi di SQL Server ed Exchange.
Per chi è interessato ad approfondire l’argomento, segnalo questi link:
- Introduction to Data Deduplication in Windows Server 2012
- Data Deduplication overview – TechNet Library
- Data Deduplication Planning and Deployment – TechNet Library .
Ricordo ancora a tutti che potete scaricare ancora la beta di Windows Server 2012, per essere poi informati via mail appena la Release Candidate è disponibile per il download!
Renato F. Giorgini |