Tolerância a falhas e eficiência de armazenamento em clusters do Azure Stack HCI e do Windows Server
Aplica-se a: Azure Stack HCI, versões 22H2 e 21H2; Windows Server 2022, Windows Server 2019
Importante
O Azure Stack HCI agora faz parte do Azure Local. A renomeação da documentação do produto está em andamento. No entanto, as versões mais antigas do Azure Stack HCI, por exemplo, 22H2, continuarão a fazer referência ao Azure Stack HCI e não refletirão a alteração de nome. Saiba mais.
Este artigo explica as opções de resiliência disponíveis e descreve os requisitos de escala, a eficiência de armazenamento e as vantagens e compensações gerais de cada uma.
Visão geral
Espaços de Armazenamento Diretos fornece tolerância a falhas, geralmente chamada de "resiliência", para seus dados. Sua implementação é semelhante ao RAID, mas é distribuído em vários servidores e implementado no software.
Assim como ocorre com o RAID, há algumas maneiras diferentes pelas quais os Espaços de Armazenamento podem fazer isso, que tornam as compensações diferentes entre tolerância padrão, eficiência de armazenamento e a complexidade de computação. Eles se enquadram em duas categorias: "espelhamento" e "paridade", esta última às vezes chamada de "codificação de apagamento".
Espelhamento
O espelhamento fornece tolerância a falhas por manter várias cópias de todos os dados. Isso é mais parecido com RAID-1. A forma como esses dados são distribuídos e colocados não é trivial (consulte este blog para saber mais), mas é absolutamente verdade dizer que todos os dados armazenados usando espelhamento são gravados, em sua totalidade, várias vezes. Cada cópia é gravada em um hardware físico diferente (unidades diferentes em servidores diferentes) que supostamente falhariam de forma independente.
Você pode escolher entre dois tipos de espelhamento – "bidirecional" e "tridirecional".
Espelho de duas vias
O espelhamento bidirecional grava duas cópias de tudo. Sua eficiência de armazenamento é de 50% – para gravar 1 TB de dados, você precisa de pelo menos 2 TB de capacidade de armazenamento físico. Da mesma forma, você precisa de pelo menos dois ''domínios de falha'' de hardware – com Espaços de Armazenamento Diretos, e isso significa dois servidores.
Aviso
Se você tiver mais de dois servidores, recomendamos usar o espelhamento de três vias.
Espelho de três vias
O espelhamento de três vias grava três cópias de tudo. Sua eficiência de armazenamento é de 33,3% – para gravar 1 TB de dados, você precisa de pelo menos 3 TB de capacidade de armazenamento físico. Da mesma forma, você precisa de pelo menos três domínios de falha de hardware – com Espaços de Armazenamento Diretos, e isso significa três servidores.
O espelhamento de três vias pode tolerar com segurança pelo menos dois problemas de hardware (unidade ou servidor) por vez. Por exemplo, se você estiver reiniciando um servidor quando, de repente, outra unidade ou servidor falhar, todos os dados permanecem seguros e continuamente acessíveis.
Parity
A codificação de paridade, geralmente chamada de "codificação de eliminação", fornece tolerância a falhas usando aritmética bit a bit, o que pode ser extremamente complicado. A maneira como isso funciona é menos óbvia que o espelhamento, e há muitos recursos online excelentes (por exemplo, este Guia para Iniciantes na Codificação de Eliminação) de terceiros que pode ajudá-lo a ter uma ideia. Basta dizer que fornece melhor eficiência de armazenamento sem comprometer a tolerância a falhas.
O Storage Spaces oferece dois tipos de paridade – paridade "única" e paridade "dupla", esta última empregando uma técnica avançada chamada "códigos de reconstrução local" em escalas maiores.
Importante
É recomendado usar o espelhamento para a maioria das cargas de trabalho de detecção de desempenho. Para saber mais sobre como equilibras o desempenho e a capacidade de acordo com sua carga de trabalho, consulte Planejar volumes.
Paridade única
A paridade única mantém apenas um símbolo de paridade bit a bit, que fornece tolerância a falhas contra apenas uma falha de cada vez. Isso é mais parecido com o RAID-5. Para usar a paridade única, você precisa de pelo menos três domínios de falha de hardware – com Espaços de Armazenamento Diretos, e isso significa três servidores. Como o espelhamento triplo fornece mais tolerância a falhas na mesma escala, não incentivamos o uso da paridade única. Mas, está lá se você insistir em usá-lo e é totalmente suportado.
Aviso
Não incentivamos o uso da paridade única porque ela só pode tolerar com segurança uma falha de hardware por vez. Se você estiver reiniciando um servidor quando repentinamente outra unidade ou servidor falha, você terá um tempo de inatividade. Se você tiver apenas três servidores, recomendamos usar o espelhamento de três vias. Se você tem quatro ou mais, consulte a próxima seção.
Paridade dupla
A paridade dupla implementa códigos de correção Reed-Solomon para manter os dois símbolos de paridade bit a bit, oferecendo assim a mesma tolerância a falhas que o espelhamento triplo (ou seja, até duas falhas de uma só vez), mas com mais eficiência de armazenamento. Isso é mais parecido com o RAID-6. Para usar a paridade dupla, você precisa de pelo menos quatro domínios de falha de hardware – com Espaços de Armazenamento Diretos, e isso significa quatro servidores. Nessa escala, a eficiência de armazenamento é de 50% – para armazenar 2 TB de dados, você precisa de 4 TB de capacidade de armazenamento físico.
A eficiência de armazenamento da paridade dupla aumenta quanto mais domínios de falha de hardware você tem, de 50% para 80%. Por exemplo, em sete (com Espaços de Armazenamento Diretos, isso significa sete servidores), a eficiência salta para 66,7% – para armazenar 4 TB de dados, você precisa de apenas 6 TB de capacidade de armazenamento físico.
Consulte a seção Resumo para a eficiência de códigos de reconstrução local e de paridade dupla em cada escala.
Códigos de reconstrução local
Os Espaços de Armazenamento apresentam uma técnica avançada desenvolvida pela Microsoft Research chamada "códigos de reconstrução local" ou LRC. Em grande escala, a paridade dupla usa o LRC para dividir sua codificação/decodificação em alguns grupos menores para reduzir a sobrecarga necessária para fazer gravações ou recuperar-se de falhas.
Com unidades de disco rígido (HDD), o tamanho do grupo é de quatro símbolos; com unidades de estado sólido (SSD), o tamanho do grupo é de seis símbolos. Por exemplo, veja a aparência do layout com unidades de disco rígido e 12 domínios de falha de hardware (ou seja, 12 servidores) – há dois grupos de quatro símbolos de dados. Ele atinge 72,7% de eficiência de armazenamento.
Recomendamos este passo a passo detalhado, mas eminentemente legível, de como os códigos de reconstrução locais lidam com vários cenários de falha e por que eles são atraentes, de Claus Joergensen.
Paridade acelerada por espelho
Um volume de Espaços de Armazenamento Diretos pode ser parte espelho e parte paridade. As gravações são feitas primeiro na parte espelhada e, depois, são gradualmente movidas para a parte de paridade. Na verdade, isso usa o espelhamento para acelerar a codificação de eliminação.
Para misturar o espelhamento de três vias e a paridade dupla, você precisa de pelo menos quatro domínios de falha, o que significa quatro servidores.
A eficiência de armazenamento de paridade acelerada por espelho está entre o que você obteria usando apenas espelhamento ou apenas paridade e depende das proporções que você escolher.
Importante
É recomendado usar o espelhamento para a maioria das cargas de trabalho de detecção de desempenho. Para saber mais sobre como equilibras o desempenho e a capacidade de acordo com sua carga de trabalho, consulte Planejar volumes.
Resumo
Esta seção resume os tipos de resiliência disponíveis em Espaços de Armazenamento Diretos, os requisitos de escala mínimos para usar cada tipo, quantas falhas cada tipo pode tolerar e a eficiência de armazenamento correspondente.
Tipos de resiliência
Resiliência | Tolerância a falhas | Eficiência de armazenamento |
---|---|---|
Espelho de duas vias | 1 | 50,0% |
Espelho de três vias | 2 | 33,3% |
Paridade dupla | 2 | 50,0% - 80,0% |
Mixed | 2 | 33,3% - 80,0% |
Requisitos mínimos de escala
Resiliência | Mínimo necessário de domínios de falha |
---|---|
Espelho de duas vias | 2 |
Espelho de três vias | 3 |
Paridade dupla | 4 |
Mixed | 4 |
Dica
A menos que você esteja usando tolerância a falhas em chassis ou rack, o número de domínios com falha se refere ao número de servidores. O número de unidades em cada servidor não afeta quais tipos de resiliência, você pode usar, desde que atenda aos requisitos mínimos de Espaços de Armazenamento Diretos.
Eficiência de paridade dupla para implantações híbridas
Esta tabela mostra a eficiência de armazenamento de paridade dupla e códigos de reconstrução local em cada escala para implantações híbridas, que contêm unidades de disco rígido (HDD) e unidades de estado sólido (SSD).
Domínios de falha | Layout | Eficiência |
---|---|---|
2 | – | – |
3 | – | – |
4 | RS 2+2 | 50,0% |
5 | RS 2+2 | 50,0% |
6 | RS 2+2 | 50,0% |
7 | RS 4+2 | 66,7% |
8 | RS 4+2 | 66,7% |
9 | RS 4+2 | 66,7% |
10 | RS 4+2 | 66,7% |
11 | RS 4+2 | 66,7% |
12 | LRC (8, 2, 1) | 72,7 |
13 | LRC (8, 2, 1) | 72,7 |
14 | LRC (8, 2, 1) | 72,7 |
15 | LRC (8, 2, 1) | 72,7 |
16 | LRC (8, 2, 1) | 72,7 |
Eficiência de paridade dupla para implantações tudo flash
Esta tabela mostra a eficiência de armazenamento de paridade dupla e códigos de reconstrução local em cada escala para implantações totalmente flash, que contêm apenas unidades de estado sólido (SSD). O layout de paridade pode usar tamanhos de grupo maiores e conseguir mais eficiência de armazenamento em uma configuração tudo flash.
Domínios de falha | Layout | Eficiência |
---|---|---|
2 | – | – |
3 | – | – |
4 | RS 2+2 | 50,0% |
5 | RS 2+2 | 50,0% |
6 | RS 2+2 | 50,0% |
7 | RS 4+2 | 66,7% |
8 | RS 4+2 | 66,7% |
9 | RS 6+2 | 75,0% |
10 | RS 6+2 | 75,0% |
11 | RS 6+2 | 75,0% |
12 | RS 6+2 | 75,0% |
13 | RS 6+2 | 75,0% |
14 | RS 6+2 | 75,0% |
15 | RS 6+2 | 75,0% |
16 | LRC (12, 2, 1) | 80,0% |
Exemplos
A menos que você tenha apenas dois servidores, recomendamos usar espelhamento triplo e/ou paridade dupla, porque eles oferecem uma tolerância a falhas melhor. Mais especificamente, eles garantem que todos os dados continuem seguros e acessíveis continuamente, mesmo quando dois domínios com falha – com Espaços de Armazenamento Diretos, isso significa dois servidores – são afetados por falhas simultâneas.
Exemplos de onde tudo fica online
Estes seis exemplos mostram o que o espelhamento triplo e/ou a paridade dupla pode tolerar.
- 1. Uma unidade perdida (inclui unidades de cache)
- 2. Um servidor perdido
- 3. Um servidor e uma unidade perdidos
- 4. Duas unidades perdidas em servidores diferentes
- 5. Mais de duas unidades perdidas, desde que, no máximo, dois servidores sejam afetados
- 6. Dois servidores perdidos
... Em todos os casos, todos os volumes permanecem online. (Verifique se que o cluster mantém quórum.)
Exemplos de onde tudo fica offline
Durante a vida útil, Espaços de Armazenamento podem tolerar qualquer número de falhas, uma vez que restauram a resiliência completa depois de cada uma, dando tempo suficiente. No entanto, no máximo, dois domínios de falha podem ser afetados com segurança por falhas em um dado momento. Estes são, portanto, exemplos do que o espelhamento triplo e/ou a paridade dupla não pode tolerar.
- 7. Unidades perdidas em três ou mais servidores de uma só vez
- 8. Três ou mais servidores perdidos simultaneamente
Uso
Confira Criar volumes.
Próximas etapas
Para ler mais sobre os assuntos mencionados neste artigo, consulte o seguinte: