Resumo

Concluído

Neste módulo, discutimos os principais fatores envolvidos na escolha do armazenamento HPC no Azure. Agora é hora de combinar as informações e criar uma ferramenta que você possa usar para avaliar as várias opções de armazenamento do Azure.

Vamos criar uma lista de verificação que encapsula as principais considerações de armazenamento. Você pode se perguntar por que uma lista de verificação é necessária, especialmente se você supervisiona seu ambiente de armazenamento atual há muito tempo. O objetivo é consolidar informações para outras partes interessadas, incluindo membros da equipe do Azure e parceiros com quem você pode estar trabalhando. A lista de verificação ajuda a simplificar o processo de decisão e minimizar quaisquer mal-entendidos em torno dos recursos (ou falta de recursos) de uma determinada solução de armazenamento.

Crie a sua lista de verificação com base na seguinte lista de considerações.

Distribuição do tráfego de carga de trabalho

Tenha em conta os tipos de tráfego que o seu ambiente HPC gera e processa. Esta etapa é especialmente importante se você planeja executar vários tipos de cargas de trabalho e planeja usar o armazenamento para outros fins.

Por exemplo, sua carga de trabalho HPC pode ler dados sequenciais de um arquivo grande (como um ativo de mídia de um trabalho de renderização ou um arquivo de sequência genômica) de um grande número de máquinas HPC. Ao mesmo tempo, pode ser necessário operar uma base de dados (por exemplo, para trabalhar com o seu agendador HPC). Os tipos de tráfego são diferentes e podem precisar ser implantados em soluções de armazenamento diferentes.

As soluções de armazenamento podem ser projetadas para otimizar para coisas diferentes. Um filer NAS construído a partir do Ubuntu executando discos NVMe locais seria ótimo em atividades de fluxo único, como um único cliente copiando dados do NAS para o disco local. Mas pode não ser dimensionado para acesso simultâneo por um grande número de clientes.

Além disso, você pode precisar de uma solução que otimize para um grande número de arquivos pequenos. Uma solução NAS tradicional, como o Azure NetApp Files, fornece o desempenho ideal para esse tráfego. Mas você também pode precisar processar e, em seguida, armazenar arquivos grandes e minimizar o custo de fazê-lo. O Armazenamento de Blobs do Azure com hierarquização fornece flexibilidade nesses casos, mas pode não fornecer um ótimo desempenho para uma operação de cópia de fluxo único.

Registe os seguintes tipos de tráfego na sua lista de verificação:

  • Tráfego de fluxo único versus tráfego de fluxo múltiplo
  • Proporção entre tráfego de leitura e tráfego de gravação
  • Tamanhos e contagens médias de ficheiros
  • Padrões de acesso aleatórios versus sequenciais

Por exemplo, sua lista de verificação pode refletir:

  • Tráfego multi-stream.
  • Ler pesado (75% versus 25%).
  • Tamanhos médios de ficheiros entre 10 GB e 200 GB. Cerca de 50.000 ficheiros.
  • Pesado sequencial (80% versus 20%).

Você também deve levar em conta as principais cargas de trabalho que planeja executar na arquitetura. Se houver mais de um ou dois, certifique-se de que não há uma divergência significativa nos requisitos.

Localidade dos dados

A próxima categoria leva em conta a localização dos dados. Precisa de manter os dados no local? Há preocupações com modificações de dados enquanto você executa sua carga de trabalho de HPC? Você planeja que as modificações de dados aconteçam apenas localmente, somente no Azure ou em ambos os locais?

Aqui estão alguns itens de localidade para sua lista de verificação:

  • Dados de origem no local, no Azure ou em ambos?
  • Dados de resultados no local, no Azure ou em ambos?
  • As cargas de trabalho HPC no Azure devem ser coordenadas com cronogramas de modificação de dados de origem?
    • Os prazos ajudam a informar o risco de dados obsoletos.
  • Dados sensíveis/HIPAA?
    • A sensibilidade dos dados ajuda a informar o nível de autenticação e criptografia necessário.

O reconhecimento de localidade ajuda a determinar se você pode usar cópia, cache ou sincronização como sua estratégia de movimentação de dados.

Requisitos de desempenho

Seus requisitos de desempenho devem ser mais ou menos assim:

  • Taxa de transferência de fluxo único (em GBps)
  • Taxa de transferência multifluxo (em GBps)
  • IOPS máxima esperada
  • Latência média (ms)

Cada consideração afeta o desempenho, então esses números representam um guia que uma determinada solução deve alcançar. Por exemplo, você pode ter uma carga de trabalho HPC que faz criação e exclusão extensiva de arquivos como parte do fluxo de trabalho. Essas operações podem afetar a taxa de transferência geral.

Métodos de acesso

Conta para o protocolo de acesso do cliente necessário. Como discutimos, existem diferentes versões do NFS (e SMB, o protocolo do cliente Windows). Se você planeja usar NFSv4, seja claro sobre quais recursos do protocolo são necessários (como ACLs).

Aqui estão alguns itens para a sua lista de verificação:

  • Versões NFS necessárias
    • Se v4, comportamentos de protocolo esperados (ACLs, criptografia)
  • Solução de sistema de arquivos paralelo

Necessidade de capacidade total

A capacidade de armazenamento no Azure é a próxima consideração. Ajuda a informar o custo global da solução. Se você planeja armazenar uma grande quantidade de dados por um longo tempo, convém considerar a hierarquização como parte da solução de armazenamento. A hierarquização oferece opções de armazenamento de baixo custo combinadas com armazenamento de custo mais alto, mas de maior desempenho, em um nível quente.

Alguns itens para a sua lista:

  • Capacidade total necessária
  • Capacidade total de hot-tier necessária
  • Capacidade total de aquecimento necessária
  • Capacidade total do nível frio necessária

Uma observação sobre a capacidade de camada fria: as camadas de arquivamento combinam custos mais baixos para armazenar dados com custos de transação mais altos para recuperar dados. Além disso, as camadas de arquivamento têm longos tempos de recuperação de dados. Eles não devem ser considerados parte de suas camadas quentes ou quentes.

Método de autenticação/autorização

Adicione seus requisitos de autenticação/autorização à lista de verificação. No mínimo, adicioná-los garante que você inclua os sistemas de suporte apropriados, como um servidor LDAP ou um ambiente do Ative Directory, à sua arquitetura. Mas se você precisar oferecer suporte a recursos como mapeamento UID/GID para usuários do Ative Directory, precisará confirmar se a solução de armazenamento oferece suporte a esse recurso.

Para a sua lista:

  • Local (UID/GID apenas no servidor de ficheiros)
  • Diretório (LDAP, Ative Directory)
  • Mapeamento UID/GID para usuários do Ative Directory?

Leitura adicional