Considerações importantes para o Azure Data Lake Armazenamento
O Armazenamento do Azure oferece uma variedade de opções de armazenamento para seus dados. Este artigo fornece considerações para ajudá-lo a escolher a camada de acesso apropriada para que você possa equilibrar o custo e o desempenho. Ele também descreve o gerenciamento do ciclo de vida do Armazenamento, incluindo recursos e práticas recomendadas para ajudá-lo a usar as camadas de acesso com eficiência.
Gerenciamento do ciclo de vida
O Armazenamento do Azure oferece várias camadas de acesso que você pode usar para armazenar dados de blobs. Escolha a camada mais adequada à carga de trabalho para otimizar o custo.
Use uma camada quente para armazenar dados acessados com frequência.
Use uma camada fria para armazenar dados acessados com pouca frequência. Essa camada armazena dados por pelo menos 30 dias.
Use uma camada fria para armazenar dados raramente acessados ou modificados. Essa camada armazena dados por pelo menos 90 dias. A camada de acesso frio tem custos de armazenamento mais baixos e custos de acesso mais altos em comparação com a camada de acesso esporádico.
Use uma camada de arquivo para armazenar dados raramente acessados. Essa camada armazena dados por pelo menos 180 dias. O acesso a esses dados pode ter requisitos de latência flexíveis, o que significa que pode levar horas para recuperar dados.
Importante
As camadas de acesso online (frequente, esporádico e frio) não têm compensações em termos de confiabilidade, segurança, excelência operacional ou eficiência de desempenho. Portanto, você deve basear sua decisão no custo de cada blob. Considere o tamanho dos dados de acesso da carga de trabalho, as interações operacionais e o tempo antes de o blob ser excluído. Selecione a camada apropriada para cada blob com base nesses fatores. Para obter mais informações, consulte Planejar e gerenciar custos do Armazenamento de Blobs do Azure.
Considere os seguintes fatores ao usar as camadas de acesso:
Defina apenas as camadas de acesso quente e frio no nível da conta. O nível da conta não dá suporte à camada de armazenamento de arquivos.
Defina as camadas de acesso frequente, esporádico e arquivo no nível do blob durante ou após o upload.
Os dados nas camadas fria e fria têm disponibilidade ligeiramente menor, mas essas camadas oferecem recursos semelhantes aos da camada quente, como alta durabilidade, latência de recuperação e taxa de transferência. Para dados nas camadas frias ou frias, a menor disponibilidade e os custos de acesso mais altos são compensações aceitáveis para custos de armazenamento reduzidos em comparação com a camada quente.
O armazenamento de arquivos armazena dados offline e oferece os custos de armazenamento mais baixos. Mas isso também gera os custos mais elevados de reidratação e acesso a dados.
Para saber mais, confira Camadas de acesso para dados de blob.
Importante
Para análise em escala de nuvem, use um microsserviço personalizado para implementar o gerenciamento do ciclo de vida . Considere cuidadosamente o impacto da movimentação de dados acessíveis ao usuário para o armazenamento frio. Mova seções do data lake para a camada de acesso esporádico apenas para cargas de trabalho bem compreendidas.
Conectividade do Data Lake
Cada data lake deve usar pontos de extremidade privados que você integra à rede virtual da zona de destino de dados. Para fornecer acesso entre zonas de destino, conecte suas zonas de destino de dados por meio do emparelhamento de rede virtual. Essa conexão fornece uma solução ideal de uma perspectiva de custo e controle de acesso.
Para saber mais, confira Pontos de extremidade privados e Zona de destino de gerenciamento de dados para zona de destino de dados.
Importante
Uma zona de destino de dados pode acessar dados em uma zona de destino de dados diferente por meio do emparelhamento de rede virtual. Endpoints privados estabelecem a conexão associada a cada conta de data lake. Recomendamos que você desative todo o acesso público aos seus lakes e use pontos de extremidade privados. Sua equipe de operações de plataforma deve controlar a conectividade de rede entre as zonas de destino de dados.
Exclusão reversível para contêineres
A exclusão temporária para contêineres ajuda a proteger seus dados contra exclusão acidental ou mal-intencionada. Se você habilitar a exclusão reversível do contêiner para sua conta de armazenamento, o Armazenamento reterá contêineres excluídos e seu conteúdo por um período de tempo especificado. Durante o período de retenção de dados, você pode restaurar contêineres excluídos anteriormente. Essa ação também restaura os blobs que estavam naquele contêiner quando ele foi excluído.
Habilite os seguintes recursos de proteção de dados para aprimorar a proteção de dados de blob de ponta a ponta:
Use o recurso de exclusão suave do contêiner para restaurar um contêiner excluído. Para obter mais informações, confira Habilitar e gerenciar a exclusão temporária para contêineres.
Use a exclusão temporária de blobs para restaurar um blob ou uma versão excluída. Para obter mais informações, confira Habilitar e gerenciar a exclusão temporária para blobs.
Aviso
Depois de excluir uma conta de armazenamento, você não poderá desfazer a exclusão. A exclusão suave do contêiner não protege contra a exclusão da conta de armazenamento, apenas contra a exclusão de contêineres dentro de uma conta. Para proteger uma conta de armazenamento contra a exclusão, configure um bloqueio no recurso de conta de armazenamento. Para obter mais informações, consulte Bloquear recursos para evitar alterações inesperadas.
Monitoramento
Em uma zona de destino de dados, envie todo o monitoramento para a Assinatura de gerenciamento da zona de destino do Azure para análise.
Para obter mais informações, confira Monitorar recursos do Azure com o Azure Monitor e Monitorar o Armazenamento de Blobs.
Entradas de log são criadas somente para solicitações ao ponto de extremidade de serviço. Os seguintes tipos de solicitações autenticadas são registrados em log:
- Solicitações bem-sucedidas
- Solicitações com falha, incluindo tempos limite, limitação, problemas de rede, problemas de autorização e outros erros
- Solicitações que usam uma SAS (Assinatura de Acesso Compartilhado) ou OAuth, incluindo solicitações bem-sucedidas e com falha
- Solicitações de dados de análise, como dados de log clássicos no contêiner
$logs
e dados de métrica de classe nas tabelas$metric
As solicitações feitas pelo próprio serviço de armazenamento, como a criação ou a exclusão de log, não estão registradas. Os seguintes tipos de solicitações anônimas são registrados em log:
- Solicitações bem-sucedidas
- Erros do servidor
- Erros de tempo limite para o cliente e o servidor
- Solicitações HTTP GET com falha que têm o código de erro 304 (
Not Modified
)
Outras solicitações anônimas com falha não são registradas.
Importante
Defina sua política de monitoramento padrão para auditar o armazenamento e enviar logs para a assinatura de gerenciamento de escala empresarial.
Segurança da zona do data lake
Recomendamos os seguintes padrões de segurança para zonas de data lake:
O uso bruto permite o acesso aos dados usando apenas SPNs (nomes de entidade de segurança). Recomendamos que você use identidades gerenciadas.
O uso enriquecido permite o acesso aos dados usando apenas SPNs. Recomendamos que você use identidades gerenciadas.
O uso coletado permite o acesso aos dados usando SPNs e UPNs (nomes de entidade de usuário).
Para obter mais informações, consulte modelo de controle de acesso no Data Lake Storage.