Gerir clusters de plataformas de aplicações modernos
O Cloud Adoption Framework fornece uma metodologia fundamental para definir processos de gestão de operações para a cloud num sentido agnóstico. A documentação de orientação ajuda a estabelecer uma linha de base de gestão de operações e outras camadas especializadas de operações. Esta documentação de orientação pode ainda aplicar-se a organizações que têm uma mistura de infraestrutura como um serviço (IaaS), plataforma como serviço (PaaS) e cargas de trabalho em contentores. Este artigo descreve o que precisa de integrar nas suas operações existentes para se preparar para a gestão de contentores. Também destaca as vantagens de integrar Azure Kubernetes Service (AKS) na sua estratégia de gestão de contentores.
Alinhamento empresarial para necessidades de gestão de operações
Os contentores removem dependências em várias camadas de infraestrutura, o que leva a capacidades de gestão de operações melhoradas. Para realizar estas melhorias operacionais, poderá ter de rever a sua estratégia geral de gestão da cloud, a começar pelo alinhamento empresarial.
Para estabelecer práticas de gestão de operações adequadas, tem de compreender como os contentores serão utilizados nos seus planos de adoção da cloud e quais os benefícios que pretende tirar partido desta mudança para cargas de trabalho em contentores.
- Irá gerir várias soluções tecnológicas, como contentores, IaaS e PaaS, na sua plataforma na cloud?
- As equipas centralizadas suportarão operações e gestão do contentor ou da plataforma do AKS? Esta responsabilidade muda para as equipas de carga de trabalho individuais?
- As equipas centralizadas suportarão operações e gestão das cargas de trabalho em execução em cada contentor ou pod? Esta responsabilidade muda para as equipas de carga de trabalho individuais?
- Está a utilizar contentores para cargas de trabalho fundamentais para a missão?
- Só está a utilizar contentores para cargas de trabalho menos críticas ou utilitárias para reduzir os custos?
- Quão importante é o desempenho e a fiabilidade das suas cargas de trabalho individuais?
- As aplicações nos contentores estão sem estado? Precisa de manter o estado para proteger e recuperar as cargas de trabalho nos contentores?
Estas questões básicas irão moldar a melhor integração de contentores e do AKS na sua estratégia de gestão de operações.
Linha de base das operações
A implementação de uma linha de base de operações fornece acesso centralizado às ferramentas necessárias para operar e gerir todos os recursos no seu ambiente na cloud. Se não tiver uma linha de base de operações para os seus recursos não contentorizados, pode implementar a linha de base de operações definida na metodologia Gerir.
A linha de base de operações deve incluir ferramentas e configurações para fornecer visibilidade, monitorização, conformidade operacional, otimização e proteção/recuperação.
A linha de base de operações descrita nos artigos acima não fornecerá suporte para os seus contentores ou plataforma do AKS. No entanto, fornecerá a base de ferramentas que pode ser expandida para suportar contentores, como o Azure Monitor, Azure Backup e outras ferramentas.
Se a maior parte do seu portefólio na cloud estiver alojada em contentores, considere incluir as operações de plataforma especializadas na próxima secção na linha de base de operações.
Operações das plataformas
A menos que esta implementação seja a primeira ou única implementação da sua organização na cloud, deve ter uma linha de base de operações. Esta secção identifica algumas ferramentas que poderá querer incluir para ajudar a gerir o contentor ou a implementação do AKS.
Inventário e visibilidade
Os contentores de monitorização e os clusters do AKS utilizam as ferramentas, dashboards e alertas incluídos na linha de base de operações. No entanto, poderá ter de efetuar mais configurações para colocar os dados dos seus contentores em ferramentas de monitorização de operações, como o Azure Monitor para contentores. Veja a descrição geral do Azure Monitor para contentores para recolher os dados necessários para adicionar operações de contentor e de plataforma do AKS à linha de base de operações.
Depois de configurar o Azure Monitor para recolher dados nos seus contentores, pode monitorizar as seguintes áreas como parte dos seus processos de gestão centralizados:
- Identificar clusters em execução em várias regiões, idealmente associados a uma entrada de árvore de serviços e identificar factos-chave nesses clusters
- Identificar topologias de armazenamento, rede e conjunto de nós de cluster desses clusters
- Identifique a estratificação da versão do AKS e da versão da imagem do nó.
- Identificar a utilização de recursos do nó de cluster (processo, memória e armazenamento)
- Identificar os contentores que estão em execução nos nós e a respetiva contribuição para a utilização do nó
- Compreender o comportamento dos clusters sob cargas médias e mais pesadas. Estes conhecimentos podem ajudá-lo a identificar as necessidades de capacidade e a determinar a carga máxima que o cluster pode suportar.
- Configure alertas para notificá-lo proativamente ou registar quando a utilização da CPU e da memória em nós ou contentores excederem os limiares ou quando ocorrer uma alteração do estado de funcionamento no cluster no rollup de estado de funcionamento da infraestrutura ou dos nós.
- Utilizar consultas para criar um conjunto comum de alertas, dashboards e análise detalhada
Estes dados também suportarão equipas de operações de carga de trabalho ao fornecer informações detalhadas sobre as cargas de trabalho em execução na plataforma em contentores:
- Reveja a utilização de recursos de cargas de trabalho em execução no anfitrião que não estão relacionadas com os processos padrão que suportam o pod.
- Integre com o Prometheus para ver as métricas da aplicação.
- Monitorizar cargas de trabalho de contentor implementadas no motor do AKS no local e no motor AKS no Azure Stack.
- Monitorizar cargas de trabalho de contentor implementadas no Azure Red Hat OpenShift.
- Monitorizar cargas de trabalho de contentor implementadas no Kubernetes compatível com o Azure Arc (pré-visualização).
Conformidade das operações
A aplicação de patches, a otimização e o dimensionamento ocorrem em alguns níveis diferentes num ambiente em contentores. Os operadores podem estar em várias equipas diferentes, consoante a abordagem de operações pretendida. Para manter a conformidade das operações, um operador monitorizará a utilização, redimensionará os recursos para equilibrar o desempenho e o custo e aplicará patches aos sistemas subjacentes para minimizar o risco e o desfasamento da configuração. As organizações de TI central tendem a realizar estas tarefas como parte da linha de base de operações para soluções IaaS e PaaS.
Num ambiente de cluster no Azure, estas tarefas são executadas a vários níveis: cluster do AKS, imagem de nó e SO de nó. Todas estas tarefas de operações tornam-se mais dependentes de uma compreensão e de uma relação de trabalho das cargas de trabalho em execução nos clusters ou em conjuntos de nós individuais. As seguintes instruções ajudarão a avaliar o que e se pretende fazer para operar os seus ambientes de contentor.
- Se o dimensionamento e a aplicação de patches do cluster do AKS, a imagem do nó ou o SO do nó forem fornecidos como parte do pipeline de implementação da aplicação ou estiverem dependentes da arquitetura ou configuração da aplicação, é melhor transferir a conformidade operacional para a equipa de cargas de trabalho para controlo granular. Uma vez que as cargas de trabalho dependem frequentemente das funcionalidades de orquestração, este é o padrão mais comum, uma vez que uma alteração inesperada da versão do AKS ou a alteração da imagem do nó podem ser catastróficas para a carga de trabalho ou as ferramentas de runtime.
- Para os clusters centralizados menos comuns, que suportam um portfólio de cargas de trabalho e uma variedade de aplicações, a equipa de operações centralizadas ainda pode ser responsável por tarefas de conformidade operacional. Os seguintes guias ajudarão a realizar essas tarefas nos clusters. A execução destas tarefas de forma periódica incute operações específicas da plataforma. Existe um risco notável numa abordagem de operações centrais e os testes cuidadosos de atualizações em ambientes de pré-produção, manutenção clara e cumprida e planos de contingência para cargas de trabalho não conformes têm de estar implementados. Uma atualização incorreta pode ser um ponto único de falha e, da mesma forma, uma carga de trabalho não capaz de atualizar pode fazer com que um cluster fique sem suporte. Planeie e faça a gestão de clusters multi-inquilinos com a devida diligência.
Para ambos os tipos de cluster, siga as orientações sobre atualizações, imagens de nós e atualizações do SO do nó encontradas abaixo:
- Atualizar o cluster do AKS
- Atualizar a imagem do nó
- Atualizações do sistema operacional do nó de processos
- Documentação de orientação para aplicação de patches e atualizações
Proteger e recuperar
Os nós do AKS são de natureza efémera e, como tal, não são efetuados cópias de segurança de uma forma que possa ser restaurada individualmente. A recuperação de um incidente pode envolver a reimplementação de cargas de trabalho num novo conjunto de nós ou num cluster totalmente novo, dependendo do âmbito do incidente.
- Opte por adicionar um SLA de tempo de atividade ao cluster.
- Para SLAs mais elevados, também pode considerar as melhores práticas bcDR de várias regiões para fornecer proteção adicional.
- Uma vez que os clusters não devem conter o estado, o restauro do estado externo é processado com a documentação de orientação da linha de base de operações existente. Se trouxer o estado para os clusters, certifique-se de que segue as melhores práticas de armazenamento dos operadores e tem uma estratégia para criar cópias de segurança e restaurar estes dados para uma determinada carga de trabalho. A utilização de ferramentas como o Velero é um exemplo de operações específicas da plataforma que expandem a linha de base de operações.
- Se o seu portefólio de aplicações aplicar o estado de forma inconsistente, a equipa de operações centrais não deve tentar manter ambas as soluções. Em vez disso, uniformize a cadeia de ferramentas de estado pretendido para todos os contentores, mas mude a responsabilidade de soluções de recuperação alternativas para as equipas de operações de carga de trabalho. Esta abordagem permite a criação de liberdade para os programadores, mantém os custos centrais mais baixos e proporciona um incentivo de redução de custos para as equipas de carga de trabalho cumprirem o padrão.
Operações das cargas de trabalho
A secção de operações da plataforma acima ilustra uma conversa comum ao gerir clusters do AKS. Os clusters do Kubernetes são uma plataforma tecnológica para serem geridos centralmente? Ou são uma ferramenta de carga de trabalho que deve ser gerida pelas equipas proprietárias de cada uma das cargas de trabalho? Esta questão é diferente para diferentes organizações. A constante observada na maioria das organizações é que os contentores e o AKS foram concebidos para dar às equipas de carga de trabalho mais flexibilidade na forma como querem operar cada carga de trabalho e fornecer funcionalidades específicas para essas cargas de trabalho utilizarem na sua arquitetura para beneficiar os proprietários e clientes da aplicação.
As operações de carga de trabalho podem basear-se na linha de base de operações existente e nas operações específicas da plataforma. Também pode operar com segurança um cluster do AKS com operações de carga de trabalho completamente descentralizadas. Em ambos os casos, quando precisar de elevar as operações para se concentrar em resultados específicos para uma carga de trabalho específica, pode utilizar o Azure Well-Architected Framework e o Microsoft Azure Well-Architected Review para se concentrar muito nos tipos de processos operacionais e ferramentas a utilizar para a sua carga de trabalho.
Passo seguinte: a próxima iteração de migração
Assim que a migração da plataforma de aplicações moderna estiver concluída, a equipa de adoção da cloud pode iniciar a sua próxima migração específica do cenário. Em alternativa, se existirem plataformas de adição a serem migradas, esta série de artigos pode ser novamente utilizada para orientar a migração ou implementação da sua próxima plataforma de aplicações moderna.
- Estratégia para plataformas de aplicações modernas
- Planear plataformas de aplicações modernas
- Rever o ambiente ou as zonas de destino do Azure
- Migrar cargas de trabalho para plataformas de aplicações modernas
- Inovar com soluções modernas da plataforma de aplicações
- Governar soluções modernas da plataforma de aplicações
- Gerir soluções modernas da plataforma de aplicações