Recomendações de gerenciamento para cargas de trabalho de IA na infraestrutura do Azure (IaaS)
Este artigo fornece recomendações de gerenciamento para organizações que executam cargas de trabalho de IA na infraestrutura do Azure (IaaS). O gerenciamento eficaz de cargas de trabalho de IA no Azure requer monitoramento contínuo, práticas de otimização e uma forte estratégia de backup e recuperação. Esses esforços minimizam o tempo de inatividade e garantem a confiabilidade nas operações de IA.
Monitore a infraestrutura de IA
O monitoramento da infraestrutura de IA envolve o acompanhamento e a avaliação do desempenho, da integridade e da disponibilidade de todos os componentes em uma implantação de IA no Azure IaaS. O monitoramento proativo permite que as organizações detectem e resolvam possíveis problemas antes que eles afetem as operações.
Garanta o monitoramento por padrão. Implante os agentes de Azure Monitor necessários para máquinas virtuais e Conjuntos de Dimensionamento de Máquinas Virtuais do Azure, incluindo servidores Azure Arc conectados. Conecte-os ao workspace central do Log Analytics na assinatura de gerenciamento. Considere usar os AMBA (Alertas de Linha de Base do Azure Monitor).
Use Azure Update Manager. Você pode monitorar a conformidade de atualização do Windows e do Linux em seus computadores no Azure e no local ou em outras plataformas de nuvem (conectadas pelo Azure Arc) a partir de um único painel de gerenciamento. Você também pode usar o Gerenciador de Atualizações para fazer atualizações em tempo real ou agende-as em uma janela de manutenção definida.
Monitore máquinas virtuais. Monitore os dados do host da máquina virtual (VM) (host físico) e os dados do convidado da VM (sistema operacional e aplicativo). Considere usar o VM Insights para simplificar a integração, acessar gráficos de desempenho predefinidos e utilizar o mapeamento de dependências. Rastreie remoções de VM spot e eventos de manutenção para gerenciar interrupções com eficiência. Saiba mais sobre eventos programados.
Monitore as redes. Monitore e diagnostique problemas de rede sem fazer logon em suas VMs. Obtenha informações de desempenho em tempo real no nível do pacote. Solucione problemas de desempenho com a ferramenta Diagnóstico de Desempenho. Acompanhe a topologia, a integridade e as métricas de todos os recursos de rede implantados.
Monitore o armazenamento. Monitore o desempenho do armazenamento, como SSDs locais, discos anexados, compartilhamentos de arquivos e contas de armazenamento do Azure.
Use os recursos de monitoramento do orquestrador (se aplicável). Considere usar os recursos de monitoramento internos de orquestradores como Azure CycleCloud, Lote do Azure e AKS (Serviço de Kubernetes do Azure). Siga as orientações para o orquestrador que você escolheu:
Azure CycleCloud ou Azure CycleCloud Workspace for Slurm: acompanhar métricas de CPU, disco e rede. Armazene dados de clusters do Azure CycleCloud no Log Analytics e crie painéis de métricas personalizadas. Para obter mais informações, consulte Monitorando o Azure CycleCloud. As verificações de integridade do nó são um conjunto de testes automatizados para garantir que seu hardware de HPC/IA esteja íntegro. Você pode executar essa verificação no Azure CycleCloud como parte da implantação do cluster ou separadamente usando as instruções do repositório GitHub. Certifique-se de prestar atenção à matriz de compatibilidade na documentação. Execute quando apropriado para garantir que você identifique quaisquer nós não íntegros antes de executar suas cargas de trabalho de IA.
Lote do Azure: colete métricas de trabalho e tarefa, como tarefas ativas, duração da tarefa, hora de início do trabalho, duração, hora de início da tarefa. Colete também métricas de pool, como nós ociosos, nós em execução, uso da CPU, E/S de disco. Para obter mais informações, consulte Monitoramento do Lote do Azure.
Serviço de Kubernetes do Azure. Use o Azure Monitor para contêineres. Monitore o desempenho do pod, a integridade do nó e a utilização de recursos. Configure alertas e painéis personalizados.
Gerencie a continuidade dos negócios e a recuperação de desastres
Gerenciar a continuidade dos negócios e a recuperação de desastre para aplicativos de IA no Azure garante que as organizações possam se recuperar rapidamente de interrupções. Ao implementar estratégias como replicação em tempo real, recuperação automatizada e backups regulares, as organizações protegem sua infraestrutura de IA contra perda de dados e tempo de inatividade operacional.
Use o Azure Site Recovery. O Site Recovery usa replicação em tempo real e automação de recuperação para replicar cargas de trabalho entre regiões. Os recursos internos da plataforma para cargas de trabalho de VM atendem aos requisitos de RPO e RTO baixos. Você pode usar o Site Recovery para executar as análises de recuperação sem afetar as cargas de trabalho de produção. Você também pode usar a Azure Policy para habilitar a replicação e auditar a proteção da VM.
Use os recursos do orquestrador (se aplicável). Use o orquestrador para recuperar nós de computação com falha. Por exemplo, configure o Lote do Azure para repetir tarefas automaticamente se houver falha.
Agende backups. Determine se você precisa fazer backup de alterações incrementais em conjuntos de dados e modelos diariamente ou semanalmente. Os backups também podem incluir bancos de dados ou conjuntos de dados inteiros.
Garanta a conformidade dos dados. Certifique-se de que sua estratégia de backup esteja em conformidade com os regulamentos de proteção de dados. Cumpra os requisitos de residência de dados e armazene backups em localizações geográficas apropriadas.
Crie instantâneos. Você pode usar os recursos do seu agendador para tirar instantâneos. Por exemplo, o CycleCloud pode tirar instantâneos pontuais do armazenamento de dados do aplicativo subjacente como pontos de recuperação.