Partilhar via


Recomendações de gerenciamento para cargas de trabalho de IA na infraestrutura do Azure (IaaS)

Este artigo fornece recomendações de gerenciamento para organizações que executam cargas de trabalho de IA na infraestrutura do Azure (IaaS). O gerenciamento eficaz de cargas de trabalho de IA no Azure requer monitoramento contínuo, práticas de otimização e uma forte estratégia de backup e recuperação. Esses esforços minimizam o tempo de inatividade e garantem a confiabilidade nas operações de IA.

Monitore a infraestrutura de IA

O monitoramento da infraestrutura de IA envolve o acompanhamento e a avaliação do desempenho, da integridade e da disponibilidade de todos os componentes em uma implantação de IA na IaaS do Azure. O monitoramento proativo permite que as organizações detetem e resolvam possíveis problemas antes que eles afetem as operações.

  • Garanta o monitoramento por padrão. Implante os agentes necessários do Azure Monitor para máquinas virtuais e Conjuntos de Escala de Máquina Virtual do Azure, incluindo servidores conectados ao Azure Arc. Conecte-os ao espaço de trabalho central do Log Analytics na assinatura de gerenciamento. Considere usar os Alertas de Linha de Base do Azure Monitor (AMBA).

  • Use Azure Update Manager. Você pode monitorar a conformidade de atualizações do Windows e do Linux em suas máquinas no Azure e no local/em outras plataformas de nuvem (conectadas pelo Azure Arc) a partir de um único painel de gerenciamento. Também pode utilizar o Azure Update Manager para fazer atualizações em tempo real ou agendá-las dentro de uma janela de manutenção definida.

  • Monitore máquinas virtuais.Monitore dados de host de máquina virtual (VM) (host físico) e dados de convidado de VM (sistema operacional e aplicativo). Considere o uso do VM Insights para simplificar a integração, acessar gráficos de desempenho predefinidos e utilizar o mapeamento de dependência. Rastreie remoções de VM spot e eventos de manutenção para gerenciar interrupções de forma eficaz. Saiba mais sobre eventos agendados.

  • Monitore redes.Monitore e diagnostique problemas de rede sem fazer login em suas VMs. Obtenha informações de desempenho em tempo real no nível do pacote. Solucione problemas de desempenho com a ferramenta Diagnóstico de Desempenho. Acompanhe a topologia, a integridade e as métricas de todos os recursos de rede implantados.

  • Monitore o armazenamento. Monitore o desempenho do armazenamento, como SSDs locais, discos conectados, compartilhamentos de arquivos e contas de armazenamento do Azure.

  • Use os recursos de monitoramento do orquestrador (se aplicável). Considere usar os recursos internos de monitoramento de orquestradores como Azure CycleCloud, Azure Batch e Azure Kubernetes Service (AKS). Siga as orientações para o orquestrador que você escolheu:

    • Azure CycleCloud ou Azure CycleCloud Workspace for Slurm: rastreie métricas de CPU, disco e rede. Armazene dados de clusters do Azure CycleCloud no Log Analytics e crie painéis de métricas personalizados. Para obter mais informações, consulte Monitorando o Azure CycleCloud. As verificações de integridade do nó são um conjunto de testes automatizados para garantir que seu hardware HPC/AI esteja íntegro. Você pode executar essa verificação no Azure CycleCloud como parte da implantação do cluster ou separadamente usando as instruções do repositório GitHub. Certifique-se de prestar atenção à matriz de compatibilidade na documentação. Execute quando apropriado para garantir que você identifique quaisquer nós não íntegros antes de executar suas cargas de trabalho de IA.

    • Azure Batch: colete métricas de trabalho e tarefa, como tarefas ativas, duração da tarefa, hora de início do trabalho, duração, hora de início da tarefa. Também colete métricas do pool, como nós ociosos, nós em execução, uso da CPU, E/S de disco. Para obter mais informações, consulte Monitoramento de lote do Azure.

    • Serviço Kubernetes do Azure. Use o Azure Monitor para contêineres. Monitore o desempenho do pod, a integridade do nó e a utilização de recursos. Configure alertas e painéis personalizados.

Gerencie a continuidade de negócios e a recuperação de desastres

Gerenciar a continuidade de negócios e a recuperação de desastres para aplicativos de IA no Azure garante que as organizações possam se recuperar rapidamente de interrupções. Ao implementar estratégias como replicação em tempo real, recuperação automatizada e backups regulares, as organizações protegem sua infraestrutura de IA contra perda de dados e tempo de inatividade operacional.

  • Use Azure Site Recovery. O Site Recovery usa replicação em tempo real e automação de recuperação para replicar cargas de trabalho entre regiões. Os recursos de plataforma integrados para cargas de trabalho de VM atendem aos baixos requisitos de RPO e RTO. Você pode usar o Site Recovery para executar exercícios de recuperação sem afetar as cargas de trabalho de produção. Você também pode usar a Política do Azure para habilitar a replicação e auditar a proteção de VM.

  • Use os recursos do orquestrador (se aplicável). Use seu orquestrador para recuperar nós de computação com falha. Por exemplo, configure o Lote do Azure para repetir tarefas automaticamente se houver falha.

  • Agende backups. Determine se você precisa fazer backup de alterações incrementais em conjuntos de dados e modelos diariamente ou semanalmente. Os backups também podem incluir bancos de dados ou conjuntos de dados inteiros.

  • Garanta a conformidade dos dados. Certifique-se de que sua estratégia de backup esteja em conformidade com as regulamentações de proteção de dados. Cumpra os requisitos de residência de dados e armazene backups em locais geográficos apropriados.

  • Crie instantâneos. Você pode usar os recursos do seu agendador para tirar instantâneos. Por exemplo, o CycleCloud pode tirar instantâneos point-in-time do armazenamento de dados de aplicativos subjacente como pontos de recuperação.

Próximo passo