Práticas recomendadas de operações de aprendizado de máquina (MLOps) no Serviço Kubernetes do Azure (AKS)
Este artigo descreve as melhores práticas e considerações a ter em mente ao usar MLOps no AKS. Para obter mais informações sobre MLOps, consulte Operações de aprendizado de máquina (MLOps) para fluxos de trabalho de IA e aprendizado de máquina.
Infraestrutura como código (IaC)
O IaC permite provisionamento e gerenciamento de infraestrutura consistentes e reproduzíveis para uma variedade de tipos de aplicativos. Com implantações inteligentes de aplicativos, sua implementação de IaC pode mudar em todo o pipeline de IA, pois o poder de computação e os recursos necessários para inferir, servir, treinar e ajustar modelos podem variar. Definir e versionar modelos de IaC para suas equipes de desenvolvedores de IA pode ajudar a garantir consistência e custo-benefício entre os tipos de trabalho, ao mesmo tempo em que desmistifica seus requisitos individuais de hardware e acelera o processo de implantação.
Contentorização
O gerenciamento de pesos, metadados e configurações do modelo em imagens de contêiner permite portabilidade, controle de versão simplificado e custos de armazenamento reduzidos ao longo do tempo. Com a conteinerização, você pode:
- Aproveite as imagens de contêiner existentes, especialmente para modelos de linguagem grande (LLMs) que variam de milhões a bilhões de parâmetros em tamanho e modelos de difusão estáveis, armazenados em registros de contêiner seguros.
- Evite um único ponto de falha (SPOF) em seu pipeline com o uso de vários contêineres leves contendo as dependências exclusivas para cada tarefa, em vez de manter uma imagem grande.
- Armazene grandes conjuntos de dados de texto/imagem fora da imagem do contêiner base e faça referência a eles quando necessário em tempo de execução.
Comece a usar o Kubernetes AI Toolchain Operator para implantar um LLM de alto desempenho no AKS em questão de minutos.
Gerenciamento e controle de versão de modelos
O gerenciamento de modelos e o controle de versão são essenciais para acompanhar as alterações em seus modelos ao longo do tempo. Ao controlar o controle de versão de seus modelos, você pode:
- Mantenha a consistência em todos os contêineres de modelo para facilitar a implantação em diferentes ambientes.
- Utilize métodos de ajuste fino eficientes em parâmetros (PEFT) para iterar mais rapidamente em um subconjunto de pesos de modelo e manter novas versões em contêineres leves.
Automatização
A automação é fundamental para reduzir erros manuais, aumentar a eficiência e garantir a consistência em todo o ciclo de vida do ML. Ao automatizar tarefas, você pode:
- Integre ferramentas de alerta para acionar automaticamente um fluxo de ingestão de vetores à medida que novos dados fluem para seu aplicativo.
- Defina limites de desempenho do modelo para rastrear degradações e acionar pipelines de retreinamento.
Escalabilidade e gerenciamento de recursos
A escalabilidade e o gerenciamento de recursos são essenciais para garantir que seu pipeline de IA possa lidar com as demandas de seu aplicativo. Ao otimizar o uso de recursos, você pode:
- Integre ferramentas que usam eficientemente seus recursos alocados de CPU, GPU e memória por meio de computação distribuída e vários níveis de paralelismo (por exemplo: paralelismo de dados, modelo e pipeline).
- Habilite o dimensionamento automático em seus recursos de computação para dar suporte a altos volumes de solicitação de modelo em horários de pico e reduzir a escala fora do horário de pico.
- Semelhante aos seus aplicativos tradicionais, planeje a recuperação de desastres seguindo as práticas recomendadas de resiliência e confiabilidade do AKS.
Segurança e conformidade
A segurança e a conformidade são essenciais para proteger seus dados e garantir que seu pipeline de IA atenda aos requisitos regulamentares. Ao implementar práticas recomendadas de segurança e conformidade, você pode:
- Integre a verificação de vulnerabilidade e exposição comum (CVE) para detetar vulnerabilidades comuns em imagens de contêiner de modelo de código aberto.
- Use o Microsoft Defender for Containers para imagens de contêiner modelo armazenadas em seu Registro de Contêiner do Azure.
- Mantenha uma trilha de auditoria dos dados ingeridos, alterações de modelo e métricas para permanecer em conformidade com suas políticas organizacionais.
Próximos passos
Saiba mais sobre as práticas recomendadas em outras áreas de implantação e operações de aplicativos no AKS:
Azure Kubernetes Service