Pronto para IA – Recomendações para organizações que criam cargas de trabalho de IA no Azure
Este artigo descreve o processo de criação de cargas de trabalho de IA no Azure para as organizações. O artigo contém recomendações de tomada de decisões importantes sobre design e processo na adoção de cargas de trabalho de IA em escala. O objetivo são as diretrizes específicas de IA para seleção de região, organização de recursos e sistema de rede.
Estabelecer a confiabilidade da IA
A confiabilidade da IA envolve a seleção de regiões apropriadas para hospedar modelos de IA que garantam a consistência de desempenho, conformidade e disponibilidade. Para manter a confiabilidade da IA, as organizações precisam solucionar questões de redundância, failover e otimização de desempenho.
Use várias regiões para hospedar pontos de extremidade de modelos de IA. Para cargas de trabalho de produção, hospede os pontos de extremidade de IA em pelo menos duas regiões para garantir redundância e alta disponibilidade. Embora os modelos de IA generativa sejam sem estado, sua hospedagem em várias regiões garante failover e recuperação mais rápidos durante falhas regionais. Para modelos do Serviço OpenAI do Azure, você pode usar implantações globais. Essas implantações multirregionais podem encaminhar automaticamente e com transparência as solicitações para uma região que tenha capacidade suficiente. Se você escolher uma implantação não global, também conhecida como implantação regional, use o Gerenciamento de API do Azure para balancear a carga de solicitações de API para os pontos de extremidade de IA.
Confirme a disponibilidade do serviço. Antes da implantação, verifique se a região tem disponibilidade para os recursos de IA necessários. Determinadas regiões podem não oferecer serviços de IA específicos ou, então, ter recursos limitados, o que pode afetar a funcionalidade da sua solução. É uma limitação que também pode afetar a escalabilidade da sua implantação. Por exemplo, a disponibilidade do Serviço OpenAI do Azure pode variar de acordo com seu modelo de implantação. Esses modelos de implantação incluem padrão global, provisionado global, padrão regional e provisionado regional. Confirme se o seu serviço de IA tem acesso aos recursos necessários.
Avalie a cota e a capacidade da região. A medida que suas cargas de trabalho de IA aumentam, pense nos limites de cota ou assinatura na região escolhida. Os serviços do Azure têm limites de assinatura por região. Esses limites podem afetar implantações de modelos de IA em larga escala, como grandes cargas de trabalho de inferência. Para evitar interrupções, entre em contato com o suporte do Azure com antecedência se você achar que precisa de capacidade extra.
Avalie o desempenho. Quando você cria aplicativos que precisam recuperar dados, como aplicativos de Geração Aumentada de Recuperação (RAG), é importante considerar os locais de armazenamento de dados para otimizar o desempenho. Você não precisa compartilhar o local dos dados com modelos nos aplicativos RAG, mas fazer isso pode melhorar o desempenho, porque reduz a latência e garante a recuperação eficiente dos dados.
Prepare-se para a continuidade das operações. Para garantir a continuidade dos negócios e a recuperação de desastres, replique ativos críticos, como modelos ajustados, dados RAG, modelos treinados e conjuntos de dados de treinamento em uma região secundária. Essa redundância possibilita uma recuperação mais rápida no caso de uma interrupção e garante a disponibilidade contínua do serviço.
Estabelecer governança de IA
A governança de IA abrange a organização de recursos e a aplicação de políticas para gerenciar cargas de trabalho e custos de IA. Envolve a estruturação de grupos de gerenciamento e assinaturas para fins de conformidade e segurança em diferentes cargas de trabalho. A governança adequada de IA impede o acesso não autorizado, gerencia riscos e faz com que os recursos de IA operem com eficiência dentro da organização.
Separe as cargas de trabalho de IA internas e voltadas para a Internet. Use um mínimo de grupos de gerenciamento para separar as cargas de trabalho de IA em cargas voltadas para a Internet ("online") e apenas internas ("corporativas"). Fazer essa distinção impõe um importante limite de governança de dados. Ajuda a manter os dados internos separados dos dados públicos. Usuários externos não devem ter acesso a informações confidenciais da empresa, necessárias para trabalhos internos. Essa distinção entre cargas de trabalho internas e cargas voltadas para a Internet se alinha aos grupos de gerenciamento de zonas de destino do Azure.
Aplique políticas de IA a todos os grupos de gerenciamento. Comece com políticas básicas para cada tipo de carga de trabalho, como aquelas usadas nas zonas de destino do Azure. Adicione outras definições do Azure Policy à sua linha de base para conduzir uma governança uniforme para serviços de IA do Azure, Pesquisa de IA do Azure, Azure Machine Learning e Máquinas Virtuais do Azure.
Implante recursos de IA em assinaturas de carga de trabalho. Os recursos de IA precisam herdar políticas de governança de carga de trabalho do grupo de gerenciamento de carga de trabalho (interno ou voltado para a Internet). Separe-os dos recursos da plataforma. Os recursos de IA controlados por equipes de plataforma tendem a criar gargalos de desenvolvimento. No contexto da zona de destino do Azure, implante cargas de trabalho de IA em assinaturas de zonas de destino do aplicativo.
Estabelecer um sistema de rede de IA
O sistema de rede de IA refere-se ao design e à implementação da infraestrutura de rede para cargas de trabalho de IA, incluindo segurança e conectividade. Envolve o uso de topologias como hub-and-spoke, a aplicação de medidas de segurança, como proteção contra DDoS, e a garantia de uma transferência de dados eficiente. Um sistema de rede de IA eficaz é fundamental para uma comunicação segura e confiável, pois evita interrupções baseadas na rede e mantém o desempenho.
Ative a Proteção contra DDoS do Azure para cargas de trabalho de IA voltadas para a Internet. A Proteção contra DDoS do Azure protege seus serviços de IA contra possíveis interrupções e tempo de inatividade que são causados por ataques distribuídos de negação de serviço. Habilite a Proteção contra DDoS do Azure no nível da rede virtual para evitar inundações de tráfego direcionadas a aplicativos voltados para a Internet.
Conecte-se a dados locais. Para organizações que transferem grandes quantidades de dados de fontes locais para ambientes de nuvem, use uma conexão de largura de banda alta.
Use o Azure ExpressRoute. O Azure ExpressRoute é ideal para grandes volumes de dados, processamento em tempo real ou cargas de trabalho que exigem desempenho consistente. Ele conta com o recurso FastPath que melhora o desempenho do caminho de dados.
Use o Gateway de VPN do Azure. Use o Gateway de VPN do Azure para volumes de dados moderados, transferência de dados pouco frequente ou quando o acesso público à Internet for necessário. É mais simples de configurar e econômico para conjuntos de dados menores do que o ExpressRoute. Use a topologia e o design corretos para suas cargas de trabalho de IA. Use a VPN site a site para conectividade híbrida e entre locais. Use uma VPN ponto a site para conectividade segura do dispositivo. Para obter mais informações, consulte Conectar uma rede local ao Azure.
Prepare serviços de resolução de nomes de domínio. Integre pontos de extremidade privados com o DNS para garantir uma resolução DNS adequada e uma funcionalidade de ponto de extremidade privado bem-sucedida. Implante a infraestrutura DNS do Azure como parte da zona de destino do Azure e configure encaminhadores condicionais de serviços DNS existentes para as zonas apropriadas. Para obter mais informações, consulte Link privado e integração DNS em escala para zonas de destino do Azure.
Configure controles de acesso à rede. Utilize NSGs (grupos de segurança de rede) para definir e aplicar políticas de acesso que regem o tráfego de entrada e saída entre cargas de trabalho de IA. Esses controles podem ser usados para implementar o princípio do menor privilégio, permitindo somente a comunicação essencial.
Use serviços de monitoramento de rede. Use serviços como Insights de Rede do Azure Monitor e Observador de Rede do Azure para ter visibilidade do desempenho e da integridade da rede. Além disso, use o Microsoft Sentinel para detecção e resposta avançadas a ameaças em sua rede do Azure.
Implante o Firewall do Azure para inspecionar e proteger o tráfego de carga de trabalho de saída do Azure. O Firewall do Azure aplica políticas de segurança para o tráfego de saída antes que ele chegue à Internet. Use-o para controlar e monitorar o tráfego de saída e permitir que o SNAT oculte endereços IP internos por meio da conversão de IPs privados em IP público do firewall. Ele garante tráfego de saída seguro e identificável para melhor monitoramento e segurança.
Use o WAF (Firewall de Aplicativo Web) do Azure para cargas de trabalho voltadas para a Internet. Com o WAF do Azure, você protege suas cargas de trabalho de IA contra vulnerabilidades comuns da Web, incluindo injeções de SQL e ataques de script entre sites. Configure o WAF do Azure no Gateway de Aplicativo para cargas de trabalho que exigem segurança aprimorada contra tráfego da Web mal-intencionado.
Estabelecer uma base de IA
Uma base de IA contém a infraestrutura principal e a hierarquia de recursos que dão suporte a cargas de trabalho de IA no Azure. Inclui a criação de ambientes escaláveis e seguros que se alinham às necessidades operacionais e de governança. Uma base sólida de IA permite a implantação e o gerenciamento eficientes de cargas de trabalho de IA. Também garante segurança e flexibilidade para o crescimento futuro.
Usar a zona de destino do Azure
Uma zona de destino do Azure é o ponto de partida recomendado que prepara seu ambiente do Azure. Ela fornece uma configuração predefinida para recursos de plataformas e aplicativos. Depois que a plataforma é implementada, você pode implantar cargas de trabalho de IA em zonas de destino de aplicativos dedicados. A Figura 2 abaixo ilustra como as cargas de trabalho de IA se integram a uma zona de destino do Azure.
Figura 2. Carga de trabalho de IA em uma zona de destino do Azure.
Criar um ambiente de IA
Se você não usa uma zona de destino do Azure, siga as recomendações deste artigo para criar seu ambiente de IA. O diagrama a seguir mostra uma hierarquia de implantes básica. Ele segmenta cargas de trabalho de IA internas e outras voltadas à Internet, conforme descrito em Estabelecer governança de IA. As cargas de trabalho internas usam a política para negar o acesso online dos clientes. Essa separação protege os dados internos da exposição a usuários externos. O desenvolvimento de IA usa um jumpbox para gerenciar recursos e dados de IA.
Figura 3. Hierarquia de recursos básica para cargas de trabalho de IA.
Próximas etapas
A próxima etapa é criar e implantar cargas de trabalho de IA em seu ambiente de IA. Use os links a seguir para encontrar as diretrizes de arquitetura de acordo com as suas necessidades. Comece com arquiteturas da Plataforma como serviço (PaaS). PaaS é a abordagem recomendada pela Microsoft para adoção da IA.