Partilhar via


Usando GPUs sem servidor em Aplicativos de Contêiner do Azure (visualização)

Os Aplicativos de Contêiner do Azure fornecem acesso a GPUs sob demanda sem que você precise gerenciar a infraestrutura subjacente. Como um recurso sem servidor, você paga apenas por GPUs em uso. Quando habilitado, o número de GPUs usadas para seu aplicativo aumenta e diminui para atender às demandas de carga do seu aplicativo. As GPUs sem servidor permitem que você execute perfeitamente suas cargas de trabalho com dimensionamento automático, inicialização a frio otimizada, faturamento por segundo com redução para zero quando não estiver em uso e sobrecarga operacional reduzida.

GPUs sem servidor são suportadas apenas para perfis de carga de trabalho de consumo. O recurso não é suportado para ambientes somente de consumo.

Nota

O acesso às GPUs só está disponível depois de solicitar cotas de GPU. Você pode enviar sua solicitação de cota de GPU por meio de um caso de suporte ao cliente.

Benefícios

As GPUs sem servidor aceleram o desenvolvimento de IA, permitindo que você se concentre em seu código de IA principal e menos no gerenciamento de infraestrutura ao usar GPUs. Esse recurso fornece uma opção de camada intermediária entre as APIs sem servidor do catálogo de modelos de IA do Azure e os modelos de hospedagem em computação gerenciada.

O suporte à GPU sem servidor Container Apps fornece governança de dados completa, pois seus dados nunca saem dos limites do contêiner e, ao mesmo tempo, fornecem uma plataforma gerenciada e sem servidor a partir da qual criar seus aplicativos.

Quando você usa GPUs sem servidor em Aplicativos de Contêiner, seus aplicativos obtêm:

  • GPUs escaláveis para zero: suporte para escalonamento automático sem servidor de GPUs NVIDIA A100 e NVIDIA T4.

  • Cobrança por segundo: pague apenas pelo cálculo da GPU que você usa.

  • Governança de dados integrada: seus dados nunca saem do limite do contêiner.

  • Opções de computação flexíveis: Você pode escolher entre os tipos de GPU NVIDIA A100 ou T4.

  • Camada intermediária para desenvolvimento de IA: traga seu próprio modelo em uma plataforma de computação gerenciada e sem servidor.

Cenários comuns

Os cenários a seguir, embora não sejam abrangentes, descrevem casos de uso comuns para GPUs sem servidor.

  • Inferência em tempo real e em lote: usando modelos de código aberto personalizados com tempos de inicialização rápidos, dimensionamento automático e um modelo de faturamento por segundo. As GPUs sem servidor são ideais para aplicações dinâmicas. Você paga apenas pela computação que usa e seus aplicativos são dimensionados e dimensionados automaticamente para atender à demanda.

  • Cenários de aprendizado de máquina: acelere significativamente os aplicativos que implementam modelos de IA generativa personalizados ajustados, aprendizado profundo, redes neurais ou análise de dados em larga escala.

  • Computação de alto desempenho (HPC): Aplicações que requerem cálculos e simulações complexos, como computação científica, modelagem financeira ou previsão do tempo, usam GPUs como recursos para altas demandas computacionais.

  • Renderização e visualização: aplicativos que envolvem renderização 3D, processamento de imagem ou transcodificação de vídeo geralmente usam GPUs para acelerar o processo de renderização e permitir a visualização em tempo real.

  • Análise de Big Data: as GPUs podem acelerar o processamento e a análise de dados entre conjuntos de dados massivos.

Considerações

Lembre-se dos seguintes itens ao usar GPUs sem servidor:

  • Versão CUDA: GPUs sem servidor suportam a versão CUDA mais recente

  • Limitações do suporte:

    • Apenas um contêiner em um aplicativo pode usar a GPU de cada vez.
    • Vários aplicativos podem compartilhar o mesmo perfil de carga de trabalho da GPU, mas cada um requer sua própria réplica.
    • Não há suporte para réplicas de GPU fracionárias e múltiplas.
    • O primeiro contêiner em seu aplicativo obtém acesso à GPU.
  • Endereços IP: as GPUs de consumo usam um endereço IP por réplica quando você configura a integração com sua própria rede virtual.

Solicitar cota de GPU sem servidor

O acesso a esse recurso só estará disponível depois que você tiver uma cota de GPU sem servidor. Você pode enviar sua solicitação de cota de GPU por meio de um caso de suporte ao cliente. Ao abrir um caso de suporte para uma solicitação de cota de GPU, selecione o tipo de problema "Técnico".

Nota

Os clientes com contratos empresariais têm uma única quota de GPU T4 ativada por predefinição.

Regiões suportadas

As GPUs sem servidor estão disponíveis em pré-visualização nas regiões Oeste dos EUA 3 e Leste da Austrália.

Usar GPUs sem servidor

Ao criar um aplicativo de contêiner por meio do portal do Azure, você pode configurar seu contêiner para usar recursos de GPU.

Na guia Contêiner do processo de criação, defina as seguintes configurações:

  1. Na seção Alocação de recursos de contêiner, marque a caixa de seleção GPU.

  2. Para o Tipo de GPU*, selecione a opção NVIDIA A100 ou NVIDIA T4.

Gerenciar perfil de carga de trabalho de GPU sem servidor

GPUs sem servidor são executadas em perfis de carga de trabalho de GPU de consumo. Você gerencia um perfil de carga de trabalho de GPU de consumo da mesma maneira que qualquer outro perfil de carga de trabalho. Você pode gerenciar seu perfil de carga de trabalho usando a CLI ou o portal do Azure.

Melhore o arranque a frio do GPU

Você pode melhorar o início a frio em seus contêineres habilitados para GPU habilitando o streaming de artefatos no Registro de Contêiner do Azure.

Nota

Para usar o streaming de artefatos, suas imagens de contêiner devem ser hospedadas no Registro de Contêiner do Azure.

Use as seguintes etapas para habilitar o streaming de imagens:

  1. Abra o Registro de Contêiner do Azure no portal do Azure.

  2. Pesquise Repositórios e selecione Repositórios.

  3. Selecione o nome do repositório.

  4. Na janela Repositório, selecione Iniciar streaming de artefatos.

  5. Selecione a tag de imagem que você deseja transmitir.

  6. Na janela que aparece, selecione Criar artefato de streaming.

Submeter comentários

Envie o problema para o repositório GitHub dos Aplicativos de Contêiner do Azure.

Próximos passos