Compartilhar via


Contêiner Azure para PyTorch (ACPT)

O Contêiner Azure para PyTorch é um ambiente leve e autônomo que inclui os componentes necessários para executar com eficácia um treinamento otimizado para grandes modelos no Azure Machine Learning. Os ambientes com curadoria do Azure Machine Learning estão disponíveis no espaço de trabalho do usuário por padrão e são corroborados por imagens do Docker armazenadas em cache que usam a versão mais recente do SDK do Azure Machine Learning. Isso ajuda a reduzir os custos de preparação e a agilizar o tempo de implantação. O ACPT pode ser usado para dar início rapidamente a várias tarefas de aprendizado profundo com o PyTorch no Azure.

Observação

Use o SDK do Python, a CLI ou o Estúdio do Azure Machine Learning para obter a lista mais atualizada de ambientes e as respectivas dependências. Para obter mais informações, consulte o artigo sobre ambientes.

Por que eu deveria usar o ACPT?

  • Flexibilidade: use no estado em que se encontra com pacotes pré-instalados ou crie com base no ambiente coletado.
  • Facilidade de uso: todos os componentes são instalados e validados em dezenas de cargas de trabalho da Microsoft para reduzir os custos de configuração e acelerar o tempo de retorno.
  • Eficiência: Evite compilações de imagem desnecessárias e tenha apenas as dependências necessárias que podem ser acessadas diretamente na imagem/contêiner.
  • Estrutura de treinamento otimizada: configure, desenvolva e acelere modelos PyTorch em grandes cargas de trabalho e melhore a taxa de sucesso de treinamento e implantação.
  • Pilha atualizada: Acesse as versões compatíveis mais recentes do Ubuntu, Python, PyTorch, CUDA/RocM, etc.
  • Tecnologias de otimização de treinamento mais recentes: faça uso do ONNX Runtime , DeepSpeed, MSCCL e muito mais.
  • Integração com o Azure Machine Learning: acompanhe seus experimentos do PyTorch no estúdio do Azure Machine Learning ou usando o SDK. O suporte ao cliente do Azure também reduz a latência de treinamento e implantação.
  • Disponibilidade como DSVM: a imagem também está disponível como uma DSVM (Máquina Virtual de Ciência de Dados). Para saber mais sobre Máquinas Virtuais de Ciência de Dados, confira a documentação de visão geral de DSVM.

Importante

para exibir mais informações sobre os pacotes de ambiente e versões organizadas, visite a guia ambientes no studiodo Azure Machine Learning.

Configurações com suporte para o Contêiner Azure para PyTorch (ACPT)

Descrição: o Ambiente Auxiliar do Azure para PyTorch é nosso ambiente mais recente auxiliar do PyTorch. Ele é otimizado para cargas de trabalho de aprendizado profundo grandes e distribuídas e vem pré-empacotado com o melhor das tecnologias da Microsoft para treinamento acelerado (por exemplo, Onnx Runtime Training (ORT), DeepSpeed, MSCCL etc.).

Há suporte para as seguintes configurações:

Nome do ambiente Sistema operacional Versão da GPU Versão do Python Versão do PyTorch Versão de treinamento de ORT Versão DeepSpeed Versão do Torch-Ort Versão Nebula
acpt-pytorch-2.2-cuda12.1 Ubuntu 20.04 cu121 3.10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.1-cuda12.1 Ubuntu 20.04 cu121 3.10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-2.0-cuda11.7 Ubuntu 20.04 cu117 3.10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
acpt-pytorch-1.13-cuda11.7 Ubuntu 20.04 cu117 3.10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

Outros pacotes como fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision e torchmetrics são fornecidos para atender a todas as necessidades de treinamento.

Para saber mais, confira Criar ambientes de ACPT com curadoria personalizados.

Suporte

As atualizações de versão para ambientes com suporte incluindo as imagens de base às quais fazem referência, são lançadas a cada duas semanas para resolver vulnerabilidades com até 30 dias. Com base no uso, alguns ambientes podem ser preterido (ocultos do produto, mas acessível) para dar suporte a cenários mais comuns de aprendizado de máquina.