Partilhar via


Contêiner do Azure para PyTorch (ACPT)

O Azure Container for PyTorch é um ambiente leve e autônomo que inclui os componentes necessários para executar efetivamente o treinamento otimizado para modelos grandes no Azure Machine Learning. Os ambientes com curadoria do Azure Machine Learning estão disponíveis no espaço de trabalho do usuário por padrão e são apoiados por imagens do Docker armazenadas em cache que usam a versão mais recente do SDK do Azure Machine Learning. Ajuda a reduzir os custos de preparação e a acelerar o tempo de implantação. A ACPT pode ser usada para começar rapidamente com várias tarefas de aprendizado profundo com o PyTorch no Azure.

Nota

Use o Python SDK, CLI ou estúdio do Azure Machine Learning para obter a lista completa de ambientes e suas dependências. Para obter mais informações, consulte o artigo ambientes.

Por que devo usar ACPT?

  • Flexibilidade: use como está com pacotes pré-instalados ou construa sobre o ambiente selecionado.
  • Facilidade de uso: Todos os componentes são instalados e validados em relação a dezenas de cargas de trabalho da Microsoft para reduzir os custos de configuração e acelerar o tempo de valorização.
  • Eficiência: Evite compilações de imagem desnecessárias e tenha apenas dependências necessárias que estejam acessíveis diretamente na imagem/contêiner.
  • Estrutura de treinamento otimizada: configure, desenvolva e acelere modelos PyTorch em grandes cargas de trabalho e melhore a taxa de sucesso de treinamento e implantação.
  • Pilha atualizada: Acesse as últimas versões compatíveis do Ubuntu, Python, PyTorch, CUDA / RocM, etc.
  • Últimas tecnologias de otimização de treinamento: Faça uso do ONNX Runtime, DeepSpeed, MSCCL e muito mais.
  • Integração com o Azure Machine Learning: acompanhe suas experiências do PyTorch no estúdio do Azure Machine Learning ou usando o SDK. O suporte ao cliente do Azure também reduz a latência de treinamento e implantação.
  • Disponibilidade como DSVM: A imagem também está disponível como uma Máquina Virtual de Ciência de Dados (DSVM). Para saber mais sobre Máquinas Virtuais de Ciência de Dados, consulte a documentação de visão geral da DSVM.

Importante

Para exibir mais informações sobre pacotes e versões de ambiente com curadoria, visite a guia Ambientes no estúdio do Azure Machine Learning.

Configurações suportadas para o Contêiner do Azure para PyTorch (ACPT)

Descrição: O Ambiente com Curadoria do Azure para PyTorch é o nosso mais recente ambiente com curadoria PyTorch. Ele é otimizado para cargas de trabalho de aprendizagem profunda grandes e distribuídas e vem pré-embalado com as melhores tecnologias da Microsoft para treinamento acelerado (por exemplo, Onnx Runtime Training (ORT), DeepSpeed, MSCCL, etc.).

As configurações a seguir são suportadas:

Nome de Ambiente SO Versão GPU Versão de Python Versão PyTorch Versão de treinamento ORT Versão DeepSpeed versão torch-ort Versão Nebulosa
ACPT-pytorch-2.2-CUDA12.1 Ubuntu 20.04 CU121 3,10 2.2.2 1.17.3 0.13.1 1.17.3 0.16.11
ACPT-pytorch-2.1-CUDA12.1 Ubuntu 20.04 CU121 3,10 2.1.2 1.17.3 0.13.1 1.17.3 0.16.11
ACPT-pytorch-2.0-CUDA11.7 Ubuntu 20.04 CU117 3,10 2.0.1 1.17.3 0.13.1 1.17.3 0.16.11
ACPT-pytorch-1.13-CUDA11.7 Ubuntu 20.04 CU117 3,10 1.13.1 1.17.3 0.13.1 1.17.3 0.16.11

Outros pacotes como fairscale, horovod, msccl, protobuf, pyspark, pytest, pytorch-lightning, tensorboard, NebulaML, torchvision e torchmetrics são fornecidos para suportar todas as necessidades de treinamento.

Para saber mais, consulte Criar ambientes personalizados com curadoria ACPT.

Suporte

As atualizações de versão para ambientes suportados, incluindo as imagens base a que fazem referência, são lançadas a cada duas semanas para resolver vulnerabilidades com um máximo de 30 dias. Com base no uso, alguns ambientes podem ser preteridos (ocultos do produto, mas utilizáveis) para oferecer suporte a cenários de aprendizado de máquina mais comuns.