Partilhar via


Computação habilitada para GPU

Nota

Alguns tipos de instância habilitados para GPU estão em Beta e são marcados como tal na lista suspensa quando você seleciona os tipos de driver e trabalho durante a criação da computação.

Descrição geral

O Azure Databricks dá suporte à computação acelerada com unidades de processamento gráfico (GPUs). Este artigo descreve como criar computação com instâncias habilitadas para GPU e descreve os drivers e bibliotecas de GPU instalados nessas instâncias.

Para saber mais sobre o deep learning em computação habilitada para GPU, consulte Deep learning.

Criar uma computação de GPU

Criar uma computação GPU é semelhante a criar qualquer computação. Você deve ter em mente o seguinte:

  • A versão de tempo de execução do Databricks deve ser uma versão habilitada para GPU, como Runtime 13.3 LTS ML (GPU, Scala 2.12.15, Spark 3.4.1).
  • O Tipo de Trabalho e o Tipo de Driver devem ser tipos de instância de GPU.

Tipos de instância suportados

O Azure Databricks dá suporte aos seguintes tipos de instância:

  • Série de tipos de instância NC: Standard_NC12, Standard_NC24
  • Série de tipos de instância NC v3: Standard_NC6s_v3, Standard_NC12s_v3 Standard_NC24s_v3
  • Série de tipos de instância NC T4 v3: Standard_NC4as_T4_v3, Standard_NC8as_T4_v3, Standard_NC16as_T4_v3 Standard_NC64as_T4_v3
  • Série de tipos de instância NC A100 v4: Standard_NC24ads_A100_v4, Standard_NC48ads_A100_v4 Standard_NC96ads_A100_v4
  • Série de tipos de instância NCads H100 v5: Standard_NC40ads_H100_v5, Standard_NC80adis_H100_v5
  • Série de tipos de instância ND A100 v4: Standard_ND96asr_v4
  • Série de tipos de instância NV A10 v5: Standard_NV36ads_A10_v5, Standard_NV36adms_A10_v5 Standard_NV72ads_A10_v5

Consulte Preços do Azure Databricks para obter uma lista atualizada dos tipos de instância de GPU suportados e suas regiões de disponibilidade. Sua implantação do Azure Databricks deve residir em uma região com suporte para iniciar a computação habilitada para GPU.

Agendamento de GPU

O agendamento de GPU distribui tarefas do Spark de forma eficiente em um grande número de GPUs.

O Databricks Runtime suporta agendamento com reconhecimento de GPU a partir do Apache Spark 3.0. O Azure Databricks pré-configura na computação da GPU.

Nota

O agendamento de GPU não está habilitado na computação de nó único.

O agendamento de GPU definido pelo usuário só está disponível para o Databricks Runtime 7.1 e superior. Para versões anteriores do Databricks Runtime, o Databricks configura automaticamente a computação da GPU para que haja no máximo uma tarefa em execução por nó. Dessa forma, a tarefa pode usar todas as GPUs no nó sem entrar em conflitos com outras tarefas.

Agendamento de GPU para IA e ML

spark.task.resource.gpu.amount é a única configuração do Spark relacionada ao agendamento com reconhecimento de GPU que você pode precisar configurar. A configuração padrão usa uma GPU por tarefa, o que é uma boa linha de base para cargas de trabalho de inferência distribuída e treinamento distribuído se você usar todos os nós da GPU.

Para reduzir a sobrecarga de comunicação durante o treinamento distribuído, o Databricks recomenda definir spark.task.resource.gpu.amount o número de GPUs por nó de trabalho na configuração do Spark de computação. Isso cria apenas uma tarefa do Spark para cada trabalhador do Spark e atribui todas as GPUs nesse nó de trabalho à mesma tarefa.

Para aumentar a paralelização para inferência de aprendizagem profunda distribuída, você pode definir spark.task.resource.gpu.amount valores fracionários como 1/2, 1/3, 1/4, ... 1/N. Isso cria mais tarefas do Spark do que GPUs, permitindo que mais tarefas simultâneas lidem com solicitações de inferência em paralelo. Por exemplo, se você definir spark.task.resource.gpu.amount como 0.5, 0.33ou 0.25, as GPUs disponíveis serão divididas entre o número duplo, triplo ou quádruplo do número de tarefas.

Índices de GPU

Para tarefas do PySpark, o Azure Databricks remapeia automaticamente a(s) GPU(s) atribuída(s) para índices baseados em zero. Para a configuração padrão que usa uma GPU por tarefa, você pode usar a GPU padrão sem verificar qual GPU está atribuída à tarefa. Se você definir várias GPUs por tarefa, por exemplo, 4, os índices das GPUs atribuídas serão sempre 0, 1, 2 e 3. Se você precisar dos índices físicos das GPUs atribuídas, poderá obtê-los da CUDA_VISIBLE_DEVICES variável de ambiente.

Se você usar o Scala, poderá obter os índices das GPUs atribuídas à tarefa em TaskContext.resources().get("gpu").

Driver de GPU NVIDIA, CUDA e cuDNN

O Azure Databricks instala o driver NVIDIA e as bibliotecas necessárias para usar GPUs em instâncias de trabalho e driver do Spark:

  • CUDA Toolkit, instalado em /usr/local/cuda.
  • cuDNN: Biblioteca de Redes Neurais Profundas NVIDIA CUDA.
  • NCCL: Biblioteca de Comunicações Coletivas NVIDIA.

A versão do driver NVIDIA incluído é 535.54.03, que suporta CUDA 11.0. Para a série de tipos de instância NV A10 v5, a versão do driver NVIDIA incluída é 535.154.05.

Para obter as versões das bibliotecas incluídas, consulte as notas de versão da versão específica do Databricks Runtime que você está usando.

Nota

Este software contém o código fonte fornecido pela NVIDIA Corporation. Especificamente, para dar suporte a GPUs, o Azure Databricks inclui código de Exemplos CUDA.

Contrato de Licença de Usuário Final (EULA) da NVIDIA

Ao selecionar uma "Versão de Tempo de Execução do Databricks" habilitada para GPU no Azure Databricks, você concorda implicitamente com os termos e condições descritos no EULA da NVIDIA em relação às bibliotecas CUDA, cuDNN e Tesla e com o Contrato de Licença de Usuário Final da NVIDIA (com Suplemento NCCL) para a biblioteca NCCL.

Serviços de contêiner Databricks na computação de GPU

Importante

Esta funcionalidade está em Pré-visualização Pública.

Você pode usar o Databricks Container Services na computação com GPUs para criar ambientes portáteis de aprendizado profundo com bibliotecas personalizadas. Consulte Personalizar contêineres com o Databricks Container Service para obter instruções.

Para criar imagens personalizadas para computação de GPU, você deve selecionar uma versão de tempo de execução padrão em vez de Databricks Runtime ML para GPU. Ao selecionar Usar seu próprio contêiner do Docker, você pode escolher computação de GPU com uma versão de tempo de execução padrão. As imagens personalizadas para GPU são baseadas nos contêineres CUDA oficiais, que é diferente do Databricks Runtime ML para GPU.

Quando você cria imagens personalizadas para computação de GPU, não é possível alterar a versão do driver NVIDIA porque ela deve corresponder à versão do driver na máquina host.

O databricksruntime Docker Hub contém imagens base de exemplo com capacidade de GPU. Os Dockerfiles usados para gerar essas imagens estão localizados no repositório GitHub de contêineres de exemplo, que também tem detalhes sobre o que as imagens de exemplo fornecem e como personalizá-las.