Databricks Runtime para Machine Learning
Este artigo descreve o Databricks Runtime for Machine Learning e fornece orientação sobre como criar um cluster que o usa.
O que é Databricks Runtime for Machine Learning?
O Databricks Runtime for Machine Learning (Databricks Runtime ML) automatiza a criação de um cluster com infraestrutura pré-construída de aprendizado de máquina e aprendizado profundo, incluindo as bibliotecas de ML e DL mais comuns.
Bibliotecas incluídas no Databricks Runtime ML
O Databricks Runtime ML inclui uma variedade de bibliotecas de ML populares. As bibliotecas são atualizadas a cada versão para incluir novos recursos e correções.
O Databricks designou um subconjunto das bibliotecas suportadas como bibliotecas de camada superior. Para estas bibliotecas, o Databricks fornece uma cadência update mais rápida, atualizando para as versões mais recentes dos pacotes com cada lançamento do runtime (evitando conflitos de dependência). O Databricks também fornece suporte avançado, testes e otimizações incorporadas para bibliotecas de nível superior. As principais bibliotecas são adicionadas ou removidas apenas nas versões principais.
Para obter uma list completa das bibliotecas de camada superior e outras bibliotecas fornecidas, consulte as notas de versão para o Databricks Runtime ML.
Você pode instalar bibliotecas adicionais para criar um ambiente personalizado para seu bloco de anotações ou cluster.
- Para disponibilizar uma biblioteca para todos os blocos de anotações em execução em um cluster, crie uma biblioteca de cluster. Você também pode usar um script init para instalar bibliotecas em clusters durante a criação.
- Para instalar uma biblioteca que está disponível apenas para uma sessão específica do bloco de anotações, use bibliotecas Python com escopo de bloco de anotações.
Set recursos de computação para o Databricks Runtime ML
O processo de criação de recursos de computação com base no Databricks Runtime ML depende de o seu espaço de trabalho estar habilitado para a visualização pública do cluster de grupo dedicado ou não esteja. Os espaços de trabalho habilitados para a visualização têm uma nova interface do usuário de computação simplificada.
Criar um cluster usando o Databricks Runtime ML
Ao criar um cluster,
Se selecionar select um cluster no menu suspenso do bloco de anotações, a versão do Databricks Runtime aparecerá à direita do nome do cluster.
Se você select um tempo de execução de ML habilitado para GPU, será solicitado a select um tipo de driver de compatível e tipo de trabalhador. Os tipos de instância incompatíveis ficam acinzentados no menu suspenso. Os tipos de instância habilitados para GPU estão listados sob o rótulo acelerado por GPU. Para obter informações sobre como criar clusters de GPU do Azure Databricks, consulte Computação habilitada para GPU. O Databricks Runtime ML inclui controladores de hardware de GPU e bibliotecas da NVIDIA, como a CUDA.
Criar um novo cluster com a nova interface do usuário de computação simplificada
Use as etapas nesta seção somente se seu espaço de trabalho estiver habilitado para a visualização do cluster de grupo dedicado.
Para usar a versão de aprendizado de máquina do Databricks Runtime, select a caixa de seleção de aprendizado de máquina.
Para computação baseada em GPU, utilize um tipo de instância select habilitado para GPU. Para obter a list completa dos tipos de GPU suportados, consulte Tipos de instância suportados.
ML de tempo de execução de Photon e Databricks
Ao criar um cluster de CPU executando o Databricks Runtime 15.2 ML ou superior, você pode optar por habilitar o Photon. Photon melhora o desempenho para aplicativos que usam Spark SQL, Spark DataFrames, engenharia de recursos, GraphFrames e xgboost4j. Não se espera que melhore o desempenho em aplicativos que usam RDDs Spark, UDFs Pandas e linguagens não-JVM, como Python. Assim, pacotes Python como XGBoost, PyTorch e TensorFlow não verão uma melhoria com o Photon.
As APIs do Spark RDD e o Spark MLlib têm compatibilidade limitada com o Photon. Ao processar grandes conjuntos de dados usando o Spark RDD ou o Spark MLlib, você pode enfrentar problemas de memória do Spark. Consulte Problemas de memória do Spark.
Modo de acesso para clusters Databricks Runtime ML
Para acessar dados no Unity Catalog em um cluster que executa o Databricks Runtime ML, siga um destes procedimentos:
- Set o cluster usando modo de acesso único para utilizador.
- Set o cluster usando modo de acesso dedicado. O modo de acesso dedicado está atualmente em Pré-visualização Pública. O modo de acesso dedicado fornece os recursos do modo de acesso compartilhado no Databricks Runtime ML.
Quando um recurso de computação tem acesso dedicado, o recurso pode ser atribuído a um único usuário ou grupo. Quando atribuídas a um grupo (um cluster de grupo), as permissões do usuário reduzem automaticamente o escopo para as permissões do grupo, permitindo que o usuário compartilhe o recurso com segurança com outros membros do grupo.
Ao usar o modo de acesso de usuário único, os seguintes recursos só estão disponíveis no Databricks Runtime 15.4 LTS ML e superior: