Databricks Runtime para Machine Learning
O Databricks Runtime para Machine Learning (Databricks Runtime ML) automatiza a criação de um cluster com aprendizado de máquina pré-criado e infraestrutura de aprendizado profundo, incluindo as bibliotecas de ML e DL mais comuns. Para obter a lista completa de bibliotecas em cada versão do Databricks Runtime ML, confira as notas sobre a versão.
Observação
Para acessar dados no Catálogo do Unity para fluxos de trabalho de aprendizado de máquina, o modo de acesso para o cluster deve ser um único usuário (atribuído). Clusters compartilhados não são compatíveis com o Databricks Runtime para Machine Learning. Além disso, o Databricks Runtime ML não tem suporte em clusters tableACLs ou clusters com spark.databricks.pyspark.enableProcessIsolation config
definido como true
.
Criar um cluster usando o Databricks Runtime ML
Quando você criar um cluster, selecione uma versão do Databricks Runtime ML no menu suspenso Versão do Databricks Runtime. Estão disponíveis runtimes de ML habilitados para CPU e GPU.
Se você selecionar um cluster no menu suspenso no notebook, a versão do Databricks Runtime aparecerá à direita do nome do cluster:
Se você selecionar um runtime de ML habilitado para GPU, será solicitado que selecione um Tipo de Driver e um Tipo de Trabalho compatíveis. Os tipos de instância incompatíveis ficam esmaecidos no menu suspenso. Os tipos de instância habilitados para GPU estão listados no rótulo Acelerada por GPU. Para obter informações sobre como criar clusters de GPU do Azure Databricks, consulte Computação habilitada para GPU. O Databricks Runtime ML inclui drivers de hardware de GPU e bibliotecas NVIDIA, como o CUDA.
ML do Photon e do Databricks Runtime
Ao criar um cluster de CPU executando o Databricks Runtime 15.2 ML ou superior, você pode optar por habilitar o Photon. O Photon melhora o desempenho de aplicativos usando Spark SQL, Spark DataFrames, engenharia de recursos, GraphFrames e xgboost4j. Não se espera que ele melhore o desempenho em aplicativos usando RDDs do Spark, UDFs do Pandas e linguagens não JVM, como Python. Assim, pacotes Python como XGBoost, PyTorch e TensorFlow não verão uma melhoria com o Photon.
As APIs do Spark RDD e do Spark MLlib têm compatibilidade limitada com o Photon. Ao processar grandes conjuntos de dados usando o Spark RDD ou o Spark MLlib, você pode enfrentar problemas de memória do Spark. Veja Problemas de memória Spark.
Bibliotecas incluídas no Databricks Runtime para ML
O Databricks Runtime ML inclui uma variedade de bibliotecas de ML populares. As bibliotecas são atualizadas a cada versão para incluir novos recursos e correções.
O Databricks designou um subconjunto das bibliotecas com suporte como bibliotecas de camada superior. Para essas bibliotecas, o Databricks fornece uma cadência de atualização mais rápida, atualizando para as versões mais recentes do pacote com cada versão de runtime (exceto conflitos de dependência). O Databricks também fornece suporte avançado, testes e otimizações inseridas para bibliotecas de camada superior.
Para obter uma lista completa de bibliotecas de nível superior e outras fornecidas, consulte as notas de versão do Databricks Runtime ML.
Você pode instalar bibliotecas adicionais para criar um ambiente personalizado para seu notebook ou cluster.
- Para disponibilizar uma biblioteca para todos os notebooks em execução em um cluster, crie uma biblioteca de clusters. Use também um script de inicialização para instalar bibliotecas em clusters após a criação.
- Para instalar uma biblioteca que fica disponível apenas para uma sessão específica de notebook, use bibliotecas do Python no escopo do notebook.