Ajuste de hiperparâmetro
Bibliotecas Python como Optuna, Ray Tune e Hyperopt simplificam e automatizam o ajuste de hiperparâmetros para encontrar com eficiência um conjunto ideal de hiperparâmetros para modelos de machine learning. Essas bibliotecas são escaladas em vários cálculos para localizar rapidamente hiperparâmetros com requisitos mínimos de orquestração e configuração manuais.
Optuna
O Optuna é uma estrutura leve que facilita a definição de um espaço de pesquisa dinâmico para ajuste de hiperparâmetros e seleção de modelos. O Optuna inclui alguns dos algoritmos de otimização e aprendizado de máquina mais recentes.
O Optuna pode ser facilmente paralelizado com o Joblib para escalar cargas de trabalho e integrar-se ao Mlflow para acompanhar hiperparâmetros e métricas entre avaliações.
Para começar a usar o Optuna, consulte Ajuste de hiperparâmetros com o Optuna.
Ray Tune
O Databricks Runtime ML inclui o Ray, uma estrutura de software livre usada para processamento de computação paralela. O Ray Tune é uma biblioteca de ajuste de hiperparâmetros que vem com o Ray e usa o Ray como um back-end para computação distribuída.
Para obter detalhes sobre como executar o Ray no Databricks, consulte O que é o Ray no Azure Databricks?. Para obter exemplos do Ray Tune, consulte a Documentação do Ray Tune.
Hyperopt
Observação
A versão de código aberto do Hyperopt não está mais sendo mantida.
O Hyperopt será removido na próxima versão principal do DBR ML. O Azure Databricks recomenda usar o Optuna para uma experiência semelhante e acesso a algoritmos de ajuste de hiperparâmetros mais atualizados.
O Hyperopt é uma biblioteca Python usada para ajuste distribuído de hiperparâmetros e seleção de modelos. O Hyperopt funciona com algoritmos de ML distribuídos, como o Apache Spark MLlib e o Horovod, bem como com modelos de ML de computador individual, como o Scikit-learn e o TensorFlow.
Para começar a usar o Hyperopt, consulte Usar algoritmos de treinamento distribuídos com o Hyperopt.
Acompanhamento automatizado do MLflow pelo MLlib
Observação
O rastreamento automatizado de MLflow do MLlib está obsoleto e desabilitado por padrão em clusters que executam o Databricks Runtime 10.4 LTS ML e superior.
Em seu lugar, use o registro em log automático PySpark ML do MLflowchamando mlflow.pyspark.ml.autolog()
, habilitado por padrão com o Databricks Autologging.
Com o acompanhamento automatizado do MLflow do MLlib, quando você executa o código de ajuste que usa CrossValidator ou TrainValidationSplit, hiperparâmetros e métricas de avaliação são automaticamente registrados no MLflow.