ハイパーパラメーターの調整
Optuna、Ray Tune、Hyperopt などの Python ライブラリを使用すると、ハイパーパラメーターのチューニングが簡素化および自動化され、機械学習モデルに最適なハイパーパラメーター セットが効率的に見つかります。 これらのライブラリは複数のコンピューティングにまたがってスケーリングされ、手動によるオーケストレーションと構成の要件が最小限で済み、ハイパーパラメーターをすばやく見つけることができます。
Optuna
Optuna は、ハイパーパラメーターのチューニングとモデルの選択のための動的な検索スペースを簡単に定義できるようにする、軽量のフレームワークです。 Optuna には、最新の最適化と機械学習のアルゴリズムがいくつか含まれています。
Optuna では簡単に、Joblib と並列化してワークロードをスケーリングし、Mlflow と統合して複数の試用にわたってハイパーパラメーターとメトリックを追跡できます。
Optuna の使用を開始するには、「Optuna を使用したハイパーパラメーターのチューニング」を参照してください。
Ray Tune
Databricks Runtime ML には、並列コンピューティング処理に使用されるオープンソース フレームワークである Ray が含まれています。 Ray Tune は、Ray に付属するハイパーパラメーター チューニング ライブラリであり、Ray を分散コンピューティングのバックエンドとして使用します。
Databricks で Ray を実行する方法の詳細については、「Azure Databricks における Ray とは」を参照してください。 Ray Tune の例については、Ray Tune のドキュメントを参照してください。
Hyperopt
Note
Hyperopt のオープンソース バージョンはメンテナンスされなくなりました。
Hyperopt は、次のメジャー DBR ML バージョンで削除されます。 Azure Databricks では、 Optuna を使用して、同様のエクスペリエンスを実現し、より最新のハイパーパラメーター 調整アルゴリズムにアクセスすることをお勧めします。
Hyperopt は、分散型のハイパーパラメーター チューニングとモデルの選択に使用される Python ライブラリです。 Hyperopt は、Apache Spark MLlib や Horovod などの分散型 ML アルゴリズムだけでなく、scikit-learn や TensorFlow などのシングルマシン ML モデルにも対応しています。
Hyperopt の使用を開始するには、「Hyperopt による分散トレーニングのアルゴリズムを使用する」を参照してください。
MLlib 自動 MLflow 追跡
Note
MLlib 自動 MLflow 追跡は、Databricks Runtime 10.4 LTS ML 以降を実行するクラスターでは非推奨となり、無効になります。
代わりに、mlflow.pyspark.ml.autolog()
を呼び出して MLflow PySpark ML 自動ログ記録を使用します。これは、Databricks Autologging では既定で有効になっています。
MLlib 自動 MLflow 追跡を使用すると、CrossValidator または TrainValidationSplit を使用するチューニング コードを実行するときに、 ハイパーパラメーターと評価のメトリックが MLflow に自動的にログされます。