AutoML Python API を使用して回帰モデルをトレーニングする

この記事では、AutoML Python API を使用して AutoML を使用してモデルをトレーニングする方法について説明します。詳細については、「 AutoML Python API リファレンスを参照してください。

この API には、AutoML で実行される分類、回帰、予測を開始する関数が用意されています。各関数コールによって、一連のモデルがトレーニングされ、各モデルの試用版ノートブックが生成されます。

AutoML 実験の「要件」を参照してください。

AutoML API を使用して実験をセットアップする

次の手順では、API を使用して AutoML 実験を設定する一般的な方法について説明します。

ノートブックを作成し、Databricks Runtime ML を実行しているクラスターにアタッチします。
既存のデータソースから使用するテーブルを特定するか、データファイルを DBFS にアップロードしてテーブルを作成します。
AutoML の実行を開始するには、 automl.regress()、 automl.classify()、または automl.forecast() 関数を使用し、他のトレーニングパラメーターと共にテーブルを渡します。すべての関数とパラメーターについては、 AutoML Python API リファレンスを参照してください。

Note

automl.forecast()関数は、クラシックコンピューティングでのforecasting でのみ使用できます。

次に例を示します。
```
# Regression example
summary = automl.regress(dataset=train_pdf, target_col="col_to_predict")

# Classification example
summary = automl.classification(dataset=train_pdf, target_col="col_to_predict")

# Forecasting example
summary = automl.forecast(dataset=train_pdf, target_col="col_to_predic", time_col="date_col", horizon=horizon, frequency="d", output_database="default")
```
AutoML の実行が始まると、コンソールに MLflow 実験の URL が表示されます。この URL を使用して、実行の進行状況を監視します。 MLflow 実験を更新して、完了した試用版を確認します。
AutoML の実行が完了した後、次の操作を実行できます。

[出力の概要] のリンクを使用して、MLflow 実験に移動するか、最適な結果の生成に使用されたノートブックに移動します。
データ探索ノートブックへのリンクを使用して、AutoML に渡されたデータに関する分析情報を取得します。また、このノートブックを同じクラスターにアタッチし、それを再実行して結果を再現する、または追加のデータ分析を行えます。
AutoML コールから返された概要オブジェクトを使用して、試用版に関する詳細を確認したり、特定の試用版でトレーニングされたモデルを読み込んだりします。詳細については、AutoMLSummary オブジェクトに関するセクションを参照してください。
生成されたノートブックを試用版から複製し、同じクラスターにアタッチしてそれを再実行し、結果を再現します。また、必要な編集を行い、再実行して追加のモデルをトレーニングし、同じ実験にそれらのログを記録できます。

MLflow 成果物として保存されたノートブックをインポートするには、databricks.automl.import_notebook Python API を使います。詳細については、「ノートブックをインポートする」を参照してください。

MLflow モデルレジストリに登録されているモデルと同様に、AutoML トレーニング済みモデルを登録してデプロイできます。MLflow モデルログ記録、読み込み、登録を参照してください。

AutoML とモデルサービングを使用してビルドされたモデルを提供すると、エラー No module named pandas.core.indexes.numeric が表示されることがあります。

これは、AutoML とモデルサービングのエンドポイント環境との間の互換性のない pandas バージョンが原因です。このエラーを解決するには:

add-pandas-dependency.py スクリプトをダウンロード。このスクリプトは、ログに記録されたモデルの requirements.txt と conda.yaml を編集して、適切な pandas 依存関係バージョン pandas==1.5.3 を含めます。
スクリプトを変更して、モデルがログに記録された MLflow 実行の run_id を含めます。
モデルを MLflow モデルレジストリに再登録します。
MLflow モデルの新しいバージョンをサービングしてみてください。

次のノートブックでは、AutoML で回帰を処理する方法を示しています。