automl パッケージ
Azure Machine Learning SDKv2 用の自動機械学習クラスが含まれています。
主な領域は、AutoML タスクの管理です。
クラス
ClassificationJob |
AutoML 分類ジョブの構成。 新しい AutoML 分類タスクを初期化します。 |
ColumnTransformer |
列トランスフォーマーの設定。 |
ForecastingJob |
AutoML 予測タスクの構成。 新しい AutoML 予測タスクを初期化します。 |
ForecastingSettings |
AutoML ジョブの予測設定。 |
ImageClassificationJob |
AutoML 複数クラスの画像分類ジョブの構成。 新しい AutoML マルチクラスイメージ分類ジョブを初期化します。 |
ImageClassificationMultilabelJob |
AutoML マルチラベル画像分類ジョブの構成。 新しい AutoML マルチラベル画像分類ジョブを初期化します。 |
ImageClassificationSearchSpace |
AutoML 画像分類タスクと画像分類マルチラベル タスクの検索スペース。 |
ImageInstanceSegmentationJob |
AutoML Image Instance のセグメント化ジョブの構成。 新しい AutoML イメージ インスタンスのセグメント化ジョブを初期化します。 |
ImageLimitSettings |
AutoML Image Verticals の設定を制限します。 ImageLimitSettings は、max_concurrent_trials、max_trials、timeout_minutesの各パラメーターを含むクラスです。 これは、タイムアウトなどの制限パラメーターを構成するためのオプションの構成方法です。 Note 並列実行の数は、指定された計算ターゲットで使用できるリソースに基づいて制御されます。 目的の同時実行可能性のために、使用可能なリソースをコンピューティング先に確保する必要があります。 ヒント max_concurrent_trials数とクラスター内のノード数を照合することをお勧めします。 たとえば、4 つのノードを持つクラスターがある場合は、max_concurrent_trials を 4 に設定します。 使用例 ImageLimitSettings の構成
ImageLimitSettings オブジェクトを初期化します。 AutoML Image Verticals の ImageLimitSettings のコンストラクター。 |
ImageModelSettingsClassification |
AutoML 画像分類タスクのモデル設定。 |
ImageModelSettingsObjectDetection |
AutoML 画像オブジェクト検出タスクのモデル設定。 |
ImageObjectDetectionJob |
AutoML Image Object Detection ジョブの構成。 新しい AutoML イメージ オブジェクト検出ジョブを初期化します。 |
ImageObjectDetectionSearchSpace |
AutoML Image Object Detection タスクと Image Instance セグメンテーション タスクの検索スペース。 |
ImageSweepSettings |
すべての AutoML Image Verticals のスイープ設定。 |
NlpFeaturizationSettings |
すべての AutoML NLP Verticals の特徴付け設定。 |
NlpFixedParameters |
NLP ジョブの固定パラメーターを格納する オブジェクト。 |
NlpLimitSettings |
すべての AutoML NLP Verticals の設定を制限します。 |
NlpSearchSpace |
AutoML NLP タスクの検索スペース。 |
NlpSweepSettings |
すべての AutoML NLP タスクのスイープ設定。 |
RegressionJob |
AutoML 回帰ジョブの構成。 新しい AutoML 回帰タスクを初期化します。 |
SearchSpace |
AutoML バーティカルの SearchSpace クラス。 |
StackEnsembleSettings |
StackEnsemble の実行をカスタマイズするための事前設定。 |
TabularFeaturizationSettings |
AutoML ジョブの特徴付け設定。 |
TabularLimitSettings |
AutoML テーブルのバーティカルの設定を制限します。 |
TextClassificationJob |
AutoML テキスト分類ジョブの構成。 新しい AutoML テキスト分類タスクを初期化します。 |
TextClassificationMultilabelJob |
AutoML テキスト分類マルチラベル ジョブの構成。 新しい AutoML テキスト分類 Multilabel タスクを初期化します。 |
TextNerJob |
AutoML Text NER ジョブの構成。 新しい AutoML テキスト NER タスクを初期化します。 |
TrainingSettings |
Azure Machine Learning の TrainingSettings クラス。 Azure Machine Learning の TrainingSettings クラス。 |
列挙型
BlockedTransformers |
AutoML でサポートされているすべての分類モデルの列挙型。 |
ClassificationModels |
AutoML でサポートされているすべての分類モデルの列挙型。 |
ClassificationMultilabelPrimaryMetrics |
分類マルチラベル タスクの主要なメトリック。 |
ClassificationPrimaryMetrics |
分類タスクの主要なメトリック。 |
FeaturizationMode |
特徴付けモード - データ特徴付けモードを決定します。 |
ForecastHorizonMode |
予測期間の選択モードを決定する列挙型。 |
ForecastingModels |
AutoML でサポートされているすべての予測モデルの列挙型。 |
ForecastingPrimaryMetrics |
予測タスクの主要なメトリック。 |
InstanceSegmentationPrimaryMetrics |
InstanceSegmentation タスクのプライマリ メトリック。 |
LearningRateScheduler |
学習率スケジューラ列挙型。 |
LogTrainingMetrics |
Azure Machine Learning SDKv2 用の自動機械学習クラスが含まれています。 主な領域は、AutoML タスクの管理です。 |
LogValidationLoss |
Azure Machine Learning SDKv2 用の自動機械学習クラスが含まれています。 主な領域は、AutoML タスクの管理です。 |
NCrossValidationsMode |
N-Cross 検証値の決定方法を決定します。 |
ObjectDetectionPrimaryMetrics |
Image ObjectDetection タスクのプライマリ メトリック。 |
RegressionModels |
AutoML でサポートされているすべての回帰モデルの列挙型。 |
RegressionPrimaryMetrics |
回帰タスクの主なメトリック。 |
SamplingAlgorithmType |
Azure Machine Learning SDKv2 用の自動機械学習クラスが含まれています。 主な領域は、AutoML タスクの管理です。 |
ShortSeriesHandlingConfiguration |
AutoML で短い時系列を処理する方法を定義するパラメーター。 |
StochasticOptimizer |
画像モデルの確率オプティマイザー。 |
TargetAggregationFunction |
ターゲット集計関数。 |
TargetLagsMode |
ターゲットラグ選択モード。 |
TargetRollingWindowSizeMode |
ローリング ウィンドウ サイズ モードをターゲットにします。 |
UseStl |
時系列ターゲット列の STL 分解を構成します。 |
ValidationMetricType |
画像タスクの検証メトリックに使用するメトリック計算方法。 |
機能
classification
ClassificationJob を作成する関数。
分類ジョブは、データ サンプルのクラスを最適に予測するモデルをトレーニングするために使用されます。 トレーニング データを使用して、さまざまなモデルがトレーニングされます。 プライマリ メトリックに基づく検証データに対して最適なパフォーマンスを持つモデルが、最終的なモデルとして選択されます。
classification(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> ClassificationJob
パラメーター
- training_data
- Input
実験内で使用するトレーニング データ。 トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。
- target_column_name
- str
ラベル列の名前。
このパラメーターは、、および test_data
パラメーターにtraining_data
validation_data
適用できます
- primary_metric
モデルの選択のために、自動機械学習によって最適化されるメトリック。 自動機械学習によって、最適化できるよりも多くのメトリックが収集されます。 メトリックの計算方法の詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric を参照してください。
許容される値: 精度、AUC_weighted、norm_macro_recall、average_precision_score_weighted、precision_score_weighted精度の既定値
- enable_model_explainability
- bool
すべての AutoML トレーニング反復の最後に、最適な AutoML モデルを説明できるかどうか。 既定値は None です。 詳細については、「解釈可能性: 自動 ML でのモデル説明」を参照してください。
- weight_column_name
- str
サンプルの重み列の名前。 自動 ML では、入力として重み付け列がサポートされているため、データ内の行が重み付けされます。 入力データが列名を持たない pandas.DataFrame の場合、代わりに列のインデックスを使用して、整数で表すことができます。
このパラメーターは、 パラメーターと validation_data
パラメーターにtraining_data
適用できます
- validation_data
- Input
実験内で使用する検証データ。 トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。
既定値は None です
- validation_data_size
- float
ユーザー検証データを指定しない場合に、検証用に保持するデータの割合。 これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
検証データを提供するには validation_data
を指定します。それ以外の場合は、n_cross_validations
または validation_data_size
を設定して、指定したトレーニング データから検証データを抽出します。
カスタムのクロス検証フォールドの場合は、cv_split_column_names
を使用します。
詳細については、自動機械学習のデータ分割とクロス検証の構成に関する記事をご覧ください。
既定値は None です
ユーザー検証データが指定されていない場合に実行するクロス検証の数。
検証データを提供するには validation_data
を指定します。それ以外の場合は、n_cross_validations
または validation_data_size
を設定して、指定したトレーニング データから検証データを抽出します。
カスタムのクロス検証フォールドの場合は、cv_split_column_names
を使用します。
詳細については、自動機械学習のデータ分割とクロス検証の構成に関する記事をご覧ください。
既定値は None です
カスタムのクロス検証分割が含まれる列の名前のリスト。 各 CV 分割列が 1 つの CV 分割を表します。このとき、各行は、トレーニングに 1、検証に 0 がマークされます。
既定値は None です
- test_data
- Input
テスト データセットまたはテスト データ分割を使用するモデル テスト機能は、プレビュー段階の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行に使用するテスト データ。 テスト実行で、最適なモデルを使用して予測が得られ、これらの予測に基づいてメトリックが計算されます。
このパラメーターまたは test_data_size
パラメーターを指定しない場合、モデルのトレーニングが完了した後に、テスト実行は自動的には実行されません。
テスト データに特徴量およびラベル列の両方を含める必要があります。
test_data
を指定する場合は、target_column_name
パラメーターを指定する必要があります。
既定値は None です
- test_data_size
- float
テスト データセットまたはテスト データ分割を使用するモデル テスト機能は、プレビュー段階の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行のために、テスト データ用に保持するトレーニング データの割合。 テスト実行で、最適なモデルを使用して予測が得られ、これらの予測に基づいてメトリックが計算されます。
これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
test_data_size
を validation_data_size
と同時に指定した場合は、テスト データが training_data
から分割された後、検証データが分割されます。
たとえば、validation_data_size=0.1
と test_data_size=0.1
を指定し、元のトレーニング データの行数が 1000 行の場合は、テスト データは 100 行になり、検証データに 90 行が含まれ、トレーニング データに 810 行が格納されることになります。
回帰ベースのタスクの場合は、ランダム サンプリングが使用されます。 分類タスクの場合は、層化サンプリングが使用されます。 現在、予測は、トレーニングとテストの分割を使ったテスト データセットの指定をサポートしていません。
このパラメーターまたは test_data
パラメーターを指定しない場合、モデルのトレーニングが完了した後に、テスト実行は自動的には実行されません。
既定値は None です
戻り値
実行のために Azure ML コンピューティングに送信できるジョブ オブジェクト。
の戻り値の型 :
forecasting
予測ジョブを作成する関数。
予測タスクは、履歴データに基づいて将来の期間のターゲット値を予測するために使用されます。 トレーニング データを使用して、さまざまなモデルがトレーニングされます。 プライマリ メトリックに基づく検証データに対して最適なパフォーマンスを持つモデルが、最終的なモデルとして選択されます。
forecasting(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, forecasting_settings: ForecastingSettings | None = None, **kwargs) -> ForecastingJob
パラメーター
- training_data
- Input
実験内で使用するトレーニング データ。 トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。
- target_column_name
- str
ラベル列の名前。
このパラメーターは、、および test_data
パラメーターにtraining_data
validation_data
適用できます
- primary_metric
モデルの選択のために、自動機械学習によって最適化されるメトリック。 自動機械学習によって、最適化できるよりも多くのメトリックが収集されます。 メトリックの計算方法の詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric を参照してください。
使用できる値: r2_score、normalized_mean_absolute_error、normalized_root_mean_squared_error既定値normalized_root_mean_squared_error
- enable_model_explainability
- bool
すべての AutoML トレーニング反復の最後に、最適な AutoML モデルを説明できるかどうか。 既定値は None です。 詳細については、「解釈可能性: 自動 ML でのモデル説明」を参照してください。
- weight_column_name
- str
サンプルの重み列の名前。 自動 ML では、入力として重み付け列がサポートされているため、データ内の行が重み付けされます。 入力データが列名を持たない pandas.DataFrame の場合、代わりに列のインデックスを使用して、整数で表すことができます。
このパラメーターは、 パラメーターと validation_data
パラメーターにtraining_data
適用できます
- validation_data
- Input
実験内で使用する検証データ。 トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。
既定値は None です
- validation_data_size
- float
ユーザー検証データを指定しない場合に、検証用に保持するデータの割合。 これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
検証データを提供するには validation_data
を指定します。それ以外の場合は、n_cross_validations
または validation_data_size
を設定して、指定したトレーニング データから検証データを抽出します。
カスタムのクロス検証フォールドの場合は、cv_split_column_names
を使用します。
詳細については、自動機械学習のデータ分割とクロス検証の構成に関する記事をご覧ください。
既定値は None です
ユーザー検証データが指定されていない場合に実行するクロス検証の数。
検証データを提供するには validation_data
を指定します。それ以外の場合は、n_cross_validations
または validation_data_size
を設定して、指定したトレーニング データから検証データを抽出します。
カスタムのクロス検証フォールドの場合は、cv_split_column_names
を使用します。
詳細については、自動機械学習のデータ分割とクロス検証の構成に関する記事をご覧ください。
既定値は None です
カスタムのクロス検証分割が含まれる列の名前のリスト。 各 CV 分割列が 1 つの CV 分割を表します。このとき、各行は、トレーニングに 1、検証に 0 がマークされます。
既定値は None です
- test_data
- Input
テスト データセットまたはテスト データ分割を使用するモデル テスト機能は、プレビュー段階の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行に使用するテスト データ。 テスト実行で、最適なモデルを使用して予測が得られ、これらの予測に基づいてメトリックが計算されます。
このパラメーターまたは test_data_size
パラメーターを指定しない場合、モデルのトレーニングが完了した後に、テスト実行は自動的には実行されません。
テスト データに特徴量およびラベル列の両方を含める必要があります。
test_data
を指定する場合は、target_column_name
パラメーターを指定する必要があります。
既定値は None です
- test_data_size
- float
テスト データセットまたはテスト データ分割を使用するモデル テスト機能は、プレビュー段階の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行のために、テスト データ用に保持するトレーニング データの割合。 テスト実行で、最適なモデルを使用して予測が得られ、これらの予測に基づいてメトリックが計算されます。
これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
test_data_size
を validation_data_size
と同時に指定した場合は、テスト データが training_data
から分割された後、検証データが分割されます。
たとえば、validation_data_size=0.1
と test_data_size=0.1
を指定し、元のトレーニング データの行数が 1000 行の場合は、テスト データは 100 行になり、検証データに 90 行が含まれ、トレーニング データに 810 行が格納されることになります。
回帰ベースのタスクの場合は、ランダム サンプリングが使用されます。 分類タスクの場合は、層化サンプリングが使用されます。 現在、予測は、トレーニングとテストの分割を使ったテスト データセットの指定をサポートしていません。
このパラメーターまたは test_data
パラメーターを指定しない場合、モデルのトレーニングが完了した後に、テスト実行は自動的には実行されません。
既定値は None です
- forecasting_settings
- ForecastingSettings
予測タスクの設定
戻り値
実行のために Azure ML コンピューティングに送信できるジョブ オブジェクト。
の戻り値の型 :
image_classification
AutoML Image の複数クラス分類ジョブのオブジェクトを作成します。
image_classification(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationJob
パラメーター
- training_data
- Input
実験内で使用されるトレーニング データ。
- target_column_name
- str
ラベル列の名前。
このパラメーターは、training_data
および validation_data
パラメーターに適用できます。
- primary_metric
モデルの選択のために、自動機械学習によって最適化されるメトリック。 自動機械学習によって、最適化できるよりも多くのメトリックが収集されます。 メトリックの計算方法の詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric を参照してください。
許容される値: 精度、AUC_weighted、norm_macro_recall、average_precision_score_weighted、precision_score_weighted 精度の既定値。
- validation_data
- Input
実験内で使用される検証データ。
- validation_data_size
- float
ユーザー検証データを指定しない場合に、検証用に保持するデータの割合。 これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
検証データを提供する場合は を指定 validation_data
します。それ以外の場合は、指定したトレーニング データから検証データを抽出するように設定 validation_data_size
します。
既定値は .2 です
- kwargs
- dict
追加の構成パラメーターのディクショナリ。
戻り値
実行のために Azure ML コンピューティングに送信できる画像分類ジョブ オブジェクト。
の戻り値の型 :
image_classification_multilabel
AutoML Image の複数ラベル分類ジョブのオブジェクトを作成します。
image_classification_multilabel(*, training_data: Input, target_column_name: str, primary_metric: str | ClassificationMultilabelPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageClassificationMultilabelJob
パラメーター
- training_data
- Input
実験内で使用されるトレーニング データ。
- target_column_name
- str
ラベル列の名前。
このパラメーターは、training_data
および validation_data
パラメーターに適用できます。
- primary_metric
モデルの選択のために、自動機械学習によって最適化されるメトリック。 自動機械学習によって、最適化できるよりも多くのメトリックが収集されます。 メトリックの計算方法の詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric を参照してください。
許容される値: accuracy、AUC_weighted、norm_macro_recall、average_precision_score_weighted、precision_score_weighted、Iou Defaults to Iou。
- validation_data
- Input
実験内で使用される検証データ。
- validation_data_size
- float
ユーザー検証データを指定しない場合に、検証用に保持するデータの割合。 これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
検証データを提供する場合は を指定 validation_data
します。それ以外の場合は、指定したトレーニング データから検証データを抽出するように設定 validation_data_size
します。
既定値は .2 です
- kwargs
- dict
追加の構成パラメーターのディクショナリ。
戻り値
Azure ML コンピューティングに送信して実行できる複数ラベル分類ジョブ オブジェクトをイメージします。
の戻り値の型 :
image_instance_segmentation
AutoML Image Instance のセグメント化ジョブのオブジェクトを作成します。
image_instance_segmentation(*, training_data: Input, target_column_name: str, primary_metric: str | InstanceSegmentationPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageInstanceSegmentationJob
パラメーター
- training_data
- Input
実験内で使用されるトレーニング データ。
- target_column_name
- str
ラベル列の名前。
このパラメーターは、training_data
および validation_data
パラメーターに適用できます。
- primary_metric
モデルの選択のために、自動機械学習によって最適化されるメトリック。 自動機械学習によって、最適化できるよりも多くのメトリックが収集されます。 メトリックの計算方法の詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric を参照してください。
許容される値: MeanAveragePrecision 既定値は MeanAveragePrecision です。
- validation_data
- Input
実験内で使用される検証データ。
- validation_data_size
- float
ユーザー検証データを指定しない場合に、検証用に保持するデータの割合。 これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
検証データを提供する場合は を指定 validation_data
します。それ以外の場合は、指定したトレーニング データから検証データを抽出するように設定 validation_data_size
します。
既定値は .2 です
- kwargs
- dict
追加の構成パラメーターのディクショナリ。
戻り値
イメージ インスタンスのセグメント化ジョブ
の戻り値の型 :
image_object_detection
AutoML 画像オブジェクト検出ジョブのオブジェクトを作成します。
image_object_detection(*, training_data: Input, target_column_name: str, primary_metric: str | ObjectDetectionPrimaryMetrics | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, **kwargs) -> ImageObjectDetectionJob
パラメーター
- training_data
- Input
実験内で使用されるトレーニング データ。
- target_column_name
- str
ラベル列の名前。
このパラメーターは、training_data
および validation_data
パラメーターに適用できます。
- primary_metric
モデルの選択のために、自動機械学習によって最適化されるメトリック。 自動機械学習によって、最適化できるよりも多くのメトリックが収集されます。 メトリックの計算方法の詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric を参照してください。
許容される値: MeanAveragePrecision 既定値は MeanAveragePrecision です。
- validation_data
- Input
実験内で使用される検証データ。
- validation_data_size
- float
ユーザー検証データを指定しない場合に、検証用に保持するデータの割合。 これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
検証データを提供する場合は を指定 validation_data
します。それ以外の場合は、指定したトレーニング データから検証データを抽出するように設定 validation_data_size
します。
既定値は .2 です
- kwargs
- dict
追加の構成パラメーターのディクショナリ。
戻り値
Azure ML コンピューティングに送信して実行できる画像オブジェクト検出ジョブ オブジェクト。
の戻り値の型 :
regression
回帰ジョブを作成する関数。
回帰ジョブは、データセットからターゲット変数の連続値を予測するモデルをトレーニングするために使用されます。 トレーニング データを使用して、さまざまなモデルがトレーニングされます。 プライマリ メトリックに基づく検証データで最適なパフォーマンスを持つモデルが、最終的なモデルとして選択されます。
regression(*, training_data: Input, target_column_name: str, primary_metric: str | None = None, enable_model_explainability: bool | None = None, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None, **kwargs) -> RegressionJob
パラメーター
- training_data
- Input
実験内で使用するトレーニング データ。 トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。
- target_column_name
- str
ラベル列の名前。
このパラメーターは、、および test_data
パラメーターにtraining_data
validation_data
適用できます
- primary_metric
モデルの選択のために、自動機械学習によって最適化されるメトリック。 自動機械学習によって、最適化できるよりも多くのメトリックが収集されます。 メトリックの計算方法の詳細については、https://docs.microsoft.com/azure/machine-learning/how-to-configure-auto-train#primary-metric を参照してください。
許容値: spearman_correlation、r2_score、normalized_mean_absolute_error、normalized_root_mean_squared_error。 既定値は normalized_root_mean_squared_error
- enable_model_explainability
- bool
すべての AutoML トレーニング反復の最後に、最適な AutoML モデルを説明できるかどうか。 既定値は None です。 詳細については、「解釈可能性: 自動 ML でのモデル説明」を参照してください。
- weight_column_name
- str
サンプルの重み列の名前。 自動 ML では、入力として重み付け列がサポートされているため、データ内の行が重み付けされます。 入力データが列名を持たない pandas.DataFrame の場合、代わりに列のインデックスを使用して、整数で表すことができます。
このパラメーターは、 パラメーターと validation_data
パラメーターにtraining_data
適用できます
- validation_data
- Input
実験内で使用する検証データ。 トレーニング特徴量およびラベル列 (必要に応じて、サンプルの重み列) の両方を含める必要があります。
既定値は None です
- validation_data_size
- float
ユーザー検証データを指定しない場合に、検証用に保持するデータの割合。 これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
検証データを提供するには validation_data
を指定します。それ以外の場合は、n_cross_validations
または validation_data_size
を設定して、指定したトレーニング データから検証データを抽出します。
カスタムのクロス検証フォールドの場合は、cv_split_column_names
を使用します。
詳細については、自動機械学習のデータ分割とクロス検証の構成に関する記事をご覧ください。
既定値は None です
ユーザー検証データが指定されていない場合に実行するクロス検証の数。
検証データを提供するには validation_data
を指定します。それ以外の場合は、n_cross_validations
または validation_data_size
を設定して、指定したトレーニング データから検証データを抽出します。
カスタムのクロス検証フォールドの場合は、cv_split_column_names
を使用します。
詳細については、自動機械学習のデータ分割とクロス検証の構成に関する記事をご覧ください。
既定値は None です
カスタムのクロス検証分割が含まれる列の名前のリスト。 各 CV 分割列が 1 つの CV 分割を表します。このとき、各行は、トレーニングに 1、検証に 0 がマークされます。
既定値は None です
- test_data
- Input
テスト データセットまたはテスト データ分割を使用するモデル テスト機能は、プレビュー段階の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行に使用するテスト データ。 テスト実行で、最適なモデルを使用して予測が得られ、これらの予測に基づいてメトリックが計算されます。
このパラメーターまたは test_data_size
パラメーターを指定しない場合、モデルのトレーニングが完了した後に、テスト実行は自動的には実行されません。
テスト データに特徴量およびラベル列の両方を含める必要があります。
test_data
を指定する場合は、target_column_name
パラメーターを指定する必要があります。
既定値は None です
- test_data_size
- float
テスト データセットまたはテスト データ分割を使用するモデル テスト機能は、プレビュー段階の機能であり、いつでも変更される可能性があります。 モデルのトレーニングが完了した後に自動的に開始されるテスト実行のために、テスト データ用に保持するトレーニング データの割合。 テスト実行で、最適なモデルを使用して予測が得られ、これらの予測に基づいてメトリックが計算されます。
これは、0.0 から 1.0 の範囲内 (限界値は含まない) である必要があります。
test_data_size
を validation_data_size
と同時に指定した場合は、テスト データが training_data
から分割された後、検証データが分割されます。
たとえば、validation_data_size=0.1
と test_data_size=0.1
を指定し、元のトレーニング データの行数が 1000 行の場合は、テスト データは 100 行になり、検証データに 90 行が含まれ、トレーニング データに 810 行が格納されることになります。
回帰ベースのタスクの場合は、ランダム サンプリングが使用されます。 分類タスクの場合は、層化サンプリングが使用されます。 現在、予測は、トレーニングとテストの分割を使ったテスト データセットの指定をサポートしていません。
このパラメーターまたは test_data
パラメーターを指定しない場合、モデルのトレーニングが完了した後に、テスト実行は自動的には実行されません。
既定値は None です
戻り値
実行のために Azure ML コンピューティングに送信できるジョブ オブジェクト。
の戻り値の型 :
text_classification
TextClassificationJob を作成する関数。
テキスト分類ジョブは、テキスト データのクラス/カテゴリを予測できるモデルをトレーニングするために使用されます。 入力トレーニング データには、テキストを 1 つのクラスに分類するターゲット列を含める必要があります。
text_classification(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationJob
パラメーター
- training_data
- Input
実験内で使用されるトレーニング データ。 これには、トレーニング機能とターゲット列の両方が含まれている必要があります。
- target_column_name
- str
ターゲット列の名前。
- validation_data
- Input
実験内で使用される検証データ。 これには、トレーニング機能とターゲット列の両方が含まれている必要があります。
- primary_metric
- Union[str, ClassificationPrimaryMetrics]
タスクのプライマリ メトリック。 許容される値: 精度、AUC_weighted、precision_score_weighted
- log_verbosity
- str
ログの詳細レベル。
- kwargs
- dict
追加の構成パラメーターのディクショナリ。
戻り値
TextClassificationJob オブジェクト。
の戻り値の型 :
text_classification_multilabel
TextClassificationMultilabelJob を作成する関数。
テキスト分類マルチラベル ジョブは、テキスト データのクラス/カテゴリを予測できるモデルをトレーニングするために使用されます。 入力トレーニング データには、テキストを class(es) に分類するターゲット列を含める必要があります。 マルチラベル データの形式の詳細については、次を参照してください。 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#multi-label
text_classification_multilabel(*, training_data: Input, target_column_name: str, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextClassificationMultilabelJob
パラメーター
- training_data
- Input
実験内で使用されるトレーニング データ。 これには、トレーニング機能とターゲット列の両方が含まれている必要があります。
- target_column_name
- str
ターゲット列の名前。
- validation_data
- Input
実験内で使用される検証データ。 これには、トレーニング機能とターゲット列の両方が含まれている必要があります。
- primary_metric
- str
タスクのプライマリ メトリック。 許容される値: 精度
- log_verbosity
- str
ログの詳細レベル。
- kwargs
- dict
追加の構成パラメーターのディクショナリ。
戻り値
TextClassificationMultilabelJob オブジェクト。
の戻り値の型 :
text_ner
TextNerJob を作成する関数。
エンティティ認識ジョブという名前のテキストは、テキスト内の名前付きエンティティを予測できるモデルをトレーニングするために使用されます。 入力トレーニング データは、CoNLL 形式のテキスト ファイルである必要があります。 テキスト NER データの形式の詳細については、以下を参照してください。 https://docs.microsoft.com/en-us/azure/machine-learning/how-to-auto-train-nlp-models#named-entity-recognition-ner
text_ner(*, training_data: Input, validation_data: Input, primary_metric: str | None = None, log_verbosity: str | None = None, **kwargs) -> TextNerJob
パラメーター
- training_data
- Input
実験内で使用されるトレーニング データ。 これには、トレーニング機能とターゲット列の両方が含まれている必要があります。
- validation_data
- Input
実験内で使用される検証データ。 これには、トレーニング機能とターゲット列の両方が含まれている必要があります。
- primary_metric
- str
タスクのプライマリ メトリック。 許容される値: 精度
- log_verbosity
- str
ログの詳細レベル。
- kwargs
- dict
追加の構成パラメーターのディクショナリ。
戻り値
TextNerJob オブジェクト。
の戻り値の型 :
Azure SDK for Python