TextClassificationJob 類別
AutoML 文字分類作業的設定。
初始化新的 AutoML 文字分類工作。
- 繼承
-
azure.ai.ml.entities._job.automl.nlp.automl_nlp_job.AutoMLNLPJobTextClassificationJob
建構函式
TextClassificationJob(*, target_column_name: str | None = None, training_data: Input | None = None, validation_data: Input | None = None, primary_metric: ClassificationPrimaryMetrics | None = None, log_verbosity: str | None = None, **kwargs)
參數
- target_column_name
目標資料行的名稱
- training_data
要用於定型的定型資料
- validation_data
用於評估定型模型的驗證資料
- primary_metric
要顯示的主要計量
- log_verbosity
記錄詳細資訊層級
- kwargs
作業特定引數
方法
dump |
以 YAML 格式將作業內容傾印到檔案中。 |
extend_search_space |
為此 AutoML NLP 作業新增 () 搜尋空間 () 。 |
set_data | |
set_featurization | |
set_limits | |
set_sweep |
所有 AutoML NLP 工作的掃掠設定。 |
set_training_parameters |
修正所有候選項目的整個訓練程式的特定訓練參數。 通過。 這必須是正整數。 :keyword learning_rate:初始學習率。 必須是 (0, 1) 中的浮點數。 :keyword learning_rate_scheduler:學習速率排程器的類型。 必須從 'linear'、'cosine'、'cosine_with_restarts'、'polynomial'、'constant' 和 'constant_with_warmup' 中選擇。 :keyword model_name:定型期間要使用的模型名稱。 必須從 'bert-base-cased'、'bert-base-uncased'、'bert-base-multilingual-cased'、'bert-base-german-cased'、'bert-large-cased'、 'bert-large-uncased'、'distilbert-base-cased'、'distilbert-base-uncased'、'roberta-base'、'roberta-large'、'distilroberta-base'、'xlm-roberta-base'、xlnet-base-cased'和 'xlnet-large-cased'。 :keyword number_of_epochs:要定型的 Epoch 數目。 必須是正整數。 :keyword training_batch_size:定型期間的批次大小。 必須是正整數。 :keyword validation_batch_size:驗證期間的批次大小。 必須是正整數。 :keyword warmup_ratio:用於線性準備的總定型步驟比例,從 0 到learning_rate。 必須是 [0, 1] 中的浮點數。 :keyword weight_decay:優化器為 sgd、adam 或 adamw 時的權數衰減值。 這必須是範圍 [0, 1] 中的浮點數。 :return: None。 |
dump
以 YAML 格式將作業內容傾印到檔案中。
dump(dest: str | PathLike | IO, **kwargs) -> None
參數
要寫入 YAML 內容的本機路徑或檔案資料流程。 如果 dest 是檔案路徑,則會建立新的檔案。 如果 dest 是開啟的檔案,則會直接寫入檔案。
- kwargs
- dict
要傳遞至 YAML 序列化程式的其他引數。
例外狀況
如果 dest 是檔案路徑且檔案已經存在,則引發。
如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。
extend_search_space
為此 AutoML NLP 作業新增 () 搜尋空間 () 。
extend_search_space(value: SearchSpace | List[SearchSpace]) -> None
參數
傳回
無。
例外狀況
如果 dest 是檔案路徑且檔案已經存在,則引發。
如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。
set_data
set_data(*, training_data: Input, target_column_name: str, validation_data: Input) -> None
例外狀況
如果 dest 是檔案路徑且檔案已經存在,則引發。
如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。
set_featurization
set_featurization(*, dataset_language: str | None = None) -> None
例外狀況
如果 dest 是檔案路徑且檔案已經存在,則引發。
如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。
set_limits
set_limits(*, max_trials: int = 1, max_concurrent_trials: int = 1, max_nodes: int = 1, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
例外狀況
如果 dest 是檔案路徑且檔案已經存在,則引發。
如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。
set_sweep
所有 AutoML NLP 工作的掃掠設定。
set_sweep(*, sampling_algorithm: str | SamplingAlgorithmType, early_termination: EarlyTerminationPolicy | None = None)
參數
- sampling_algorithm
必要。 指定超參數取樣演算法的類型。 可能的值包括:「Grid」、「Random」 和 「Bayesian」。
- early_termination
選擇性的早期終止原則,以結束效能不佳的訓練候選項目。
傳回
無
例外狀況
如果 dest 是檔案路徑且檔案已經存在,則引發。
如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。
set_training_parameters
修正所有候選項目的整個訓練程式的特定訓練參數。
通過。 這必須是正整數。 :keyword learning_rate:初始學習率。 必須是 (0, 1) 中的浮點數。 :keyword learning_rate_scheduler:學習速率排程器的類型。 必須從 'linear'、'cosine'、'cosine_with_restarts'、'polynomial'、'constant' 和 'constant_with_warmup' 中選擇。 :keyword model_name:定型期間要使用的模型名稱。 必須從 'bert-base-cased'、'bert-base-uncased'、'bert-base-multilingual-cased'、'bert-base-german-cased'、'bert-large-cased'、 'bert-large-uncased'、'distilbert-base-cased'、'distilbert-base-uncased'、'roberta-base'、'roberta-large'、'distilroberta-base'、'xlm-roberta-base'、xlnet-base-cased'和 'xlnet-large-cased'。 :keyword number_of_epochs:要定型的 Epoch 數目。 必須是正整數。 :keyword training_batch_size:定型期間的批次大小。 必須是正整數。 :keyword validation_batch_size:驗證期間的批次大小。 必須是正整數。 :keyword warmup_ratio:用於線性準備的總定型步驟比例,從 0 到learning_rate。 必須是 [0, 1] 中的浮點數。 :keyword weight_decay:優化器為 sgd、adam 或 adamw 時的權數衰減值。 這必須是範圍 [0, 1] 中的浮點數。 :return: None。
set_training_parameters(*, gradient_accumulation_steps: int | None = None, learning_rate: float | None = None, learning_rate_scheduler: str | NlpLearningRateScheduler | None = None, model_name: str | None = None, number_of_epochs: int | None = None, training_batch_size: int | None = None, validation_batch_size: int | None = None, warmup_ratio: float | None = None, weight_decay: float | None = None) -> None
參數
- gradient_accumulation_steps
在回溯之前累積漸層的步驟數目
例外狀況
如果 dest 是檔案路徑且檔案已經存在,則引發。
如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。
屬性
base_path
creation_context
featurization
id
inputs
limits
log_files
log_verbosity
outputs
primary_metric
search_space
status
工作的狀態。
傳回的常見值包括 「Running」、「Completed」 和 「Failed」。 所有可能的值為:
NotStarted - 這是用戶端 Run 物件在雲端提交之前所在的暫時狀態。
啟動 - 執行已在雲端中開始處理。 呼叫端此時有執行識別碼。
布建 - 針對指定的作業提交建立隨選計算。
準備 - 正在準備執行環境,且處於兩個階段之一:
Docker 映射組建
conda 環境設定
已排入佇列 - 作業會排入計算目標上的佇列。 例如,在 BatchAI 中,作業處於佇列狀態
等候所有要求的節點準備就緒時。
執行 - 作業已開始在計算目標上執行。
完成 - 使用者程式碼執行已完成,且執行處於後續處理階段。
CancelRequested - 已要求取消作業。
已完成 - 執行已順利完成。 這包括使用者程式碼執行和執行
後續處理階段。
失敗 - 執行失敗。 執行上的 Error 屬性通常會提供原因的詳細資料。
已取消 - 遵循取消要求,並指出現在已成功取消執行。
NotResponding - 針對已啟用活動訊號的執行,最近不會傳送活動訊號。
傳回
作業的狀態。