共用方式為


TextClassificationJob 類別

AutoML 文字分類作業的設定。

初始化新的 AutoML 文字分類工作。

繼承
azure.ai.ml.entities._job.automl.nlp.automl_nlp_job.AutoMLNLPJob
TextClassificationJob

建構函式

TextClassificationJob(*, target_column_name: str | None = None, training_data: Input | None = None, validation_data: Input | None = None, primary_metric: ClassificationPrimaryMetrics | None = None, log_verbosity: str | None = None, **kwargs)

參數

target_column_name
必要

目標資料行的名稱

training_data
必要

要用於定型的定型資料

validation_data
必要

用於評估定型模型的驗證資料

primary_metric
必要

要顯示的主要計量

log_verbosity
必要

記錄詳細資訊層級

kwargs
必要

作業特定引數

方法

dump

以 YAML 格式將作業內容傾印到檔案中。

extend_search_space

為此 AutoML NLP 作業新增 () 搜尋空間 () 。

set_data
set_featurization
set_limits
set_sweep

所有 AutoML NLP 工作的掃掠設定。

set_training_parameters

修正所有候選項目的整個訓練程式的特定訓練參數。

通過。 這必須是正整數。 :keyword learning_rate:初始學習率。 必須是 (0, 1) 中的浮點數。 :keyword learning_rate_scheduler:學習速率排程器的類型。 必須從 'linear'、'cosine'、'cosine_with_restarts'、'polynomial'、'constant' 和 'constant_with_warmup' 中選擇。 :keyword model_name:定型期間要使用的模型名稱。 必須從 'bert-base-cased'、'bert-base-uncased'、'bert-base-multilingual-cased'、'bert-base-german-cased'、'bert-large-cased'、 'bert-large-uncased'、'distilbert-base-cased'、'distilbert-base-uncased'、'roberta-base'、'roberta-large'、'distilroberta-base'、'xlm-roberta-base'、xlnet-base-cased'和 'xlnet-large-cased'。 :keyword number_of_epochs:要定型的 Epoch 數目。 必須是正整數。 :keyword training_batch_size:定型期間的批次大小。 必須是正整數。 :keyword validation_batch_size:驗證期間的批次大小。 必須是正整數。 :keyword warmup_ratio:用於線性準備的總定型步驟比例,從 0 到learning_rate。 必須是 [0, 1] 中的浮點數。 :keyword weight_decay:優化器為 sgd、adam 或 adamw 時的權數衰減值。 這必須是範圍 [0, 1] 中的浮點數。 :return: None。

dump

以 YAML 格式將作業內容傾印到檔案中。

dump(dest: str | PathLike | IO, **kwargs) -> None

參數

dest
Union[<xref:PathLike>, str, IO[AnyStr]]
必要

要寫入 YAML 內容的本機路徑或檔案資料流程。 如果 dest 是檔案路徑,則會建立新的檔案。 如果 dest 是開啟的檔案,則會直接寫入檔案。

kwargs
dict

要傳遞至 YAML 序列化程式的其他引數。

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則引發。

如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。

extend_search_space

為此 AutoML NLP 作業新增 () 搜尋空間 () 。

extend_search_space(value: SearchSpace | List[SearchSpace]) -> None

參數

value
Union[SearchSpace, List[SearchSpace]]
必要

SearchSpace 物件或具有 nlp 特定參數的 SearchSpace 物件清單。

傳回

無。

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則引發。

如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。

set_data

set_data(*, training_data: Input, target_column_name: str, validation_data: Input) -> None

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則引發。

如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。

set_featurization

set_featurization(*, dataset_language: str | None = None) -> None

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則引發。

如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。

set_limits

set_limits(*, max_trials: int = 1, max_concurrent_trials: int = 1, max_nodes: int = 1, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則引發。

如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。

set_sweep

所有 AutoML NLP 工作的掃掠設定。

set_sweep(*, sampling_algorithm: str | SamplingAlgorithmType, early_termination: EarlyTerminationPolicy | None = None)

參數

sampling_algorithm

必要。 指定超參數取樣演算法的類型。 可能的值包括:「Grid」、「Random」 和 「Bayesian」。

early_termination

選擇性的早期終止原則,以結束效能不佳的訓練候選項目。

傳回

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則引發。

如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。

set_training_parameters

修正所有候選項目的整個訓練程式的特定訓練參數。

通過。 這必須是正整數。 :keyword learning_rate:初始學習率。 必須是 (0, 1) 中的浮點數。 :keyword learning_rate_scheduler:學習速率排程器的類型。 必須從 'linear'、'cosine'、'cosine_with_restarts'、'polynomial'、'constant' 和 'constant_with_warmup' 中選擇。 :keyword model_name:定型期間要使用的模型名稱。 必須從 'bert-base-cased'、'bert-base-uncased'、'bert-base-multilingual-cased'、'bert-base-german-cased'、'bert-large-cased'、 'bert-large-uncased'、'distilbert-base-cased'、'distilbert-base-uncased'、'roberta-base'、'roberta-large'、'distilroberta-base'、'xlm-roberta-base'、xlnet-base-cased'和 'xlnet-large-cased'。 :keyword number_of_epochs:要定型的 Epoch 數目。 必須是正整數。 :keyword training_batch_size:定型期間的批次大小。 必須是正整數。 :keyword validation_batch_size:驗證期間的批次大小。 必須是正整數。 :keyword warmup_ratio:用於線性準備的總定型步驟比例,從 0 到learning_rate。 必須是 [0, 1] 中的浮點數。 :keyword weight_decay:優化器為 sgd、adam 或 adamw 時的權數衰減值。 這必須是範圍 [0, 1] 中的浮點數。 :return: None。

set_training_parameters(*, gradient_accumulation_steps: int | None = None, learning_rate: float | None = None, learning_rate_scheduler: str | NlpLearningRateScheduler | None = None, model_name: str | None = None, number_of_epochs: int | None = None, training_batch_size: int | None = None, validation_batch_size: int | None = None, warmup_ratio: float | None = None, weight_decay: float | None = None) -> None

參數

gradient_accumulation_steps

在回溯之前累積漸層的步驟數目

例外狀況

如果 dest 是檔案路徑且檔案已經存在,則引發。

如果 dest 是開啟的檔案,而且無法寫入檔案,則引發。

屬性

base_path

資源的基底路徑。

傳回

資源的基底路徑。

傳回類型

str

creation_context

資源的建立內容。

傳回

資源的建立中繼資料。

傳回類型

featurization

id

資源識別碼。

傳回

資源的全域識別碼,Azure Resource Manager (ARM) 識別碼。

傳回類型

inputs

limits

log_files

作業輸出檔案。

傳回

記錄名稱和 URL 的字典。

傳回類型

log_verbosity

outputs

primary_metric

search_space

status

工作的狀態。

傳回的常見值包括 「Running」、「Completed」 和 「Failed」。 所有可能的值為:

  • NotStarted - 這是用戶端 Run 物件在雲端提交之前所在的暫時狀態。

  • 啟動 - 執行已在雲端中開始處理。 呼叫端此時有執行識別碼。

  • 布建 - 針對指定的作業提交建立隨選計算。

  • 準備 - 正在準備執行環境,且處於兩個階段之一:

    • Docker 映射組建

    • conda 環境設定

  • 已排入佇列 - 作業會排入計算目標上的佇列。 例如,在 BatchAI 中,作業處於佇列狀態

    等候所有要求的節點準備就緒時。

  • 執行 - 作業已開始在計算目標上執行。

  • 完成 - 使用者程式碼執行已完成,且執行處於後續處理階段。

  • CancelRequested - 已要求取消作業。

  • 已完成 - 執行已順利完成。 這包括使用者程式碼執行和執行

    後續處理階段。

  • 失敗 - 執行失敗。 執行上的 Error 屬性通常會提供原因的詳細資料。

  • 已取消 - 遵循取消要求,並指出現在已成功取消執行。

  • NotResponding - 針對已啟用活動訊號的執行,最近不會傳送活動訊號。

傳回

作業的狀態。

傳回類型

studio_url

Azure ML Studio 端點。

傳回

作業詳細資料頁面的 URL。

傳回類型

sweep

task_type

取得工作類型。

傳回

要執行的工作類型。 可能的值包括:「classification」、「regression」、「forecasting」。

傳回類型

str

test_data

取得測試資料。

傳回

測試資料輸入

傳回類型

training_data

取得定型資料。

傳回

定型資料輸入

傳回類型

training_parameters

type

作業的類型。

傳回

作業的類型。

傳回類型

validation_data

取得驗證資料。

傳回

驗證資料輸入

傳回類型