ClassificationJob Класс
Конфигурация для задания классификации AutoML.
Инициализация новой задачи классификации AutoML.
- Наследование
-
azure.ai.ml.entities._job.automl.tabular.automl_tabular.AutoMLTabularClassificationJob
Конструктор
ClassificationJob(*, primary_metric: str | None = None, positive_label: str | None = None, **kwargs)
Параметры
Положительная метка для вычисления двоичных метрик, по умолчанию — Нет.
- featurization
- Optional[TabularFeaturizationSettings]
Параметры конструирования признаков. Значение по умолчанию — None (Нет).
- limits
- Optional[TabularLimitSettings]
Параметры ограничений. Значение по умолчанию — None (Нет).
- training
- Optional[TrainingSettings]
Параметры обучения. Значение по умолчанию — None (Нет).
Положительная метка для вычисления двоичных метрик, по умолчанию — Нет.
- featurization
- Optional[TabularFeaturizationSettings]
параметры конструирования признаков. Значение по умолчанию — None (Нет).
- limits
- Optional[TabularLimitSettings]
параметры ограничений. Значение по умолчанию — None (Нет).
- training
- Optional[TrainingSettings]
параметры обучения. Значение по умолчанию — None (Нет).
Методы
dump |
Создает дампы содержимого задания в файл в формате YAML. |
set_data |
Определите конфигурацию данных. |
set_featurization |
Определите конфигурацию проектирования признаков. |
set_limits |
Задайте ограничения для задания. |
set_training |
Метод для настройки параметров, связанных с обучением. |
dump
Создает дампы содержимого задания в файл в формате YAML.
dump(dest: str | PathLike | IO, **kwargs) -> None
Параметры
Локальный путь или файловый поток для записи содержимого YAML. Если dest — это путь к файлу, будет создан новый файл. Если dest является открытым файлом, файл будет записан напрямую.
- kwargs
- dict
Дополнительные аргументы для передачи в сериализатор YAML.
Исключения
Возникает, если dest — это путь к файлу, а файл уже существует.
Возникает, если dest является открытым файлом и файл не поддерживает запись.
set_data
Определите конфигурацию данных.
set_data(*, training_data: Input, target_column_name: str, weight_column_name: str | None = None, validation_data: Input | None = None, validation_data_size: float | None = None, n_cross_validations: str | int | None = None, cv_split_column_names: List[str] | None = None, test_data: Input | None = None, test_data_size: float | None = None) -> None
Параметры
- training_data
- Input
Обучающие данные.
- target_column_name
- str
Имя целевого столбца.
Исключения
Возникает, если dest — это путь к файлу, а файл уже существует.
Возникает, если dest является открытым файлом и файл не поддерживает запись.
set_featurization
Определите конфигурацию проектирования признаков.
set_featurization(*, blocked_transformers: List[BlockedTransformers | str] | None = None, column_name_and_types: Dict[str, str] | None = None, dataset_language: str | None = None, transformer_params: Dict[str, List[ColumnTransformer]] | None = None, mode: str | None = None, enable_dnn_featurization: bool | None = None) -> None
Параметры
- blocked_transformers
- Optional[List[Union[BlockedTransformers, str]]]
Список имен преобразователей, блокируемых во время конструирования признаков, по умолчанию имеет значение Нет.
Словарь имен столбцов и типов признаков, используемых для обновления назначения столбца , по умолчанию имеет значение None
Трехзначный код ISO 639-3 для языков, содержащихся в наборе данных. Языки, отличные от английского, поддерживаются только при использовании вычислительных ресурсов с поддержкой GPU. Если набор данных содержит несколько языков, следует использовать language_code "mul". Чтобы найти коды ISO 639-3 для разных языков, см https://en.wikipedia.org/wiki/List_of_ISO_639-3_codes. раздел , по умолчанию имеет значение Нет.
- transformer_params
- Optional[Dict[str, List[ColumnTransformer]]]
Словарь преобразователя и соответствующих параметров настройки по умолчанию имеет значение None
Следует ли включать методы проектирования признаков на основе DNN. Значение по умолчанию — Нет.
Исключения
Возникает, если dest — это путь к файлу, а файл уже существует.
Возникает, если dest является открытым файлом и файл не поддерживает запись.
set_limits
Задайте ограничения для задания.
set_limits(*, enable_early_termination: bool | None = None, exit_score: float | None = None, max_concurrent_trials: int | None = None, max_cores_per_trial: int | None = None, max_nodes: int | None = None, max_trials: int | None = None, timeout_minutes: int | None = None, trial_timeout_minutes: int | None = None) -> None
Параметры
Указывает, следует ли включить досрочное завершение, если оценка не улучшается в краткосрочной перспективе, по умолчанию используется значение Нет.
Логика ранней остановки:
К первым 20 итерациям (ориентирам) ранняя остановка не применяется.
Период возможности ранней остановки начинается с 21-й итерации и ищет early_stopping_n_iters итераций
(в настоящее время установлено значение 10). Это означает, что первая итерация, в которой может произойти остановка — 31-я.
AutoML по-прежнему планирует 2 итерации ансамбля после ранней остановки, что может привести к более высоким оценкам.
Ранняя остановка активируется, если абсолютное значение вычисленной наилучшей оценки остается неизменным для прошлых
итераций early_stopping_n_iters, то есть, если для итераций early_stopping_n_iters улучшения оценки не наблюдается.
Целевая оценка для эксперимента. При достижении этого показателя выполнение эксперимента завершается. Если значение не указано (без критериев), эксперимент выполняется до тех пор, пока показатель основной метрики не перестанет улучшаться. Дополнительные сведения о критериях выхода см. в этой статье , по умолчанию используется значение None.
Это максимальное число итераций, которые будут выполняться параллельно. Значение по умолчанию — 1.
- Кластеры AmlCompute поддерживают одну итерацию, выполняемую на каждом узле.
Для нескольких родительских выполнений экспериментов AutoML, запущенных параллельно в одном кластере AmlCompute, сумма значений max_concurrent_trials
для всех экспериментов не должна превышать максимальное количество узлов. В противном случае выполнения будут ставиться в очередь до тех пор, пока узлы не станут доступны.
- DSVM поддерживает несколько итераций на один узел.
max_concurrent_trials
Должны
значение меньше или равно количеству ядер в DSVM. Для параллельного выполнения нескольких экспериментов на одном DSVM, сумма значений max_concurrent_trials
для всех экспериментов должна быть меньше или равна максимальному количеству узлов.
- Databricks —
max_concurrent_trials
должно быть меньше или равно числу
рабочие узлы в Databricks.
max_concurrent_trials
не применяется к локальным выполнениям. Ранее этот параметр назывался concurrent_iterations
.
Максимальное количество потоков, используемых для заданной итерации обучения. Допустимые значения:
Больше 1, но не больше максимального количества ядер в целевом объекте вычислений.
Равно −1, что означает использование всех возможных ядер на итерацию для каждого дочернего выполнения.
Равно 1, значение по умолчанию.
[Экспериментальный] Максимальное количество узлов, используемых для распределенного обучения.
Для прогнозирования каждая модель обучается с помощью узлов max(2, int(max_nodes / max_concurrent_trials)).
Для классификации и регрессии каждая модель обучается с помощью max_nodes узлов.
Примечание. Этот параметр находится в общедоступной предварительной версии и может измениться в будущем.
Общее количество различных сочетаний алгоритмов и параметров для проверки во время эксперимента автоматизированного ML. Если значение не указано, по умолчанию используется 1000 итераций.
Максимальное количество времени в минутах, в течение которого могут быть пройдены все итерации до завершения эксперимента. Если значение не указано, время ожидания эксперимента по умолчанию составляет 6 дней. Чтобы указать время ожидания меньше или равное 1 часу, убедитесь, что размер набора данных не больше 10 000 000 (столбец времени строк) или в результатах ошибки по умолчанию задано значение Нет.
Максимальное время в минутах, в течение которого каждая итерация может выполняться до завершения. Если значение не указано, используется значение 1 месяц или 43200 минут, по умолчанию — Нет.
Исключения
Возникает, если dest — это путь к файлу, а файл уже существует.
Возникает, если dest является открытым файлом и файл не поддерживает запись.
set_training
Метод для настройки параметров, связанных с обучением.
set_training(*, enable_onnx_compatible_models: bool | None = None, enable_dnn_training: bool | None = None, enable_model_explainability: bool | None = None, enable_stack_ensemble: bool | None = None, enable_vote_ensemble: bool | None = None, stack_ensemble_settings: StackEnsembleSettings | None = None, ensemble_model_download_timeout: int | None = None, allowed_training_algorithms: List[str] | None = None, blocked_training_algorithms: List[str] | None = None, training_mode: str | TrainingMode | None = None) -> None
Параметры
Следует ли включить или отключить принудительное применение моделей, совместимых с ONNX. Значение по умолчанию — False. Дополнительные сведения об Open Neural Network Exchange (ONNX) и Машинном обучении Azure см. в этой статье.
Следует ли включать модели на основе DNN во время выбора модели. Однако для задач DNN NLP значением по умолчанию будет True, а для всех остальных задач AutoML — False.
Следует ли включить объяснение оптимальной модели AutoML в конце всех итераций обучения AutoML. Дополнительные сведения см. в статье Интерпретируемость: объяснения модели в автоматизированном машинном обучении. Значение по умолчанию — Нет.
Указывает, следует ли включить или отключить итерацию StackEnsemble. Если установлен флаг enable_onnx_compatible_models, то итерация StackEnsemble будет отключена. Аналогично, для задач временных рядов итерация StackEnsemble будет по умолчанию отключена во избежание рисков, связанных с чрезмерной лжевзаимосвязью из-за небольшого размера набора данных для обучения, используемого для подбора средства обучения по метаданным. Дополнительные сведения о ансамблях см. в разделе Конфигурация ансамбля , по умолчанию — Нет.
Указывает, следует ли включить или отключить итерацию VotingEnsemble. Дополнительные сведения о ансамблях см. в разделе Конфигурация ансамбля , по умолчанию — Нет.
- stack_ensemble_settings
- Optional[StackEnsembleSettings]
Параметры итерации StackEnsemble, по умолчанию — Нет
Во время создания моделей VotingEnsemble и StackEnsemble скачиваются несколько установленных моделей из предыдущих дочерних запусков. Настройте этот параметр с более высоким значением, чем 300 секунд. Если требуется больше времени, по умолчанию используется значение Нет.
Список имен моделей для поиска эксперимента. Если значение не указано, используются все модели, поддерживаемые для задачи, за вычетом любых моделей, указанных в blocked_training_algorithms
или нерекомендуемых моделях TensorFlow. По умолчанию используется значение None.
Список алгоритмов, которые следует игнорировать для эксперимента, по умолчанию имеет значение Нет.
- training_mode
- Optional[Union[str, TabularTrainingMode]]
[Экспериментальный] Используемый режим обучения. Возможные значения:
distributed — обеспечивает распределенное обучение для поддерживаемых алгоритмов.
non_distributed— отключает распределенное обучение.
auto — в настоящее время это то же самое, что и non_distributed. В будущем это может измениться.
Примечание. Этот параметр находится в общедоступной предварительной версии и может измениться в будущем.
Исключения
Возникает, если dest — это путь к файлу, а файл уже существует.
Возникает, если dest является открытым файлом и файл не поддерживает запись.
Атрибуты
base_path
creation_context
Контекст создания ресурса.
Возвращаемое значение
Метаданные создания для ресурса.
Возвращаемый тип
featurization
Получение параметров табличного конструирования признаков для задания AutoML.
Возвращаемое значение
Параметры табличных признаков для задания AutoML
Возвращаемый тип
id
Идентификатор ресурса.
Возвращаемое значение
Глобальный идентификатор ресурса, идентификатор Resource Manager Azure (ARM).
Возвращаемый тип
inputs
limits
Получение табличных ограничений для задания AutoML.
Возвращаемое значение
Табличные ограничения для задания AutoML
Возвращаемый тип
log_files
Выходные файлы задания.
Возвращаемое значение
Словарь имен и URL-адресов журналов.
Возвращаемый тип
log_verbosity
Получите подробные сведения о журнале для задания AutoML.
Возвращаемое значение
Детализация журнала для задания AutoML
Возвращаемый тип
outputs
primary_metric
Основная метрика, используемая для оптимизации.
Возвращаемое значение
Основная метрика, используемая для оптимизации.
Возвращаемый тип
status
Состояние задания.
Обычно возвращаются значения Running (Выполняется), Completed (Завершено) и Failed (Сбой). Все возможные значения:
NotStarted — это временное состояние, в которое клиентские объекты Run находятся перед отправкой в облако.
Starting — началась обработка запуска в облаке. На этом этапе вызывающий объект имеет идентификатор запуска.
Подготовка — вычислительные ресурсы по запросу создаются для заданной отправки задания.
Подготовка — среда выполнения подготавливается и находится в одном из двух этапов:
Сборка образа Docker
настройка среды conda.
В очереди— задание помещается в очередь в целевом объекте вычислений. Например, в BatchAI задание находится в состоянии очереди.
ожидая готовности всех запрошенных узлов.
Выполнение — задание запущено для целевого объекта вычислений.
Завершение — выполнение пользовательского кода завершено, и выполнение выполняется на этапах постобработки.
CancelRequested — для задания запрошена отмена.
Завершено — выполнение успешно завершено. Сюда входит выполнение пользовательского кода и выполнение.
пользовательского кода и запуска.
Failed — сбой запуска. Подробное описание причины как правило предоставляет свойство Error.
Canceled — применяется после запроса отмены и указывает, что выполнение теперь успешно отменено.
NotResponding — для запусков с включенными пульсами недавно не отправлялся пульс.
Возвращаемое значение
Состояние задания.
Возвращаемый тип
studio_url
Конечная точка Студии машинного обучения Azure.
Возвращаемое значение
URL-адрес страницы сведений о задании.
Возвращаемый тип
task_type
Получение типа задачи.
Возвращаемое значение
Тип выполняемой задачи. Возможные значения: "classification", "regression", "forecasting".
Возвращаемый тип
test_data
training
Параметры обучения для задания классификации AutoML.
Возвращаемое значение
Параметры обучения, используемые для задания классификации AutoML.
Возвращаемый тип
training_data
Получение обучающих данных.
Возвращаемое значение
Входные данные для обучения
Возвращаемый тип
type
validation_data
Azure SDK for Python