你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

ParallelComponent 类

并行组件版本,用于定义并行组件。

继承
azure.ai.ml.entities._component.component.Component
ParallelComponent
azure.ai.ml.entities._job.parallel.parameterized_parallel.ParameterizedParallel
ParallelComponent
azure.ai.ml.entities._component.code.ComponentCodeMixin
ParallelComponent

构造函数

ParallelComponent(*, name: str | None = None, version: str | None = None, description: str | None = None, tags: Dict[str, Any] | None = None, display_name: str | None = None, retry_settings: RetrySettings | None = None, logging_level: str | None = None, max_concurrency_per_instance: int | None = None, error_threshold: int | None = None, mini_batch_error_threshold: int | None = None, task: ParallelTask | None = None, mini_batch_size: str | None = None, partition_keys: List | None = None, input_data: str | None = None, resources: JobResourceConfiguration | None = None, inputs: Dict | None = None, outputs: Dict | None = None, code: str | None = None, instance_count: int | None = None, is_deterministic: bool = True, **kwargs: Any)

参数

名称 说明
name
必需
str

组件的名称。 默认为 None

version
必需
str

组件的版本。 默认为 None

description
必需
str

组件的说明。 默认为 None

tags
必需

标记字典。 可以添加、删除和更新标记。 默认为 None

display_name
必需
str

组件的显示名称。 默认为 None

retry_settings
必需

并行组件运行失败的重试。 默认为 None

logging_level
必需
str

日志记录级别名称的字符串。 默认为 None

max_concurrency_per_instance
必需
int

每个计算实例具有的最大并行度。 默认为 None

error_threshold
必需
int

应忽略项处理失败次数。 默认为 None

mini_batch_error_threshold
必需
int

应忽略小型批处理失败次数。 默认为 None

task
必需

并行任务。 默认为 None

mini_batch_size
必需
str

对于 FileDataset 输入,此字段是用户脚本在一次 run() 调用中可以处理的文件数。 对于 TabularDataset 输入,此字段是用户脚本可以在一次 run() 调用中处理的数据的近似大小。 示例值为 1024、1024KB、10MB 和1GB。 (可选,对于 FileDataset,默认值为 10 个文件,对于 TabularDataset 为 1MB 文件。) 可以通过 PipelineParameter 设置此值。

partition_keys
必需

用于将数据集分区为小型批处理的键。 默认为“无”如果指定,具有相同键的数据将分区到同一个小型批处理中。 如果同时指定了partition_keys和mini_batch_size,partition_keys将生效。 输入 (s) 必须是 () 的分区数据集,并且 partition_keys 必须是每个输入数据集的键的子集才能运行。

input_data
必需
str

输入数据。 默认为 None

resources
必需

组件的计算资源配置。 默认为 None

inputs
必需

组件的输入。 默认为 None

outputs
必需

组件的输出。 默认为 None

code
必需
str

task.code 中的 promoted 属性

instance_count
必需
int

已从resources.instance_count提升属性。 默认为 None

is_deterministic
必需

并行组件是否具有确定性。 默认为 True

仅限关键字的参数

名称 说明
name
必需
version
必需
description
必需
tags
必需
display_name
必需
retry_settings
必需
logging_level
必需
max_concurrency_per_instance
必需
error_threshold
必需
mini_batch_error_threshold
必需
task
必需
mini_batch_size
必需
partition_keys
必需
input_data
必需
resources
必需
inputs
必需
outputs
必需
code
必需
instance_count
必需
is_deterministic
默认值: True

方法

dump

以 yaml 格式将组件内容转储到文件中。

dump

以 yaml 格式将组件内容转储到文件中。

dump(dest: str | PathLike | IO, **kwargs: Any) -> None

参数

名称 说明
dest
必需
Union[<xref:PathLike>, str, IO[AnyStr]]

要接收此组件内容的目标。 必须是本地文件的路径或已打开的文件流。 如果 dest 是文件路径,则将创建新文件,如果文件存在,则会引发异常。 如果 dest 是打开的文件,则该文件将直接写入,如果文件不可写,则会引发异常。

属性

base_path

资源的基路径。

返回

类型 说明
str

资源的基路径。

code

返回已升级属性 task.code 的值,它是指向源代码的本地或远程路径。

返回

类型 说明

task.code 的值。

creation_context

资源的创建上下文。

返回

类型 说明

资源的创建元数据。

display_name

组件的显示名称。

返回

类型 说明
str

组件的显示名称。

environment

返回提升属性 task.environment 的值,指示运行训练作业的环境。

返回

类型 说明

task.environment 的值。

id

资源 ID。

返回

类型 说明

资源的全局 ID、Azure 资源管理器 (ARM) ID。

inputs

组件的输入。

返回

类型 说明

组件的输入。

instance_count

已升级属性resources.instance_count的返回值。

返回

类型 说明

resources.instance_count 的值。

is_deterministic

组件是否具有确定性。

返回

类型 说明

组件是否具有确定性

outputs

组件的输出。

返回

类型 说明

组件的输出。

resources

retry_settings

task

type

组件的类型,默认值为“command”。

返回

类型 说明
str

组件的类型。

version

组件的版本。

返回

类型 说明
str

组件的版本。