你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
ParallelComponent 类
并行组件版本,用于定义并行组件。
- 继承
-
azure.ai.ml.entities._component.component.ComponentParallelComponentazure.ai.ml.entities._job.parallel.parameterized_parallel.ParameterizedParallelParallelComponentazure.ai.ml.entities._component.code.ComponentCodeMixinParallelComponent
构造函数
ParallelComponent(*, name: str | None = None, version: str | None = None, description: str | None = None, tags: Dict[str, Any] | None = None, display_name: str | None = None, retry_settings: RetrySettings | None = None, logging_level: str | None = None, max_concurrency_per_instance: int | None = None, error_threshold: int | None = None, mini_batch_error_threshold: int | None = None, task: ParallelTask | None = None, mini_batch_size: str | None = None, partition_keys: List | None = None, input_data: str | None = None, resources: JobResourceConfiguration | None = None, inputs: Dict | None = None, outputs: Dict | None = None, code: str | None = None, instance_count: int | None = None, is_deterministic: bool = True, **kwargs: Any)
参数
名称 | 说明 |
---|---|
name
必需
|
组件的名称。 默认为 None |
version
必需
|
组件的版本。 默认为 None |
description
必需
|
组件的说明。 默认为 None |
tags
必需
|
标记字典。 可以添加、删除和更新标记。 默认为 None |
display_name
必需
|
组件的显示名称。 默认为 None |
retry_settings
必需
|
并行组件运行失败的重试。 默认为 None |
logging_level
必需
|
日志记录级别名称的字符串。 默认为 None |
max_concurrency_per_instance
必需
|
每个计算实例具有的最大并行度。 默认为 None |
error_threshold
必需
|
应忽略项处理失败次数。 默认为 None |
mini_batch_error_threshold
必需
|
应忽略小型批处理失败次数。 默认为 None |
task
必需
|
并行任务。 默认为 None |
mini_batch_size
必需
|
对于 FileDataset 输入,此字段是用户脚本在一次 run() 调用中可以处理的文件数。 对于 TabularDataset 输入,此字段是用户脚本可以在一次 run() 调用中处理的数据的近似大小。 示例值为 1024、1024KB、10MB 和1GB。 (可选,对于 FileDataset,默认值为 10 个文件,对于 TabularDataset 为 1MB 文件。) 可以通过 PipelineParameter 设置此值。 |
partition_keys
必需
|
用于将数据集分区为小型批处理的键。 默认为“无”如果指定,具有相同键的数据将分区到同一个小型批处理中。 如果同时指定了partition_keys和mini_batch_size,partition_keys将生效。 输入 (s) 必须是 () 的分区数据集,并且 partition_keys 必须是每个输入数据集的键的子集才能运行。 |
input_data
必需
|
输入数据。 默认为 None |
resources
必需
|
组件的计算资源配置。 默认为 None |
inputs
必需
|
组件的输入。 默认为 None |
outputs
必需
|
组件的输出。 默认为 None |
code
必需
|
task.code 中的 promoted 属性 |
instance_count
必需
|
已从resources.instance_count提升属性。 默认为 None |
is_deterministic
必需
|
并行组件是否具有确定性。 默认为 True |
仅限关键字的参数
名称 | 说明 |
---|---|
name
必需
|
|
version
必需
|
|
description
必需
|
|
tags
必需
|
|
display_name
必需
|
|
retry_settings
必需
|
|
logging_level
必需
|
|
max_concurrency_per_instance
必需
|
|
error_threshold
必需
|
|
mini_batch_error_threshold
必需
|
|
task
必需
|
|
mini_batch_size
必需
|
|
partition_keys
必需
|
|
input_data
必需
|
|
resources
必需
|
|
inputs
必需
|
|
outputs
必需
|
|
code
必需
|
|
instance_count
必需
|
|
is_deterministic
|
默认值: True
|
方法
dump |
以 yaml 格式将组件内容转储到文件中。 |
dump
以 yaml 格式将组件内容转储到文件中。
dump(dest: str | PathLike | IO, **kwargs: Any) -> None
参数
名称 | 说明 |
---|---|
dest
必需
|
要接收此组件内容的目标。 必须是本地文件的路径或已打开的文件流。 如果 dest 是文件路径,则将创建新文件,如果文件存在,则会引发异常。 如果 dest 是打开的文件,则该文件将直接写入,如果文件不可写,则会引发异常。 |