SparkComponent Classe
Versão do componente spark, usada para definir um componente ou trabalho do Spark.
- Herança
-
azure.ai.ml.entities._component.component.ComponentSparkComponentazure.ai.ml.entities._job.parameterized_spark.ParameterizedSparkSparkComponentazure.ai.ml.entities._job.spark_job_entry_mixin.SparkJobEntryMixinSparkComponentazure.ai.ml.entities._component.code.ComponentCodeMixinSparkComponent
Construtor
SparkComponent(*, code: PathLike | str | None = '.', entry: Dict[str, str] | SparkJobEntry | None = None, py_files: List[str] | None = None, jars: List[str] | None = None, files: List[str] | None = None, archives: List[str] | None = None, driver_cores: int | str | None = None, driver_memory: str | None = None, executor_cores: int | str | None = None, executor_memory: str | None = None, executor_instances: int | str | None = None, dynamic_allocation_enabled: bool | str | None = None, dynamic_allocation_min_executors: int | str | None = None, dynamic_allocation_max_executors: int | str | None = None, conf: Dict[str, str] | None = None, environment: Environment | str | None = None, inputs: Dict | None = None, outputs: Dict | None = None, args: str | None = None, **kwargs: Any)
Parâmetros somente de palavra-chave
Nome | Description |
---|---|
code
|
O código-fonte para executar o trabalho. Pode ser um caminho local ou uma URL "http:", "https:" ou "azureml:" apontando para um local remoto. O padrão é ".", indicando o diretório atual. valor padrão: .
|
entry
|
O ponto de entrada de arquivo ou classe. |
py_files
|
A lista de arquivos .zip, .egg ou .py a serem colocados no PYTHONPATH para aplicativos Python. Assume o valor padrão de Nenhum. |
jars
|
A lista de . Arquivos JAR a serem incluídos nos caminhos de classe do driver e do executor. Assume o valor padrão de Nenhum. |
files
|
A lista de arquivos a serem colocados no diretório de trabalho de cada executor. Assume o valor padrão de Nenhum. |
archives
|
A lista de arquivos a serem extraídos no diretório de trabalho de cada executor. Assume o valor padrão de Nenhum. |
driver_cores
|
O número de núcleos a serem usados para o processo de driver, somente no modo de cluster. |
driver_memory
|
A quantidade de memória a ser usada para o processo de driver, formatada como cadeias de caracteres com um sufixo de unidade de tamanho ("k", "m", "g" ou "t") (por exemplo, "512m", "2g"). |
executor_cores
|
O número de núcleos a serem usados em cada executor. |
executor_memory
|
A quantidade de memória a ser usada por processo de executor, formatada como cadeias de caracteres com um sufixo de unidade de tamanho ("k", "m", "g" ou "t") (por exemplo, "512m", "2g"). |
executor_instances
|
O número inicial de executores. |
dynamic_allocation_enabled
|
Se deseja usar a alocação dinâmica de recursos, o que dimensiona o número de executores registrados com esse aplicativo para cima e para baixo com base na carga de trabalho. Usa False como padrão. |
dynamic_allocation_min_executors
|
O limite inferior para o número de executores se a alocação dinâmica estiver habilitada. |
dynamic_allocation_max_executors
|
O limite superior para o número de executores se a alocação dinâmica estiver habilitada. |
conf
|
Um dicionário com valores e chave de configurações predefinidos do Spark. Assume o valor padrão de Nenhum. |
environment
|
O ambiente do Azure ML no qual executar o trabalho. |
inputs
|
Optional[dict[str, Union[ <xref:azure.ai.ml.entities._job.pipeline._io.NodeOutput>, Input, str, bool, int, float, <xref:Enum>, ]]]
Um mapeamento de nomes de entrada para fontes de dados de entrada usadas no trabalho. Assume o valor padrão de Nenhum. |
outputs
|
Um mapeamento de nomes de saída para as fontes de dados de saída usadas no trabalho. Assume o valor padrão de Nenhum. |
args
|
Os argumentos para o trabalho. Assume o valor padrão de Nenhum. |
Exemplos
Criando SparkComponent.
from azure.ai.ml.entities import SparkComponent
component = SparkComponent(
name="add_greeting_column_spark_component",
display_name="Aml Spark add greeting column test module",
description="Aml Spark add greeting column test module",
version="1",
inputs={
"file_input": {"type": "uri_file", "mode": "direct"},
},
driver_cores=2,
driver_memory="1g",
executor_cores=1,
executor_memory="1g",
executor_instances=1,
code="./src",
entry={"file": "add_greeting_column.py"},
py_files=["utils.zip"],
files=["my_files.txt"],
args="--file_input ${{inputs.file_input}}",
base_path="./sdk/ml/azure-ai-ml/tests/test_configs/dsl_pipeline/spark_job_in_pipeline",
)
Métodos
dump |
Despejar o conteúdo do componente em um arquivo no formato yaml. |
dump
Despejar o conteúdo do componente em um arquivo no formato yaml.
dump(dest: str | PathLike | IO, **kwargs: Any) -> None
Parâmetros
Nome | Description |
---|---|
dest
Obrigatório
|
O destino para receber o conteúdo desse componente. Deve ser um caminho para um arquivo local ou um fluxo de arquivos já aberto. Se dest for um caminho de arquivo, um novo arquivo será criado e uma exceção será gerada se o arquivo existir. Se dest for um arquivo aberto, o arquivo será gravado diretamente e uma exceção será gerada se o arquivo não for gravável. |
Atributos
base_path
creation_context
O contexto de criação do recurso.
Retornos
Tipo | Description |
---|---|
Os metadados de criação para o recurso. |
display_name
entry
environment
O ambiente do Azure ML no qual executar o componente ou o trabalho do Spark.
Retornos
Tipo | Description |
---|---|
O ambiente do Azure ML no qual executar o componente ou o trabalho do Spark. |
id
A ID do recurso.
Retornos
Tipo | Description |
---|---|
A ID global do recurso, uma ID do ARM (Resource Manager do Azure). |
inputs
is_deterministic
outputs
type
version
CODE_ID_RE_PATTERN
CODE_ID_RE_PATTERN = re.compile('\\/subscriptions\\/(?P<subscription>[\\w,-]+)\\/resourceGroups\\/(?P<resource_group>[\\w,-]+)\\/providers\\/Microsoft\\.MachineLearningServices\\/workspaces\\/(?P<workspace>[\\w,-]+)\\/codes\\/(?P<co)
Azure SDK for Python