Compartilhar via


AdlaStep Classe

Cria uma etapa de Pipeline do Azure ML a fim de executar um script de U-SQL com o Azure Data Lake Analytics.

Para obter um exemplo de como usar esse AdlaStep, confira o notebook https://aka.ms/pl-adla.

Crie uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.

Herança
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Construtor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parâmetros

Nome Description
script_name
Obrigatório
str

[Obrigatório] O nome de um script U-SQL relativo a source_directory.

name
str

O nome da etapa. Se não for especificado, script_name será usado.

Valor padrão: None
inputs

Uma lista de associações de porta de entrada.

Valor padrão: None
outputs

Uma lista de associações de porta de saída.

Valor padrão: None
params

Dicionário de pares nome-valor.

Valor padrão: None
degree_of_parallelism
int

O grau de paralelismo a ser usado para este trabalho. Deve ser maior que 0. Se definido como menor que 0, o padrão será 1.

Valor padrão: None
priority
int

O valor da prioridade a ser usado para o trabalho atual. Números menores têm prioridade mais alta. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0.

Valor padrão: None
runtime_version
str

A versão de tempo de execução do mecanismo de Data Lake Analytics.

Valor padrão: None
compute_target

[Obrigatório] A computação ADLA a ser usada para este trabalho.

Valor padrão: None
source_directory
str

Uma pasta que contém o script, os assemblies, etc.

Valor padrão: None
allow_reuse

Indica se a etapa deve ou não reutilizar os resultados anteriores quando executada novamente com as mesmas configurações. A reutilização está habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), as entradas e os parâmetros permanecerem inalterados, será reutilizada a saída da execução anterior dessa etapa. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior serão disponibilizados imediatamente para etapas posteriores. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada dependendo de ter havido ou não alteração na definição do conjunto de dados, não nos dados subjacentes.

Valor padrão: True
version
str

Uma marca de versão opcional para denotar uma alteração na funcionalidade da etapa.

Valor padrão: None
hash_paths

PRETERIDO: não é mais necessário.

Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo de source_directory recebe o hash (exceto os arquivos listados em .amlignore ou .gitignore).

Valor padrão: None
script_name
Obrigatório
str

[Obrigatório] O nome de um script U-SQL relativo a source_directory.

name
Obrigatório
str

O nome da etapa. Se não for especificado, script_name será usado.

inputs
Obrigatório

Lista de associações de porta de entrada

outputs
Obrigatório
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Uma lista de associações de porta de saída.

params
Obrigatório

Dicionário de pares nome-valor.

degree_of_parallelism
Obrigatório
int

O grau de paralelismo a ser usado para este trabalho. Deve ser maior que 0. Se definido como menor que 0, o padrão será 1.

priority
Obrigatório
int

O valor da prioridade a ser usado para o trabalho atual. Números menores têm prioridade mais alta. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0.

runtime_version
Obrigatório
str

A versão de tempo de execução do mecanismo de Data Lake Analytics.

compute_target
Obrigatório

[Obrigatório] A computação ADLA a ser usada para este trabalho.

source_directory
Obrigatório
str

Uma pasta que contém o script, os assemblies, etc.

allow_reuse
Obrigatório

Indica se a etapa deve ou não reutilizar os resultados anteriores quando executada novamente com as mesmas configurações. A reutilização está habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), as entradas e os parâmetros permanecerem inalterados, será reutilizada a saída da execução anterior dessa etapa. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior serão disponibilizados imediatamente para etapas posteriores. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada dependendo de ter havido ou não alteração da definição do conjunto de dados, não de ter havido alteração dos dados subjacentes.

version
Obrigatório
str

Uma marca de versão opcional para denotar uma alteração na funcionalidade da etapa.

hash_paths
Obrigatório

PRETERIDO: não é mais necessário.

Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo de source_directory recebe o hash (exceto os arquivos listados em .amlignore ou .gitignore).

Comentários

É possível usar a sintaxe @@name@@ no script para referenciar as entradas, as saídas e os parâmetros.

  • Se name for o nome de uma associação de porta de entrada ou de saída, todas as ocorrências de @@name@@ no script serão substituídas pelo caminho de dados real de uma associação de porta correspondente.

  • Se name corresponder a qualquer chave no dict params, todas as ocorrências de @@name@@ serão substituídas pelo valor correspondente no dict.

AdlaStep funciona apenas com dados armazenados no Data Lake Storage padrão da conta do Data Lake Analytics. Se os dados estiverem em um armazenamento não padrão, use um DataTransferStep para copiá-los para o armazenamento padrão. É possível encontrar o armazenamento padrão abrindo sua conta do Data Lake Analytics no portal do Azure e acessando o item 'Fontes de dados' em Configurações no painel esquerdo.

O exemplo a seguir mostra como usar AdlaStep em um pipeline do Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Métodos

create_node

Crie um nó da etapa AdlaStep e adicione-o ao gráfico especificado.

Esse método não deve ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML transmite os parâmetros necessários automaticamente por meio desse método para que a etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho.

create_node

Crie um nó da etapa AdlaStep e adicione-o ao gráfico especificado.

Esse método não deve ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML transmite os parâmetros necessários automaticamente por meio desse método para que a etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho.

create_node(graph, default_datastore, context)

Parâmetros

Nome Description
graph
Obrigatório

O objeto de gráfico.

default_datastore
Obrigatório

O armazenamento de dados padrão.

context
Obrigatório
<xref:azureml.pipeline.core._GraphContext>

O contexto do grafo.

Retornos

Tipo Description

O objeto de nó.