AdlaStep Classe
Cria uma etapa de Pipeline do Azure ML a fim de executar um script de U-SQL com o Azure Data Lake Analytics.
Para obter um exemplo de como usar esse AdlaStep, confira o notebook https://aka.ms/pl-adla.
Crie uma etapa do Pipeline do Azure ML para executar um script U-SQL com o Azure Data Lake Analytics.
- Herança
-
azureml.pipeline.core._adla_step_base._AdlaStepBaseAdlaStep
Construtor
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
Parâmetros
Nome | Description |
---|---|
script_name
Obrigatório
|
[Obrigatório] O nome de um script U-SQL relativo a |
name
|
O nome da etapa. Se não for especificado, Valor padrão: None
|
inputs
|
Uma lista de associações de porta de entrada. Valor padrão: None
|
outputs
|
Uma lista de associações de porta de saída. Valor padrão: None
|
params
|
Dicionário de pares nome-valor. Valor padrão: None
|
degree_of_parallelism
|
O grau de paralelismo a ser usado para este trabalho. Deve ser maior que 0. Se definido como menor que 0, o padrão será 1. Valor padrão: None
|
priority
|
O valor da prioridade a ser usado para o trabalho atual. Números menores têm prioridade mais alta. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0. Valor padrão: None
|
runtime_version
|
A versão de tempo de execução do mecanismo de Data Lake Analytics. Valor padrão: None
|
compute_target
|
[Obrigatório] A computação ADLA a ser usada para este trabalho. Valor padrão: None
|
source_directory
|
Uma pasta que contém o script, os assemblies, etc. Valor padrão: None
|
allow_reuse
|
Indica se a etapa deve ou não reutilizar os resultados anteriores quando executada novamente com as mesmas configurações. A reutilização está habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), as entradas e os parâmetros permanecerem inalterados, será reutilizada a saída da execução anterior dessa etapa. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior serão disponibilizados imediatamente para etapas posteriores. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada dependendo de ter havido ou não alteração na definição do conjunto de dados, não nos dados subjacentes. Valor padrão: True
|
version
|
Uma marca de versão opcional para denotar uma alteração na funcionalidade da etapa. Valor padrão: None
|
hash_paths
|
PRETERIDO: não é mais necessário. Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo de Valor padrão: None
|
script_name
Obrigatório
|
[Obrigatório] O nome de um script U-SQL relativo a |
name
Obrigatório
|
O nome da etapa. Se não for especificado, |
inputs
Obrigatório
|
Lista de associações de porta de entrada |
outputs
Obrigatório
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Uma lista de associações de porta de saída. |
params
Obrigatório
|
Dicionário de pares nome-valor. |
degree_of_parallelism
Obrigatório
|
O grau de paralelismo a ser usado para este trabalho. Deve ser maior que 0. Se definido como menor que 0, o padrão será 1. |
priority
Obrigatório
|
O valor da prioridade a ser usado para o trabalho atual. Números menores têm prioridade mais alta. Por padrão, um trabalho tem uma prioridade de 1000. O valor especificado deve ser maior que 0. |
runtime_version
Obrigatório
|
A versão de tempo de execução do mecanismo de Data Lake Analytics. |
compute_target
Obrigatório
|
[Obrigatório] A computação ADLA a ser usada para este trabalho. |
source_directory
Obrigatório
|
Uma pasta que contém o script, os assemblies, etc. |
allow_reuse
Obrigatório
|
Indica se a etapa deve ou não reutilizar os resultados anteriores quando executada novamente com as mesmas configurações. A reutilização está habilitada por padrão. Se o conteúdo da etapa (scripts/dependências), as entradas e os parâmetros permanecerem inalterados, será reutilizada a saída da execução anterior dessa etapa. Ao reutilizar a etapa, em vez de enviar o trabalho para computação, os resultados da execução anterior serão disponibilizados imediatamente para etapas posteriores. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada dependendo de ter havido ou não alteração da definição do conjunto de dados, não de ter havido alteração dos dados subjacentes. |
version
Obrigatório
|
Uma marca de versão opcional para denotar uma alteração na funcionalidade da etapa. |
hash_paths
Obrigatório
|
PRETERIDO: não é mais necessário. Uma lista de caminhos para hash ao verificar alterações no conteúdo da etapa. Se não houver alterações detectadas, o pipeline reutilizará o conteúdo da etapa de uma execução anterior. Por padrão, o conteúdo de |
Comentários
É possível usar a sintaxe @@name@@ no script para referenciar as entradas, as saídas e os parâmetros.
Se name for o nome de uma associação de porta de entrada ou de saída, todas as ocorrências de @@name@@ no script serão substituídas pelo caminho de dados real de uma associação de porta correspondente.
Se name corresponder a qualquer chave no dict params, todas as ocorrências de @@name@@ serão substituídas pelo valor correspondente no dict.
AdlaStep funciona apenas com dados armazenados no Data Lake Storage padrão da conta do Data Lake Analytics. Se os dados estiverem em um armazenamento não padrão, use um DataTransferStep para copiá-los para o armazenamento padrão. É possível encontrar o armazenamento padrão abrindo sua conta do Data Lake Analytics no portal do Azure e acessando o item 'Fontes de dados' em Configurações no painel esquerdo.
O exemplo a seguir mostra como usar AdlaStep em um pipeline do Azure Machine Learning.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
O exemplo completo está disponível em https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb
Métodos
create_node |
Crie um nó da etapa AdlaStep e adicione-o ao gráfico especificado. Esse método não deve ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML transmite os parâmetros necessários automaticamente por meio desse método para que a etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho. |
create_node
Crie um nó da etapa AdlaStep e adicione-o ao gráfico especificado.
Esse método não deve ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML transmite os parâmetros necessários automaticamente por meio desse método para que a etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho.
create_node(graph, default_datastore, context)
Parâmetros
Nome | Description |
---|---|
graph
Obrigatório
|
O objeto de gráfico. |
default_datastore
Obrigatório
|
O armazenamento de dados padrão. |
context
Obrigatório
|
<xref:azureml.pipeline.core._GraphContext>
O contexto do grafo. |
Retornos
Tipo | Description |
---|---|
O objeto de nó. |