DataTransferStep Classe
Cria uma etapa do pipeline do Azure Machine Learning que transfere dados entre as opções de armazenamento.
DataTransferStep dá suporte a tipos de armazenamento comuns, como o Armazenamento de Blobs do Azure e o Azure Data Lake como origens e coletores. Para obter mais informações, confira seção Comentários.
Para ver um exemplo de como usar DataTransferStep, confira o notebook https://aka.ms/pl-data-trans.
Crie uma etapa do Pipeline do Azure ML que transfere dados entre as opções de armazenamento.
- Herança
-
azureml.pipeline.core._data_transfer_step_base._DataTransferStepBaseDataTransferStep
Construtor
DataTransferStep(name, source_data_reference=None, destination_data_reference=None, compute_target=None, source_reference_type=None, destination_reference_type=None, allow_reuse=True)
Parâmetros
Nome | Description |
---|---|
name
Obrigatório
|
[Obrigatório] O nome da etapa. |
source_data_reference
|
[Obrigatório] Uma conexão de entrada que atua como origem da operação de transferência de dados. Valor padrão: None
|
destination_data_reference
|
[Obrigatório] Uma conexão de saída que atua como destino da operação de transferência de dados. Valor padrão: None
|
compute_target
|
[Obrigatório] Um Azure Data Factory a ser usado para transferir dados. Valor padrão: None
|
source_reference_type
|
Uma cadeia de caracteres opcional que especifica o tipo de Valor padrão: None
|
destination_reference_type
|
Uma cadeia de caracteres opcional que especifica o tipo de Valor padrão: None
|
allow_reuse
|
Indica se a etapa deve ou não reutilizar os resultados anteriores quando executada novamente com as mesmas configurações. A reutilização está habilitada por padrão. Se os argumentos da etapa permanecerem inalterados, a saída da execução anterior da etapa será reutilizada. Ao reutilizar a etapa, em vez de transferir os dados novamente, os resultados da execução anterior são disponibilizados imediatamente para as etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada dependendo de ter havido ou não alteração na definição do conjunto de dados, não nos dados subjacentes. Valor padrão: True
|
name
Obrigatório
|
[Obrigatório] O nome da etapa. |
source_data_reference
Obrigatório
|
[Obrigatório] Uma conexão de entrada que atua como origem da operação de transferência de dados. |
destination_data_reference
Obrigatório
|
[Obrigatório] Uma conexão de saída que atua como destino da operação de transferência de dados. |
compute_target
Obrigatório
|
[Obrigatório] Um Azure Data Factory a ser usado para transferir dados. |
source_reference_type
Obrigatório
|
Uma cadeia de caracteres opcional que especifica o tipo de |
destination_reference_type
Obrigatório
|
Uma cadeia de caracteres opcional que especifica o tipo de |
allow_reuse
Obrigatório
|
Indica se a etapa deve ou não reutilizar os resultados anteriores quando executada novamente com as mesmas configurações. A reutilização está habilitada por padrão. Se os argumentos da etapa permanecerem inalterados, a saída da execução anterior da etapa será reutilizada. Ao reutilizar a etapa, em vez de transferir os dados novamente, os resultados da execução anterior são disponibilizados imediatamente para as etapas subsequentes. Se você usar conjuntos de dados do Azure Machine Learning como entradas, a reutilização será determinada dependendo de ter havido ou não alteração na definição do conjunto de dados, não nos dados subjacentes. |
Comentários
Esta etapa dá suporte aos seguintes tipos de armazenamento como fontes e coletores, exceto quando indicado:
Armazenamento do Blobs do Azure
Azure Data Lake Storage Gen1 e Gen2
Banco de Dados SQL do Azure
Banco de Dados do Azure para PostgreSQL
Banco de Dados do Azure para MySQL
Para o Banco de Dados SQL do Azure, use a autenticação da entidade de serviço. Para saber mais, confira Autenticação da entidade de serviço. Para ver um exemplo de como usar a autenticação de entidade de serviço para o Banco de Dados SQL do Azure, confira https://aka.ms/pl-data-trans.
Para estabelecer a dependência de dados entre etapas, use o método get_output para obter um objeto PipelineData que representa a saída dessa etapa de transferência de dados e pode ser usado como entrada para etapas posteriores no pipeline.
data_transfer_step = DataTransferStep(name="copy data", ...)
# Use output of data_transfer_step as input of another step in pipeline
# This will make training_step wait for data_transfer_step to complete
training_input = data_transfer_step.get_output()
training_step = PythonScriptStep(script_name="train.py",
arguments=["--model", training_input],
inputs=[training_input],
compute_target=aml_compute,
source_directory=source_directory)
Para criar um InputPortBinding com um nome específico, combine a saída get_output() com a saída do método as_input ou as_mount de PipelineData.
data_transfer_step = DataTransferStep(name="copy data", ...)
training_input = data_transfer_step.get_output().as_input("my_input_name")
Métodos
create_node |
Criar um nó com base na etapa DataTransfer e adicioná-lo ao gráfico determinado. Esse método não deve ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML transmite os parâmetros necessários automaticamente por meio desse método para que a etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho. |
get_output |
Obter a saída da etapa como PipelineData. |
create_node
Criar um nó com base na etapa DataTransfer e adicioná-lo ao gráfico determinado.
Esse método não deve ser usado diretamente. Quando um pipeline é instanciado com essa etapa, o Azure ML transmite os parâmetros necessários automaticamente por meio desse método para que a etapa possa ser adicionada a um gráfico de pipeline que representa o fluxo de trabalho.
create_node(graph, default_datastore, context)
Parâmetros
Nome | Description |
---|---|
graph
Obrigatório
|
O objeto de gráfico ao qual adicionar o nó. |
default_datastore
Obrigatório
|
O armazenamento de dados padrão. |
context
Obrigatório
|
<xref:azureml.pipeline.core._GraphContext>
O contexto do grafo. |
Retornos
Tipo | Description |
---|---|
O nó criado. |
get_output
Obter a saída da etapa como PipelineData.
get_output()
Retornos
Tipo | Description |
---|---|
A saída da etapa. |
Comentários
Para estabelecer a dependência de dados entre etapas, use o método get_output para obter um objeto PipelineData que representa a saída dessa etapa de transferência de dados e pode ser usado como entrada para etapas posteriores no pipeline.
data_transfer_step = DataTransferStep(name="copy data", ...)
# Use output of data_transfer_step as input of another step in pipeline
# This will make training_step wait for data_transfer_step to complete
training_input = data_transfer_step.get_output()
training_step = PythonScriptStep(script_name="train.py",
arguments=["--model", training_input],
inputs=[training_input],
compute_target=aml_compute,
source_directory=source_directory)
Para criar um InputPortBinding com um nome específico, combine a chamada get_output() com o método auxiliar as_input ou as_mount.
data_transfer_step = DataTransferStep(name="copy data", ...)
training_input = data_transfer_step.get_output().as_input("my_input_name")