databricks_step Módulo

Contém a funcionalidade para criar uma etapa de pipeline do Azure ML para executar um notebook do Databricks ou um script Python no DBFS.

Classes

DatabricksStep

Cria uma etapa de pipeline do Azure ML para adicionar um notebook do DataBricks, um script Python ou um JAR como um nó.

Para ver um exemplo de como usar DatabricksStep, confira o notebook https://aka.ms/pl-databricks.

Crie uma etapa do Pipeline do Azure ML para adicionar um notebook do DataBricks, script Python ou JAR como um nó.

Para ver um exemplo de como usar DatabricksStep, confira o notebook https://aka.ms/pl-databricks.

:p aram python_script_name:[Obrigatório] O nome de um script Python em relação a source_directory. Se o script usar entradas e saídas, elas serão passadas para o script como parâmetros. Se python_script_name for especificado, source_directory também deverá ser.

Especifique exatamente um dos notebook_path, python_script_path, python_script_name ou main_class_name.

Se você especificar um objeto DataReference como entrada com data_reference_name=input1 e um objeto PipelineData como saída com name=output1, as entradas e saídas serão passadas para o script como parâmetros. Elas terão esta aparência e você precisará analisar os argumentos no script para acessar os caminhos de cada entrada e saída: "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

Além disso, os seguintes parâmetros estarão disponíveis no script:

  • AZUREML_RUN_TOKEN: o token do AML para autenticação com o Azure Machine Learning.
  • AZUREML_RUN_TOKEN_EXPIRY: a hora de expiração do token do AML.
  • AZUREML_RUN_ID: ID de execução do Azure Machine Learning para esta execução.
  • AZUREML_ARM_SUBSCRIPTION: assinatura do Azure para o workspace do AML.
  • AZUREML_ARM_RESOURCEGROUP: grupo de recursos do Azure para o workspace do Azure Machine Learning.
  • AZUREML_ARM_WORKSPACE_NAME: nome do workspace do Azure Machine Learning.
  • AZUREML_ARM_PROJECT_NAME: nome do experimento do Azure Machine Learning.
  • AZUREML_SERVICE_ENDPOINT: a URL do ponto de extremidade para serviços do AML.
  • AZUREML_WORKSPACE_ID: ID do workspace do Azure Machine Learning.
  • AZUREML_EXPERIMENT_ID: ID do experimento do Azure Machine Learning.
  • AZUREML_SCRIPT_DIRECTORY_NAME: caminho do diretório no DBFS em que source_directory foi copiado.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

Quando você estiver executando um script Python no computador local no Databricks usando os parâmetros DatabricksStep source_directory e python_script_name, o source_directory será copiado para o DBFS e o caminho do diretório no DBFS será passado como parâmetro para o script, quando começar a execução. Esse parâmetro é identificado como – AZUREML_SCRIPT_DIRECTORY_NAME. Você precisa usar o prefixo com a cadeia de caracteres "dbfs:/" ou "/dbfs/" para acessar o diretório no DBFS.