다음을 통해 공유


DatabricksStep 클래스

DataBricks Notebook, Python 스크립트 또는 JAR을 노드로 추가하는 Azure ML 파이프라인 단계를 만듭니다.

DatabricksStep 사용의 예제는 Notebook https://aka.ms/pl-databricks를 참조하세요.

Azure ML 파이프라인 단계를 만들어 DataBricks Notebook, Python 스크립트 또는 JAR을 노드로 추가합니다.

DatabricksStep 사용의 예제는 Notebook https://aka.ms/pl-databricks를 참조하세요.

:p aram python_script_name:[필수] 에 상대적 source_directory인 Python 스크립트의 이름입니다. 스크립트가 입력과 출력을 사용하면 매개 변수로 스크립트에 전달됩니다. python_script_name가 지정되면 source_directory도 지정되어야 합니다.

notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

DataReference 개체를 data_reference_name=input1에 입력으로 지정하고 PipelineData 개체를 name=output1에 출력으로 지정하면 입력과 출력이 매개 변수로 스크립트에 전달됩니다. 그러면 다음과 같이 표시되며 각 입력 및 출력의 경로에 액세스하려면 스크립트의 인수를 구문 분석해야 합니다. "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

또한 스크립트 내에서 다음 매개 변수를 사용할 수 있습니다.

  • AZUREML_RUN_TOKEN: Azure Machine Learning으로 인증하기 위한 AML 토큰입니다.
  • AZUREML_RUN_TOKEN_EXPIRY: AML 토큰 만료 시간입니다.
  • AZUREML_RUN_ID: 이 실행에 대한 Azure Machine Learning 실행 ID입니다.
  • AZUREML_ARM_SUBSCRIPTION: AML 작업 영역에 대한 Azure 구독입니다.
  • AZUREML_ARM_RESOURCEGROUP: Azure Machine Learning 작업 영역에 대한 Azure 리소스 그룹입니다.
  • AZUREML_ARM_WORKSPACE_NAME: Azure Machine Learning 작업 영역의 이름입니다.
  • AZUREML_ARM_PROJECT_NAME: Azure Machine Learning 실험의 이름입니다.
  • AZUREML_SERVICE_ENDPOINT: AML 서비스의 엔드포인트 URL입니다.
  • AZUREML_WORKSPACE_ID: Azure Machine Learning 작업 영역의 ID입니다.
  • AZUREML_EXPERIMENT_ID: Azure Machine Learning 실험의 ID입니다.
  • AZUREML_SCRIPT_DIRECTORY_NAME: source_directory가 복사된 DBFS의 디렉터리 경로입니다.
  (This parameter is only populated when `python_script_name` is used.  See more details below.)

DatabricksStep 매개 변수 source_directorypython_script_name을 사용하여 Databricks의 로컬 머신에서 Python 스크립트를 실행하는 경우 source_directory가 DBFS로 복사되고 DBFS의 디렉터리 경로가 실행을 시작할 때 스크립트에 매개 변수로 전달됩니다. 이 매개 변수의 레이블은 AZUREML_SCRIPT_DIRECTORY_NAME입니다. DBFS의 디렉터리에 액세스하려면 문자열 “dbfs:/” 또는 “/dbfs/”를 접두사로 추가해야 합니다.

상속
azureml.pipeline.core._databricks_step_base._DatabricksStepBase
DatabricksStep

생성자

DatabricksStep(name, inputs=None, outputs=None, existing_cluster_id=None, spark_version=None, node_type=None, instance_pool_id=None, num_workers=None, min_workers=None, max_workers=None, spark_env_variables=None, spark_conf=None, init_scripts=None, cluster_log_dbfs_path=None, notebook_path=None, notebook_params=None, python_script_path=None, python_script_params=None, main_class_name=None, jar_params=None, python_script_name=None, source_directory=None, hash_paths=None, run_name=None, timeout_seconds=None, runconfig=None, maven_libraries=None, pypi_libraries=None, egg_libraries=None, jar_libraries=None, rcran_libraries=None, compute_target=None, allow_reuse=True, version=None, permit_cluster_restart=None)

매개 변수

Name Description
name
필수
str

[필수] 단계의 이름입니다.

inputs

이 단계에서 사용하는 데이터에 대한 입력 연결 목록입니다. dbutils.widgets.get("input_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. DataReference 또는 PipelineData일 수 있습니다. DataReference는 데이터 저장소의 기존 데이터 부분을 나타냅니다. 기본적으로 데이터 저장소의 경로입니다. DatabricksStep은 DBFS, Azure Blob 또는 ADLS v1을 캡슐화하는 데이터 저장소를 지원합니다. PipelineData는 파이프라인의 다른 단계에서 생성된 중간 데이터를 나타냅니다.

Default value: None
outputs

이 단계에서 생성된 출력에 대한 출력 포트 정의 목록입니다. dbutils.widgets.get("output_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. PipelineData여야 합니다.

Default value: None
existing_cluster_id
str

Databricks 작업 영역에 있는 기존 대화형 클러스터의 클러스터 ID입니다. 이 매개 변수를 전달하는 경우 새 클러스터를 만드는 데 사용되는 다음 매개 변수를 전달할 수 없습니다.

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

참고: 새 작업 클러스터를 만들려면 위의 매개 변수를 전달해야 합니다. 이러한 매개 변수를 직접 전달하거나 runconfig 매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달할 수 있습니다. 이러한 매개 변수를 RunConfiguration을 통해 직접 전달하면 오류가 발생합니다.

Default value: None
spark_version
str

Databricks 실행 클러스터에 대한 spark 버전(예: "10.4.x-scala2.12"). 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

Default value: None
node_type
str

[필수] Databricks에 대한 Azure VM 노드 유형은 클러스터(예: "Standard_D3_v2")를 실행합니다. node_type 또는 instance_pool_id를 지정합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

Default value: None
instance_pool_id
str

[필수] 클러스터를 연결해야 하는 인스턴스 풀 ID입니다. node_type 또는 instance_pool_id를 지정합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

Default value: None
num_workers
int

[필수] Databricks 실행 클러스터에 대한 고정 작업자 수입니다. num_workers 또는 min_workersmax_workers 둘 다를 지정해야 합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

Default value: None
min_workers
int

[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최소 작업자 수입니다. num_workers 또는 min_workersmax_workers 둘 다를 지정해야 합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

Default value: None
max_workers
int

[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최대 작업자 수입니다. num_workers 또는 min_workersmax_workers 둘 다를 지정해야 합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

Default value: None
spark_env_variables

Databricks 실행 클러스터에 대한 Spark 환경 변수입니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

Default value: None
spark_conf

Databricks 실행 클러스터에 대한 Spark 구성입니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

Default value: None
init_scripts
[str]

더 이상 사용되지 않습니다. Databricks는 DBFS에 저장된 init 스크립트가 2023년 12월 1일 이후에 작업을 중지할 것이라고 발표했습니다. 문제를 완화하려면 1) 다음 https://learn.microsoft.com/azure/databricks/init-scripts/global databricks에서 전역 init 스크립트를 사용하세요. 2) AzureML databricks 단계에서 init_scripts 줄을 주석 처리합니다.

Default value: None
cluster_log_dbfs_path
str

클러스터 로그를 전달할 DBFS 경로입니다.

Default value: None
notebook_path
str

[필수] Databricks 인스턴스의 Notebook 경로입니다. 이 클래스는 Databricks 클러스터에서 실행할 코드를 지정하는 네 가지 방법을 허용합니다.

  1. Databricks 작업 영역에 있는 Notebook을 실행하려면 notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}을 사용합니다.

  2. DBFS에 있는 Python 스크립트를 실행하려면 python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}를 사용합니다.

  3. DBFS에 있는 JAR을 실행하려면 main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]를 사용합니다.

  4. 로컬 컴퓨터에 있는 Python 스크립트를 실행하려면 python_script_name=python_script_name, source_directory=source_directory를 사용합니다.

notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

Default value: None
notebook_params

Notebook에 전달할 매개 변수 사전입니다. notebook_params는 위젯으로 사용할 수 있습니다. dbutils.widgets.get("myparam")을 사용하여 Notebook 내에서 이러한 위젯의 값을 가져올 수 있습니다.

Default value: None
python_script_path
str

[필수] DBFS의 Python 스크립트 경로입니다. notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

Default value: None
python_script_params

Python 스크립트에 대한 매개 변수입니다.

Default value: None
main_class_name
str

[필수] JAR 모듈의 진입점 이름입니다. notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

Default value: None
jar_params

JAR 모듈에 대한 매개 변수입니다.

Default value: None
python_script_name
str

[필수] source_directory와 관련된 Python 스크립트의 이름입니다. 스크립트가 입력과 출력을 사용하면 매개 변수로 스크립트에 전달됩니다. python_script_name가 지정되면 source_directory도 지정되어야 합니다.

notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

DataReference 개체를 data_reference_name=input1에 입력으로 지정하고 PipelineData 개체를 name=output1에 출력으로 지정하면 입력과 출력이 매개 변수로 스크립트에 전달됩니다. 그러면 다음과 같이 표시되며 각 입력 및 출력의 경로에 액세스하려면 스크립트의 인수를 구문 분석해야 합니다. "-input1","wasbs://test@storagename.blob.core.windows.net/test","-output1", "wasbs://test@storagename.blob.core.windows.net/b3e26de1-87a4-494d-a20f-1988d22b81a2/output1"

또한 스크립트 내에서 다음 매개 변수를 사용할 수 있습니다.

  • AZUREML_RUN_TOKEN: Azure Machine Learning으로 인증하기 위한 AML 토큰입니다.
  • AZUREML_RUN_TOKEN_EXPIRY: AML 토큰 만료 시간입니다.
  • AZUREML_RUN_ID: 이 실행에 대한 Azure Machine Learning 실행 ID입니다.
  • AZUREML_ARM_SUBSCRIPTION: AML 작업 영역에 대한 Azure 구독입니다.
  • AZUREML_ARM_RESOURCEGROUP: Azure Machine Learning 작업 영역에 대한 Azure 리소스 그룹입니다.
  • AZUREML_ARM_WORKSPACE_NAME: Azure Machine Learning 작업 영역의 이름입니다.
  • AZUREML_ARM_PROJECT_NAME: Azure Machine Learning 실험의 이름입니다.
  • AZUREML_SERVICE_ENDPOINT: AML 서비스의 엔드포인트 URL입니다.
  • AZUREML_WORKSPACE_ID: Azure Machine Learning 작업 영역의 ID입니다.
  • AZUREML_EXPERIMENT_ID: Azure Machine Learning 실험의 ID입니다.
  • AZUREML_SCRIPT_DIRECTORY_NAME: source_directory가 복사된 DBFS의 디렉터리 경로입니다. (이 매개 변수는 가 사용되는 경우에만 채워집니다 python_script_name . 자세한 내용은 아래를 참조하세요.)

DatabricksStep 매개 변수 source_directorypython_script_name을 사용하여 Databricks의 로컬 머신에서 Python 스크립트를 실행하는 경우 source_directory가 DBFS로 복사되고 DBFS의 디렉터리 경로가 실행을 시작할 때 스크립트에 매개 변수로 전달됩니다. 이 매개 변수의 레이블은 AZUREML_SCRIPT_DIRECTORY_NAME입니다. DBFS의 디렉터리에 액세스하려면 문자열 “dbfs:/” 또는 “/dbfs/”를 접두사로 추가해야 합니다.

Default value: None
source_directory
str

스크립트 및 기타 파일을 포함하는 폴더입니다. python_script_name가 지정되면 source_directory도 지정되어야 합니다.

Default value: None
hash_paths
[str]

사용되지 않음: 더 이상 필요하지 않습니다.

단계 내용의 변경 내용을 확인할 때 해시할 경로 목록입니다. 검색된 변경 내용이 없으면 파이프라인은 이전 실행의 단계 내용을 재사용합니다. 기본적으로 source_directory의 내용은 .amlignore 또는 .gitignore에 나열된 파일을 제외하고 해시됩니다.

Default value: None
run_name
str

이 실행에 대한 Databricks의 이름입니다.

Default value: None
timeout_seconds
int

Databricks 실행에 대한 시간 제한입니다.

Default value: None
runconfig

사용할 runconfig입니다.

참고: maven_libraries, pypi_libraries, egg_libraries, jar_libraries 또는 rcran_libraries 매개 변수를 사용하여 종속성을 원하는 만큼 작업에 전달할 수 있습니다. 이러한 매개 변수를 해당 매개 변수와 함께 직접 전달하거나 runconfig 매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달하되 둘 다 전달해서는 안 됩니다.

Default value: None
maven_libraries

Databricks 실행에 사용할 Maven 라이브러리입니다.

Default value: None
pypi_libraries

Databricks 실행에 사용할 PyPi 라이브러리입니다.

Default value: None
egg_libraries

Databricks 실행에 사용할 Egg 라이브러리입니다.

Default value: None
jar_libraries

Databricks 실행에 사용할 Jar 라이브러리입니다.

Default value: None
rcran_libraries

Databricks 실행에 사용할 RCran 라이브러리입니다.

Default value: None
compute_target

[필수] Azure Databricks 컴퓨팅입니다. DatabricksStep을 사용하여 Azure Databricks 작업 영역에서 스크립트 또는 Notebook을 실행하려면 먼저 Azure Databricks 작업 영역을 Azure Machine Learning 작업 영역에 컴퓨팅 대상으로 추가해야 합니다.

Default value: None
allow_reuse

동일한 설정으로 다시 실행할 때 단계에서 이전 결과를 재사용해야 하는지 여부를 나타냅니다. 기본적으로 재사용하도록 설정됩니다. 단계 내용(스크립트/종속성)과 입력 및 매개 변수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행 결과가 재사용됩니다. 단계를 재사용할 때, 컴퓨팅할 작업을 제출하는 대신 이전 실행의 결과를 후속 단계에 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 집합을 입력으로 사용하는 경우 재사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 집합의 정의가 변경되었는지 여부에 따라 결정됩니다.

Default value: True
version
str

단계의 기능 변경을 나타내는 선택적 버전 태그입니다.

Default value: None
permit_cluster_restart

existing_cluster_id가 지정되면 이 매개 변수는 사용자를 대신하여 클러스터를 다시 시작할 수 있는지 여부를 알려줍니다.

Default value: None
name
필수
str

[필수] 단계의 이름입니다.

inputs
필수

이 단계에서 사용하는 데이터에 대한 입력 연결 목록입니다. dbutils.widgets.get("input_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. DataReference 또는 PipelineData일 수 있습니다. DataReference는 데이터 저장소의 기존 데이터 부분을 나타냅니다. 기본적으로 데이터 저장소의 경로입니다. DatabricksStep은 DBFS, Azure Blob 또는 ADLS v1을 캡슐화하는 데이터 저장소를 지원합니다. PipelineData는 파이프라인의 다른 단계에서 생성된 중간 데이터를 나타냅니다.

outputs
필수
list[Union[OutputPortBinding, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineOutputDataset>, PipelineData]]

이 단계에서 생성된 출력에 대한 출력 포트 정의 목록입니다. dbutils.widgets.get("output_name")을 사용하여 Notebook 내에서 이 파일을 가져옵니다. PipelineData여야 합니다.

existing_cluster_id
필수
str

Databricks 작업 영역에 있는 기존 대화형 클러스터의 클러스터 ID입니다. 이 매개 변수를 전달하는 경우 새 클러스터를 만드는 데 사용되는 다음 매개 변수를 전달할 수 없습니다.

  • spark_version
  • node_type
  • instance_pool_id
  • num_workers
  • min_workers
  • max_workers
  • spark_env_variables
  • spark_conf

참고: 새 작업 클러스터를 만들려면 위의 매개 변수를 전달해야 합니다. 이러한 매개 변수를 직접 전달하거나 runconfig 매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달할 수 있습니다. 이러한 매개 변수를 RunConfiguration을 통해 직접 전달하면 오류가 발생합니다.

spark_version
필수
str

Databricks 실행 클러스터에 대한 spark 버전(예: "10.4.x-scala2.12"). 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

node_type
필수
str

[필수] Databricks에 대한 Azure VM 노드 유형은 클러스터(예: "Standard_D3_v2")를 실행합니다. node_type 또는 instance_pool_id를 지정합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

instance_pool_id
필수
str

[필수] 클러스터를 연결해야 하는 인스턴스 풀 ID입니다. node_type 또는 instance_pool_id를 지정합니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

num_workers
필수
int

[필수] Databricks 실행 클러스터에 대한 고정 작업자 수입니다. num_workers 또는 min_workersmax_workers 둘 다를 지정해야 합니다.

자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

min_workers
필수
int

[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최소 작업자 수입니다. num_workers 또는 min_workersmax_workers 둘 다를 지정해야 합니다.

자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

max_workers
필수
int

[필수] Databricks 실행 클러스터의 자동 크기 조정에 사용할 최대 작업자 수입니다. num_workers 또는 min_workersmax_workers 둘 다를 지정해야 합니다.

자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

spark_env_variables
필수

Databricks 실행 클러스터에 대한 Spark 환경 변수입니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

spark_conf
필수

Databricks 실행 클러스터에 대한 Spark 구성입니다. 자세한 내용은 existing_cluster_id 매개 변수에 대한 설명을 참조하세요.

init_scripts
필수
[str]

더 이상 사용되지 않습니다. Databricks는 DBFS에 저장된 init 스크립트가 2023년 12월 1일 이후에 작업을 중지할 것이라고 발표했습니다. 문제를 완화하려면 1) Databricks에서 전역 init 스크립트를 사용하고 2) AzureML databricks https://learn.microsoft.com/azure/databricks/init-scripts/global 단계에서 init_scripts 줄을 주석 처리합니다.

cluster_log_dbfs_path
필수
str

클러스터 로그를 전달할 DBFS 경로입니다.

notebook_path
필수
str

[필수] Databricks 인스턴스의 Notebook 경로입니다. 이 클래스는 Databricks 클러스터에서 실행할 코드를 지정하는 네 가지 방법을 허용합니다.

  1. Databricks 작업 영역에 있는 Notebook을 실행하려면 notebook_path=notebook_path, notebook_params={'myparam': 'testparam'}을 사용합니다.

  2. DBFS에 있는 Python 스크립트를 실행하려면 python_script_path=python_script_dbfs_path, python_script_params={'arg1', 'arg2'}를 사용합니다.

  3. DBFS에 있는 JAR을 실행하려면 main_class_name=main_jar_class_name, jar_params={'arg1', 'arg2'}, jar_libraries=[JarLibrary(jar_library_dbfs_path)]를 사용합니다.

  4. 로컬 컴퓨터에 있는 Python 스크립트를 실행하려면 python_script_name=python_script_name, source_directory=source_directory를 사용합니다.

notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

notebook_params
필수

Notebook에 전달할 매개 변수 사전입니다. notebook_params는 위젯으로 사용할 수 있습니다. dbutils.widgets.get("myparam")을 사용하여 Notebook 내에서 이러한 위젯의 값을 가져올 수 있습니다.

python_script_path
필수
str

[필수] DBFS의 Python 스크립트 경로입니다. notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

python_script_params
필수

Python 스크립트에 대한 매개 변수입니다.

main_class_name
필수
str

[필수] JAR 모듈의 진입점 이름입니다. notebook_path, python_script_path, python_script_name 또는 main_class_name 중 정확히 하나를 지정합니다.

jar_params
필수

JAR 모듈에 대한 매개 변수입니다.

source_directory
필수
str

스크립트 및 기타 파일을 포함하는 폴더입니다. python_script_name가 지정되면 source_directory도 지정되어야 합니다.

hash_paths
필수
[str]

사용되지 않음: 더 이상 필요하지 않습니다.

단계 내용의 변경 내용을 확인할 때 해시할 경로 목록입니다. 검색된 변경 내용이 없으면 파이프라인은 이전 실행의 단계 내용을 재사용합니다. 기본적으로 source_directory의 내용은 .amlignore 또는 .gitignore에 나열된 파일을 제외하고 해시됩니다.

run_name
필수
str

이 실행에 대한 Databricks의 이름입니다.

timeout_seconds
필수
int

Databricks 실행에 대한 시간 제한입니다.

runconfig
필수

사용할 runconfig입니다.

참고: maven_libraries, pypi_libraries, egg_libraries, jar_libraries 또는 rcran_libraries 매개 변수를 사용하여 종속성을 원하는 만큼 작업에 전달할 수 있습니다. 이러한 매개 변수를 해당 매개 변수와 함께 직접 전달하거나 runconfig 매개 변수를 사용하여 RunConfiguration 개체의 일부로 전달하되 둘 다 전달해서는 안 됩니다.

maven_libraries
필수
list[<xref:azureml.core.runconfig.MavenLibrary>]

Databricks 실행에 사용할 Maven 라이브러리입니다. Maven 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.MavenLibrary)하세요.

pypi_libraries
필수
list[<xref:azureml.core.runconfig.PyPiLibrary>]

Databricks 실행에 사용할 PyPi 라이브러리입니다. PyPi 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.PyPiLibrary)하세요.

egg_libraries
필수
list[<xref:azureml.core.runconfig.EggLibrary>]

Databricks 실행에 사용할 Egg 라이브러리입니다. Egg 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.EggLibrary)하세요.

jar_libraries
필수
list[<xref:azureml.core.runconfig.JarLibrary>]

Databricks 실행에 사용할 Jar 라이브러리입니다. Jar 라이브러리 사양에 대한 자세한 내용은 을 참조 help(azureml.core.runconfig.JarLibrary)하세요.

rcran_libraries
필수
list[<xref:azureml.core.runconfig.RCranLibrary>]

Databricks 실행에 사용할 RCran 라이브러리입니다. RCran 라이브러리 사양에 대한 자세한 내용은 를 참조 help(azureml.core.runconfig.RCranLibrary)하세요.

compute_target
필수

[필수] Azure Databricks 컴퓨팅. DatabricksStep을 사용하여 Azure Databricks 작업 영역에서 스크립트 또는 Notebook을 실행하려면 먼저 Azure Databricks 작업 영역을 Azure Machine Learning 작업 영역에 컴퓨팅 대상으로 추가해야 합니다.

allow_reuse
필수

동일한 설정으로 다시 실행할 때 단계에서 이전 결과를 재사용해야 하는지 여부를 나타냅니다. 기본적으로 재사용하도록 설정됩니다. 단계 내용(스크립트/종속성)과 입력 및 매개 변수가 변경되지 않은 상태로 유지되면 이 단계의 이전 실행 결과가 재사용됩니다. 단계를 재사용할 때, 컴퓨팅할 작업을 제출하는 대신 이전 실행의 결과를 후속 단계에 즉시 사용할 수 있습니다. Azure Machine Learning 데이터 집합을 입력으로 사용하는 경우 재사용은 기본 데이터가 변경되었는지 여부가 아니라 데이터 집합의 정의가 변경되었는지 여부에 따라 결정됩니다.

version
필수
str

단계의 기능 변경을 나타내는 선택적 버전 태그입니다.

permit_cluster_restart
필수

existing_cluster_id가 지정되면 이 매개 변수는 사용자를 대신하여 클러스터를 다시 시작할 수 있는지 여부를 알려줍니다.

메서드

create_node

Databricks 단계에서 노드를 만들고 지정된 그래프에 추가합니다.

이 메서드는 직접 사용할 수 없습니다. 이 단계에서 파이프라인이 인스턴스화되면 Azure ML은 이 메서드를 통해 필요한 매개 변수를 자동으로 전달하므로 워크플로를 나타내는 파이프라인 그래프에 단계를 추가할 수 있습니다.

create_node

Databricks 단계에서 노드를 만들고 지정된 그래프에 추가합니다.

이 메서드는 직접 사용할 수 없습니다. 이 단계에서 파이프라인이 인스턴스화되면 Azure ML은 이 메서드를 통해 필요한 매개 변수를 자동으로 전달하므로 워크플로를 나타내는 파이프라인 그래프에 단계를 추가할 수 있습니다.

create_node(graph, default_datastore, context)

매개 변수

Name Description
graph
필수

노드를 추가할 그래프 개체입니다.

default_datastore
필수

기본 데이터 저장소입니다.

context
필수
<xref:azureml.pipeline.core._GraphContext>

그래프 컨텍스트입니다.

반환

형식 Description

만들어진 노드입니다.