Azure Machine Learning에서 Spark 작업 제출

아티클
09/30/2024

적용 대상:Azure CLI ml 확장 v2(현재)Python SDK azure-ai-ml v2(현재)

Azure Machine Learning은 독립 실행형 기계 학습 작업 제출 및 여러 기계 학습 워크플로 단계를 포함하는 기계 학습 파이프라인 만들기 를 지원합니다 . Azure Machine Learning은 독립 실행형 Spark 작업 만들기와 Azure Machine Learning 파이프라인에서 사용할 수 있는 재사용 가능한 Spark 구성 요소 만들기를 모두 처리합니다. 이 문서에서는 다음을 사용하여 Spark 작업을 제출하는 방법을 알아봅니다.

Azure Machine Learning 스튜디오 UI
Azure Machine Learning CLI
Azure Machine Learning SDK

Azure Machine Learning의 Apache Spark 개념에 관한 자세한 내용은 이 리소스를 참조하세요.

필수 조건

적용 대상: Azure CLI ml 확장 v2(현재)

Azure 구독. Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다.
Azure Machine Learning 작업 영역 자세한 내용은 작업 영역 리소스 만들기를 참조하세요.
Azure Machine Learning 컴퓨팅 인스턴스를 만듭니다.
Azure Machine Learning CLI를 설치합니다.
(선택 사항): Azure Machine Learning 작업 영역의 연결된 Synapse Spark 풀.

참고 항목

Azure Machine Learning 서버리스 Spark 컴퓨팅 및 연결된 Synapse Spark 풀을 사용하는 동안 리소스 액세스에 대한 자세한 내용은 Spark 작업에 대한 리소스 액세스 보장을 참조 하세요.
Azure Machine Learning은 모든 사용자가 제한된 시간 동안 테스트를 수행하기 위해 컴퓨팅 할당량에 액세스할 수 있는 공유 할당량 풀을 제공합니다. 서버리스 Spark 컴퓨팅을 사용하는 경우 Azure Machine Learning을 사용하면 이 공유 할당량에 잠시 액세스할 수 있습니다.

CLI v2를 사용하여 사용자가 할당한 관리 ID 연결

작업 영역에 연결해야 하는 사용자가 할당한 관리 ID를 정의하는 YAML 파일을 만듭니다.

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

--file 매개 변수와 함께 az ml workspace update 명령에서 YAML 파일을 사용하여 사용자가 할당한 관리 ID를 연결합니다.

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

`ARMClient`를 사용하여 사용자가 할당한 관리 ID 연결

Azure Resource Manager API를 호출하는 간단한 명령줄 도구인 ARMClient를 설치합니다.

작업 영역에 연결해야 하는 사용자가 할당한 관리 ID를 정의하는 JSON 파일을 만듭니다.

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

사용자 할당 관리 ID를 작업 영역에 연결하려면 PowerShell 프롬프트 또는 명령 프롬프트에서 다음 명령을 실행합니다.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

참고 항목

Spark 작업을 성공적으로 실행하려면 데이터 입력 및 출력에 사용되는 Azure 스토리지 계정에서 기여자 및 Storage Blob 데이터 기여자 역할을 Spark 작업에서 사용하는 ID에 할당합니다.
연결된 Synapse Spark 풀을 사용하여 Spark 작업을 성공적으로 실행하려면 Azure Synapse 작업 영역에서 공용 네트워크 액세스를 사용하도록 설정해야 합니다.
연결된 Synapse Spark 풀이 Synapse Spark 풀을 가리키는 경우 연결된 가상 네트워크가 연결된 Azure Synapse 작업 영역에서 데이터 액세스를 보장하기 위해 스토리지 계정에 대한 관리형 프라이빗 엔드포인트를 구성해야 합니다.
서버리스 Spark 컴퓨팅은 Azure Machine Learning 관리형 가상 네트워크를 지원합니다. 서버리스 Spark 컴퓨팅을 위해 관리 네트워크가 프로비전된 경우 데이터 액세스를 보장하기 위해 스토리지 계정에 해당하는 프라이빗 엔드포인트도 프로비전되어야 합니다.

독립 실행형 Spark 작업 제출

Python 스크립트 매개 변수화에 필요한 변경을 수행한 후 대화형 데이터 랭글링으로 개발된 Python 스크립트를 사용하여 일괄 처리 작업을 제출하여 더 많은 양의 데이터를 처리할 수 있습니다. 데이터 랭글링 일괄 처리 작업을 독립 실행형 Spark 작업으로 제출할 수 있습니다.

Spark 작업에는 인수를 사용하는 Python 스크립트가 필요합니다. 원래 대화형 데이터 랭글링에서 개발한 Python 코드를 수정하여 해당 스크립트를 개발할 수 있습니다. 아래는 샘플 Python 스크립트입니다.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

참고 항목

이 Python 코드 샘플에서는 pyspark.pandas를 사용합니다. Spark 런타임 버전 3.2 이상에서만 이를 지원합니다.

이 스크립트는 입력 데이터 및 출력 폴더의 경로를 각각 전달하는 두 개의 인수를 사용합니다.

--titanic_data
--wrangled_data

적용 대상: Azure CLI ml 확장 v2(현재)

작업을 만들려면 독립 실행형 Spark 작업을 명령에서 az ml job create 매개 변수와 함께 사용할 수 있는 YAML 사양 파일로 --file 정의할 수 있습니다. YAML 파일에서 다음 속성을 정의합니다.

Spark 작업 사양의 YAML 속성

type - spark로 설정합니다.
code - 이 작업의 소스 코드와 스크립트를 포함하는 폴더 위치를 정의합니다.
entry - 작업의 진입점을 정의합니다. 다음 속성 중 하나를 포함해야 합니다.
- file - 작업의 진입점 역할을 하는 Python 스크립트의 이름을 정의합니다.
- class_name - 서버가 작업에 대한 진입점으로 사용하는 클래스의 이름을 정의합니다.
py_files - 작업을 성공적으로 실행하기 위해 PYTHONPATH에 배치할 .zip, .egg 또는 .py 파일 목록을 정의합니다. 이 속성은 선택 사항입니다.
jars - 작업을 성공적으로 실행하기 위해 Spark 드라이버에 포함할 .jar 파일 목록과 CLASSPATH 실행기를 정의합니다. 이 속성은 선택 사항입니다.
files - 작업을 성공적으로 실행하기 위해 각 실행기의 작업 디렉터리에 복사해야 하는 파일 목록을 정의합니다. 이 속성은 선택 사항입니다.
archives - 작업을 성공적으로 실행하기 위해 각 실행기의 작업 디렉터리로 추출해야 하는 보관 목록을 정의합니다. 이 속성은 선택 사항입니다.
conf - 다음 Spark 드라이버 및 실행기 속성을 정의합니다.
- spark.driver.cores: Spark 드라이버의 코어 수입니다.
- spark.driver.memory: Spark 드라이버에 할당된 메모리(GB)입니다.
- spark.executor.cores: Spark 실행기의 코어 수입니다.
- spark.executor.memory: Spark 실행기에 할당된 메모리(GB)입니다.
- spark.dynamicAllocation.enabled - True 또는 False로 설정하여 실행기를 동적으로 할당할 것인지 여부를 결정할 수 있습니다.
- 실행기를 동적으로 할당하도록 설정하는 경우 다음 속성을 정의합니다.
  - spark.dynamicAllocation.minExecutors - 동적으로 할당하기 위한 최소 Spark 실행기 인스턴스 수입니다.
  - spark.dynamicAllocation.maxExecutors - 동적으로 할당하기 위한 최대 Spark 실행기 인스턴스 수입니다.
- 실행기를 동적으로 할당하지 않도록 설정하는 경우 다음 속성을 정의합니다.
  - spark.executor.instances - Spark 실행기 인스턴스 수입니다.
environment - 작업을 실행할 Azure Machine Learning 환경입니다.
args - 작업 진입점 Python 스크립트에 전달해야 하는 명령줄 인수입니다. 예제는 여기에 제공된 YAML 사양 파일을 검토합니다.
resources - 이 속성은 Azure Machine Learning 서버리스 Spark 컴퓨팅에서 사용할 리소스를 정의합니다. 다음 속성을 사용합니다.
- instance_type - Spark 풀에 사용할 컴퓨팅 인스턴스 유형입니다. 현재 지원되는 인스턴스 유형은 다음과 같습니다.
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version - Spark 런타임 버전을 정의합니다. 현재 지원되는 Spark 런타임 버전은 다음과 같습니다.
  - 3.3
  - 3.4
    Important
    
    Apache Spark용 Azure Synapse 런타임: 공지 사항
    - Apache Spark 3.3용 Azure Synapse 런타임:
      
      EOLA 공지 날짜: 2024년 7월 12일
      
      지원 종료 날짜: 2025년 3월 31일. 이 날짜 이후에는 런타임이 사용하지 않도록 설정됩니다.
    - 지속적인 지원과 최적의 성능을 위해서는 Apache Spark 3.4로 마이그레이션하는 것이 좋습니다.
YAML 파일의 예는 다음과 같습니다.
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute - 이 속성은 다음 예제와 같이 연결된 Synapse Spark 풀의 이름을 정의합니다.
```
compute: mysparkpool
```
inputs - 이 속성은 Spark 작업의 입력을 정의합니다. Spark 작업의 입력은 리터럴 값이거나 파일 또는 폴더에 저장된 데이터입니다.
- 리터럴 값은 숫자, 부울 값 또는 문자열일 수 있습니다. 다음은 몇 가지 예제입니다.
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- 파일 또는 폴더에 저장된 데이터는 다음 속성을 사용하여 정의해야 합니다.
  - type - 이 속성은 입력 데이터가 각각 파일 또는 폴더에 포함되는 uri_file 또는 uri_folder로 설정할 수 있습니다.
  - path - 입력 데이터의 URI(예: azureml://, abfss:// 또는 wasbs://)입니다.
  - mode – 이 속성을 direct로 설정합니다. 다음 샘플에서는 $${inputs.titanic_data}}라고 할 수 있는 작업 입력의 정의를 보여줍니다.
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs - 이 속성은 Spark 작업 출력을 정의합니다. Spark 작업의 출력은 다음 세 가지 속성을 사용하여 정의된 파일 또는 폴더 위치에 기록할 수 있습니다.
- type - 출력 데이터를 파일 또는 폴더에 uri_file 각각 쓰려면 이 속성을 설정하거나 uri_folder파일로 설정할 수 있습니다.
- path - 이 속성은 출력 위치 URI(예: azureml://, abfss:// 또는 wasbs://)를 정의합니다.
- mode – 이 속성을 direct로 설정합니다. 이 샘플에서는 다음과 같이 ${{outputs.wrangled_data}}참조할 수 있는 작업 출력의 정의를 보여줍니다.
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity - 이 선택적 속성은 이 작업을 제출하는 데 사용되는 ID를 정의합니다. 가능한 값은 user_identity 및 managed입니다. YAML 사양이 ID를 정의하지 않으면 Spark 작업은 기본 ID를 사용합니다.

독립 실행형 Spark 작업

이 예제 YAML 사양은 독립 실행형 Spark 작업을 보여줍니다. Azure Machine Learning 서버리스 Spark 컴퓨팅을 사용합니다.

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

참고 항목

연결된 Synapse Spark 풀을 사용하려면 이전에 표시된 샘플 YAML 사양 파일에서 resources 속성 대신 compute 속성을 정의합니다.

명령의 앞부 az ml job create 분에 표시된 YAML 파일을 매개 변수와 함께 --file 사용하여 다음과 같이 독립 실행형 Spark 작업을 만들 수 있습니다.

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

위의 명령은 다음 위치에서 실행할 수 있습니다.

Azure Machine Learning 컴퓨팅 인스턴스의 터미널
Azure Machine Learning 컴퓨팅 인스턴스에 연결된 Visual Studio Code 터미널입니다.
Azure Machine Learning CLI가 설치된 로컬 컴퓨터

적용 대상: Python SDK azure-ai-ml v2(현재)

Python SDK를 사용하는 독립 실행형 Spark 작업

독립 실행형 Spark 작업을 만들려면 azure.ai.ml.spark 함수를 다음 매개 변수와 함께 사용합니다.

name - Spark 작업의 이름입니다.
display_name - UI 및 다른 곳에 표시해야 하는 Spark 작업의 표시 이름입니다.
code - 이 작업에 대한 소스 코드 및 스크립트를 포함하는 폴더의 위치입니다.
entry - 작업의 진입점입니다. 파일 진입점을 정의하는 사전이어야 합니다.
py_files - 작업을 성공적으로 실행하기 위해 PYTHONPATH에 배치할 .zip, .egg 또는 .py 파일 목록입니다. 이 매개 변수는 선택 사항입니다.
jars - 작업을 성공적으로 실행하기 위해 Spark 드라이버에 포함할 .jar 파일 목록과 CLASSPATH 실행기입니다. 이 매개 변수는 선택 사항입니다.
files - 작업을 성공적으로 실행하기 위해 각 실행기의 작업 디렉터리에 복사해야 하는 파일 목록입니다. 이 매개 변수는 선택 사항입니다.
archives - 작업을 성공적으로 실행하기 위해 자동으로 추출되어 각 실행기의 작업 디렉터리에 배치되는 보관 파일 목록입니다. 이 매개 변수는 선택 사항입니다.
conf - 미리 정의된 Spark 구성 키-값 쌍이 있는 사전입니다.
driver_cores: Spark 드라이버에 할당된 코어 수입니다.
driver_memory: 크기 단위 접미사가 kmt g있는 Spark 드라이버 또는 (예512m: , 2g)에 할당된 메모리입니다.
executor_cores: Spark 실행기에 할당된 코어 수입니다.
executor_memory: 크기 단위 접미사가 kmt g있는 Spark 실행기 또는 (예512m: , 2g)에 할당된 메모리입니다.
dynamic_allocation_enabled - 실행기를 동적으로 할당해야 하는지 여부를 정의하는 부울 매개 변수입니다.
- 실행기를 동적으로 할당하도록 설정하는 경우 다음 매개 변수를 정의합니다.
  - dynamic_allocation_min_executors - 동적으로 할당하기 위한 최소 Spark 실행기 인스턴스 수입니다.
  - dynamic_allocation_max_executors - 동적으로 할당하기 위한 최대 Spark 실행기 인스턴스 수입니다.
- 실행기를 동적으로 할당하지 않도록 설정하는 경우 다음 매개 변수를 정의합니다.
  - executor_instances - Spark 실행기 인스턴스 수입니다.
  - environment - 작업을 실행하는 Azure Machine Learning 환경입니다. 이 매개 변수는 다음을 전달해야 합니다.
    - azure.ai.ml.entities.Environment의 개체 또는 Azure Machine Learning 환경 이름(문자열)
args - 작업 진입점 Python 스크립트에 전달해야 하는 명령줄 인수입니다. 예제는 여기에 제공된 샘플 코드를 참조하세요.
resources - Azure Machine Learning 서버리스 Spark 컴퓨팅에서 사용할 리소스입니다. 이 매개 변수는 다음을 사용하여 사전을 전달해야 합니다.
- instance_type - 서버리스 Spark 컴퓨팅에 사용할 컴퓨팅 인스턴스 형식을 정의하는 키입니다. 현재 지원되는 인스턴스 유형은 다음과 같습니다.
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version - Spark 런타임 버전을 정의하는 키. 현재 지원되는 Spark 런타임 버전은 다음과 같습니다.
  - 3.3.0
  - 3.4.0
    Important
    
    Apache Spark용 Azure Synapse 런타임: 공지 사항
    - Apache Spark 3.3용 Azure Synapse 런타임:
      
      EOLA 공지 날짜: 2024년 7월 12일
      
      지원 종료 날짜: 2025년 3월 31일. 이 날짜 이후에는 런타임이 사용하지 않도록 설정됩니다.
    - 지속적인 지원과 최적의 성능을 위해서는 Apache Spark 3.4로 마이그레이션하는 것이 좋습니다.
compute – 연결된 Synapse Spark 풀의 이름입니다.
inputs - Spark 작업의 입력. 이 매개 변수는 작업에 사용되는 입력 데이터 바인딩의 매핑이 있는 사전을 전달해야 합니다. 이 사전의 값은 다음과 같습니다.
- 사전 키는 입력 이름을 정의합니다.
- 해당 값은 다음과 같습니다.
  - 리터럴 값( 정수, 숫자, 부울 또는 문자열)입니다.
  - 다음 매개 변수를 사용하는 azure.ai.ml.Input 클래스의 개체
    - type - 이 매개 변수는 입력 데이터가 각각 파일 또는 폴더에 포함되는 uri_file 또는 uri_folder로 설정할 수 있습니다.
    - path - 입력 데이터의 URI(예: azureml://, abfss:// 또는 wasbs://)입니다.
    - mode - 이 매개 변수를 direct로 설정합니다.
outputs - Spark 작업의 출력입니다. 이 매개 변수는 작업에 사용되는 출력 데이터 바인딩의 매핑이 있는 사전을 전달해야 합니다. 이 사전의 값은 다음과 같습니다.
- 사전 키는 출력 이름을 정의합니다.
- 해당하는 값은 다음 매개 변수가 있는 azure.ai.ml.Output 클래스의 개체입니다.
  - type - 이 매개 변수는 각각 출력 데이터 파일 또는 폴더를 뜻하는 uri_file 또는 uri_folder로 설정할 수 있습니다.
  - path - 출력 데이터의 URI(예: azureml://, abfss:// 또는 wasbs://)입니다.
  - mode - 이 매개 변수를 direct로 설정합니다.
identity - 이 작업을 제출하는 데 사용되는 ID를 정의하는 선택적 매개 변수입니다. 허용되는 값은 다음 클래스의 개체입니다.
- azure.ai.ml.entities.UserIdentityConfiguration 또는
- azure.ai.ml.entities.ManagedIdentityConfiguration. 각각 사용자 ID와 관리 ID의 클래스입니다. ID가 정의되지 않은 경우 Spark 작업은 기본 ID를 사용합니다.

독립형 Spark 작업은 다음 위치에서 제출할 수 있습니다.

Azure Machine Learning 컴퓨팅 인스턴스에 연결된 Azure Machine Learning Notebook
Azure Machine Learning 컴퓨팅 인스턴스에 연결된 Visual Studio Code
Python용 Azure Machine Learning SDK가 설치된 로컬 컴퓨터

이 Python 코드 조각은 사용자 ID를 사용하여 Azure Machine Learning 서버리스 Spark 컴퓨팅을 사용하여 독립 실행형 Spark 작업을 만드는 방법을 보여 줍니다.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

참고 항목

연결된 Synapse Spark 풀을 사용하려면 azure.ai.ml.spark 함수에서 resources 대신 compute 매개 변수를 정의합니다.

Azure Machine Learning 스튜디오 UI(미리 보기)에서 독립 실행형 Spark 작업 제출

Important

이 기능은 현재 공개 미리 보기로 제공됩니다. 이 미리 보기 버전은 서비스 수준 계약 없이 제공되며, 프로덕션 워크로드에는 권장되지 않습니다. 특정 기능이 지원되지 않거나 기능이 제한될 수 있습니다.

자세한 내용은 Microsoft Azure Preview에 대한 추가 사용 약관을 참조하세요.

Azure Machine Learning 스튜디오 UI를 사용하여 독립 실행형 Spark 작업을 제출하려면 다음을 수행합니다.

Azure Machine Learning 스튜디오 UI에서 새 Spark 작업을 만드는 것을 보여주는 스크린샷

화면 오른쪽 상단에서 + 새로 만들기를 선택합니다.
Spark 작업(미리 보기)을 선택합니다.
컴퓨팅 화면에서 다음을 수행합니다.

Azure Machine Learning 스튜디오 UI에서 새 Spark 작업에 대한 컴퓨팅 선택 화면을 보여 주는 스크린샷

컴퓨팅 형식 선택에서 서버리스 Spark 컴퓨팅의 경우 Spark 서버리스를 선택하고 연결된 Synapse Spark 풀의 경우 연결된 컴퓨팅을 선택합니다.
Spark 서버리스를 선택한 경우:
1. 가상 머신 크기를 선택합니다.
2. Spark 런타임 버전을 선택합니다.
  Important
  
  Apache Spark용 Azure Synapse 런타임: 공지 사항
  - Apache Spark 3.3용 Azure Synapse 런타임:
    - EOLA 공지 날짜: 2024년 7월 12일
    - 지원 종료 날짜: 2025년 3월 31일. 이 날짜 이후에는 런타임이 사용하지 않도록 설정됩니다.
  - 지속적인 지원과 최적의 성능을 위해서는 Apache Spark 3.4로 마이그레이션하는 것이 좋습니다.
연결된 컴퓨팅을 선택한 경우 다음을 수행합니다.
1. Azure Machine Learning 연결된 컴퓨팅 선택 메뉴에서 연결된 Synapse Spark 풀을 선택합니다.
다음을 선택합니다.
환경 화면에서 다음을 수행합니다.
1. 목록에서 사용 가능한 환경 중 하나를 선택합니다. 환경 선택은 선택 사항입니다.
2. 다음을 선택합니다.
작업 설정 화면에서:
1. 작업 이름을 제공합니다. 기본적으로 생성되는 작업 이름을 사용해도 됩니다.
2. 드롭다운 메뉴에서 실험 이름을 선택합니다.
3. 태그 추가에서 이름 및 값을 입력한 다음, 추가를 선택합니다. 태그 추가는 선택 사항입니다.
4. 코드 섹션에서 다음을 수행합니다.
  1. 코드 위치 선택 드롭다운에서 옵션을 선택합니다. 로컬 파일 업로드 또는 Azure Machine Learning 작업 영역 기본 Blob Storage를 선택합니다.
  2. 코드 위치 선택을 선택한 경우:
    - 찾아보기를 선택하고 로컬 컴퓨터의 코드 파일 또는 파일이 포함된 위치로 이동합니다.
  3. Azure Machine Learning 작업 영역 기본 Blob Storage를 선택한 경우:
    1. 업로드할 코드 파일 경로에서 찾아보기를 선택합니다.
    2. 경로 선택이라는 팝업 화면에서 작업 영역 기본 Blob Storage의 코드 파일 경로를 선택합니다.
    3. 저장을 선택합니다.
  4. 독립 실행형 작업의 항목 파일 이름을 입력합니다. 이 파일에는 인수를 사용하는 Python 코드가 포함되어야 합니다.
  5. 독립 실행형 작업이 런타임에 필요한 다른 Python 파일 또는 파일을 추가하려면 Py 파일 아래에 + 파일 추가를 선택하고 성공적인 작업 실행을 위해 배치 PYTHONPATH 할 파일 또는 .py 파일의 .zip.egg이름을 입력합니다. 여러 파일을 추가할 수 있습니다.
  6. 독립 실행형 작업에 런타임에 필요한 Jar 파일 또는 파일을 추가하려면 Jars에서 + 파일 추가를 선택하고 Spark 드라이버에 포함할 파일의 .jar 이름을 입력합니다. 또한 성공적인 작업 실행을 위해 실행기 CLASSPATH를 추가합니다. 여러 파일을 추가할 수 있습니다.
  7. 성공적인 작업 실행을 위해 각 실행기의 작업 디렉터리에 추출해야 하는 보관 파일 또는 보관 파일을 추가하려면 + 보관 파일 아래에 파일 추가를 선택하고 보관 파일의 이름을 입력합니다. 여러 보관 파일을 추가할 수 있습니다.
  8. Py 파일, Jar 및 보관 파일을 추가하는 것은 선택 사항입니다.
  9. 입력을 추가하려면 입력에서 + 입력 추가를 선택하고 다음을 수행합니다.
    1. 입력 이름을 입력합니다. 입력은 인수의 뒷부분에서 이 이름을 참조해야 합니다.
    2. 입력 유형을 선택합니다.
    3. 데이터 형식인 경우 다음을 수행합니다.
      1. 파일 또는 폴더로 데이터 형식을 선택합니다.
      2. 로컬에서 업로드, URI 또는 데이터 저장소로 데이터 원본을 선택합니다.
        
        로컬에서 업로드의 경우 업로드할 경로에서 찾아보기를 선택하고, 입력 파일 또는 폴더를 선택합니다.
        
        URI의 경우 스토리지 데이터 URI(예: abfss:// 또는 wasbs:// URI)를 입력하거나 azureml:// 데이터 자산을 입력합니다.
        
        데이터 저장소의 경우 다음을 수행합니다.
        
        드롭다운 메뉴에서 데이터 저장소를 선택합니다.
        
        데이터 경로에서 찾아보기를 선택합니다.
        
        경로 선택이라는 팝업 화면에서 작업 영역 기본 Blob Storage의 코드 파일 경로를 선택합니다.
        
        저장을 선택합니다.
      3. 정수 형식의 경우 정수 값을 입력 값으로 입력합니다.
      4. 숫자 형식의 경우 숫자 값을 입력 값으로 입력합니다.
      5. 부울 형식의 경우 True 또는 False를 입력 값으로 선택합니다.
      6. 문자열 형식의 경우 문자열을 입력 값으로 입력합니다.
    4. 입력을 추가하려면 출력에서 + 출력 추가를 선택하고 다음을 수행합니다.
      1. 출력 이름을 입력합니다. 출력은 인수의 뒷부분에서 이 이름을 참조해야 합니다.
      2. 출력 형식을 파일 또는 폴더로 선택합니다.
      3. 출력 URI 대상의 경우 스토리지 데이터 URI(예: abfss:// 또는 wasbs:// URI)를 입력하거나 azureml:// 데이터 자산을 입력합니다.
    5. 이전 단계의 입력 이름 및 출력 이름 필드에서 정의한 이름과 Python 스크립트 엔트리 파일에 사용된 입력 및 출력 인수의 이름을 사용하여 인수를 입력합니다. 예를 들어 아래와 같이 입력 이름과 출력 이름이 각각 job_input과 job_output으로 정의되고 인수가 엔트리 파일에 추가되는 경우
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
    인수를 --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}으로 입력합니다.
    1. Spark 구성 섹션에서 다음을 수행합니다.
      1. 실행기 크기에서 다음을 수행합니다.
        
        실행기 코어 수와 실행기 메모리(GB)를 기가바이트 단위로 입력합니다.
        
        동적으로 할당되는 실행기에서 사용 안 함 또는 사용 옵션을 선택합니다.
        
        실행기의 동적 할당을 사용 안 함으로 설정하는 경우 실행기 인스턴스 수를 입력합니다.
        
        실행기의 동적 할당을 사용으로 설정하는 경우 슬라이더를 사용하여 최소 및 최대 실행기 수를 선택합니다.
      2. 드라이버 크기의 경우:
        
        드라이버 코어 수와 드라이버 메모리(GB)를 기가바이트 단위로 입력합니다.
        
        추가 구성에 대한 이름 및 값 쌍을 입력한 다음 추가를 선택합니다. 필요에 따라 추가 구성을 제공할 수 있습니다.
      3. 다음을 선택합니다.
  10. 검토 화면에서 다음을 수행합니다.
    1. 제출하기 전에 작업 사양을 검토합니다.
    2. 만들기를 선택하여 독립 실행형 Spark 작업을 제출합니다.

파이프라인 작업의 Spark 구성 요소

Spark 구성 요소는 여러 Azure Machine Learning 파이프라인에서 동일한 구성 요소를 파이프라인 단계로 사용할 수 있는 유연성을 제공합니다.

적용 대상: Azure CLI ml 확장 v2(현재)

Spark 구성 요소에 대한 YAML 구문은 Spark 작업 사양에 대한 YAML 구문과 대부분 비슷합니다. 이러한 속성은 다음과 같이 Spark 구성 요소 YAML 사양에서 다르게 정의됩니다.

name - Spark 구성 요소의 이름입니다.
version - Spark 구성 요소의 버전입니다.
display_name - UI 및 다른 곳에 표시할 Spark 구성 요소의 이름입니다.
description - 구성 요소에 대한 설명입니다.
inputs- 이 속성은 inputs 속성을 정의하지 않는다는 점을 제외하고 Spark 작업 사양에 대한 YAML 구문에 설명된 속성과 path 유사합니다. 이 코드 조각은 Spark 구성 요소 inputs 속성의 예를 보여줍니다.
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs- 이 속성은 outputs 속성을 정의하지 않는다는 점을 제외하고 Spark 작업 사양에 대한 YAML 구문에 설명된 속성과 path 유사합니다. 이 코드 조각은 Spark 구성 요소 outputs 속성의 예를 보여줍니다.
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

참고 항목

Spark 구성 요소는 또는 compute resources 속성을 정의identity하지 않습니다. 파이프라인 YAML 사양 파일은 이러한 속성을 정의합니다.

이 YAML 사양 파일은 다음과 같은 Spark 구성 요소의 예를 제공합니다.

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Azure Machine Learning 파이프라인 작업에서 위의 YAML 사양 파일에 정의된 Spark 구성 요소를 사용할 수 있습니다. 파이프라인 작업을 정의하는 YAML 구문에 대해 자세히 알아보려면 파이프라인 작업 YAML 스키마 리소스를 방문하세요. 이 예에서는 Spark 구성 요소와 Azure Machine Learning 서버리스 Spark 컴퓨팅이 포함된 파이프라인 작업에 대한 YAML 사양 파일을 보여 줍니다.

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

참고 항목

연결된 Synapse Spark 풀을 사용하려면 위에 표시된 샘플 YAML 사양 파일에서 resources 속성 대신 compute 속성을 정의합니다.

명령에서 az ml job create 위에 표시된 YAML 사양 파일을 사용하여 다음과 같이 매개 변수를 사용하여 --file 파이프라인 작업을 만들 수 있습니다.

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

위의 명령은 다음 위치에서 실행할 수 있습니다.

Azure Machine Learning 컴퓨팅 인스턴스의 터미널
Azure Machine Learning 컴퓨팅 인스턴스에 연결된 Visual Studio Code의 터미널입니다.
Azure Machine Learning CLI가 설치된 로컬 컴퓨터

적용 대상: Python SDK azure-ai-ml v2(현재)

Spark 구성 요소를 사용하여 Azure Machine Learning 파이프라인을 만들 때는 Python SDK를 사용하여 구성 요소에서 Azure Machine Learning 파이프라인을 만듭니다. Spark 구성 요소는 azure.ai.ml.spark 함수를 사용하여 만들어집니다. 함수 매개 변수는 독립 실행형 Spark 작업과 거의 동일한 방식으로 정의됩니다. 다음 매개 변수는 Spark 구성 요소에 대해 다르게 정의됩니다.

name - Spark 구성 요소의 이름입니다.
display_name - UI 및 다른 위치에 표시되는 Spark 구성 요소의 이름입니다.
inputs - 이 매개 변수는 azure.ai.ml.Input 클래스가 path 매개 변수 없이 인스턴스화된다는 점을 제외하고 독립 실행형 Spark 작업에 대해 설명된 inputs 매개 변수와 유사합니다.
outputs - 이 매개 변수는 azure.ai.ml.Output 클래스가 path 매개 변수 없이 인스턴스화된다는 점을 제외하고 독립 실행형 Spark 작업에 대해 설명된 outputs 매개 변수와 유사합니다.

참고 항목

azure.ai.ml.spark 함수를 사용하여 만든 Spark 구성 요소는 identity, compute 또는 resources 매개 변수를 정의하지 않습니다. Azure Machine Learning 파이프라인은 이러한 매개 변수를 정의합니다.

Spark 구성 요소가 있는 파이프라인 작업은 다음 위치에서 제출할 수 있습니다.

Azure Machine Learning 컴퓨팅 인스턴스에 연결된 Azure Machine Learning Notebook
Azure Machine Learning 컴퓨팅 인스턴스에 연결된 Visual Studio Code입니다.
Python용 Azure Machine Learning SDK가 설치된 로컬 컴퓨터

이 Python 코드 조각에서는 Azure Machine Learning 파이프라인 작업 만들기와 함께 관리 ID 사용을 보여줍니다. 또한 Spark 구성 요소 및 Azure Machine Learning 관리형(자동) Synapse 컴퓨팅의 사용도 보여줍니다.

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

참고 항목

연결된 Synapse Spark 풀을 사용하려면 매개 변수 대신 함수에서 azure.ai.ml.spark 매개 변수를 resources 정의 compute 합니다. 예를 들어 위에 표시된 코드 샘플에서 spark_step.resources를 정의하는 대신 spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>"을 정의합니다.

Spark 작업 문제 해결

Spark 작업 문제를 해결하려면 Azure Machine Learning 스튜디오에서 해당 작업에 대해 생성된 로그에 액세스할 수 있습니다. Spark 작업 로그를 보려면 다음 안내를 따릅니다.

Azure Machine Learning 스튜디오 UI의 왼쪽 패널에서 작업으로 이동합니다.
모든 작업 탭을 선택합니다.
작업의 표시 이름 값을 선택합니다.
작업 세부 정보 페이지에서 출력 + 로그 탭을 선택합니다.
파일 탐색기에서 logs 폴더를 확장한 다음 azureml 폴더를 확장합니다.
driver 및 library Manager 폴더 내의 Spark 작업 로그에 액세스합니다.

참고 항목

Notebook 세션에서 대화형 데이터 랭글링 중에 만들어진 Spark 작업 문제를 해결하려면 Notebook UI 오른쪽 상단에 있는 작업 세부 정보를 선택합니다. 대화형 Notebook 세션의 Spark 작업은 실험 이름 notebook-runs로 만들어집니다.

다음을 통해 공유

Azure Machine Learning에서 Spark 작업 제출

필수 조건

CLI v2를 사용하여 사용자가 할당한 관리 ID 연결

`ARMClient`를 사용하여 사용자가 할당한 관리 ID 연결

독립 실행형 Spark 작업 제출

Spark 작업 사양의 YAML 속성

독립 실행형 Spark 작업

Python SDK를 사용하는 독립 실행형 Spark 작업

Azure Machine Learning 스튜디오 UI(미리 보기)에서 독립 실행형 Spark 작업 제출

파이프라인 작업의 Spark 구성 요소

Spark 작업 문제 해결

다음 단계

피드백

추가 리소스

다음을 통해 공유

Azure Machine Learning에서 Spark 작업 제출

필수 조건

CLI v2를 사용하여 사용자가 할당한 관리 ID 연결

ARMClient를 사용하여 사용자가 할당한 관리 ID 연결

독립 실행형 Spark 작업 제출

Spark 작업 사양의 YAML 속성

독립 실행형 Spark 작업

파이프라인 작업의 Spark 구성 요소

Spark 작업 문제 해결

다음 단계

피드백

추가 리소스

`ARMClient`를 사용하여 사용자가 할당한 관리 ID 연결