Azure Machine Learning에서 Synapse Spark 풀 연결 및 관리

아티클
09/03/2024

적용 대상:Azure CLI ml 확장 v2(현재)Python SDK azure-ai-ml v2(현재)

이 문서에서는 Azure Machine Learning에서 Synapse Spark 풀을 연결하는 방법을 알아봅니다. 다음 방법 중 하나로 Azure Machine Learning에서 Synapse Spark 풀을 연결할 수 있습니다.

Azure Machine Learning 스튜디오 UI 사용
Azure Machine Learning CLI 사용
Azure Machine Learning Python SDK 사용

필수 조건

Azure 구독. Azure 구독이 아직 없는 경우 시작하기 전에 체험 계정을 만듭니다.
Azure Machine Learning 작업 영역 작업 영역 리소스 만들기를 참조하세요.
Azure Portal에서 Azure Synapse Analytics 작업 영역을 만듭니다.
Azure Portal을 사용하여 Apache Spark 풀을 만듭니다.

Azure Machine Learning에서 Synapse Spark 풀 연결

Azure Machine Learning은 Synapse Spark 풀을 연결하고 관리하는 다양한 방법을 제공합니다.

Studio 컴퓨팅 탭으로 Synapse Spark 풀을 연결하려면:

왼쪽 창의 관리 섹션에서 컴퓨팅을 선택합니다.
연결된 컴퓨팅을 선택합니다.
연결된 컴퓨팅 화면에서 새로 만들기를 선택하여 다양한 형식의 컴퓨팅을 연결하는 옵션을 확인합니다.
Synapse Spark 풀을 선택합니다.

Synapse Spark 풀 연결 패널이 화면 오른쪽에 열립니다. 이 패널에서:

Azure Machine Learning 리소스 내에 연결된 Synapse Spark 풀을 지칭하는 이름을 입력합니다.
드롭다운 메뉴에서 Azure 구독을 선택합니다.
드롭다운 메뉴에서 Synapse 작업 영역을 선택합니다.
드롭다운 메뉴에서 Spark 풀을 선택합니다.
관리 ID 할당 옵션을 전환하여 사용하도록 설정합니다.
연결된 이 Synapse Spark 풀과 함께 사용할 관리 ID 형식을 선택합니다.
업데이트를 선택하여 Synapse Spark 풀 연결 프로세스를 완료합니다.

적용 대상: Azure CLI ml 확장 v2(현재)

Azure Machine Learning CLI를 사용하면 명령줄 인터페이스의 직관적인 YAML 구문과 명령을 사용하여 Synapse Spark 풀을 연결하고 관리할 수 있습니다.

YAML 구문을 사용하여 연결된 Synapse Spark 풀을 정의하려면 YAML 파일이 다음 속성을 포함해야 합니다.

name – 연결된 Synapse Spark 풀의 이름입니다.
type – 이 속성은 synapsespark로 설정합니다.
resource_id – 이 속성은 Azure Synapse Analytics 작업 영역에서 만들어진 Synapse Spark 풀의 리소스 ID 값을 제공해야 합니다. Azure 리소스 ID에는 다음이 포함됩니다.
- Azure 구독 ID,
- 리소스 그룹 이름,
- Azure Synapse Analytics 작업 영역 이름 및
- Synapse Spark 풀의 이름.
```
name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>
```

identity – 이 속성은 연결된 Synapse Spark 풀에 할당할 ID 형식을 정의합니다. 다음 값 중 하나를 사용할 수 있습니다.

system_assigned

user_assigned

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
type: system_assigned

identity 형식 user_assigned의 경우 user_assigned_identities 값 목록도 제공해야 합니다. 각 사용자 할당 ID는 사용자 할당 ID의 resource_id 값을 사용하여 목록의 요소로 선언되어야 합니다. 목록의 첫 번째 사용자 할당 ID는 기본적으로 작업을 제출하는 데 사용됩니다.

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
  type: user_assigned
  user_assigned_identities:
    - resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>

위의 YAML 파일은 az ml compute attach 명령에서 --file 매개 변수로 사용할 수 있습니다. Synapse Spark 풀은 다음과 같이 az ml compute attach 명령을 사용하여 구독의 지정된 리소스 그룹에 있는 Azure Machine Learning 작업 영역에 연결할 수 있습니다.

az ml compute attach --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

이 샘플은 위 명령의 예상 출력을 보여 줍니다.

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please visit https://aka.ms/azuremlexperimental for more information.

{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

YAML 사양 파일에 이름이 지정된 연결된 Synapse Spark 풀이 작업 영역에 이미 있는 경우 az ml compute attach 명령 실행은 YAML 사양 파일에 제공된 정보로 기존 풀을 업데이트합니다. YAML 사양 파일을 통해

ID 형식
사용자 할당 ID
tags

값을 업데이트할 수 있습니다.

연결된 Synapse Spark 풀의 세부 정보를 표시하려면 az ml compute show 명령을 실행합니다. 다음과 같이 연결된 Synapse Spark 풀의 이름을 --name 매개 변수와 함께 전달합니다.

az ml compute show --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

이 샘플은 위 명령의 예상 출력을 보여 줍니다.

<ATTACHED_SPARK_POOL_NAME>
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

작업 영역에 연결된 Synapse Spark 풀을 포함하여 모든 컴퓨팅 목록을 보려면 az ml compute list 명령을 사용합니다. 다음과 같이 name 매개 변수를 사용하여 작업 영역의 이름을 전달합니다.

az ml compute list --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

이 샘플은 위 명령의 예상 출력을 보여 줍니다.

[
    {
    "auto_pause_settings": {
        "auto_pause_enabled": true,
        "delay_in_minutes": 15
    },
    "created_on": "2022-09-09 21:28:54.871251+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
        "principal_id": "<PRINCIPAL_ID>",
        "tenant_id": "<TENANT_ID>",
        "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
        "auto_scale_enabled": false,
        "max_node_count": 0,
        "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
    },
    ...
]

적용 대상: Python SDK azure-ai-ml v2(현재)

Azure Machine Learning Python SDK는 Azure Machine Learning Notebooks의 Python 코드를 사용하여 Synapse Spark 풀을 연결하고 관리하기 위한 편리한 함수를 제공합니다.

Python SDK를 사용하여 Synapse Compute를 연결하려면 먼저 azure.ai.ml.MLClient 클래스의 인스턴스를 만듭니다. Azure Machine Learning Services와의 상호 작용을 위한 편리한 함수를 제공합니다. 다음 코드 샘플은 azure.identity.DefaultAzureCredential을(를) 사용하여 지정된 Azure 구독의 리소스 그룹에 있는 작업 영역에 연결합니다. 다음 코드 샘플에서 다음 매개 변수로 SynapseSparkCompute을(를) 정의합니다.

name - 새로 연결된 Synapse Spark 풀의 사용자 정의 이름입니다.
resource_id - Azure Synapse Analytics 작업 영역에서 이전에 만든 Synapse Spark 풀의 리소스 ID

azure.ai.ml.MLClient.begin_create_or_update() 함수 호출은 정의된 Synapse Spark 풀을 Azure Machine Learning 작업 영역에 연결합니다.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource)
ml_client.begin_create_or_update(synapse_comp)

시스템 할당 ID를 사용하는 Synapse Spark 풀을 연결하려면 형식이 SystemAssigned로 설정된 IdentityConfiguration을 SynapseSparkCompute 클래스의 identity 매개 변수로 전달합니다. 이 코드 조각은 시스템 할당 ID를 사용하는 Synapse Spark 풀을 연결합니다.

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(type="SystemAssigned")

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Synapse Spark 풀은 사용자 할당 ID를 사용할 수도 있습니다. 사용자 할당 ID의 경우 IdentityConfiguration 클래스를 SynapseSparkCompute 클래스의 identity 매개 변수로 사용하여 관리 ID 정의를 전달할 수 있습니다. 이 방식으로 사용되는 관리 ID 정의의 경우 type을 UserAssigned로 설정합니다. 또한 user_assigned_identities 매개 변수를 전달합니다. user_assigned_identities 매개 변수는 UserAssignedIdentity 클래스의 개체 목록입니다. 사용자 할당 ID의 resource_id은(는) 각 UserAssignedIdentity 클래스 개체를 채웁니다. 이 코드 조각은 사용자 할당 ID를 사용하는 Synapse Spark 풀을 연결합니다.

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

참고 항목

azure.ai.ml.MLClient.begin_create_or_update() 함수는 지정된 이름의 풀이 작업 영역에 아직 없는 경우 새 Synapse Spark 풀을 연결합니다. 그러나 지정된 이름을 가진 Synapse Spark 풀이 이미 작업 영역에 연결된 경우 azure.ai.ml.MLClient.begin_create_or_update() 함수를 호출하면 연결된 기존 풀이 새 ID로 업데이트됩니다.

Azure Synapse Analytics에서 역할 할당 추가

연결된 Synapse Spark 풀이 제대로 작동하는지 확인하려면 Azure Synapse Analytics 스튜디오 UI에서 관리자 역할을 할당합니다. 다음 단계는 그 방법을 보여줍니다.

Azure Portal에서 Synapse 작업 영역을 엽니다.
왼쪽 창에서 개요를 선택합니다.
Synapse Studio 열기를 선택합니다.
Azure Synapse Analytics 스튜디오의 왼쪽 창에서 관리를 선택합니다.
왼쪽에서 두 번째인 왼쪽 창의 보안 섹션에서 액세스 제어를 선택합니다.
추가를 선택합니다.
화면 오른쪽에 역할 할당 추가 패널이 열립니다. 이 패널에서:
1. 범위에 대해 작업 영역 항목을 선택합니다.
2. 항목 종류 드롭다운 메뉴에서 Apache Spark 풀을 선택합니다.
3. 항목 드롭다운 메뉴에서 Apache Spark 풀을 선택합니다.
4. 역할 드롭다운 메뉴에서 Synapse 관리자를 선택합니다.
5. 사용자 선택 검색 상자에 Azure Machine Learning 작업 영역의 이름을 입력하기 시작합니다. 연결된 Synapse Spark 풀 목록이 표시됩니다. 목록에서 원하는 Synapse Spark 풀을 선택합니다.
6. 적용을 선택합니다.

Synapse Spark 풀 업데이트

Azure Machine Learning 스튜디오 UI에서 연결된 Synapse Spark 풀을 관리할 수 있습니다. Spark 풀 관리 기능에는 연결된 Synapse Spark 풀에 대한 연결된 관리 ID 업데이트가 포함됩니다. Synapse Spark 풀을 업데이트하는 동안 시스템 할당 또는 사용자 할당 ID를 할당할 수 있습니다. Synapse Spark 풀에 할당하기 전에 Azure Portal에서 사용자 할당 관리 ID를 만들어야 합니다.

연결된 Synapse Spark 풀에 대한 관리 ID를 업데이트하려면 다음을 수행합니다.

Azure Machine Learning 스튜디오에서 Synapse Spark 풀의 세부 정보 페이지를 엽니다.
관리 ID 섹션의 오른쪽에 있는 편집 아이콘을 찾습니다.
처음으로 관리 ID를 할당하려면 관리 ID 할당을 전환하여 사용하도록 설정합니다.
시스템 할당 관리 ID를 할당하려면 다음을 수행합니다.
1. ID 형식으로 시스템 할당을 선택합니다.
2. 업데이트를 선택합니다.
사용자 할당 관리 ID를 할당하려면:
1. ID 형식으로 사용자 할당을 선택합니다.
2. 드롭다운 메뉴에서 Azure 구독을 선택합니다.
3. 이름으로 검색 텍스트가 표시된 상자에 사용자 할당 관리 ID 이름의 처음 몇 문자를 입력합니다. 사용자가 할당한 관리 ID 이름과 일치하는 목록이 나타납니다. 목록에서 원하는 사용자 할당 관리 ID를 선택합니다. 여러 사용자 할당 관리 ID를 선택하고 연결된 Synapse Spark 풀에 할당할 수 있습니다.
4. 업데이트를 선택합니다.

적용 대상: Azure CLI ml 확장 v2(현재)

연결된 Synapse Spark 풀과 연결된 ID를 업데이트하기 위해 적절한 매개 변수와 함께 az ml compute update 명령을 실행합니다. 시스템 할당 ID를 할당하려면 다음과 같이 명령의 --identity 매개 변수를 SystemAssigned로 설정합니다.

az ml compute update --identity SystemAssigned --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

이 샘플은 위 명령의 예상 출력을 보여 줍니다.

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 20:02:15.746490+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
    "principal_id": "<PRINCIPAL_ID>",
    "tenant_id": "<TENANT_ID>",
    "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<AML_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

사용자 할당 ID를 할당하려면 명령에서 --identity 매개 변수를 UserAssigned로 설정합니다. 또한 다음과 같이 --user-assigned-identities 매개 변수를 사용하여 사용자 할당 ID에 대한 리소스 ID를 전달해야 합니다.

az ml compute update --identity UserAssigned --user-assigned-identities /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

이 샘플은 위 명령의 예상 출력을 보여 줍니다.

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
  "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
  },
  "created_on": "2022-09-13 20:02:15.746490+00:00",
  "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
  "identity": {
    "type": "user_assigned",
    "user_assigned_identities": [
      {
        "client_id": "<CLIENT_ID>",
        "principal_id": "<PRINCIPAL_ID>",
        "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourcegroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
      }
    ]
  },
  "location": "eastus2",
  "name": "<ATTACHED_SPARK_POOL_NAME>",
  "node_count": 5,
  "node_family": "MemoryOptimized",
  "node_size": "Small",
  "provisioning_state": "Succeeded",
  "resourceGroup": "<RESOURCE_GROUP>",
  "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
  "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
  },
  "spark_version": "3.2",
  "type": "synapsespark"
}

참고 항목

--user-assigned-identities 매개 변수는 리소스 ID 목록을 가져오고 연결된 Synapse Spark 풀에 여러 사용자 정의 ID를 할당할 수 있습니다. 목록의 첫 번째 사용자 할당 ID는 기본적으로 작업을 제출하는 데 사용됩니다.

적용 대상: Python SDK azure-ai-ml v2(현재)

시스템 할당 ID를 사용하려면 형식이 SystemAssigned로 설정된 IdentityConfiguration을 SynapseSparkCompute 클래스의 identity 매개 변수로 전달합니다. 이 코드 조각은 시스템 할당 ID를 사용하도록 Synapse Spark 풀을 업데이트합니다.

# import required libraries 
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration 
from azure.identity import DefaultAzureCredential
    
subscription_id = "<SUBSCRIPTION_ID>" 
resource_group_name = "<RESOURCE_GROUP>" 
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace 
) 

synapse_name = "<ATTACHED_SPARK_POOL_NAME>" 
synapse_resource ="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>" 
synapse_identity = IdentityConfiguration(type="SystemAssigned") 

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource,identity=synapse_identity) ml_client.begin_create_or_update(synapse_comp)

Synapse Spark 풀은 사용자 할당 ID를 사용할 수도 있습니다. 사용자 할당 ID의 경우 IdentityConfiguration 클래스를 SynapseSparkCompute 클래스의 identity 매개 변수로 사용하여 관리 ID 정의를 전달할 수 있습니다. 이 방식으로 사용되는 관리 ID 정의의 경우 type을 UserAssigned로 설정합니다. 또한 user_assigned_identities 매개 변수를 전달합니다. user_assigned_identities 매개 변수는 UserAssignedIdentity 클래스의 개체 목록입니다. 사용자 할당 ID의 resource_id는 각 UserAssignedIdentity 클래스 개체를 채웁니다. 이 코드 조각은 사용자 할당 ID를 사용하도록 Synapse Spark 풀을 업데이트합니다.

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

참고 항목

지정된 이름의 풀이 작업 영역에 아직 없는 경우 azure.ai.ml.MLClient.begin_create_or_update() 함수는 새 Synapse Spark 풀을 연결합니다. 그러나 지정된 이름의 Synapse Spark 풀이 이미 작업 영역에 연결된 경우 azure.ai.ml.MLClient.begin_create_or_update() 함수 호출은 새 ID로 기존 연결된 풀을 업데이트합니다.

Synapse Spark 풀 분리

연결된 Synapse Spark 풀을 분리하여 작업 영역을 정리할 수 있습니다.

Azure Machine Learning 스튜디오 UI는 연결된 Synapse Spark 풀을 분리하는 방법도 제공합니다. 이렇게 하려면 다음 단계를 수행하세요.

Azure Machine Learning 스튜디오에서 Synapse Spark 풀의 세부 정보 페이지를 엽니다.
연결된 Synapse Spark 풀을 분리하려면 분리를 선택합니다.

적용 대상: Azure CLI ml 확장 v2(현재)

다음과 같이 --name 매개 변수를 사용하여 전달된 풀 이름으로 az ml compute detach 명령을 실행하여 연결된 Synapse Spark 풀을 분리할 수 있습니다.

az ml compute detach --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

이 샘플은 위 명령의 예상 출력을 보여 줍니다.

Are you sure you want to perform this operation? (y/n): y

적용 대상: Python SDK azure-ai-ml v2(현재)

MLClient.compute.begin_delete() 함수 호출을 사용할 예정입니다. 작업 Detach와 함께 연결된 Synapse Spark 풀의 name을 함수에 전달합니다. 이 코드 조각은 Azure Machine Learning 작업 영역에서 Synapse Spark 풀을 분리합니다.

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
ml_client.compute.begin_delete(name=synapse_name, action="Detach")

Azure Machine Learning의 서버리스 Spark 컴퓨팅

일부 사용자 시나리오에서는 Spark 풀을 연결할 필요 없이 Azure Machine Learning 작업 제출 중에 서버리스 Spark 컴퓨팅 리소스에 액세스해야 할 수 있습니다. Azure Machine Learning과 Azure Synapse Analytics의 통합은 서버리스 Spark 컴퓨팅 환경도 제공합니다. 이를 통해 컴퓨팅을 작업 영역에 먼저 연결할 필요 없이 작업에서 Spark 컴퓨팅에 액세스할 수 있습니다. 서버리스 Spark 컴퓨팅 환경에 대해 자세히 알아봅니다.

다음을 통해 공유

Azure Machine Learning에서 Synapse Spark 풀 연결 및 관리

필수 조건

Azure Machine Learning에서 Synapse Spark 풀 연결

Azure Synapse Analytics에서 역할 할당 추가

Synapse Spark 풀 업데이트

Synapse Spark 풀 분리

Azure Machine Learning의 서버리스 Spark 컴퓨팅

다음 단계

피드백

추가 리소스