Een Synapse Spark-pool koppelen en beheren in Azure Machine Learning

Artikel
10/16/2024

VAN TOEPASSING OP:Azure CLI ml extension v2 (current)Python SDK azure-ai-ml v2 (current)

In dit artikel leert u hoe u een Synapse Spark-pool koppelt in Azure Machine Learning. U kunt een Synapse Spark-pool op een van de volgende manieren koppelen in Azure Machine Learning:

Gebruikersinterface van Azure Machine Learning-studio gebruiken
Azure Machine Learning CLI gebruiken
Azure Machine Learning Python SDK gebruiken

Vereisten

Een Azure-abonnement; Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.
Een Azure Machine Learning-werkruimte. Zie Werkruimtebronnen maken.
Maak een Azure Synapse Analytics-werkruimte in Azure Portal.
Maak een Apache Spark-pool met behulp van Azure Portal.

Een Synapse Spark-pool koppelen in Azure Machine Learning

Azure Machine Learning biedt verschillende manieren om een Synapse Spark-pool te koppelen en te beheren.

Een Synapse Spark-pool koppelen met het tabblad Studio Compute:

Selecteer Compute in de sectie Beheren van het linkerdeelvenster.
Selecteer Gekoppelde berekeningen.
Selecteer Nieuw in het scherm Gekoppelde berekeningen om de opties voor het koppelen van verschillende typen berekeningen weer te geven.
Selecteer Synapse Spark-pool.

Het deelvenster Synapse Spark-pool koppelen wordt aan de rechterkant van het scherm geopend. In dit deelvenster:

Voer een naam in die verwijst naar de gekoppelde Synapse Spark-pool in de Azure Machine Learning-resource.
Selecteer een Azure-abonnement in de vervolgkeuzelijst.
Selecteer een Synapse-werkruimte in de vervolgkeuzelijst.
Selecteer een Spark-pool in de vervolgkeuzelijst.
Schakel de optie Een beheerde identiteit toewijzen in om deze in te schakelen.
Selecteer een beheerd identiteitstype dat u wilt gebruiken met deze gekoppelde Synapse Spark-pool.
Selecteer Bijwerken om het synapse Spark-poolkoppelingsproces te voltooien.

VAN TOEPASSING OP: Azure CLI ml-extensie v2 (huidige)

Met de Azure Machine Learning CLI kunnen we intuïtieve YAML-syntaxis en opdrachten van de opdrachtregelinterface gebruiken om een Synapse Spark-pool te koppelen en te beheren.

Als u een gekoppelde Synapse Spark-pool wilt definiëren met behulp van de YAML-syntaxis, moet het YAML-bestand de volgende eigenschappen hebben:

name – naam van de gekoppelde Synapse Spark-pool.
type – stel deze eigenschap in op synapsespark.
resource_id : deze eigenschap moet de resource-id-waarde opgeven van de Synapse Spark-pool die is gemaakt in de Azure Synapse Analytics-werkruimte. De Azure-resource-id bevat
- Azure-abonnements-id,
- resourcegroepnaam,
- Azure Synapse Analytics-werkruimtenaam en
- naam van de Synapse Spark-pool.
```
name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>
```

identity – deze eigenschap definieert het identiteitstype dat moet worden toegewezen aan de gekoppelde Synapse Spark-pool. Er kan een van deze waarden worden gebruikt:

system_assigned

user_assigned

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
type: system_assigned

Voor het identity type user_assignedmoet u ook een lijst met user_assigned_identities waarden opgeven. Elke door de gebruiker toegewezen identiteit moet worden gedeclareerd als een element van de lijst, met behulp van de waarde van de resource_id door de gebruiker toegewezen identiteit. De eerste door de gebruiker toegewezen identiteit in de lijst wordt standaard gebruikt om een taak te verzenden.

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
  type: user_assigned
  user_assigned_identities:
    - resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>

De YAML-bestanden hierboven kunnen als parameter --file worden gebruikt in de az ml compute attach opdracht. Een Synapse Spark-pool kan worden gekoppeld aan een Azure Machine Learning-werkruimte, in een opgegeven resourcegroep van een abonnement, met de az ml compute attach opdracht zoals hier wordt weergegeven:

az ml compute attach --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

In dit voorbeeld ziet u de verwachte uitvoer van de bovenstaande opdracht:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please visit https://aka.ms/azuremlexperimental for more information.

{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Als de gekoppelde Synapse Spark-pool, met de naam die is opgegeven in het YAML-specificatiebestand, al bestaat in de werkruimte, werkt az ml compute attach de opdrachtuitvoering de bestaande pool bij met de informatie in het YAML-specificatiebestand. U kunt de

identiteitstype
door de gebruiker toegewezen identiteiten
tags

waarden via het YAML-specificatiebestand.

Als u details van een gekoppelde Synapse Spark-pool wilt weergeven, voert u de az ml compute show opdracht uit. Geef de naam van de gekoppelde Synapse Spark-pool door met de --name parameter, zoals wordt weergegeven:

az ml compute show --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

In dit voorbeeld ziet u de verwachte uitvoer van de bovenstaande opdracht:

<ATTACHED_SPARK_POOL_NAME>
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Gebruik de az ml compute list opdracht om een lijst met alle berekeningen weer te geven, inclusief de gekoppelde Synapse Spark-pools in een werkruimte. Gebruik de naamparameter om de naam van de werkruimte door te geven, zoals wordt weergegeven:

az ml compute list --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

In dit voorbeeld ziet u de verwachte uitvoer van de bovenstaande opdracht:

[
    {
    "auto_pause_settings": {
        "auto_pause_enabled": true,
        "delay_in_minutes": 15
    },
    "created_on": "2022-09-09 21:28:54.871251+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
        "principal_id": "<PRINCIPAL_ID>",
        "tenant_id": "<TENANT_ID>",
        "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
        "auto_scale_enabled": false,
        "max_node_count": 0,
        "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
    },
    ...
]

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

Azure Machine Learning Python SDK biedt handige functies voor het koppelen en beheren van Synapse Spark-pool met behulp van Python-code in Azure Machine Learning Notebooks.

Als u een Synapse Compute wilt koppelen met behulp van Python SDK, maakt u eerst een exemplaar van de klasse azure.ai.ml.MLClient. Dit biedt handige functies voor interactie met Azure Machine Learning-services. Het volgende codevoorbeeld gebruikt azure.identity.DefaultAzureCredential om verbinding te maken met een werkruimte in de resourcegroep van een opgegeven Azure-abonnement. Definieer in het volgende codevoorbeeld de SynapseSparkCompute volgende parameters:

name - door de gebruiker gedefinieerde naam van de nieuwe gekoppelde Synapse Spark-pool.
resource_id - resource-id van de Synapse Spark-pool die eerder is gemaakt in de Azure Synapse Analytics-werkruimte

Een azure.ai.ml.MLClient.begin_create_or_update() functieaanroep koppelt de gedefinieerde Synapse Spark-pool aan de Azure Machine Learning-werkruimte.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource)
ml_client.begin_create_or_update(synapse_comp)

Als u een Synapse Spark-pool wilt koppelen die gebruikmaakt van door het systeem toegewezen identiteit, geeft u IdentityConfiguration door, waarbij het type is ingesteld SystemAssignedop , als de identity parameter van de SynapseSparkComputeklasse. Met dit codefragment wordt een Synapse Spark-pool gekoppeld die gebruikmaakt van door het systeem toegewezen identiteit:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(type="SystemAssigned")

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Een Synapse Spark-pool kan ook een door de gebruiker toegewezen identiteit gebruiken. Voor een door de gebruiker toegewezen identiteit kunt u een definitie van een beheerde identiteit doorgeven met behulp van de klasse IdentityConfiguration , als de identity parameter van de SynapseSparkCompute klasse. Voor de definitie van de beheerde identiteit die op deze manier wordt gebruikt, stelt u de type optie in op UserAssigned. Geef bovendien een user_assigned_identities parameter door. De parameter user_assigned_identities is een lijst met objecten van de klasse UserAssignedIdentity. De resource_id door de gebruiker toegewezen identiteit vult elk UserAssignedIdentity klasseobject in. Met dit codefragment wordt een Synapse Spark-pool gekoppeld die gebruikmaakt van een door de gebruiker toegewezen identiteit:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Notitie

De azure.ai.ml.MLClient.begin_create_or_update() functie koppelt een nieuwe Synapse Spark-pool als er nog geen pool met de opgegeven naam in de werkruimte bestaat. Als een Synapse Spark-pool met die opgegeven naam echter al aan de werkruimte is gekoppeld, wordt de azure.ai.ml.MLClient.begin_create_or_update() bestaande gekoppelde pool bijgewerkt met de nieuwe identiteit of identiteiten.

Roltoewijzingen toevoegen in Azure Synapse Analytics

Om ervoor te zorgen dat de gekoppelde Synapse Spark-pool goed werkt, wijst u de beheerdersrol eraan toe vanuit de gebruikersinterface van Azure Synapse Analytics Studio. In deze stappen ziet u hoe u dit doet:

Open uw Synapse-werkruimte in Azure Portal.
Selecteer Overzicht in het linkerdeelvenster.
Selecteer Synapse Studio openen.
Selecteer Beheren in de Azure Synapse Analytics-studio in het linkerdeelvenster.
Selecteer Toegangsbeheer in de sectie Beveiliging van het linkerdeelvenster, tweede aan de linkerkant.
Selecteer Toevoegen.
Het deelvenster Roltoewijzing toevoegen wordt aan de rechterkant van het scherm geopend. In dit deelvenster:
1. Selecteer werkruimte-item voor Bereik.
2. Selecteer Apache Spark-pool in het vervolgkeuzemenu Itemtype.
3. Selecteer uw Apache Spark-pool in het vervolgkeuzemenu Item .
4. Selecteer Synapse Administrator in het vervolgkeuzemenu Rol.
5. Typ in het zoekvak Gebruiker selecteren de naam van uw Azure Machine Learning-werkruimte. Hier ziet u een lijst met gekoppelde Synapse Spark-pools. Selecteer de gewenste Synapse Spark-pool in de lijst.
6. Selecteer Toepassen.

De Synapse Spark-pool bijwerken

U kunt de gekoppelde Synapse Spark-pool beheren vanuit de gebruikersinterface van Azure Machine Learning-studio. Beheerfunctionaliteit voor Spark-pools bevat gekoppelde updates voor beheerde identiteiten voor een gekoppelde Synapse Spark-pool. U kunt een door het systeem toegewezen of een door de gebruiker toegewezen identiteit toewijzen tijdens het bijwerken van een Synapse Spark-pool. U moet een door de gebruiker toegewezen beheerde identiteit maken in Azure Portal voordat u deze toewijst aan een Synapse Spark-pool.

Beheerde identiteit voor de gekoppelde Synapse Spark-pool bijwerken:

Open de pagina Details voor de Synapse Spark-pool in de Azure Machine Learning-studio.
Zoek het bewerkingspictogram aan de rechterkant van de sectie Beheerde identiteit .
Als u een beheerde identiteit voor de eerste keer wilt toewijzen, schakelt u Een beheerde identiteit toewijzen in om deze in te schakelen.
Een door het systeem toegewezen beheerde identiteit toewijzen:
1. Selecteer Door het systeem toegewezen als identiteitstype.
2. Selecteer Bijwerken.
Een door de gebruiker toegewezen beheerde identiteit toewijzen:
1. Selecteer Door de gebruiker toegewezen als het identiteitstype.
2. Selecteer een Azure-abonnement in de vervolgkeuzelijst.
3. Typ de eerste paar letters van de naam van door de gebruiker toegewezen beheerde identiteit in het vak waarin de tekst Zoeken op naam wordt weergegeven. Er wordt een lijst met overeenkomende door de gebruiker toegewezen beheerde identiteiten weergegeven. Selecteer de door de gebruiker toegewezen beheerde identiteit die u wilt gebruiken in de lijst. U kunt meerdere door de gebruiker toegewezen beheerde identiteiten selecteren en deze toewijzen aan de gekoppelde Synapse Spark-pool.
4. Selecteer Bijwerken.

VAN TOEPASSING OP: Azure CLI ml-extensie v2 (huidige)

Als u de identiteit wilt bijwerken die is gekoppeld aan een gekoppelde Synapse Spark-pool, voert u de opdracht uit met de az ml compute update juiste parameters. Als u een door het systeem toegewezen identiteit wilt toewijzen, stelt u de --identity parameter in de opdracht in op SystemAssigned, zoals wordt weergegeven:

az ml compute update --identity SystemAssigned --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

In dit voorbeeld ziet u de verwachte uitvoer van de bovenstaande opdracht:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 20:02:15.746490+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
    "principal_id": "<PRINCIPAL_ID>",
    "tenant_id": "<TENANT_ID>",
    "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<AML_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Als u een door de gebruiker toegewezen identiteit wilt toewijzen, stelt u de parameter --identity in de opdracht in op UserAssigned. Daarnaast moet u de parameter gebruiken om de resource-id door te geven voor de door de --user-assigned-identities gebruiker toegewezen identiteit, zoals wordt weergegeven:

az ml compute update --identity UserAssigned --user-assigned-identities /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

In dit voorbeeld ziet u de verwachte uitvoer van de bovenstaande opdracht:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
  "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
  },
  "created_on": "2022-09-13 20:02:15.746490+00:00",
  "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
  "identity": {
    "type": "user_assigned",
    "user_assigned_identities": [
      {
        "client_id": "<CLIENT_ID>",
        "principal_id": "<PRINCIPAL_ID>",
        "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourcegroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
      }
    ]
  },
  "location": "eastus2",
  "name": "<ATTACHED_SPARK_POOL_NAME>",
  "node_count": 5,
  "node_family": "MemoryOptimized",
  "node_size": "Small",
  "provisioning_state": "Succeeded",
  "resourceGroup": "<RESOURCE_GROUP>",
  "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
  "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
  },
  "spark_version": "3.2",
  "type": "synapsespark"
}

Notitie

De parameter --user-assigned-identities kan een lijst met resource-id's aannemen en meerdere door de gebruiker gedefinieerde identiteiten toewijzen aan een gekoppelde Synapse Spark-pool. De eerste door de gebruiker toegewezen identiteit in de lijst wordt standaard gebruikt voor het verzenden van een taak.

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

Als u door het systeem toegewezen identiteit wilt gebruiken, geeft IdentityConfigurationu door, met het type ingesteld op SystemAssigned, als de identity parameter van de SynapseSparkCompute klasse. Met dit codefragment wordt een Synapse Spark-pool bijgewerkt om een door het systeem toegewezen identiteit te gebruiken:

# import required libraries 
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration 
from azure.identity import DefaultAzureCredential
    
subscription_id = "<SUBSCRIPTION_ID>" 
resource_group_name = "<RESOURCE_GROUP>" 
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace 
) 

synapse_name = "<ATTACHED_SPARK_POOL_NAME>" 
synapse_resource ="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>" 
synapse_identity = IdentityConfiguration(type="SystemAssigned") 

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource,identity=synapse_identity) ml_client.begin_create_or_update(synapse_comp)

Een Synapse Spark-pool kan ook een door de gebruiker toegewezen identiteit gebruiken. Voor een door de gebruiker toegewezen identiteit kunt u een definitie van een beheerde identiteit doorgeven met behulp van de klasse IdentityConfiguration , als de identity parameter van de SynapseSparkCompute klasse. Voor de definitie van de beheerde identiteit die op deze manier wordt gebruikt, stelt u de type optie in op UserAssigned. Geef bovendien een user_assigned_identities parameter door. De parameter user_assigned_identities is een lijst met objecten van de klasse UserAssignedIdentity. De resource_iddoor de gebruiker toegewezen identiteit vult elk UserAssignedIdentity klasseobject in. Met dit codefragment wordt een Synapse Spark-pool bijgewerkt voor het gebruik van een door de gebruiker toegewezen identiteit:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Notitie

Als er nog geen pool met de opgegeven naam in de werkruimte bestaat, koppelt de azure.ai.ml.MLClient.begin_create_or_update() functie een nieuwe Synapse Spark-pool. Als een Synapse Spark-pool, met de opgegeven naam, echter al is gekoppeld aan de werkruimte, azure.ai.ml.MLClient.begin_create_or_update() wordt de bestaande gekoppelde pool bijgewerkt met de nieuwe identiteit of identiteiten.

De Synapse Spark-pool loskoppelen

Mogelijk willen we een gekoppelde Synapse Spark-pool loskoppelen om een werkruimte op te schonen.

De Azure Machine Learning-studio-gebruikersinterface biedt ook een manier om een gekoppelde Synapse Spark-pool los te koppelen. Hiervoor volgt u deze stappen:

Open de pagina Details voor de Synapse Spark-pool in de Azure Machine Learning-studio.
Selecteer Loskoppelen om de gekoppelde Synapse Spark-pool los te koppelen.

VAN TOEPASSING OP: Azure CLI ml-extensie v2 (huidige)

Een gekoppelde Synapse Spark-pool kan worden losgekoppeld door de az ml compute detach opdracht uit te voeren met de naam van de doorgegeven pool, met behulp van de --name parameter, zoals hier wordt weergegeven:

az ml compute detach --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

In dit voorbeeld ziet u de verwachte uitvoer van de bovenstaande opdracht:

Are you sure you want to perform this operation? (y/n): y

VAN TOEPASSING OP: Python SDK azure-ai-ml v2 (actueel)

We gebruiken een MLClient.compute.begin_delete() functieaanroep. Geef de name gekoppelde Synapse Spark-pool, samen met de actie Detach, door aan de functie. Met dit codefragment wordt een Synapse Spark-pool losgekoppeld van een Azure Machine Learning-werkruimte:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
ml_client.compute.begin_delete(name=synapse_name, action="Detach")

Serverloze Spark-rekenkracht in Azure Machine Learning

Voor sommige gebruikersscenario's is mogelijk toegang tot een serverloze Spark-rekenresource vereist, tijdens het indienen van een Azure Machine Learning-taak, zonder dat u een Spark-pool hoeft te koppelen. De integratie van Azure Synapse Analytics met Azure Machine Learning biedt ook een serverloze Spark-rekenervaring. Hiermee hebt u eerst toegang tot een Spark-rekenproces in een taak, zonder dat u de berekening eerst aan een werkruimte hoeft te koppelen. Meer informatie over de serverloze Spark-rekenervaring.

Delen via

Een Synapse Spark-pool koppelen en beheren in Azure Machine Learning

Vereisten

Een Synapse Spark-pool koppelen in Azure Machine Learning

Roltoewijzingen toevoegen in Azure Synapse Analytics

De Synapse Spark-pool bijwerken

De Synapse Spark-pool loskoppelen

Serverloze Spark-rekenkracht in Azure Machine Learning

Volgende stappen

Feedback

Aanvullende resources