Przesyłanie zadań platformy Spark w usłudze Azure Machine Learning

Artykuł
09/30/2024

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure w wersji 2 (current)Zestaw PYTHON SDK azure-ai-ml v2 (bieżąca)

Usługa Azure Machine Learning obsługuje autonomiczne przesyłanie zadań uczenia maszynowego oraz tworzenie potoków uczenia maszynowego obejmujących wiele kroków przepływu pracy uczenia maszynowego. Usługa Azure Machine Learning obsługuje zarówno autonomiczne tworzenie zadań platformy Spark, jak i tworzenie składników platformy Spark wielokrotnego użytku, których mogą używać potoki usługi Azure Machine Learning. Z tego artykułu dowiesz się, jak przesyłać zadania platformy Spark za pomocą następujących funkcji:

Interfejs użytkownika usługi Azure Machine Learning Studio
Interfejs wiersza polecenia usługi Azure Machine Learning
Azure Machine Learning SDK

Aby uzyskać więcej informacji na temat platformy Apache Spark w pojęciach związanych z usługą Azure Machine Learning , odwiedź ten zasób.

Wymagania wstępne

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure ml w wersji 2 (bieżąca)

Subskrypcja platformy Azure; Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto .
Obszar roboczy usługi Azure Machine Learning. Aby uzyskać więcej informacji, odwiedź stronę Tworzenie zasobów obszaru roboczego.
Utwórz wystąpienie obliczeniowe usługi Azure Machine Learning.
Zainstaluj interfejs wiersza polecenia usługi Azure Machine Learning.
(Opcjonalnie): dołączona pula platformy Synapse Spark w obszarze roboczym usługi Azure Machine Learning.

Uwaga

Aby uzyskać więcej informacji na temat dostępu do zasobów podczas korzystania z bezserwerowych obliczeń platformy Spark w usłudze Azure Machine Learning i dołączonej puli platformy Synapse Spark, odwiedź stronę Zapewnianie dostępu do zasobów dla zadań platformy Spark.
Usługa Azure Machine Learning udostępnia udostępnioną pulę przydziałów, z której wszyscy użytkownicy mogą uzyskiwać dostęp do limitu przydziału obliczeniowego w celu przeprowadzania testów przez ograniczony czas. W przypadku korzystania z bezserwerowych obliczeń platformy Spark usługa Azure Machine Learning umożliwia krótki dostęp do tego udostępnionego limitu przydziału.

Dołączanie tożsamości zarządzanej przypisanej przez użytkownika przy użyciu interfejsu wiersza polecenia w wersji 2

Utwórz plik YAML, który definiuje tożsamość zarządzaną przypisaną przez użytkownika, która powinna być dołączona do obszaru roboczego:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Za pomocą parametru --file użyj pliku YAML w poleceniu az ml workspace update , aby dołączyć tożsamość zarządzaną przypisaną przez użytkownika:
```
az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml
```

Dołączanie tożsamości zarządzanej przypisanej przez użytkownika przy użyciu polecenia `ARMClient`

Zainstaluj ARMClientprogram , proste narzędzie wiersza polecenia, które wywołuje interfejs API usługi Azure Resource Manager.

Utwórz plik JSON, który definiuje tożsamość zarządzaną przypisaną przez użytkownika, która powinna być dołączona do obszaru roboczego:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Aby dołączyć tożsamość zarządzaną przypisaną przez użytkownika do obszaru roboczego, wykonaj następujące polecenie w wierszu polecenia programu PowerShell lub wierszu polecenia.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Uwaga

Aby zapewnić pomyślne wykonanie zadania platformy Spark, przypisz role Współautor i Współautor danych obiektu blob usługi Storage na koncie usługi Azure Storage używanym na potrzeby danych wejściowych i wyjściowych do tożsamości używanej przez zadanie platformy Spark
Dostęp do sieci publicznej powinien być włączony w obszarze roboczym usługi Azure Synapse, aby zapewnić pomyślne wykonanie zadania platformy Spark przy użyciu dołączonej puli usługi Synapse Spark.
W obszarze roboczym usługi Azure Synapse, który ma skojarzoną zarządzaną sieć wirtualną, jeśli dołączona pula platformy Synapse Spark wskazuje pulę usługi Synapse Spark, należy skonfigurować zarządzany prywatny punkt końcowy na koncie magazynu, aby zapewnić dostęp do danych.
Bezserwerowe obliczenia platformy Spark obsługują zarządzaną sieć wirtualną usługi Azure Machine Learning. Jeśli sieć zarządzana jest aprowizowana dla bezserwerowych obliczeń platformy Spark, odpowiednie prywatne punkty końcowe dla konta magazynu powinny być również aprowizowane w celu zapewnienia dostępu do danych.

Przesyłanie autonomicznego zadania platformy Spark

Po wprowadzeniu niezbędnych zmian w parametryzacji skryptów języka Python można użyć skryptu języka Python opracowanego z interakcyjnymi uzdatnianiami danych w celu przesłania zadania wsadowego w celu przetworzenia większej ilości danych. Możesz przesłać zadanie wsadowe rozmieszczania danych jako autonomiczne zadanie platformy Spark.

Zadanie platformy Spark wymaga skryptu języka Python, który przyjmuje argumenty. Możesz zmodyfikować kod w języku Python utworzony na podstawie interakcyjnych uzdatniania danych w celu opracowania tego skryptu. Przykładowy skrypt języka Python jest pokazany tutaj.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Uwaga

Ten przykładowy kod w języku Python używa metody pyspark.pandas. Obsługuje to tylko środowisko uruchomieniowe platformy Spark w wersji 3.2 lub nowszej.

Ten skrypt przyjmuje dwa argumenty, które przekazują ścieżkę danych wejściowych i folderu wyjściowego, odpowiednio:

--titanic_data
--wrangled_data

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure ml w wersji 2 (bieżąca)

Aby utworzyć zadanie, możesz zdefiniować autonomiczne zadanie platformy Spark jako plik specyfikacji YAML, którego można użyć w poleceniu az ml job create za pomocą parametru --file . Zdefiniuj te właściwości w pliku YAML:

Właściwości YAML w specyfikacji zadania platformy Spark

type - ustaw wartość spark.
code — definiuje lokalizację folderu zawierającego kod źródłowy i skrypty dla tego zadania.
entry — definiuje punkt wejścia dla zadania. Powinna obejmować jedną z następujących właściwości:
- file — definiuje nazwę skryptu języka Python, który służy jako punkt wejścia dla zadania.
- class_name — definiuje nazwę klasy, która serweruje jako punkt wejścia dla zadania.
py_files — definiuje listę .zipplików , .egglub .py , które mają zostać umieszczone w PYTHONPATHobiekcie , w celu pomyślnego wykonania zadania. Ta właściwość jest opcjonalna.
jars — definiuje listę .jar plików, które mają być uwzględniane w sterowniku Spark, oraz funkcja wykonawcza CLASSPATH, w celu pomyślnego wykonania zadania. Ta właściwość jest opcjonalna.
files — definiuje listę plików, które powinny zostać skopiowane do katalogu roboczego każdego wykonawcy, w celu pomyślnego wykonania zadania. Ta właściwość jest opcjonalna.
archives — definiuje listę archiwów, które powinny zostać wyodrębnione do katalogu roboczego każdego wykonawcy, w celu pomyślnego wykonania zadania. Ta właściwość jest opcjonalna.
conf — definiuje następujące właściwości sterownika i funkcji wykonawczej platformy Spark:
- spark.driver.cores: liczba rdzeni sterownika Spark.
- spark.driver.memory: przydzielona pamięć dla sterownika Spark w gigabajtach (GB).
- spark.executor.cores: liczba rdzeni funkcji wykonawczej platformy Spark.
- spark.executor.memory: alokacja pamięci dla funkcji wykonawczej platformy Spark w gigabajtach (GB).
- spark.dynamicAllocation.enabled — określa, czy funkcje wykonawcze powinny być przydzielane dynamicznie, jako True wartość lub False .
- Jeśli włączono dynamiczną alokację funkcji wykonawczych, zdefiniuj następujące właściwości:
  - spark.dynamicAllocation.minExecutors — minimalna liczba wystąpień funkcji wykonawczych platformy Spark dla alokacji dynamicznej.
  - spark.dynamicAllocation.maxExecutors — maksymalna liczba wystąpień funkcji wykonawczych platformy Spark dla alokacji dynamicznej.
- Jeśli dynamiczna alokacja funkcji wykonawczych jest wyłączona, zdefiniuj tę właściwość:
  - spark.executor.instances — liczba wystąpień funkcji wykonawczej platformy Spark.
environment— środowisko usługi Azure Machine Learning do uruchamiania zadania.
args — argumenty wiersza polecenia, które powinny zostać przekazane do skryptu języka Python punktu wejścia zadania. Zapoznaj się z plikiem specyfikacji YAML podanym tutaj, aby zapoznać się z przykładem.
resources — ta właściwość definiuje zasoby, które mają być używane przez bezserwerowe obliczenia platformy Spark w usłudze Azure Machine Learning. Używa on następujących właściwości:
- instance_type — typ wystąpienia obliczeniowego, który ma być używany dla puli Spark. Obecnie obsługiwane są następujące typy wystąpień:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version — definiuje wersję środowiska uruchomieniowego platformy Spark. Obecnie obsługiwane są następujące wersje środowiska uruchomieniowego platformy Spark:
  - 3.3
  - 3.4
    Ważne
    
    Środowisko uruchomieniowe usługi Azure Synapse dla platformy Apache Spark: anonsy
    - Środowisko uruchomieniowe usługi Azure Synapse dla platformy Apache Spark 3.3:
      
      Data ogłoszenia EOLA: 12 lipca 2024 r.
      
      Data zakończenia wsparcia technicznego: 31 marca 2025 r. Po tej dacie środowisko uruchomieniowe zostanie wyłączone.
    - Aby zapewnić ciągłą obsługę i optymalną wydajność, zalecamy migrację do platformy Apache Spark 3.4.
Jest to przykładowy plik YAML:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute — ta właściwość definiuje nazwę dołączonej puli platformy Synapse Spark, jak pokazano w tym przykładzie:
```
compute: mysparkpool
```
inputs — ta właściwość definiuje dane wejściowe dla zadania platformy Spark. Dane wejściowe zadania platformy Spark mogą być wartością literału lub danymi przechowywanymi w pliku lub folderze.
- Wartość literału może być liczbą, wartością logiczną lub ciągiem. Poniżej przedstawiono kilka przykładów:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Dane przechowywane w pliku lub folderze powinny być zdefiniowane przy użyciu następujących właściwości:
  - type - ustaw tę właściwość na uri_file, lub uri_folder, dla danych wejściowych zawartych odpowiednio w pliku lub folderze.
  - path — identyfikator URI danych wejściowych, takich jak azureml://, abfss://lub wasbs://.
  - mode - ustaw tę właściwość na direct. W tym przykładzie przedstawiono definicję danych wejściowych zadania, które mogą być określane jako $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs — ta właściwość definiuje dane wyjściowe zadania platformy Spark. Dane wyjściowe zadania platformy Spark można zapisywać w pliku lub w lokalizacji folderu, która jest zdefiniowana przy użyciu następujących trzech właściwości:
- type — tę właściwość można ustawić na uri_file lub uri_folder, aby zapisywać dane wyjściowe w pliku lub folderze odpowiednio.
- path — ta właściwość definiuje identyfikator URI lokalizacji wyjściowej, taki jak azureml://, abfss://lub wasbs://.
- mode - ustaw tę właściwość na direct. W tym przykładzie przedstawiono definicję danych wyjściowych zadania, które można nazwać jako ${{outputs.wrangled_data}}:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity — ta opcjonalna właściwość definiuje tożsamość używaną do przesyłania tego zadania. Może zawierać user_identity wartości i managed . Jeśli specyfikacja YAML nie definiuje tożsamości, zadanie platformy Spark używa tożsamości domyślnej.

Autonomiczne zadanie platformy Spark

W tym przykładzie specyfikacja YAML przedstawia autonomiczne zadanie platformy Spark. Używa ona bezserwerowych obliczeń platformy Spark w usłudze Azure Machine Learning:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Uwaga

Aby użyć dołączonej puli usługi Synapse Spark, zdefiniuj compute właściwość w przykładowym pliku specyfikacji YAML pokazanym wcześniej, a nie we resources właściwości .

Możesz użyć plików YAML pokazanych wcześniej w az ml job create poleceniu z parametrem --file , aby utworzyć autonomiczne zadanie platformy Spark, jak pokazano poniżej:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Powyższe polecenie można wykonać za pomocą polecenia:

terminal wystąpienia obliczeniowego usługi Azure Machine Learning.
terminal programu Visual Studio Code połączony z wystąpieniem obliczeniowym usługi Azure Machine Learning.
komputer lokalny z zainstalowanym interfejsem wiersza polecenia usługi Azure Machine Learning.

DOTYCZY: Zestaw PYTHON SDK azure-ai-ml w wersji 2 (bieżąca)

Autonomiczne zadanie platformy Spark przy użyciu zestawu SDK języka Python

Aby utworzyć autonomiczne zadanie platformy Spark, użyj azure.ai.ml.spark funkcji z następującymi parametrami:

name — nazwa zadania platformy Spark.
display_name — nazwa wyświetlana zadania platformy Spark, która powinna być wyświetlana w interfejsie użytkownika i gdzie indziej.
code — lokalizacja folderu zawierającego kod źródłowy i skrypty dla tego zadania.
entry - punkt wejścia dla zadania. Powinien to być słownik, który definiuje punkt wejścia pliku.
py_files — lista .zipplików , .egglub .py , które mają zostać umieszczone w PYTHONPATHpliku , w celu pomyślnego wykonania zadania. Ten parametr jest opcjonalny.
jars — lista .jar plików do uwzględnienia w sterowniku platformy Spark i funkcji wykonawczej CLASSPATH, w celu pomyślnego wykonania zadania. Ten parametr jest opcjonalny.
files — lista plików, które powinny zostać skopiowane do katalogu roboczego każdego wykonawcy, w celu pomyślnego wykonania zadania. Ten parametr jest opcjonalny.
archives — lista archiwów automatycznie wyodrębnionych i umieszczonych w katalogu roboczym każdego wykonawcy w celu pomyślnego wykonania zadania. Ten parametr jest opcjonalny.
conf — słownik ze wstępnie zdefiniowanymi parami klucz-wartość konfiguracji platformy Spark.
driver_cores: liczba rdzeni przydzielonych dla sterownika Spark.
driver_memory: przydzielona pamięć dla sterownika Spark z sufiksem kjednostki rozmiaru , m, glub t (na przykład 512m, 2g).
executor_cores: liczba rdzeni przydzielonych do funkcji wykonawczej platformy Spark.
executor_memory: przydzielona pamięć dla funkcji wykonawczej platformy Spark z sufiksem jednostki rozmiaru , , lub (na przykład 512m, 2g).t gmk
dynamic_allocation_enabled — parametr logiczny, który określa, czy funkcje wykonawcze powinny być przydzielane dynamicznie.
- Jeśli włączono dynamiczną alokację funkcji wykonawczych, zdefiniuj następujące parametry:
  - dynamic_allocation_min_executors — minimalna liczba wystąpień funkcji wykonawczych platformy Spark dla alokacji dynamicznej.
  - dynamic_allocation_max_executors — maksymalna liczba wystąpień funkcji wykonawczych platformy Spark dla alokacji dynamicznej.
- Jeśli dynamiczna alokacja funkcji wykonawczych jest wyłączona, zdefiniuj następujące parametry:
  - executor_instances — liczba wystąpień funkcji wykonawczej platformy Spark.
  - environment — środowisko usługi Azure Machine Learning, które uruchamia zadanie. Ten parametr powinien zostać przekazany:
    - obiekt azure.ai.ml.entities.Environmentlub nazwa środowiska usługi Azure Machine Learning (ciąg).
args — argumenty wiersza polecenia, które powinny zostać przekazane do skryptu języka Python punktu wejścia zadania. Zobacz przykładowy kod podany tutaj.
resources — zasoby, które mają być używane przez bezserwerowe obliczenia platformy Spark w usłudze Azure Machine Learning. Ten parametr powinien przekazać słownik z następującymi elementami:
- instance_type — klucz, który definiuje typ wystąpienia obliczeniowego, który ma być używany na potrzeby bezserwerowych obliczeń platformy Spark. Obecnie obsługiwane są następujące typy wystąpień:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version — klucz definiujący wersję środowiska uruchomieniowego platformy Spark. Obecnie obsługiwane są następujące wersje środowiska uruchomieniowego platformy Spark:
  - 3.3.0
  - 3.4.0
    Ważne
    
    Środowisko uruchomieniowe usługi Azure Synapse dla platformy Apache Spark: anonsy
    - Środowisko uruchomieniowe usługi Azure Synapse dla platformy Apache Spark 3.3:
      
      Data ogłoszenia EOLA: 12 lipca 2024 r.
      
      Data zakończenia wsparcia technicznego: 31 marca 2025 r. Po tej dacie środowisko uruchomieniowe zostanie wyłączone.
    - Aby zapewnić ciągłą obsługę i optymalną wydajność, zalecamy migrację do platformy Apache Spark 3.4.
compute — nazwa dołączonej puli platformy Synapse Spark.
inputs — dane wejściowe zadania platformy Spark. Ten parametr powinien przekazać słownik z mapowaniami powiązań danych wejściowych używanych w zadaniu. Ten słownik ma następujące wartości:
- klucz słownika definiuje nazwę wejściową
- odpowiednią wartością może być:
  - wartość literału: liczba całkowita, liczba, wartość logiczna lub ciąg.
  - obiekt klasy azure.ai.ml.Input, z następującymi parametrami:
    - type - ustaw ten parametr na uri_file lub uri_folder, dla danych wejściowych zawartych odpowiednio w pliku lub folderze.
    - path — identyfikator URI danych wejściowych, takich jak azureml://, abfss://lub wasbs://.
    - mode - ustaw ten parametr na directwartość .
outputs — dane wyjściowe zadania platformy Spark. Ten parametr powinien przekazać słownik z mapowaniami powiązań danych wyjściowych używanych w zadaniu. Ten słownik ma następujące wartości:
- klucz słownika definiuje nazwę danych wyjściowych
- Odpowiadająca wartość jest obiektem klasy azure.ai.ml.Output, z następującymi parametrami:
  - type - ustaw ten parametr na uri_file lub uri_folder, odpowiednio dla wyjściowego pliku danych lub folderu.
  - path — identyfikator URI danych wyjściowych, takich jak azureml://, abfss://lub wasbs://.
  - mode - ustaw ten parametr na directwartość .
identity — opcjonalny parametr, który definiuje tożsamość używaną do przesyłania tego zadania. Dozwolone wartości to obiekt klasy
- azure.ai.ml.entities.UserIdentityConfiguration lub
- azure.ai.ml.entities.ManagedIdentityConfiguration dla tożsamości użytkownika i tożsamości zarządzanej odpowiednio. Jeśli tożsamość nie jest zdefiniowana, zadanie platformy Spark używa tożsamości domyślnej.

Możesz przesłać autonomiczne zadanie platformy Spark z:

notes usługi Azure Machine Learning połączony z wystąpieniem obliczeniowym usługi Azure Machine Learning.
Program Visual Studio Code połączony z wystąpieniem obliczeniowym usługi Azure Machine Learning.
komputer lokalny z zainstalowanym zestawem Azure Machine Learning SDK dla języka Python .

Ten fragment kodu w języku Python przedstawia tworzenie autonomicznego zadania spark z bezserwerowym obliczeniami platformy Spark w usłudze Azure Machine Learning przy użyciu tożsamości użytkownika.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Uwaga

Aby użyć dołączonej puli platformy Synapse Spark, zdefiniuj compute parametr w azure.ai.ml.spark funkcji zamiast resources.

Przesyłanie autonomicznego zadania platformy Spark z poziomu interfejsu użytkownika usługi Azure Machine Learning Studio (wersja zapoznawcza)

Ważne

Ta funkcja jest obecnie w publicznej wersji zapoznawczej. Ta wersja zapoznawcza jest udostępniana bez umowy dotyczącej poziomu usług i nie zalecamy korzystania z niej w przypadku obciążeń produkcyjnych. Niektóre funkcje mogą być nieobsługiwane lub ograniczone.

Aby uzyskać więcej informacji, zobacz Uzupełniające warunki korzystania z wersji zapoznawczych platformy Microsoft Azure.

Aby przesłać autonomiczne zadanie platformy Spark przy użyciu interfejsu użytkownika usługi Azure Machine Learning Studio:

Zrzut ekranu przedstawiający tworzenie nowego zadania platformy Spark w interfejsie użytkownika usługi Azure Machine Learning Studio.

W prawym górnym rogu ekranu wybierz pozycję + Nowy.
Wybierz pozycję Zadanie platformy Spark (wersja zapoznawcza).
Na ekranie Obliczenia :

Zrzut ekranu przedstawiający ekran wyboru zasobów obliczeniowych dla nowego zadania platformy Spark w interfejsie użytkownika usługi Azure Machine Learning Studio.

W obszarze Wybierz typ obliczeniowy wybierz pozycję Bezserwerowa platforma Spark dla bezserwerowych zasobów obliczeniowych platformy Spark lub Dołączone zasoby obliczeniowe dla dołączonej puli platformy Synapse Spark.
W przypadku wybrania opcji Bezserwerowa platforma Spark:
1. Wybierz pozycję Rozmiar maszyny wirtualnej.
2. Wybierz pozycję Wersja środowiska uruchomieniowego platformy Spark.
  Ważne
  
  Środowisko uruchomieniowe usługi Azure Synapse dla platformy Apache Spark: anonsy
  - Środowisko uruchomieniowe usługi Azure Synapse dla platformy Apache Spark 3.3:
    - Data ogłoszenia EOLA: 12 lipca 2024 r.
    - Data zakończenia wsparcia technicznego: 31 marca 2025 r. Po tej dacie środowisko uruchomieniowe zostanie wyłączone.
  - Aby zapewnić ciągłą obsługę i optymalną wydajność, zalecamy migrację do platformy Apache Spark 3.4.
W przypadku wybrania opcji Dołączone zasoby obliczeniowe:
1. Wybierz dołączoną pulę usługi Synapse Spark z menu Wybieranie dołączonego środowiska obliczeniowego usługi Azure Machine Learning.
Wybierz Dalej.
Na ekranie Środowisko :
1. Wybierz jedno z dostępnych środowisk z listy. Wybór środowiska jest opcjonalny.
2. Wybierz Dalej.
Na ekranie Ustawienia zadania:
1. Podaj nazwę zadania. Możesz użyć nazwy zadania, które jest generowane domyślnie.
2. Wybierz pozycję Nazwa eksperymentu z menu rozwijanego.
3. W obszarze Dodaj tagi podaj nazwę i wartość, a następnie wybierz pozycję Dodaj. Dodawanie tagów jest opcjonalne.
4. W sekcji Kod:
  1. Wybierz opcję z listy rozwijanej Wybierz lokalizację kodu. Wybierz pozycję Przekaż plik lokalny lub domyślny magazyn obiektów blob w obszarze roboczym usługi Azure Machine Learning.
  2. W przypadku wybrania opcji Wybierz lokalizację kodu:
    - Wybierz pozycję Przeglądaj i przejdź do lokalizacji zawierającej plik kodu lub pliki na komputerze lokalnym.
  3. W przypadku wybrania domyślnego magazynu obiektów blob obszaru roboczego usługi Azure Machine Learning:
    1. W obszarze Ścieżka do pliku kodu do przekazania wybierz pozycję Przeglądaj.
    2. Na wyskakującym ekranie zatytułowanym Ścieżka wybierz ścieżkę plików kodu w domyślnym magazynie obiektów blob obszaru roboczego.
    3. Wybierz pozycję Zapisz.
  4. Wprowadź nazwę pliku Entry dla zadania autonomicznego. Ten plik powinien zawierać kod języka Python, który przyjmuje argumenty.
  5. Aby dodać dowolny inny plik lub pliki języka Python wymagane przez zadanie autonomiczne w czasie wykonywania, wybierz pozycję + Dodaj plik w obszarze Pliki Py i wprowadź nazwę .zippliku , .egglub .py , który ma zostać umieszczony w PYTHONPATH pliku w celu pomyślnego wykonania zadania. Można dodać wiele plików.
  6. Aby dodać dowolny plik Jar lub pliki wymagane przez zadanie autonomiczne w czasie wykonywania, wybierz pozycję + Dodaj plik w obszarze Jars i wprowadź nazwę .jar pliku, który ma zostać uwzględniony w sterowniku spark. Ponadto dodaj funkcję CLASSPATH wykonawcza do pomyślnego wykonania zadania. Można dodać wiele plików.
  7. Aby dodać archiwum lub archiwa, które powinny zostać wyodrębnione do katalogu roboczego każdego wykonawcy w celu pomyślnego wykonania zadania, wybierz pozycję + Dodaj plik w obszarze Archiwa i wprowadź nazwę archiwum. Można dodać wiele archiwów.
  8. Dodawanie plików Py, Plików Jar i Archiwów jest opcjonalne.
  9. Aby dodać dane wejściowe, wybierz pozycję + Dodaj dane wejściowe w obszarze Dane wejściowe i
    1. Wprowadź nazwę danych wejściowych. Dane wejściowe powinny odwoływać się do tej nazwy w dalszej części argumentów.
    2. Wybierz typ danych wejściowych.
    3. Dla typu Dane:
      1. Wybierz pozycję Typ danych jako Plik lub Folder.
      2. Wybierz pozycję Źródło danych jako Przekaż z lokalnego, identyfikatora URI lub magazynu danych.
        
        W obszarze Przekaż z lokalizacji lokalnej wybierz pozycję Przeglądaj w obszarze Ścieżka do przekazania, aby wybrać plik wejściowy lub folder.
        
        W przypadku identyfikatora URI wprowadź identyfikator URI danych magazynu (na przykład abfss:// lub wasbs:// identyfikator URI) lub wprowadź zasób azureml://danych .
        
        W przypadku magazynu danych:
        
        Wybierz magazyn danych z menu rozwijanego.
        
        W obszarze Ścieżka do danych wybierz pozycję Przeglądaj.
        
        Na wyskakującym ekranie zatytułowanym Ścieżka wybierz ścieżkę plików kodu w domyślnym magazynie obiektów blob obszaru roboczego.
        
        Wybierz pozycję Zapisz.
      3. W polu Typ Liczba całkowita wprowadź wartość całkowitą jako wartość wejściową.
      4. W polu Typ Liczba wprowadź wartość liczbową jako wartość wejściową.
      5. Dla typu Wartość logiczna wybierz wartość True lub False jako wartość wejściową.
      6. W polu Ciąg wpisz ciąg jako wartość wejściową.
    4. Aby dodać dane wejściowe, wybierz pozycję + Dodaj dane wyjściowe w obszarze Dane wyjściowe i
      1. Wprowadź nazwę danych wyjściowych. Dane wyjściowe powinny odwoływać się do tej nazwy w dalszej części argumentów.
      2. Wybierz typ danych wyjściowych jako Plik lub Folder.
      3. W polu Miejsce docelowe identyfikatora URI danych wyjściowych wprowadź identyfikator URI danych magazynu (na przykład abfss:// lub wasbs:// identyfikator URI) lub wprowadź zasób azureml://danych .
    5. Wprowadź argumenty przy użyciu nazw zdefiniowanych w polach Nazwa danych wejściowych i Nazwa danych wyjściowych we wcześniejszych krokach oraz nazwy argumentów wejściowych i wyjściowych używanych w pliku wprowadzania skryptu języka Python. Jeśli na przykład nazwa danych wejściowych i nazwa danych wyjściowych są zdefiniowane jako job_input i job_output, a argumenty są dodawane w pliku Entry, jak pokazano tutaj
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
    następnie wprowadź argumenty jako --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}.
    1. W sekcji Konfiguracje platformy Spark:
      1. W przypadku rozmiaru funkcji wykonawczej:
        
        Wprowadź liczbę rdzeni funkcji wykonawczej i pamięci funkcji wykonawczej (GB) w gigabajtach.
        
        W przypadku funkcji wykonawczych przydzielanych dynamicznie wybierz opcję Wyłączone lub Włączone .
        
        Jeśli dynamiczna alokacja funkcji wykonawczej jest wyłączona, wprowadź liczbę wystąpień funkcji wykonawczej.
        
        Jeśli dynamiczna alokacja funkcji wykonawczych jest włączona, użyj suwaka, aby wybrać minimalną i maksymalną liczbę funkcji wykonawczych.
      2. W przypadku rozmiaru sterownika:
        
        Wprowadź liczbę rdzeni sterowników i pamięci sterownika (GB) w gigabajtach.
        
        Wprowadź pary Nazwa i Wartość dla wszystkich dodatkowych konfiguracji, a następnie wybierz pozycję Dodaj. Opcjonalnie możesz podać dodatkowe konfiguracje.
      3. Wybierz Dalej.
  10. Na ekranie Przegląd :
    1. Przed przesłaniem należy przejrzeć specyfikację zadania.
    2. Wybierz pozycję Utwórz , aby przesłać autonomiczne zadanie platformy Spark.

Składnik platformy Spark w zadaniu potoku

Składnik platformy Spark zapewnia elastyczność korzystania z tego samego składnika w wielu potokach usługi Azure Machine Learning, co krok potoku.

DOTYCZY: Rozszerzenie interfejsu wiersza polecenia platformy Azure ml w wersji 2 (bieżąca)

Składnia YAML składnika platformy Spark przypomina składnię YAML dla specyfikacji zadania platformy Spark na większość sposobów. Te właściwości są definiowane inaczej w specyfikacji YAML składnika Spark:

name — nazwa składnika Spark.
version — wersja składnika Spark.
display_name — nazwa składnika Spark do wyświetlenia w interfejsie użytkownika i gdzie indziej.
description — opis składnika Spark.
inputs — ta właściwość przypomina właściwość opisaną inputs w składni YAML specyfikacji zadania platformy Spark, z tą różnicą, że nie definiuje path właściwości. Ten fragment kodu przedstawia przykład właściwości składnika inputs platformy Spark:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs — ta właściwość przypomina właściwość opisaną outputs w składni YAML specyfikacji zadania platformy Spark, z tą różnicą, że nie definiuje path właściwości. Ten fragment kodu przedstawia przykład właściwości składnika outputs platformy Spark:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Uwaga

Składnik platformy identitySpark nie definiuje właściwości ani compute resources . Plik specyfikacji YAML potoku definiuje te właściwości.

Ten plik specyfikacji YAML zawiera przykład składnika platformy Spark:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Możesz użyć składnika Spark zdefiniowanego w powyższym pliku specyfikacji YAML w zadaniu potoku usługi Azure Machine Learning. Odwiedź stronę zasobu schematu YAML zadania potoku, aby dowiedzieć się więcej o składni YAML definiującej zadanie potoku. W tym przykładzie pokazano plik specyfikacji YAML dla zadania potoku z składnikiem Spark i bezserwerowym obliczeniami platformy Spark w usłudze Azure Machine Learning:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

Uwaga

Aby użyć dołączonej puli platformy Synapse Spark, zdefiniuj compute właściwość w przykładowym pliku specyfikacji YAML pokazanym powyżej zamiast resources właściwości.

Możesz użyć pliku specyfikacji YAML widocznego az ml job create powyżej w poleceniu przy użyciu parametru --file , aby utworzyć zadanie potoku, jak pokazano poniżej:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Powyższe polecenie można wykonać za pomocą polecenia:

terminal wystąpienia obliczeniowego usługi Azure Machine Learning.
terminal programu Visual Studio Code połączony z wystąpieniem obliczeniowym usługi Azure Machine Learning.
komputer lokalny z zainstalowanym interfejsem wiersza polecenia usługi Azure Machine Learning.

DOTYCZY: Zestaw PYTHON SDK azure-ai-ml w wersji 2 (bieżąca)

Tworzenie potoku usługi Azure Machine Learning za pomocą składnika Spark obejmuje tworzenie potoków usługi Azure Machine Learning na podstawie składników przy użyciu zestawu SDK języka Python. Składnik platformy Spark jest tworzony przy użyciu azure.ai.ml.spark funkcji. Parametry funkcji są definiowane niemal tak samo jak w przypadku autonomicznego zadania platformy Spark. Te parametry są definiowane inaczej dla składnika Spark:

name — nazwa składnika Spark.
display_name — nazwa składnika Spark wyświetlanego w interfejsie użytkownika i w innym miejscu.
inputs — ten parametr przypomina inputs parametr opisany dla autonomicznego zadania spark, z tą różnicą, że azure.ai.ml.Input klasa jest tworzone bez parametru path .
outputs — ten parametr przypomina outputs parametr opisany dla autonomicznego zadania spark, z tą różnicą, że azure.ai.ml.Output klasa jest tworzone bez parametru path .

Uwaga

Składnik platformy Spark utworzony przy użyciu azure.ai.ml.spark funkcji nie definiuje identityparametrów ani compute resources . Potok usługi Azure Machine Learning definiuje te parametry.

Zadanie potoku można przesłać za pomocą składnika Spark z:

notes usługi Azure Machine Learning połączony z wystąpieniem obliczeniowym usługi Azure Machine Learning.
Program Visual Studio Code połączony z wystąpieniem obliczeniowym usługi Azure Machine Learning.
komputer lokalny z zainstalowanym zestawem Azure Machine Learning SDK dla języka Python .

Ten fragment kodu w języku Python przedstawia użycie tożsamości zarządzanej wraz z tworzeniem zadania potoku usługi Azure Machine Learning. Ponadto pokazuje użycie składnika Spark i obliczeniowego usługi Synapse zarządzanego w usłudze Azure Machine Learning (automatyczne):

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Uwaga

Aby użyć dołączonej puli platformy Synapse Spark, zdefiniuj compute parametr w azure.ai.ml.spark funkcji zamiast parametru resources . Na przykład w przykładzie kodu pokazanym powyżej zdefiniuj spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" zamiast definiować spark_step.resourceselement .

Rozwiązywanie problemów z zadaniami platformy Spark

Aby rozwiązać problemy z zadaniem platformy Spark, możesz uzyskać dostęp do dzienników wygenerowanych dla tego zadania w usłudze Azure Machine Learning Studio. Aby wyświetlić dzienniki zadania platformy Spark:

Przejdź do pozycji Zadania z panelu po lewej stronie w interfejsie użytkownika usługi Azure Machine Learning Studio
Wybierz kartę Wszystkie zadania
Wybierz wartość Nazwa wyświetlana zadania
Na stronie szczegółów zadania wybierz kartę Dane wyjściowe i dzienniki
W Eksploratorze plików rozwiń folder logs, a następnie rozwiń folder azureml
Uzyskiwanie dostępu do dzienników zadań platformy Spark wewnątrz folderów sterownika i menedżera biblioteki

Uwaga

Aby rozwiązać problemy z zadaniami platformy Spark utworzonymi podczas interakcyjnego rozmieszczania danych w sesji notesu, wybierz pozycję Szczegóły zadania w prawym górnym rogu interfejsu użytkownika notesu. Zadania platformy Spark z interakcyjnej sesji notesu są tworzone w obszarze nazwa eksperymentu notebook-runs.

Udostępnij za pośrednictwem

Przesyłanie zadań platformy Spark w usłudze Azure Machine Learning

Wymagania wstępne

Dołączanie tożsamości zarządzanej przypisanej przez użytkownika przy użyciu interfejsu wiersza polecenia w wersji 2

Dołączanie tożsamości zarządzanej przypisanej przez użytkownika przy użyciu polecenia `ARMClient`

Przesyłanie autonomicznego zadania platformy Spark

Właściwości YAML w specyfikacji zadania platformy Spark

Autonomiczne zadanie platformy Spark

Autonomiczne zadanie platformy Spark przy użyciu zestawu SDK języka Python

Przesyłanie autonomicznego zadania platformy Spark z poziomu interfejsu użytkownika usługi Azure Machine Learning Studio (wersja zapoznawcza)

Składnik platformy Spark w zadaniu potoku

Rozwiązywanie problemów z zadaniami platformy Spark

Następne kroki

Opinia

Dodatkowe zasoby

Udostępnij za pośrednictwem

Przesyłanie zadań platformy Spark w usłudze Azure Machine Learning

Wymagania wstępne

Dołączanie tożsamości zarządzanej przypisanej przez użytkownika przy użyciu interfejsu wiersza polecenia w wersji 2

Dołączanie tożsamości zarządzanej przypisanej przez użytkownika przy użyciu polecenia ARMClient

Przesyłanie autonomicznego zadania platformy Spark

Właściwości YAML w specyfikacji zadania platformy Spark

Autonomiczne zadanie platformy Spark

Składnik platformy Spark w zadaniu potoku

Rozwiązywanie problemów z zadaniami platformy Spark

Następne kroki

Opinia

Dodatkowe zasoby

Dołączanie tożsamości zarządzanej przypisanej przez użytkownika przy użyciu polecenia `ARMClient`