Odesílání úloh Sparku ve službě Azure Machine Learning

Článek
09/30/2024

PLATÍ PRO:Rozšíření Azure CLI ml v2 (aktuální)Python SDK azure-ai-ml v2 (aktuální)

Azure Machine Learning podporuje odesílání samostatných úloh strojového učení a vytváření kanálů strojového učení, které zahrnují několik kroků pracovního postupu strojového učení. Azure Machine Learning zpracovává samostatné vytváření úloh Sparku i vytváření opakovaně použitelných komponent Sparku, které můžou používat kanály Azure Machine Learning. V tomto článku se dozvíte, jak odesílat úlohy Sparku pomocí:

uživatelské rozhraní studio Azure Machine Learning
Rozhraní CLI služby Azure Machine Learning
Azure Machine Learning SDK

Další informace o Apache Sparku v konceptech služby Azure Machine Learning najdete v tomto prostředku.

Požadavky

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

Předplatné Azure; Pokud nemáte předplatné Azure, vytvořte si před zahájením bezplatný účet .
Pracovní prostor služby Azure Machine Learning. Další informace najdete v tématu Vytvoření prostředků pracovního prostoru.
Vytvořte výpočetní instanci služby Azure Machine Learning.
Nainstalujte rozhraní příkazového řádku služby Azure Machine Learning.
(Volitelné): Připojený fond Synapse Spark v pracovním prostoru Azure Machine Learning.

Poznámka:

Další informace o přístupu k prostředkům při používání bezserverového výpočetního prostředí Spark ve službě Azure Machine Learning a připojeném fondu Synapse Sparku najdete v tématu Zajištění přístupu k prostředkům pro úlohy Sparku.
Azure Machine Learning poskytuje fond sdílených kvót , ze kterého mají všichni uživatelé přístup k kvótě výpočetních prostředků, aby mohli provádět testování po omezenou dobu. Když použijete výpočetní prostředí Spark bez serveru, azure Machine Learning vám umožní získat přístup k této sdílené kvótě po krátkou dobu.

Připojení spravované identity přiřazené uživatelem pomocí rozhraní příkazového řádku v2

Vytvořte soubor YAML, který definuje spravovanou identitu přiřazenou uživatelem, která by se měla připojit k pracovnímu prostoru:

identity:
  type: system_assigned,user_assigned
  tenant_id: <TENANT_ID>
  user_assigned_identities:
    '/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>':
      {}

Pomocí parametru --file připojte spravovanou identitu přiřazenou uživatelem pomocí souboru YAML v az ml workspace update příkazu:

az ml workspace update --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --name <AML_WORKSPACE_NAME> --file <YAML_FILE_NAME>.yaml

Připojení spravované identity přiřazené uživatelem pomocí `ARMClient`

Nainstalujte ARMClientjednoduchý nástroj příkazového řádku, který vyvolá rozhraní API Azure Resource Manageru.

Vytvořte soubor JSON, který definuje spravovanou identitu přiřazenou uživatelem, která by se měla připojit k pracovnímu prostoru:

{
    "properties":{
    },
    "location": "<AZURE_REGION>",
    "identity":{
        "type":"SystemAssigned,UserAssigned",
        "userAssignedIdentities":{
            "/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>": { }
        }
    }
}

Pokud chcete k pracovnímu prostoru připojit spravovanou identitu přiřazenou uživatelem, spusťte na příkazovém řádku PowerShellu nebo na příkazovém řádku následující příkaz.

armclient PATCH https://management.azure.com/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>?api-version=2022-05-01 '@<JSON_FILE_NAME>.json'

Poznámka:

Pokud chcete zajistit úspěšné spuštění úlohy Sparku, přiřaďte role Přispěvatel a Přispěvatel dat objektů blob služby Storage v účtu úložiště Azure používaném pro vstup a výstup dat identitě, kterou úloha Spark používá.
Přístup k veřejné síti by měl být povolený v pracovním prostoru Azure Synapse, aby se zajistilo úspěšné spuštění úlohy Sparku pomocí připojeného fondu Synapse Spark.
V pracovním prostoru Azure Synapse, který má přidruženou spravovanou virtuální síť, pokud připojený fond Synapse Spark odkazuje na fond Synapse Spark, měli byste nakonfigurovat spravovaný privátní koncový bod pro účet úložiště, abyste zajistili přístup k datům.
Bezserverové výpočetní prostředí Spark podporuje virtuální síť spravovanou službou Azure Machine Learning. Pokud je spravovaná síť zřízená pro výpočetní prostředí Spark bez serveru, měly by se zřídit také odpovídající privátní koncové body pro účet úložiště, aby se zajistil přístup k datům.

Odeslání samostatné úlohy Sparku

Po provedení nezbytných změn pro parametrizaci skriptu Pythonu můžete použít skript Pythonu vyvinutý s interaktivním uspořádáním dat k odeslání dávkové úlohy ke zpracování většího objemu dat. Datovou úlohu transformace dat můžete odeslat jako samostatnou úlohu Sparku.

Úloha Sparku vyžaduje skript Pythonu, který přebírá argumenty. Kód Pythonu, který byl původně vyvinutý z interaktivní transformace dat, můžete upravit tak, aby se tento skript vyvinul. Tady se zobrazí ukázkový skript Pythonu.

# titanic.py
import argparse
from operator import add
import pyspark.pandas as pd
from pyspark.ml.feature import Imputer

parser = argparse.ArgumentParser()
parser.add_argument("--titanic_data")
parser.add_argument("--wrangled_data")

args = parser.parse_args()
print(args.wrangled_data)
print(args.titanic_data)

df = pd.read_csv(args.titanic_data, index_col="PassengerId")
imputer = Imputer(inputCols=["Age"], outputCol="Age").setStrategy(
    "mean"
)  # Replace missing values in Age column with the mean value
df.fillna(
    value={"Cabin": "None"}, inplace=True
)  # Fill Cabin column with value "None" if missing
df.dropna(inplace=True)  # Drop the rows which still have any missing value
df.to_csv(args.wrangled_data, index_col="PassengerId")

Poznámka:

Tento vzorový kód Pythonu používá pyspark.pandas. Tuto možnost podporuje pouze modul runtime Spark verze 3.2 nebo novější.

Tento skript přebírá dva argumenty, které předávají cestu vstupních dat a výstupní složky:

--titanic_data
--wrangled_data

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

Pokud chcete vytvořit úlohu, můžete definovat samostatnou úlohu Sparku jako soubor specifikace YAML, který můžete použít v az ml job create příkazu s parametrem --file . Definujte tyto vlastnosti v souboru YAML:

Vlastnosti YAML ve specifikaci úlohy Spark

type - nastaveno na spark.
code – definuje umístění složky, která obsahuje zdrojový kód a skripty pro tuto úlohu.
entry – definuje vstupní bod pro úlohu. Měla by zahrnovat jednu z těchto vlastností:
- file – definuje název skriptu Pythonu, který slouží jako vstupní bod pro úlohu.
- class_name - definuje název třídy, kterou servery jako vstupní bod pro úlohu.
py_files - definuje seznam .zip, .eggnebo .py soubory, které mají být umístěny do PYTHONPATH, pro úspěšné provedení úlohy. Tato vlastnost je nepovinná.
jars – definuje seznam .jar souborů, které se mají zahrnout do ovladače Sparku, a exekutor CLASSPATHpro úspěšné spuštění úlohy. Tato vlastnost je nepovinná.
files – definuje seznam souborů, které by se měly zkopírovat do pracovního adresáře každého exekutoru pro úspěšné provedení úlohy. Tato vlastnost je nepovinná.
archives - definuje seznam archivů, které by se měly extrahovat do pracovního adresáře každého exekutoru pro úspěšné provedení úlohy. Tato vlastnost je nepovinná.
conf – definuje tyto vlastnosti ovladače Sparku a exekutoru:
- spark.driver.cores: počet jader pro ovladač Spark.
- spark.driver.memory: přidělená paměť pro ovladač Spark v gigabajtech (GB).
- spark.executor.cores: počet jader pro exekutor Sparku.
- spark.executor.memory: přidělení paměti pro exekutor Sparku v gigabajtech (GB).
- spark.dynamicAllocation.enabled – zda by exekutory měly být dynamicky přiděleny jako True hodnota nebo False hodnota.
- Pokud je povolené dynamické přidělování exekutorů, definujte tyto vlastnosti:
  - spark.dynamicAllocation.minExecutors – minimální počet instancí exekutorů Sparku pro dynamické přidělování.
  - spark.dynamicAllocation.maxExecutors – maximální počet instancí exekutorů Sparku pro dynamické přidělení.
- Pokud je dynamické přidělování exekutorů zakázané, definujte tuto vlastnost:
  - spark.executor.instances – počet instancí exekutoru Sparku.
environment– prostředí Azure Machine Learning pro spuštění úlohy.
args – argumenty příkazového řádku, které by se měly předat skriptu Pythonu vstupního bodu úlohy. Projděte si soubor specifikace YAML uvedený tady, například.
resources – tato vlastnost definuje prostředky, které mají být používány výpočetním prostředím Spark bez serveru služby Azure Machine Learning. Používá následující vlastnosti:
- instance_type – typ výpočetní instance, který se má použít pro fond Sparku. V současné době jsou podporovány následující typy instancí:
  - standard_e4s_v3
  - standard_e8s_v3
  - standard_e16s_v3
  - standard_e32s_v3
  - standard_e64s_v3
- runtime_version – definuje verzi modulu runtime Spark. V současné době se podporují následující verze modulu runtime Spark:
  - 3.3
  - 3.4
    Důležité
    
    Azure Synapse Runtime pro Apache Spark: Oznámení
    - Azure Synapse Runtime pro Apache Spark 3.3:
      
      Datum oznámení EOLA: 12. července 2024
      
      Datum ukončení podpory: 31. března 2025. Po tomto datu bude modul runtime zakázán.
    - Pro trvalou podporu a optimální výkon doporučujeme migrovat na Apache Spark 3.4.
Toto je příklad souboru YAML:
```
resources:
  instance_type: standard_e8s_v3
  runtime_version: "3.4"
```
compute – tato vlastnost definuje název připojeného fondu Synapse Spark, jak je znázorněno v tomto příkladu:
```
compute: mysparkpool
```
inputs – tato vlastnost definuje vstupy pro úlohu Spark. Vstupy pro úlohu Sparku můžou být literální hodnota nebo data uložená v souboru nebo složce.
- Hodnota literálu může být číslo, logická hodnota nebo řetězec. Tady je několik příkladů:
```
inputs:
  sampling_rate: 0.02 # a number
  hello_number: 42 # an integer
  hello_string: "Hello world" # a string
  hello_boolean: True # a boolean value
```
- Data uložená v souboru nebo složce by měla být definována pomocí těchto vlastností:
  - type - nastavte tuto vlastnost na uri_filenebo uri_folderpro vstupní data obsažená v souboru nebo složce.
  - path – identifikátor URI vstupních dat, například azureml://, abfss://nebo wasbs://.
  - mode - nastavte tuto vlastnost na directhodnotu . Tato ukázka ukazuje definici vstupu úlohy, která může být označována takto $${inputs.titanic_data}}:
```
inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct
```
outputs – tato vlastnost definuje výstupy úloh Sparku. Výstupy úlohy Sparku je možné zapsat do souboru nebo do umístění složky, které je definováno pomocí následujících tří vlastností:
- type - Tuto vlastnost můžete nastavit na uri_file hodnotu nebo uri_folder, pro zápis výstupních dat do souboru nebo složky.
- path – tato vlastnost definuje identifikátor URI výstupního umístění, například azureml://, abfss://nebo wasbs://.
- mode - nastavte tuto vlastnost na directhodnotu . Tato ukázka ukazuje definici výstupu úlohy, na kterou můžete odkazovat takto ${{outputs.wrangled_data}}:
```
outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct
```
identity – tato volitelná vlastnost definuje identitu použitou k odeslání této úlohy. Může obsahovat user_identity a managed hodnoty. Pokud specifikace YAML nedefinuje identitu, úloha Sparku použije výchozí identitu.

Samostatná úloha Sparku

Tato ukázková specifikace YAML ukazuje samostatnou úlohu Sparku. Používá výpočetní prostředí Spark bez serveru Azure Machine Learning:

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./ 
entry:
  file: titanic.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  titanic_data:
    type: uri_file
    path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.4"

Poznámka:

Chcete-li použít připojený fond Synapse Spark, definujte compute vlastnost v ukázkovém souboru specifikace YAML zobrazeném resources dříve místo vlastnosti.

Soubory YAML zobrazené výše v az ml job create příkazu s parametrem --file můžete použít k vytvoření samostatné úlohy Sparku, jak je znázorněno na následujícím obrázku:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Výše uvedený příkaz můžete spustit z:

terminál výpočetní instance služby Azure Machine Learning.
terminál editoru Visual Studio Code připojený k výpočetní instanci služby Azure Machine Learning.
váš místní počítač s nainstalovaným rozhraním příkazového řádku služby Azure Machine Learning.

PLATÍ PRO: Python SDK azure-ai-ml v2 (aktuální)

Samostatná úloha Sparku s využitím sady Python SDK

Pokud chcete vytvořit samostatnou úlohu Sparku, použijte funkci azure.ai.ml.spark s těmito parametry:

name – název úlohy Sparku.
display_name – zobrazovaný název úlohy Sparku, která by se měla zobrazit v uživatelském rozhraní a jinde.
code – umístění složky, která obsahuje zdrojový kód a skripty pro tuto úlohu.
entry - vstupní bod pro úlohu. Měl by to být slovník, který definuje vstupní bod souboru.
py_files - seznam .zip, .eggnebo .py soubory, které mají být umístěny do PYTHONPATH, pro úspěšné provedení úlohy. Tento parametr je volitelný.
jars – seznam .jar souborů, které se mají zahrnout do ovladače Sparku a exekutoru CLASSPATH, pro úspěšné spuštění úlohy. Tento parametr je volitelný.
files – seznam souborů, které by se měly zkopírovat do pracovního adresáře každého exekutoru pro úspěšné spuštění úlohy. Tento parametr je volitelný.
archives - seznam archivů, které se automaticky extrahují a umístí do pracovního adresáře každého exekutoru pro úspěšné spuštění úlohy. Tento parametr je volitelný.
conf – slovník s předdefinovanými páry klíč-hodnota konfigurace Sparku.
driver_cores: počet jader přidělených pro ovladač Spark.
driver_memory: přidělená paměť pro ovladač Spark s příponou kjednotky velikosti , m, gnebo t (například 512m, ). 2g
executor_cores: počet jader přidělených exekutoru Sparku.
executor_memory: přidělená paměť pro exekutor Sparku s příponou kjednotky velikosti , m, gnebo t (například 512m, ). 2g
dynamic_allocation_enabled – logický parametr, který definuje, jestli se exekutory mají přidělovat dynamicky.
- Pokud je povolené dynamické přidělování exekutorů, definujte tyto parametry:
  - dynamic_allocation_min_executors – minimální počet instancí exekutorů Sparku pro dynamické přidělení.
  - dynamic_allocation_max_executors – maximální počet instancí exekutorů Sparku pro dynamické přidělení.
- Pokud je dynamické přidělování exekutorů zakázané, definujte tyto parametry:
  - executor_instances – počet instancí exekutoru Sparku.
  - environment – prostředí Azure Machine Learning, které spouští úlohu. Tento parametr by měl předat:
    - objektu azure.ai.ml.entities.Environmentnebo názvu prostředí Služby Azure Machine Learning (řetězec).
args – argumenty příkazového řádku, které by se měly předat skriptu Pythonu vstupního bodu úlohy. Příklad najdete v ukázkovém kódu.
resources – prostředky, které mají být používány bezserverovým výpočetním prostředím Spark ve službě Azure Machine Learning. Tento parametr by měl předat slovník s:
- instance_type – klíč, který definuje typ výpočetní instance, který se má použít pro výpočetní prostředí Spark bez serveru. V současné době jsou podporovány následující typy instancí:
  - Standard_E4S_V3
  - Standard_E8S_V3
  - Standard_E16S_V3
  - Standard_E32S_V3
  - Standard_E64S_V3
- runtime_version – klíč, který definuje verzi modulu runtime Spark. V současné době se podporují následující verze modulu runtime Spark:
  - 3.3.0
  - 3.4.0
    Důležité
    
    Azure Synapse Runtime pro Apache Spark: Oznámení
    - Azure Synapse Runtime pro Apache Spark 3.3:
      
      Datum oznámení EOLA: 12. července 2024
      
      Datum ukončení podpory: 31. března 2025. Po tomto datu bude modul runtime zakázán.
    - Pro trvalou podporu a optimální výkon doporučujeme migrovat na Apache Spark 3.4.
compute – název připojeného fondu Synapse Spark.
inputs – vstupy pro úlohu Spark. Tento parametr by měl předat slovník s mapováním vstupních datových vazeb použitých v úloze. Tento slovník má tyto hodnoty:
- Klíč slovníku definuje název vstupu.
- Odpovídající hodnota může být:
  - hodnota literálu: celé číslo, číslo, logická hodnota nebo řetězec.
  - objekt třídy azure.ai.ml.Inputs následujícími parametry:
    - type - nastavte tento parametr na uri_file hodnotu nebo uri_folderpro vstupní data obsažená v souboru nebo složce.
    - path – identifikátor URI vstupních dat, například azureml://, abfss://nebo wasbs://.
    - mode - nastavte tento parametr na direct.
outputs – výstupy pro úlohu Spark. Tento parametr by měl předat slovník s mapováním výstupních datových vazeb použitých v úloze. Tento slovník má tyto hodnoty:
- Klíč slovníku definuje název výstupu.
- odpovídající hodnota je objekt třídy azure.ai.ml.Outputs následujícími parametry:
  - type - nastavte tento parametr na uri_file hodnotu nebo uri_folderpro výstupní datový soubor nebo složku.
  - path – identifikátor URI výstupních dat, například azureml://, abfss://nebo wasbs://.
  - mode - nastavte tento parametr na direct.
identity – volitelný parametr, který definuje identitu použitou k odeslání této úlohy. Povolené hodnoty jsou objektem třídy.
- azure.ai.ml.entities.UserIdentityConfiguration nebo
- azure.ai.ml.entities.ManagedIdentityConfiguration pro identitu uživatele a spravovanou identitu. Pokud není definovaná žádná identita, úloha Sparku použije výchozí identitu.

Samostatnou úlohu Sparku můžete odeslat z:

Poznámkový blok Azure Machine Learning připojený k výpočetní instanci služby Azure Machine Learning
Visual Studio Code připojený k výpočetní instanci služby Azure Machine Learning
váš místní počítač s nainstalovanou sadou Azure Machine Learning SDK pro Python .

Tento fragment kódu Pythonu ukazuje vytvoření samostatné úlohy Sparku s bezserverovým výpočetním prostředím Spark ve službě Azure Machine Learning s využitím identity uživatele.

from azure.ai.ml import MLClient, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import UserIdentityConfiguration

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_job = spark(
    display_name="Titanic-Spark-Job-SDK",
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    resources={
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    },
    inputs={
        "titanic_data": Input(
            type="uri_file",
            path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
            mode="direct",
        ),
    },
    outputs={
        "wrangled_data": Output(
            type="uri_folder",
            path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
            mode="direct",
        ),
    },
    identity=UserIdentityConfiguration(),
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)

returned_spark_job = ml_client.jobs.create_or_update(spark_job)

# Wait until the job completes
ml_client.jobs.stream(returned_spark_job.name)

Poznámka:

Chcete-li použít připojený fond Synapse Spark, definujte compute parametr ve azure.ai.ml.spark funkci místo resources.

Odeslání samostatné úlohy Sparku z uživatelského rozhraní studio Azure Machine Learning (Preview)

Důležité

Tato funkce je v současné době ve verzi Public Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti.

Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Odeslání samostatné úlohy Spark pomocí uživatelského rozhraní studio Azure Machine Learning:

Snímek obrazovky znázorňující vytvoření nové úlohy Sparku v uživatelském rozhraní studio Azure Machine Learning

V pravém horním rohu obrazovky vyberte + Nový.
Vyberte úlohu Sparku (Preview).
Na obrazovce Compute:

Snímek obrazovky znázorňující obrazovku výběru výpočetních prostředků pro novou úlohu Sparku v uživatelském rozhraní studio Azure Machine Learning

V části Vybrat typ výpočetních prostředků vyberte bezserverové výpočetní prostředí Spark bez serveru nebo připojené výpočetní prostředky připojeného fondu Synapse Spark.
Pokud jste vybrali bezserverovou architekturu Spark:
1. Vyberte velikost virtuálního počítače.
2. Vyberte verzi modulu runtime Spark.
  Důležité
  
  Azure Synapse Runtime pro Apache Spark: Oznámení
  - Azure Synapse Runtime pro Apache Spark 3.3:
    - Datum oznámení EOLA: 12. července 2024
    - Datum ukončení podpory: 31. března 2025. Po tomto datu bude modul runtime zakázán.
  - Pro trvalou podporu a optimální výkon doporučujeme migrovat na Apache Spark 3.4.
Pokud jste vybrali Připojené výpočetní prostředky:
1. V nabídce Výběr připojeného výpočetního prostředí Azure Machine Learning vyberte připojený fond Synapse Spark.
Vyberte Další.
Na obrazovce Prostředí:
1. Ze seznamu vyberte jedno z dostupných prostředí. Výběr prostředí je volitelný.
2. Vyberte Další.
Na obrazovce Nastavení úlohy:
1. Zadejte název úlohy. Můžete použít název úlohy, který se ve výchozím nastavení vygeneruje.
2. V rozevírací nabídce vyberte Název experimentu.
3. V části Přidat značky zadejte název a hodnotu a pak vyberte Přidat. Přidání značek je volitelné.
4. V části Kód:
  1. V rozevíracím seznamu Zvolit umístění kódu vyberte možnost. Zvolte Nahrát místní soubor nebo výchozí úložiště objektů blob pracovního prostoru Služby Azure Machine Learning.
  2. Pokud jste vybrali možnost Zvolit umístění kódu:
    - Vyberte Procházet a přejděte do umístění obsahujícího soubor kódu nebo soubory na místním počítači.
  3. Pokud jste vybrali výchozí úložiště objektů blob pracovního prostoru Azure Machine Learning:
    1. V části Cesta k souboru kódu, který chcete nahrát, vyberte Procházet.
    2. Na místní obrazovce s názvem Cesta vyberte cestu k souborům kódu ve výchozím úložišti objektů blob pracovního prostoru.
    3. Zvolte Uložit.
  4. Zadejte název vstupního souboru pro samostatnou úlohu. Tento soubor by měl obsahovat kód Pythonu, který přijímá argumenty.
  5. Pokud chcete přidat jakýkoli jiný soubor nebo soubory Pythonu, které samostatná úloha vyžaduje za běhu, vyberte + Přidat soubor v části Soubory Py a zadejte název .zip, .eggnebo .py soubor, který se má umístit do úspěšného PYTHONPATH spuštění úlohy. Můžete přidat více souborů.
  6. Pokud chcete přidat libovolný soubor Jar nebo soubory, které samostatná úloha vyžaduje za běhu, vyberte + Přidat soubor v jars a zadejte název .jar souboru, který má být zahrnut do ovladače Sparku. Přidejte také exekutor CLASSPATH pro úspěšné spuštění úlohy. Můžete přidat více souborů.
  7. Chcete-li přidat archiv nebo archivy, které by měly být extrahovány do pracovního adresáře každého exekutoru pro úspěšné provedení úlohy, vyberte + Přidat soubor v části Archivy a zadejte název archivu. Je možné přidat více archivů.
  8. Přidání souborů Py, souborů Jar a archivů je volitelné.
  9. Pokud chcete přidat vstup, vyberte + Přidat vstup v části Vstupy a
    1. Zadejte název vstupu. Vstup by měl odkazovat na tento název později v argumentech.
    2. Vyberte typ vstupu.
    3. Pro typ Data:
      1. Jako soubor nebo složku vyberte datový typ.
      2. Vyberte Zdroj dat jako Nahrání z místního úložiště dat, identifikátoru URI nebo úložiště dat.
        
        V části Nahrát z místního umístění vyberte Procházet v části Cesta, kterou chcete nahrát, a zvolte vstupní soubor nebo složku.
        
        Pro identifikátor URI zadejte identifikátor URI dat úložiště (například abfss:// wasbs:// identifikátor URI) nebo zadejte datový asset azureml://.
        
        Úložiště dat:
        
        V rozevírací nabídce vyberte úložiště dat.
        
        V části Cesta k datům vyberte Procházet.
        
        Na automaticky otevírané obrazovce s názvem Cesta vyberte cestu k souborům kódu ve výchozím úložišti objektů blob pracovního prostoru.
        
        Zvolte Uložit.
      3. Jako typ Integer zadejte celočíselnou hodnotu jako vstupní hodnotu.
      4. Jako typ Číslo zadejte číselnou hodnotu jako vstupní hodnotu.
      5. Jako typ Logická hodnota vyberte True nebo False jako vstupní hodnotu.
      6. Jako typ String zadejte řetězec jako vstupní hodnotu.
    4. Pokud chcete přidat vstup, vyberte + Přidat výstup v části Výstupy a
      1. Zadejte název výstupu. Výstup by měl odkazovat na tento název později v argumentech.
      2. Jako typ výstupu nebo složky vyberte Typ výstupu.
      3. Jako cíl výstupního identifikátoru URI zadejte identifikátor URI dat úložiště (například abfss:// wasbs:// URI) nebo zadejte datový asset azureml://.
    5. Zadejte argumenty pomocí názvů definovaných v polích Název vstupu a Výstupní název v předchozích krocích a názvy vstupních a výstupních argumentů použitých v souboru zadávání skriptu Pythonu. Pokud je například definován název vstupu a název výstupu a job_input job_outputargumenty se přidají do vstupního souboru, jak je znázorněno zde.
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--input_param")
parser.add_argument("--output_param")
```
    pak zadejte argumenty jako --input_param ${{inputs.job_input}} --output_param ${{outputs.job_output}}.
    1. V části Konfigurace Sparku:
      1. Velikost exekutoru:
        
        Zadejte počet jader exekutoru a paměti exekutoru (GB) v gigabajtech.
        
        U dynamicky přidělených exekutorů vyberte možnost Zakázáno nebo Povoleno .
        
        Pokud je dynamické přidělování exekutorů zakázáno, zadejte počet instancí Exekutoru.
        
        Pokud je dynamické přidělování exekutorů povoleno, pomocí posuvníku vyberte minimální a maximální počet exekutorů.
      2. Velikost ovladače:
        
        Zadejte počet jader ovladačů a paměti ovladačů (GB) v gigabajtech.
        
        Zadejte páry Název a Hodnota pro všechny další konfigurace a pak vyberte Přidat. Volitelně můžete zadat další konfigurace.
      3. Vyberte Další.
  10. Na obrazovce Revize:
    1. Před odesláním zkontrolujte specifikaci úlohy.
    2. Vyberte Vytvořit a odešlete samostatnou úlohu Sparku.

Komponenta Spark v úloze kanálu

Komponenta Spark nabízí flexibilitu používat stejnou komponentu v několika kanálech Azure Machine Learning jako krok kanálu.

PLATÍ PRO: Rozšíření Azure CLI ml v2 (aktuální)

Syntaxe YAML pro komponentu Sparku se ve většině způsobů podobá syntaxi YAML pro specifikaci úlohy Sparku. Tyto vlastnosti jsou definovány odlišně ve specifikaci YAML komponenty Spark:

name – název komponenty Spark.
version – verze komponenty Spark.
display_name – název komponenty Spark, která se má zobrazit v uživatelském rozhraní a jinde.
description – popis komponenty Spark.
inputs – tato vlastnost se podobá inputs vlastnosti popsané v syntaxi YAML pro specifikaci úlohy Sparku s tím rozdílem, že tuto vlastnost nedefinuje path . Tento fragment kódu ukazuje příklad vlastnosti komponenty inputs Spark:
```
inputs:
  titanic_data:
    type: uri_file
    mode: direct
```
outputs – tato vlastnost se podobá outputs vlastnosti popsané v syntaxi YAML pro specifikaci úlohy Sparku s tím rozdílem, že tuto vlastnost nedefinuje path . Tento fragment kódu ukazuje příklad vlastnosti komponenty outputs Spark:
```
outputs:
  wrangled_data:
    type: uri_folder
    mode: direct
```

Poznámka:

Komponenta identitycompute Sparku nedefinuje vlastnost nebo resources vlastnosti. Soubor specifikace YAML kanálu definuje tyto vlastnosti.

Tento soubor specifikace YAML poskytuje příklad komponenty Spark:

$schema: http://azureml/sdk-2-0/SparkComponent.json
name: titanic_spark_component
type: spark
version: 1
display_name: Titanic-Spark-Component
description: Spark component for Titanic data

code: ./src
entry:
  file: titanic.py

inputs:
  titanic_data:
    type: uri_file
    mode: direct

outputs:
  wrangled_data:
    type: uri_folder
    mode: direct

args: >-
  --titanic_data ${{inputs.titanic_data}}
  --wrangled_data ${{outputs.wrangled_data}}

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.dynamicAllocation.enabled: True
  spark.dynamicAllocation.minExecutors: 1
  spark.dynamicAllocation.maxExecutors: 4

Komponentu Spark definovanou ve výše uvedeném souboru specifikace YAML můžete použít v úloze kanálu Azure Machine Learning. Další informace o syntaxi YAML definující úlohu kanálu najdete v prostředku schématu YAML. Tento příklad ukazuje soubor specifikace YAML pro úlohu kanálu s komponentou Spark a výpočetním prostředím Spark bez serveru služby Azure Machine Learning:

$schema: http://azureml/sdk-2-0/PipelineJob.json
type: pipeline
display_name: Titanic-Spark-CLI-Pipeline
description: Spark component for Titanic data in Pipeline

jobs:
  spark_job:
    type: spark
    component: ./spark-job-component.yaml
    inputs:
      titanic_data: 
        type: uri_file
        path: azureml://datastores/workspaceblobstore/paths/data/titanic.csv
        mode: direct

    outputs:
      wrangled_data:
        type: uri_folder
        path: azureml://datastores/workspaceblobstore/paths/data/wrangled/
        mode: direct

    identity:
      type: managed

    resources:
      instance_type: standard_e8s_v3
      runtime_version: "3.4"

Poznámka:

Chcete-li použít připojený fond Synapse Spark, definujte compute vlastnost v ukázkovém souboru specifikace YAML uvedené výše místo resources vlastnosti.

K vytvoření úlohy kanálu můžete použít soubor specifikace YAML uvedený výše v az ml job create příkazu pomocí parametru --file , jak je znázorněno na následujícím obrázku:

az ml job create --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Výše uvedený příkaz můžete spustit z:

terminál výpočetní instance služby Azure Machine Learning.
terminál editoru Visual Studio Code připojený k výpočetní instanci služby Azure Machine Learning.
váš místní počítač s nainstalovaným rozhraním příkazového řádku služby Azure Machine Learning.

PLATÍ PRO: Python SDK azure-ai-ml v2 (aktuální)

Vytvoření kanálu Azure Machine Learning s komponentou Spark zahrnuje vytvoření kanálů Azure Machine Learning z komponent pomocí sady Python SDK. Komponenta Spark se vytvoří pomocí azure.ai.ml.spark funkce. Parametry funkce jsou definovány téměř stejně jako pro samostatnou úlohu Sparku. Tyto parametry jsou pro komponentu Spark definovány odlišně:

name – název komponenty Spark.
display_name – název komponenty Spark zobrazené v uživatelském rozhraní a jinde.
inputs – tento parametr se podobá parametru inputs popsanému pro samostatnou úlohu Sparku s tím rozdílem, že azure.ai.ml.Input třída je vytvořena instance bez parametru path .
outputs – tento parametr se podobá parametru outputs popsanému pro samostatnou úlohu Sparku s tím rozdílem, že azure.ai.ml.Output třída je vytvořena instance bez parametru path .

Poznámka:

Komponenta Spark vytvořená pomocí azure.ai.ml.spark funkce nedefinuje identity, compute ani resources parametry. Kanál Služby Azure Machine Learning definuje tyto parametry.

Úlohu kanálu s komponentou Sparku můžete odeslat z:

Poznámkový blok Azure Machine Learning připojený k výpočetní instanci služby Azure Machine Learning
Visual Studio Code připojený k výpočetní instanci služby Azure Machine Learning
váš místní počítač s nainstalovanou sadou Azure Machine Learning SDK pro Python .

Tento fragment kódu Pythonu ukazuje použití spravované identity společně s vytvořením úlohy kanálu Azure Machine Learning. Kromě toho ukazuje použití komponenty Sparku a výpočetních prostředků Synapse spravovaných službou Azure Machine Learning (Automatic):

from azure.ai.ml import MLClient, dsl, spark, Input, Output
from azure.identity import DefaultAzureCredential
from azure.ai.ml.entities import ManagedIdentityConfiguration
from azure.ai.ml.constants import InputOutputModes

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"
ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

spark_component = spark(
    name="Spark Component",
    inputs={
        "titanic_data": Input(type="uri_file", mode="direct"),
    },
    outputs={
        "wrangled_data": Output(type="uri_folder", mode="direct"),
    },
    # The source folder of the component
    code="./src",
    entry={"file": "titanic.py"},
    driver_cores=1,
    driver_memory="2g",
    executor_cores=2,
    executor_memory="2g",
    executor_instances=2,
    args="--titanic_data ${{inputs.titanic_data}} --wrangled_data ${{outputs.wrangled_data}}",
)


@dsl.pipeline(
    description="Sample Pipeline with Spark component",
)
def spark_pipeline(spark_input_data):
    spark_step = spark_component(titanic_data=spark_input_data)
    spark_step.inputs.titanic_data.mode = InputOutputModes.DIRECT
    spark_step.outputs.wrangled_data = Output(
        type="uri_folder",
        path="azureml://datastores/workspaceblobstore/paths/data/wrangled/",
    )
    spark_step.outputs.wrangled_data.mode = InputOutputModes.DIRECT
    spark_step.identity = ManagedIdentityConfiguration()
    spark_step.resources = {
        "instance_type": "Standard_E8S_V3",
        "runtime_version": "3.4.0",
    }

pipeline = spark_pipeline(
    spark_input_data=Input(
        type="uri_file",
        path="azureml://datastores/workspaceblobstore/paths/data/titanic.csv",
    )
)

pipeline_job = ml_client.jobs.create_or_update(
    pipeline,
    experiment_name="Titanic-Spark-Pipeline-SDK",
)

# Wait until the job completes
ml_client.jobs.stream(pipeline_job.name)

Poznámka:

Pokud chcete použít připojený fond Synapse Spark, definujte compute parametr ve azure.ai.ml.spark funkci místo parametru resources . Například v ukázce kódu uvedené výše definujte spark_step.compute = "<ATTACHED_SPARK_POOL_NAME>" místo definování spark_step.resources.

Řešení potíží s úlohami Sparku

Pokud chcete řešit potíže s úlohou Spark, můžete získat přístup k protokolům vygenerovaným pro danou úlohu v studio Azure Machine Learning. Zobrazení protokolů pro úlohu Sparku:

Přechod na Úlohy z levého panelu v uživatelském rozhraní studio Azure Machine Learning
Výběr karty Všechny úlohy
Vyberte hodnotu zobrazovaného názvu pro úlohu.
Na stránce podrobností úlohy vyberte kartu Výstup a protokoly .
V Průzkumníku souborů rozbalte složku protokolů a pak rozbalte složku azureml .
Přístup k protokolům úloh Sparku ve složkách správce ovladačů a knihoven

Poznámka:

Pokud chcete řešit potíže s úlohami Sparku vytvořenými během interaktivní transformace dat v relaci poznámkového bloku, vyberte Podrobnosti úlohy v pravém horním rohu uživatelského rozhraní poznámkového bloku. Úlohy Sparku z interaktivní relace poznámkového bloku se vytvoří v rámci spuštění poznámkového bloku s názvem experimentu.

Sdílet prostřednictvím

Odesílání úloh Sparku ve službě Azure Machine Learning

Požadavky

Připojení spravované identity přiřazené uživatelem pomocí rozhraní příkazového řádku v2

Připojení spravované identity přiřazené uživatelem pomocí `ARMClient`

Odeslání samostatné úlohy Sparku

Vlastnosti YAML ve specifikaci úlohy Spark

Samostatná úloha Sparku

Samostatná úloha Sparku s využitím sady Python SDK

Odeslání samostatné úlohy Sparku z uživatelského rozhraní studio Azure Machine Learning (Preview)

Komponenta Spark v úloze kanálu

Řešení potíží s úlohami Sparku

Další kroky

Váš názor

Další materiály

Sdílet prostřednictvím

Odesílání úloh Sparku ve službě Azure Machine Learning

Požadavky

Připojení spravované identity přiřazené uživatelem pomocí rozhraní příkazového řádku v2

Připojení spravované identity přiřazené uživatelem pomocí ARMClient

Odeslání samostatné úlohy Sparku

Vlastnosti YAML ve specifikaci úlohy Spark

Samostatná úloha Sparku

Komponenta Spark v úloze kanálu

Řešení potíží s úlohami Sparku

Další kroky

Váš názor

Další materiály

Připojení spravované identity přiřazené uživatelem pomocí `ARMClient`