Sdílet prostřednictvím


SynapseSparkStep Třída

Poznámka

Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.

Vytvoří krok Synapse v Azure ML, který odešle a spustí skript Pythonu.

Vytvořte krok kanálu Azure ML, který spustí úlohu Sparku ve fondu synapse Sparku.

Dědičnost
azureml.pipeline.core._synapse_spark_step_base._SynapseSparkStepBase
SynapseSparkStep

Konstruktor

SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)

Parametry

Name Description
file
Vyžadováno
str

Název synapse skriptu vzhledem k source_directory.

source_directory
Vyžadováno
str

Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku.

compute_target
Vyžadováno

Cílový výpočetní objekt, který se má použít.

driver_memory
Vyžadováno
str

Velikost paměti, která se má použít pro proces ovladače.

driver_cores
Vyžadováno
int

Počet jader, která se mají použít pro proces ovladače

executor_memory
Vyžadováno
str

Množství paměti, které se má použít na proces exekutoru.

executor_cores
Vyžadováno
int

Počet jader, která se mají použít pro jednotlivé exekutory

num_executors
Vyžadováno
int

Počet exekutorů, které se mají spustit pro tuto relaci.

name
Vyžadováno
str

Název kroku. Pokud není zadán, file použije se.

app_name
Vyžadováno
str

Název aplikace použitý k odeslání úlohy Sparku.

environment
Vyžadováno

Prostředí AML bude podporováno v pozdější verzi.

arguments
Vyžadováno

Argumenty příkazového řádku pro soubor skriptu Synapse

inputs
Vyžadováno

Seznam vstupů.

outputs
Vyžadováno

Seznam výstupů.

conf
Vyžadováno

Vlastnosti konfigurace Sparku.

py_files
Vyžadováno

Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní API livy.

files
Vyžadováno

Soubory, které se mají použít v této relaci, parametr rozhraní API livy.

allow_reuse
Vyžadováno

Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením.

version
Vyžadováno
str

Volitelná značka verze, která označuje změnu funkčnosti kroku.

file
Vyžadováno
str

Název skriptu Synapse vzhledem k source_directory.

source_directory
Vyžadováno
str

Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku.

compute_target
Vyžadováno

Cílový výpočetní objekt, který se má použít.

driver_memory
Vyžadováno
str

Velikost paměti, která se má použít pro proces ovladače.

driver_cores
Vyžadováno
int

Počet jader, která se mají použít pro proces ovladače

executor_memory
Vyžadováno
str

Množství paměti, které se má použít na proces exekutoru.

executor_cores
Vyžadováno
int

Počet jader, která se mají použít pro jednotlivé exekutory

num_executors
Vyžadováno
int

Počet exekutorů, které se mají spustit pro tuto relaci.

name
Vyžadováno
str

Název kroku. Pokud není zadán, file použije se.

app_name
Vyžadováno
str

Název aplikace použité k odeslání úlohy Apache Sparku

environment
Vyžadováno

Prostředí AML, které se bude využívat v tomto kroku SynapseSparkStep.

arguments
Vyžadováno

Argumenty příkazového řádku pro soubor skriptu Synapse

inputs
Vyžadováno

Seznam vstupů.

outputs
Vyžadováno

Seznam výstupů.

conf
Vyžadováno

Vlastnosti konfigurace Sparku.

py_files
Vyžadováno

Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní API livy.

jars
Vyžadováno

Soubory JAR, které se mají použít v této relaci, parametr rozhraní API livy.

files
Vyžadováno

Soubory, které se mají použít v této relaci, parametr rozhraní API livy.

allow_reuse
Vyžadováno

Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením.

version
Vyžadováno
str

Volitelná značka verze, která označuje změnu funkčnosti kroku.

Poznámky

SynapseSparkStep je základní integrovaný krok pro spuštění úlohy Python Sparku ve fondech synapse Spark. Přebírá název hlavního souboru a další volitelné parametry, jako jsou argumenty pro skript, cílový výpočetní objekt, vstupy a výstupy.

Osvědčeným postupem pro práci s nástrojem SynapseSparkStep je použít samostatnou složku pro skripty a všechny závislé soubory přidružené k kroku a zadat tuto složku pomocí parametru source_directory . Dodržování tohoto osvědčeného postupu má dvě výhody. Za prvé to pomůže zmenšit velikost snímku vytvořeného pro krok, protože snímek se vytvoří jenom to, co je pro krok potřeba. Za druhé je možné znovu použít výstup kroku z předchozího spuštění, pokud nedojde k source_directory žádným změnám, které by aktivovaly opětovné nahrání snímku.


   from azureml.core import Dataset
   from azureml.pipeline.steps import SynapseSparkStep
   from azureml.data import HDFSOutputDatasetConfig

   # get input dataset
   input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")

   # register pipeline output as dataset
   output_ds = HDFSOutputDatasetConfig("synapse_step_output",
                                       destination=(ws.datastores['datastore'],"dir")
                                       ).register_on_complete(name="registered_dataset")

   step_1 = SynapseSparkStep(
       name = "synapse_step",
       file = "pyspark_job.py",
       source_directory="./script",
       inputs=[input_ds],
       outputs=[output_ds],
       compute_target = "synapse",
       driver_memory = "7g",
       driver_cores = 4,
       executor_memory = "7g",
       executor_cores = 2,
       num_executors = 1,
       conf = {})

SynapseSparkStep podporuje pouze DatasetConsumptionConfig jako vstup a HDFSOutputDatasetConfig jako výstup.

Metody

create_node

Vytvořte uzel pro krok skriptu Synapse.

Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předává požadované parametry prostřednictvím této metody, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.

create_node

Vytvořte uzel pro krok skriptu Synapse.

Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předává požadované parametry prostřednictvím této metody, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.

create_node(graph, default_datastore, context)

Parametry

Name Description
graph
Vyžadováno

Objekt grafu, do který se má uzel přidat.

default_datastore
Vyžadováno

Výchozí úložiště dat.

context
Vyžadováno
<xref:azureml.pipeline.core._GraphContext>

Kontext grafu.

Návraty

Typ Description

Vytvořený uzel.