SynapseSparkStep Třída
Poznámka
Toto je experimentální třída, která se může kdykoli změnit. Další informace najdete tady: https://aka.ms/azuremlexperimental.
Vytvoří krok Synapse v Azure ML, který odešle a spustí skript Pythonu.
Vytvořte krok kanálu Azure ML, který spustí úlohu Sparku ve fondu synapse Sparku.
- Dědičnost
-
azureml.pipeline.core._synapse_spark_step_base._SynapseSparkStepBaseSynapseSparkStep
Konstruktor
SynapseSparkStep(file, source_directory, compute_target, driver_memory, driver_cores, executor_memory, executor_cores, num_executors, name=None, app_name=None, environment=None, arguments=None, inputs=None, outputs=None, conf=None, py_files=None, jars=None, files=None, allow_reuse=True, version=None)
Parametry
Name | Description |
---|---|
file
Vyžadováno
|
Název synapse skriptu vzhledem k source_directory. |
source_directory
Vyžadováno
|
Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku. |
compute_target
Vyžadováno
|
SynapseCompute nebo
str
Cílový výpočetní objekt, který se má použít. |
driver_memory
Vyžadováno
|
Velikost paměti, která se má použít pro proces ovladače. |
driver_cores
Vyžadováno
|
Počet jader, která se mají použít pro proces ovladače |
executor_memory
Vyžadováno
|
Množství paměti, které se má použít na proces exekutoru. |
executor_cores
Vyžadováno
|
Počet jader, která se mají použít pro jednotlivé exekutory |
num_executors
Vyžadováno
|
Počet exekutorů, které se mají spustit pro tuto relaci. |
name
Vyžadováno
|
Název kroku. Pokud není zadán, |
app_name
Vyžadováno
|
Název aplikace použitý k odeslání úlohy Sparku. |
environment
Vyžadováno
|
Prostředí AML bude podporováno v pozdější verzi. |
arguments
Vyžadováno
|
Argumenty příkazového řádku pro soubor skriptu Synapse |
inputs
Vyžadováno
|
Seznam vstupů. |
outputs
Vyžadováno
|
Seznam výstupů. |
conf
Vyžadováno
|
Vlastnosti konfigurace Sparku. |
py_files
Vyžadováno
|
Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní API livy. |
files
Vyžadováno
|
Soubory, které se mají použít v této relaci, parametr rozhraní API livy. |
allow_reuse
Vyžadováno
|
Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením. |
version
Vyžadováno
|
Volitelná značka verze, která označuje změnu funkčnosti kroku. |
file
Vyžadováno
|
Název skriptu Synapse vzhledem k |
source_directory
Vyžadováno
|
Složka, která obsahuje skript Pythonu, env conda a další prostředky použité v kroku. |
compute_target
Vyžadováno
|
SynapseCompute nebo
str
Cílový výpočetní objekt, který se má použít. |
driver_memory
Vyžadováno
|
Velikost paměti, která se má použít pro proces ovladače. |
driver_cores
Vyžadováno
|
Počet jader, která se mají použít pro proces ovladače |
executor_memory
Vyžadováno
|
Množství paměti, které se má použít na proces exekutoru. |
executor_cores
Vyžadováno
|
Počet jader, která se mají použít pro jednotlivé exekutory |
num_executors
Vyžadováno
|
Počet exekutorů, které se mají spustit pro tuto relaci. |
name
Vyžadováno
|
Název kroku. Pokud není zadán, |
app_name
Vyžadováno
|
Název aplikace použité k odeslání úlohy Apache Sparku |
environment
Vyžadováno
|
Prostředí AML, které se bude využívat v tomto kroku SynapseSparkStep. |
arguments
Vyžadováno
|
Argumenty příkazového řádku pro soubor skriptu Synapse |
inputs
Vyžadováno
|
Seznam vstupů. |
outputs
Vyžadováno
|
Seznam výstupů. |
conf
Vyžadováno
|
Vlastnosti konfigurace Sparku. |
py_files
Vyžadováno
|
Soubory Pythonu, které se mají použít v této relaci, parametr rozhraní API livy. |
jars
Vyžadováno
|
Soubory JAR, které se mají použít v této relaci, parametr rozhraní API livy. |
files
Vyžadováno
|
Soubory, které se mají použít v této relaci, parametr rozhraní API livy. |
allow_reuse
Vyžadováno
|
Označuje, jestli má krok znovu použít předchozí výsledky při opětovném spuštění se stejným nastavením. |
version
Vyžadováno
|
Volitelná značka verze, která označuje změnu funkčnosti kroku. |
Poznámky
SynapseSparkStep je základní integrovaný krok pro spuštění úlohy Python Sparku ve fondech synapse Spark. Přebírá název hlavního souboru a další volitelné parametry, jako jsou argumenty pro skript, cílový výpočetní objekt, vstupy a výstupy.
Osvědčeným postupem pro práci s nástrojem SynapseSparkStep je použít samostatnou složku pro skripty a všechny závislé soubory přidružené k kroku a zadat tuto složku pomocí parametru source_directory
.
Dodržování tohoto osvědčeného postupu má dvě výhody. Za prvé to pomůže zmenšit velikost snímku vytvořeného pro krok, protože snímek se vytvoří jenom to, co je pro krok potřeba. Za druhé je možné znovu použít výstup kroku z předchozího spuštění, pokud nedojde k source_directory
žádným změnám, které by aktivovaly opětovné nahrání snímku.
from azureml.core import Dataset
from azureml.pipeline.steps import SynapseSparkStep
from azureml.data import HDFSOutputDatasetConfig
# get input dataset
input_ds = Dataset.get_by_name(workspace, "weather_ds").as_named_input("weather_ds")
# register pipeline output as dataset
output_ds = HDFSOutputDatasetConfig("synapse_step_output",
destination=(ws.datastores['datastore'],"dir")
).register_on_complete(name="registered_dataset")
step_1 = SynapseSparkStep(
name = "synapse_step",
file = "pyspark_job.py",
source_directory="./script",
inputs=[input_ds],
outputs=[output_ds],
compute_target = "synapse",
driver_memory = "7g",
driver_cores = 4,
executor_memory = "7g",
executor_cores = 2,
num_executors = 1,
conf = {})
SynapseSparkStep podporuje pouze DatasetConsumptionConfig jako vstup a HDFSOutputDatasetConfig jako výstup.
Metody
create_node |
Vytvořte uzel pro krok skriptu Synapse. Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předává požadované parametry prostřednictvím této metody, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup. |
create_node
Vytvořte uzel pro krok skriptu Synapse.
Tato metoda není určena k přímému použití. Když se vytvoří instance kanálu pomocí tohoto kroku, Azure ML automaticky předává požadované parametry prostřednictvím této metody, aby se tento krok mohl přidat do grafu kanálu, který představuje pracovní postup.
create_node(graph, default_datastore, context)
Parametry
Name | Description |
---|---|
graph
Vyžadováno
|
Objekt grafu, do který se má uzel přidat. |
default_datastore
Vyžadováno
|
Výchozí úložiště dat. |
context
Vyžadováno
|
<xref:azureml.pipeline.core._GraphContext>
Kontext grafu. |
Návraty
Typ | Description |
---|---|
Vytvořený uzel. |