Udostępnij za pośrednictwem


AdlaStep Klasa

Tworzy krok potoku usługi Azure ML w celu uruchomienia skryptu U-SQL przy użyciu usługi Azure Data Lake Analytics.

Aby zapoznać się z przykładem użycia tego elementu AdlaStep, zobacz notes https://aka.ms/pl-adla.

Utwórz krok potoku usługi Azure ML, aby uruchomić skrypt U-SQL przy użyciu usługi Azure Data Lake Analytics.

Dziedziczenie
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Konstruktor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parametry

Nazwa Opis
script_name
Wymagane
str

[Wymagane] Nazwa skryptu U-SQL względem source_directory.

name
str

Nazwa kroku. Jeśli nie zostanie określona, script_name zostanie użyta.

Domyślna wartość: None
inputs

Lista powiązań portów wejściowych.

Domyślna wartość: None
outputs

Lista powiązań portów wyjściowych.

Domyślna wartość: None
params

Słownik par name-value.

Domyślna wartość: None
degree_of_parallelism
int

Stopień równoległości do użycia dla tego zadania. Musi to być większe niż 0. Jeśli ustawiono wartość mniejszą niż 0, wartość domyślna to 1.

Domyślna wartość: None
priority
int

Wartość priorytetu do użycia dla bieżącego zadania. Mniejsze liczby mają wyższy priorytet. Domyślnie zadanie ma priorytet 1000. Określona wartość musi być większa niż 0.

Domyślna wartość: None
runtime_version
str

Wersja środowiska uruchomieniowego aparatu Data Lake Analytics.

Domyślna wartość: None
compute_target

[Wymagane] Obliczenia usługi ADLA do użycia dla tego zadania.

Domyślna wartość: None
source_directory
str

Folder zawierający skrypt, zestawy itp.

Domyślna wartość: None
allow_reuse

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego uruchomienia są natychmiast udostępniane wszelkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

Domyślna wartość: True
version
str

Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.

Domyślna wartość: None
hash_paths

PRZESTARZAŁE: nie jest już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie wykryto żadnych zmian, potok ponownie użyje zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość elementu source_directory jest skrótem z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

Domyślna wartość: None
script_name
Wymagane
str

[Wymagane] Nazwa skryptu U-SQL względem source_directory.

name
Wymagane
str

Nazwa kroku. Jeśli nie zostanie określona, script_name zostanie użyta.

inputs
Wymagane

Lista powiązań portów wejściowych

outputs
Wymagane
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Lista powiązań portów wyjściowych.

params
Wymagane

Słownik par name-value.

degree_of_parallelism
Wymagane
int

Stopień równoległości do użycia dla tego zadania. Musi to być większe niż 0. Jeśli ustawiono wartość mniejszą niż 0, wartość domyślna to 1.

priority
Wymagane
int

Wartość priorytetu do użycia dla bieżącego zadania. Mniejsze liczby mają wyższy priorytet. Domyślnie zadanie ma priorytet 1000. Określona wartość musi być większa niż 0.

runtime_version
Wymagane
str

Wersja środowiska uruchomieniowego aparatu Data Lake Analytics.

compute_target
Wymagane

[Wymagane] Obliczenia usługi ADLA do użycia dla tego zadania.

source_directory
Wymagane
str

Folder zawierający skrypt, zestawy itp.

allow_reuse
Wymagane

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego uruchomienia są natychmiast udostępniane wszelkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

version
Wymagane
str

Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.

hash_paths
Wymagane

PRZESTARZAŁE: nie jest już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie wykryto żadnych zmian, potok ponownie użyje zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość elementu source_directory jest skrótem z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

Uwagi

Składnia @@name@@ skryptu służy do odwoływania się do danych wejściowych, wyjściowych i parametrów.

  • jeśli nazwa jest nazwą powiązania portu wejściowego lub wyjściowego, wszelkie wystąpienia @@name@@ w skrycie są zastępowane rzeczywistą ścieżką danych odpowiedniego powiązania portu.

  • jeśli nazwa pasuje do dowolnego klucza w dyktach params , wszystkie wystąpienia @@name@@ zostaną zastąpione odpowiednią wartością w dykcie.

Aplikacja AdlaStep współpracuje tylko z danymi przechowywanymi w domyślnym Data Lake Storage konta Data Lake Analytics. Jeśli dane są w magazynie nie domyślnym, użyj elementu , DataTransferStep aby skopiować dane do domyślnego magazynu. Domyślny magazyn można znaleźć, otwierając konto Data Lake Analytics w Azure Portal, a następnie przechodząc do elementu "Źródła danych" w obszarze Ustawienia w okienku po lewej stronie.

W poniższym przykładzie pokazano, jak używać usługi AdlaStep w potoku usługi Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Pełna próbka jest dostępna z witryny https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Metody

create_node

Utwórz węzeł z kroku AdlaStep i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do użycia bezpośrednio. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pomocą tej metody, aby można było dodać krok do wykresu potoku reprezentującego przepływ pracy.

create_node

Utwórz węzeł z kroku AdlaStep i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do użycia bezpośrednio. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje parametry wymagane za pomocą tej metody, aby można było dodać krok do wykresu potoku reprezentującego przepływ pracy.

create_node(graph, default_datastore, context)

Parametry

Nazwa Opis
graph
Wymagane

Obiekt grafu.

default_datastore
Wymagane

Domyślny magazyn danych.

context
Wymagane
<xref:azureml.pipeline.core._GraphContext>

Kontekst grafu.

Zwraca

Typ Opis

Obiekt węzła.