Udostępnij za pośrednictwem


AdlaStep Klasa

Tworzy krok potoku usługi Azure ML w celu uruchomienia skryptu U-SQL przy użyciu usługi Azure Data Lake Analytics.

Aby zapoznać się z przykładem użycia tej aplikacji AdlaStep, zobacz notes https://aka.ms/pl-adla.

Utwórz krok potoku usługi Azure ML, aby uruchomić skrypt U-SQL przy użyciu usługi Azure Data Lake Analytics.

Dziedziczenie
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Konstruktor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parametry

Nazwa Opis
script_name
Wymagane
str

[Wymagane] Nazwa skryptu U-SQL względem source_directory.

name
str

Nazwa kroku. Jeśli nie zostanie określona, script_name zostanie użyta.

Domyślna wartość: None
inputs

Lista powiązań portów wejściowych.

Domyślna wartość: None
outputs

Lista powiązań portów wyjściowych.

Domyślna wartość: None
params

Słownik par name-value.

Domyślna wartość: None
degree_of_parallelism
int

Stopień równoległości do użycia w tym zadaniu. Musi to być większe niż 0. W przypadku ustawienia wartości mniejszej niż 0 wartość domyślna to 1.

Domyślna wartość: None
priority
int

Wartość priorytetu do użycia dla bieżącego zadania. Niższe liczby mają wyższy priorytet. Domyślnie zadanie ma priorytet 1000. Określona wartość musi być większa niż 0.

Domyślna wartość: None
runtime_version
str

Wersja środowiska uruchomieniowego aparatu Data Lake Analytics.

Domyślna wartość: None
compute_target

[Wymagane] Środowisko obliczeniowe ADLA do użycia dla tego zadania.

Domyślna wartość: None
source_directory
str

Folder zawierający skrypt, zestawy itp.

Domyślna wartość: None
allow_reuse

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego przebiegu są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

Domyślna wartość: True
version
str

Opcjonalny tag wersji, aby oznaczyć zmianę funkcji dla kroku.

Domyślna wartość: None
hash_paths

PRZESTARZAŁE: nie są już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie zostaną wykryte żadne zmiany, potok użyje ponownie zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość pliku jest skrótem source_directory z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

Domyślna wartość: None
script_name
Wymagane
str

[Wymagane] Nazwa skryptu U-SQL względem source_directory.

name
Wymagane
str

Nazwa kroku. Jeśli nie zostanie określona, script_name zostanie użyta.

inputs
Wymagane

Lista powiązań portów wejściowych

outputs
Wymagane
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Lista powiązań portów wyjściowych.

params
Wymagane

Słownik par name-value.

degree_of_parallelism
Wymagane
int

Stopień równoległości do użycia w tym zadaniu. Musi to być większe niż 0. W przypadku ustawienia wartości mniejszej niż 0 wartość domyślna to 1.

priority
Wymagane
int

Wartość priorytetu do użycia dla bieżącego zadania. Niższe liczby mają wyższy priorytet. Domyślnie zadanie ma priorytet 1000. Określona wartość musi być większa niż 0.

runtime_version
Wymagane
str

Wersja środowiska uruchomieniowego aparatu Data Lake Analytics.

compute_target
Wymagane

[Wymagane] Środowisko obliczeniowe ADLA do użycia dla tego zadania.

source_directory
Wymagane
str

Folder zawierający skrypt, zestawy itp.

allow_reuse
Wymagane

Wskazuje, czy krok powinien ponownie używać poprzednich wyników po ponownym uruchomieniu z tymi samymi ustawieniami. Ponowne użycie jest domyślnie włączone. Jeśli zawartość kroku (skrypty/zależności) oraz dane wejściowe i parametry pozostają niezmienione, dane wyjściowe z poprzedniego uruchomienia tego kroku są ponownie używane. Podczas ponownego wykonywania kroku zamiast przesyłania zadania do obliczeń wyniki z poprzedniego przebiegu są natychmiast udostępniane wszystkim kolejnym krokom. Jeśli używasz zestawów danych usługi Azure Machine Learning jako danych wejściowych, ponowne użycie zależy od tego, czy definicja zestawu danych uległa zmianie, a nie przez to, czy dane bazowe uległy zmianie.

version
Wymagane
str

Opcjonalny tag wersji, aby oznaczyć zmianę funkcjonalności kroku.

hash_paths
Wymagane

PRZESTARZAŁE: nie są już potrzebne.

Lista ścieżek do skrótu podczas sprawdzania zmian w zawartości kroku. Jeśli nie zostaną wykryte żadne zmiany, potok użyje ponownie zawartości kroku z poprzedniego uruchomienia. Domyślnie zawartość pliku jest skrótem source_directory z wyjątkiem plików wymienionych w pliku .amlignore lub .gitignore.

Uwagi

Składnię @@name@@ można użyć w skryscie, aby odwoływać się do danych wejściowych, danych wyjściowych i parametrów.

  • Jeśli nazwa jest nazwą powiązania portu wejściowego lub wyjściowego, wszelkie wystąpienia @@name@@ w skry skrycie są zastępowane rzeczywistą ścieżką danych odpowiedniego powiązania portu.

  • Jeśli nazwa pasuje do dowolnego klucza w dict parametrów , wszelkie wystąpienia @@name@@ zostaną zastąpione odpowiednią wartością w dykcie.

Aplikacja AdlaStep działa tylko z danymi przechowywanymi w domyślnej Data Lake Storage konta Data Lake Analytics. Jeśli dane są w magazynie nie domyślnym, użyj elementu , DataTransferStep aby skopiować dane do domyślnego magazynu. Domyślny magazyn można znaleźć, otwierając konto Data Lake Analytics w Azure Portal, a następnie przechodząc do elementu "Źródła danych" w obszarze Ustawienia w okienku po lewej stronie.

W poniższym przykładzie pokazano, jak używać usługi AdlaStep w potoku usługi Azure Machine Learning.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Pełna próbka jest dostępna w witrynie https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb

Metody

create_node

Utwórz węzeł na podstawie kroku AdlaStep i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do bezpośredniego użycia. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje wymagane parametry za pośrednictwem tej metody, aby można było dodać krok do grafu potoku reprezentującego przepływ pracy.

create_node

Utwórz węzeł na podstawie kroku AdlaStep i dodaj go do określonego grafu.

Ta metoda nie jest przeznaczona do bezpośredniego użycia. Po utworzeniu wystąpienia potoku w tym kroku usługa Azure ML automatycznie przekazuje wymagane parametry za pośrednictwem tej metody, aby można było dodać krok do grafu potoku reprezentującego przepływ pracy.

create_node(graph, default_datastore, context)

Parametry

Nazwa Opis
graph
Wymagane

Obiekt grafu.

default_datastore
Wymagane

Domyślny magazyn danych.

context
Wymagane
<xref:azureml.pipeline.core._GraphContext>

Kontekst grafu.

Zwraca

Typ Opis

Obiekt węzła.