Freigeben über


AdlaStep Klasse

Erstellt einen Azure ML-Pipelineschritt zum Ausführen eines U-SQL-Skripts mit Azure Data Lake Analytics.

Ein Beispiel für die Verwendung von AutoMLStep finden Sie im Notebook https://aka.ms/pl-adla.

Erstellen Sie einen Azure ML Pipeline-Schritt, um ein U-SQL-Skript mit Azure Data Lake Analytics auszuführen.

Vererbung
azureml.pipeline.core._adla_step_base._AdlaStepBase
AdlaStep

Konstruktor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parameter

Name Beschreibung
script_name
Erforderlich
str

[Erforderlich] Der Name eines U-SQL-Skripts relativ zu source_directory.

name
str

Der Name des Schritts. Wenn keine Angabe erfolgt, wird script_name verwendet.

Standardwert: None
inputs

Eine Liste mit Eingabeportbindungen.

Standardwert: None
outputs

Eine Liste mit Ausgabeportbindungen.

Standardwert: None
params

Ein Wörterbuch mit Name-Wert-Paaren.

Standardwert: None
degree_of_parallelism
int

Der für diesen Auftrag zu verwendende Grad an Parallelität. Dieser Wert muss größer als 0 sein. Wenn der Standardwert kleiner als 0 ist, wird standardmäßig 1 verwendet.

Standardwert: None
priority
int

Der für den aktuellen Auftrag zu verwendenden Prioritätswert. Niedrigere Zahlen haben eine höhere Priorität. Standardmäßig hat ein Auftrag die Priorität 1.000. Der von Ihnen angegebene Wert muss größer als 0 sein.

Standardwert: None
runtime_version
str

Die Runtimeversion der Data Lake Analytics-Engine.

Standardwert: None
compute_target

[Erforderlich] Die ADLA-Compute-Instanz für diesen Auftrag.

Standardwert: None
source_directory
str

Ein Ordner, der das Skript, Assemblys usw. enthält.

Standardwert: None
allow_reuse

Gibt an, ob bei dem Schritt vorherige Ergebnisse wiederverwendet werden sollen, wenn er mit den gleichen Einstellungen erneut ausgeführt wird. Die Wiederverwendung ist standardmäßig aktiviert. Wenn der Schrittinhalt (Skripts/Abhängigkeiten) sowie die Eingaben und Parameter unverändert bleiben, wird die Ausgabe der vorherigen Ausführung dieses Schritts wiederverwendet. Wenn Sie den Schritt wiederverwenden, anstatt den Auftrag zum Berechnen zu übermitteln, werden die Ergebnisse der vorherigen Ausführung sofort für alle nachfolgenden Schritte verfügbar gemacht. Wenn Sie Azure Machine Learning-Datasets als Eingaben verwenden, hängt die Wiederverwendung nicht davon ab, ob sich die zugrunde liegenden Daten geändert haben, sondern davon, ob sich die Definition des Datasets geändert hat.

Standardwert: True
version
str

Optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen.

Standardwert: None
hash_paths

VERALTET: nicht mehr erforderlich.

Eine Liste der Pfade, die bei der Überprüfung auf Änderungen am Schrittinhalt gehasht werden sollen. Wenn keine Änderungen erkannt werden, verwendet die Pipeline den Schrittinhalt einer vorherigen Ausführung erneut. Für Inhalte von source_directory werden standardmäßig Hashwerte erstellt, mit Ausnahme der in „.amlignore“ und „.gitignore“ aufgeführten Dateien.

Standardwert: None
script_name
Erforderlich
str

[Erforderlich] Der Name eines U-SQL-Skripts relativ zu source_directory.

name
Erforderlich
str

Der Name des Schritts. Wenn keine Angabe erfolgt, wird script_name verwendet.

inputs
Erforderlich

Liste der Eingabeportbindungen

outputs
Erforderlich
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]

Eine Liste mit Ausgabeportbindungen.

params
Erforderlich

Ein Wörterbuch mit Name-Wert-Paaren.

degree_of_parallelism
Erforderlich
int

Der für diesen Auftrag zu verwendende Grad an Parallelität. Dieser Wert muss größer als 0 sein. Wenn der Standardwert kleiner als 0 ist, wird standardmäßig 1 verwendet.

priority
Erforderlich
int

Der für den aktuellen Auftrag zu verwendenden Prioritätswert. Niedrigere Zahlen haben eine höhere Priorität. Standardmäßig hat ein Auftrag die Priorität 1.000. Der von Ihnen angegebene Wert muss größer als 0 sein.

runtime_version
Erforderlich
str

Die Runtimeversion der Data Lake Analytics-Engine.

compute_target
Erforderlich

[Erforderlich] Die ADLA-Compute-Instanz für diesen Auftrag.

source_directory
Erforderlich
str

Ein Ordner, der das Skript, Assemblys usw. enthält.

allow_reuse
Erforderlich

Gibt an, ob bei dem Schritt vorherige Ergebnisse wiederverwendet werden sollen, wenn er mit den gleichen Einstellungen erneut ausgeführt wird. Die Wiederverwendung ist standardmäßig aktiviert. Wenn der Schrittinhalt (Skripts/Abhängigkeiten) sowie die Eingaben und Parameter unverändert bleiben, wird die Ausgabe der vorherigen Ausführung dieses Schritts wiederverwendet. Wenn Sie den Schritt wiederverwenden, anstatt den Auftrag zum Berechnen zu übermitteln, werden die Ergebnisse der vorherigen Ausführung sofort für alle nachfolgenden Schritte verfügbar gemacht. Wenn Sie Azure Machine Learning-Datasets als Eingaben verwenden, hängt die Wiederverwendung nicht davon ab, ob sich die zugrunde liegenden Daten geändert haben, sondern davon, ob sich die Definition des Datasets geändert hat.

version
Erforderlich
str

Ein optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen.

hash_paths
Erforderlich

VERALTET: nicht mehr erforderlich.

Eine Liste der Pfade, die bei der Überprüfung auf Änderungen am Schrittinhalt gehasht werden sollen. Wenn keine Änderungen erkannt werden, verwendet die Pipeline den Schrittinhalt einer vorherigen Ausführung erneut. Für Inhalte von source_directory werden standardmäßig Hashwerte erstellt, mit Ausnahme der in „.amlignore“ und „.gitignore“ aufgeführten Dateien.

Hinweise

Sie können die Syntax @@name@@ in Ihrem Skript verwenden, um auf Eingaben, Ausgaben und Parameter zu verweisen.

  • Wenn name der Name einer Eingabe- oder Ausgabeportbindung ist, werden alle Vorkommen von @@name@@ im Skript durch den tatsächlichen Datenpfad einer entsprechenden Portbindung ersetzt.

  • Wenn name mit einem Schlüssel im Wörterbuch params übereinstimmt, werden alle Vorkommen von @@name@@ durch den entsprechenden Wert im Wörterbuch ersetzt.

AdlaStep funktioniert nur mit Daten, die im Standard-Data Lake Storage des Data Lake Analytics-Kontos gespeichert sind. Wenn sich die Daten nicht im Standardspeicher befinden, kopieren Sie die Daten mit einem DataTransferStep dorthin. Sie finden den Standardspeicher, indem Sie Ihr Data Lake Analytics-Konto im Azure-Portal öffnen und dann im linken Bereich unter Einstellungen zum Element „Datenquellen“ navigieren.

Das folgende Beispiel zeigt die Verwendung von AdlaStep in einer Azure Machine Learning-Pipeline.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Das vollständige Beispiel finden Sie unter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb.

Methoden

create_node

Erstellen Sie einen Knoten aus dem AdlaStep-Schritt, und fügen Sie ihn dem angegebenen Graphen hinzu.

Diese Methode ist nicht für die direkte Nutzung vorgesehen. Wenn eine Pipeline mit diesem Schritt instanziiert wird, werden von Azure ML automatisch die für diese Methode erforderlichen Parameter übergeben, damit der Schritt einem Pipelinegraphen hinzugefügt werden kann, der den Workflow darstellt.

create_node

Erstellen Sie einen Knoten aus dem AdlaStep-Schritt, und fügen Sie ihn dem angegebenen Graphen hinzu.

Diese Methode ist nicht für die direkte Nutzung vorgesehen. Wenn eine Pipeline mit diesem Schritt instanziiert wird, werden von Azure ML automatisch die für diese Methode erforderlichen Parameter übergeben, damit der Schritt einem Pipelinegraphen hinzugefügt werden kann, der den Workflow darstellt.

create_node(graph, default_datastore, context)

Parameter

Name Beschreibung
graph
Erforderlich

Das Graphobjekt.

default_datastore
Erforderlich

Der Standarddatenspeicher.

context
Erforderlich
<xref:azureml.pipeline.core._GraphContext>

Der Graphkontext.

Gibt zurück

Typ Beschreibung

Das Knotenobjekt.