AdlaStep Klasse

Referenz

Erstellt einen Azure ML-Pipelineschritt zum Ausführen eines U-SQL-Skripts mit Azure Data Lake Analytics.

Ein Beispiel für die Verwendung von AutoMLStep finden Sie im Notebook https://aka.ms/pl-adla.

Erstellen Sie einen Azure ML Pipeline-Schritt, um ein U-SQL-Skript mit Azure Data Lake Analytics auszuführen.

Vererbung: azureml.pipeline.core._adla_step_base._AdlaStepBase

AdlaStep

Konstruktor

AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)

Parameter

Name	Beschreibung
script_name Erforderlich	str [Erforderlich] Der Name eines U-SQL-Skripts relativ zu `source_directory`.
name	str Der Name des Schritts. Wenn keine Angabe erfolgt, wird `script_name` verwendet. Standardwert: None
inputs	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Eine Liste mit Eingabeportbindungen. Standardwert: None
outputs	list[Union[PipelineData, PipelineOutputAbstractDataset, OutputPortBinding]] Eine Liste mit Ausgabeportbindungen. Standardwert: None
params	dict Ein Wörterbuch mit Name-Wert-Paaren. Standardwert: None
degree_of_parallelism	int Der für diesen Auftrag zu verwendende Grad an Parallelität. Dieser Wert muss größer als 0 sein. Wenn der Standardwert kleiner als 0 ist, wird standardmäßig 1 verwendet. Standardwert: None
priority	int Der für den aktuellen Auftrag zu verwendenden Prioritätswert. Niedrigere Zahlen haben eine höhere Priorität. Standardmäßig hat ein Auftrag die Priorität 1.000. Der von Ihnen angegebene Wert muss größer als 0 sein. Standardwert: None
runtime_version	str Die Runtimeversion der Data Lake Analytics-Engine. Standardwert: None
compute_target	AdlaCompute, str [Erforderlich] Die ADLA-Compute-Instanz für diesen Auftrag. Standardwert: None
source_directory	str Ein Ordner, der das Skript, Assemblys usw. enthält. Standardwert: None
allow_reuse	bool Gibt an, ob bei dem Schritt vorherige Ergebnisse wiederverwendet werden sollen, wenn er mit den gleichen Einstellungen erneut ausgeführt wird. Die Wiederverwendung ist standardmäßig aktiviert. Wenn der Schrittinhalt (Skripts/Abhängigkeiten) sowie die Eingaben und Parameter unverändert bleiben, wird die Ausgabe der vorherigen Ausführung dieses Schritts wiederverwendet. Wenn Sie den Schritt wiederverwenden, anstatt den Auftrag zum Berechnen zu übermitteln, werden die Ergebnisse der vorherigen Ausführung sofort für alle nachfolgenden Schritte verfügbar gemacht. Wenn Sie Azure Machine Learning-Datasets als Eingaben verwenden, hängt die Wiederverwendung nicht davon ab, ob sich die zugrunde liegenden Daten geändert haben, sondern davon, ob sich die Definition des Datasets geändert hat. Standardwert: True
version	str Optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen. Standardwert: None
hash_paths	list VERALTET: nicht mehr erforderlich. Eine Liste der Pfade, die bei der Überprüfung auf Änderungen am Schrittinhalt gehasht werden sollen. Wenn keine Änderungen erkannt werden, verwendet die Pipeline den Schrittinhalt einer vorherigen Ausführung erneut. Für Inhalte von `source_directory` werden standardmäßig Hashwerte erstellt, mit Ausnahme der in „.amlignore“ und „.gitignore“ aufgeführten Dateien. Standardwert: None
script_name Erforderlich	str [Erforderlich] Der Name eines U-SQL-Skripts relativ zu `source_directory`.
name Erforderlich	str Der Name des Schritts. Wenn keine Angabe erfolgt, wird `script_name` verwendet.
inputs Erforderlich	list[Union[InputPortBinding, DataReference, PortDataReference, PipelineData]] Liste der Eingabeportbindungen
outputs Erforderlich	list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]] Eine Liste mit Ausgabeportbindungen.
params Erforderlich	dict Ein Wörterbuch mit Name-Wert-Paaren.
degree_of_parallelism Erforderlich	int Der für diesen Auftrag zu verwendende Grad an Parallelität. Dieser Wert muss größer als 0 sein. Wenn der Standardwert kleiner als 0 ist, wird standardmäßig 1 verwendet.
priority Erforderlich	int Der für den aktuellen Auftrag zu verwendenden Prioritätswert. Niedrigere Zahlen haben eine höhere Priorität. Standardmäßig hat ein Auftrag die Priorität 1.000. Der von Ihnen angegebene Wert muss größer als 0 sein.
runtime_version Erforderlich	str Die Runtimeversion der Data Lake Analytics-Engine.
compute_target Erforderlich	AdlaCompute, str [Erforderlich] Die ADLA-Compute-Instanz für diesen Auftrag.
source_directory Erforderlich	str Ein Ordner, der das Skript, Assemblys usw. enthält.
allow_reuse Erforderlich	bool Gibt an, ob bei dem Schritt vorherige Ergebnisse wiederverwendet werden sollen, wenn er mit den gleichen Einstellungen erneut ausgeführt wird. Die Wiederverwendung ist standardmäßig aktiviert. Wenn der Schrittinhalt (Skripts/Abhängigkeiten) sowie die Eingaben und Parameter unverändert bleiben, wird die Ausgabe der vorherigen Ausführung dieses Schritts wiederverwendet. Wenn Sie den Schritt wiederverwenden, anstatt den Auftrag zum Berechnen zu übermitteln, werden die Ergebnisse der vorherigen Ausführung sofort für alle nachfolgenden Schritte verfügbar gemacht. Wenn Sie Azure Machine Learning-Datasets als Eingaben verwenden, hängt die Wiederverwendung nicht davon ab, ob sich die zugrunde liegenden Daten geändert haben, sondern davon, ob sich die Definition des Datasets geändert hat.
version Erforderlich	str Ein optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen.
hash_paths Erforderlich	list VERALTET: nicht mehr erforderlich. Eine Liste der Pfade, die bei der Überprüfung auf Änderungen am Schrittinhalt gehasht werden sollen. Wenn keine Änderungen erkannt werden, verwendet die Pipeline den Schrittinhalt einer vorherigen Ausführung erneut. Für Inhalte von `source_directory` werden standardmäßig Hashwerte erstellt, mit Ausnahme der in „.amlignore“ und „.gitignore“ aufgeführten Dateien.

Hinweise

Sie können die Syntax @@name@@ in Ihrem Skript verwenden, um auf Eingaben, Ausgaben und Parameter zu verweisen.

Wenn name der Name einer Eingabe- oder Ausgabeportbindung ist, werden alle Vorkommen von @@name@@ im Skript durch den tatsächlichen Datenpfad einer entsprechenden Portbindung ersetzt.
Wenn name mit einem Schlüssel im Wörterbuch params übereinstimmt, werden alle Vorkommen von @@name@@ durch den entsprechenden Wert im Wörterbuch ersetzt.

AdlaStep funktioniert nur mit Daten, die im Standard-Data Lake Storage des Data Lake Analytics-Kontos gespeichert sind. Wenn sich die Daten nicht im Standardspeicher befinden, kopieren Sie die Daten mit einem DataTransferStep dorthin. Sie finden den Standardspeicher, indem Sie Ihr Data Lake Analytics-Konto im Azure-Portal öffnen und dann im linken Bereich unter Einstellungen zum Element „Datenquellen“ navigieren.

Das folgende Beispiel zeigt die Verwendung von AdlaStep in einer Azure Machine Learning-Pipeline.


   adla_step = AdlaStep(
       name='extract_employee_names',
       script_name='sample_script.usql',
       source_directory=sample_folder,
       inputs=[sample_input],
       outputs=[sample_output],
       compute_target=adla_compute)

Das vollständige Beispiel finden Sie unter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb.

Methoden

create_node

Erstellen Sie einen Knoten aus dem AdlaStep-Schritt, und fügen Sie ihn dem angegebenen Graphen hinzu.

Diese Methode ist nicht für die direkte Nutzung vorgesehen. Wenn eine Pipeline mit diesem Schritt instanziiert wird, werden von Azure ML automatisch die für diese Methode erforderlichen Parameter übergeben, damit der Schritt einem Pipelinegraphen hinzugefügt werden kann, der den Workflow darstellt.

create_node

Erstellen Sie einen Knoten aus dem AdlaStep-Schritt, und fügen Sie ihn dem angegebenen Graphen hinzu.

create_node(graph, default_datastore, context)

Parameter

Name	Beschreibung
graph Erforderlich	Graph Das Graphobjekt.
default_datastore Erforderlich	Union[AbstractAzureStorageDatastore, AzureDataLakeDatastore] Der Standarddatenspeicher.
context Erforderlich	<xref:azureml.pipeline.core._GraphContext> Der Graphkontext.

Gibt zurück

Typ	Beschreibung
Node	Das Knotenobjekt.

Freigeben über

AdlaStep Klasse

Konstruktor

Parameter

Hinweise

Methoden

create_node

Parameter

Gibt zurück

Feedback

Zusätzliche Ressourcen