AdlaStep Klasse
Erstellt einen Azure ML-Pipelineschritt zum Ausführen eines U-SQL-Skripts mit Azure Data Lake Analytics.
Ein Beispiel für die Verwendung von AutoMLStep finden Sie im Notebook https://aka.ms/pl-adla.
Erstellen Sie einen Azure ML Pipeline-Schritt, um ein U-SQL-Skript mit Azure Data Lake Analytics auszuführen.
- Vererbung
-
azureml.pipeline.core._adla_step_base._AdlaStepBaseAdlaStep
Konstruktor
AdlaStep(script_name, name=None, inputs=None, outputs=None, params=None, degree_of_parallelism=None, priority=None, runtime_version=None, compute_target=None, source_directory=None, allow_reuse=True, version=None, hash_paths=None)
Parameter
Name | Beschreibung |
---|---|
script_name
Erforderlich
|
[Erforderlich] Der Name eines U-SQL-Skripts relativ zu |
name
|
Der Name des Schritts. Wenn keine Angabe erfolgt, wird Standardwert: None
|
inputs
|
Eine Liste mit Eingabeportbindungen. Standardwert: None
|
outputs
|
Eine Liste mit Ausgabeportbindungen. Standardwert: None
|
params
|
Ein Wörterbuch mit Name-Wert-Paaren. Standardwert: None
|
degree_of_parallelism
|
Der für diesen Auftrag zu verwendende Grad an Parallelität. Dieser Wert muss größer als 0 sein. Wenn der Standardwert kleiner als 0 ist, wird standardmäßig 1 verwendet. Standardwert: None
|
priority
|
Der für den aktuellen Auftrag zu verwendenden Prioritätswert. Niedrigere Zahlen haben eine höhere Priorität. Standardmäßig hat ein Auftrag die Priorität 1.000. Der von Ihnen angegebene Wert muss größer als 0 sein. Standardwert: None
|
runtime_version
|
Die Runtimeversion der Data Lake Analytics-Engine. Standardwert: None
|
compute_target
|
[Erforderlich] Die ADLA-Compute-Instanz für diesen Auftrag. Standardwert: None
|
source_directory
|
Ein Ordner, der das Skript, Assemblys usw. enthält. Standardwert: None
|
allow_reuse
|
Gibt an, ob bei dem Schritt vorherige Ergebnisse wiederverwendet werden sollen, wenn er mit den gleichen Einstellungen erneut ausgeführt wird. Die Wiederverwendung ist standardmäßig aktiviert. Wenn der Schrittinhalt (Skripts/Abhängigkeiten) sowie die Eingaben und Parameter unverändert bleiben, wird die Ausgabe der vorherigen Ausführung dieses Schritts wiederverwendet. Wenn Sie den Schritt wiederverwenden, anstatt den Auftrag zum Berechnen zu übermitteln, werden die Ergebnisse der vorherigen Ausführung sofort für alle nachfolgenden Schritte verfügbar gemacht. Wenn Sie Azure Machine Learning-Datasets als Eingaben verwenden, hängt die Wiederverwendung nicht davon ab, ob sich die zugrunde liegenden Daten geändert haben, sondern davon, ob sich die Definition des Datasets geändert hat. Standardwert: True
|
version
|
Optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen. Standardwert: None
|
hash_paths
|
VERALTET: nicht mehr erforderlich. Eine Liste der Pfade, die bei der Überprüfung auf Änderungen am Schrittinhalt gehasht werden sollen. Wenn keine Änderungen erkannt werden, verwendet die Pipeline den Schrittinhalt einer vorherigen Ausführung erneut. Für Inhalte von Standardwert: None
|
script_name
Erforderlich
|
[Erforderlich] Der Name eines U-SQL-Skripts relativ zu |
name
Erforderlich
|
Der Name des Schritts. Wenn keine Angabe erfolgt, wird |
inputs
Erforderlich
|
Liste der Eingabeportbindungen |
outputs
Erforderlich
|
list[Union[PipelineData, <xref:azureml.pipeline.core.pipeline_output_dataset.PipelineAbstractOutputDataset>, OutputPortBinding]]
Eine Liste mit Ausgabeportbindungen. |
params
Erforderlich
|
Ein Wörterbuch mit Name-Wert-Paaren. |
degree_of_parallelism
Erforderlich
|
Der für diesen Auftrag zu verwendende Grad an Parallelität. Dieser Wert muss größer als 0 sein. Wenn der Standardwert kleiner als 0 ist, wird standardmäßig 1 verwendet. |
priority
Erforderlich
|
Der für den aktuellen Auftrag zu verwendenden Prioritätswert. Niedrigere Zahlen haben eine höhere Priorität. Standardmäßig hat ein Auftrag die Priorität 1.000. Der von Ihnen angegebene Wert muss größer als 0 sein. |
runtime_version
Erforderlich
|
Die Runtimeversion der Data Lake Analytics-Engine. |
compute_target
Erforderlich
|
[Erforderlich] Die ADLA-Compute-Instanz für diesen Auftrag. |
source_directory
Erforderlich
|
Ein Ordner, der das Skript, Assemblys usw. enthält. |
allow_reuse
Erforderlich
|
Gibt an, ob bei dem Schritt vorherige Ergebnisse wiederverwendet werden sollen, wenn er mit den gleichen Einstellungen erneut ausgeführt wird. Die Wiederverwendung ist standardmäßig aktiviert. Wenn der Schrittinhalt (Skripts/Abhängigkeiten) sowie die Eingaben und Parameter unverändert bleiben, wird die Ausgabe der vorherigen Ausführung dieses Schritts wiederverwendet. Wenn Sie den Schritt wiederverwenden, anstatt den Auftrag zum Berechnen zu übermitteln, werden die Ergebnisse der vorherigen Ausführung sofort für alle nachfolgenden Schritte verfügbar gemacht. Wenn Sie Azure Machine Learning-Datasets als Eingaben verwenden, hängt die Wiederverwendung nicht davon ab, ob sich die zugrunde liegenden Daten geändert haben, sondern davon, ob sich die Definition des Datasets geändert hat. |
version
Erforderlich
|
Ein optionales Versionstag, um eine Änderung der Funktionalität für den Schritt zu kennzeichnen. |
hash_paths
Erforderlich
|
VERALTET: nicht mehr erforderlich. Eine Liste der Pfade, die bei der Überprüfung auf Änderungen am Schrittinhalt gehasht werden sollen. Wenn keine Änderungen erkannt werden, verwendet die Pipeline den Schrittinhalt einer vorherigen Ausführung erneut. Für Inhalte von |
Hinweise
Sie können die Syntax @@name@@ in Ihrem Skript verwenden, um auf Eingaben, Ausgaben und Parameter zu verweisen.
Wenn name der Name einer Eingabe- oder Ausgabeportbindung ist, werden alle Vorkommen von @@name@@ im Skript durch den tatsächlichen Datenpfad einer entsprechenden Portbindung ersetzt.
Wenn name mit einem Schlüssel im Wörterbuch params übereinstimmt, werden alle Vorkommen von @@name@@ durch den entsprechenden Wert im Wörterbuch ersetzt.
AdlaStep funktioniert nur mit Daten, die im Standard-Data Lake Storage des Data Lake Analytics-Kontos gespeichert sind. Wenn sich die Daten nicht im Standardspeicher befinden, kopieren Sie die Daten mit einem DataTransferStep dorthin. Sie finden den Standardspeicher, indem Sie Ihr Data Lake Analytics-Konto im Azure-Portal öffnen und dann im linken Bereich unter Einstellungen zum Element „Datenquellen“ navigieren.
Das folgende Beispiel zeigt die Verwendung von AdlaStep in einer Azure Machine Learning-Pipeline.
adla_step = AdlaStep(
name='extract_employee_names',
script_name='sample_script.usql',
source_directory=sample_folder,
inputs=[sample_input],
outputs=[sample_output],
compute_target=adla_compute)
Das vollständige Beispiel finden Sie unter https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/machine-learning-pipelines/intro-to-pipelines/aml-pipelines-use-adla-as-compute-target.ipynb.
Methoden
create_node |
Erstellen Sie einen Knoten aus dem AdlaStep-Schritt, und fügen Sie ihn dem angegebenen Graphen hinzu. Diese Methode ist nicht für die direkte Nutzung vorgesehen. Wenn eine Pipeline mit diesem Schritt instanziiert wird, werden von Azure ML automatisch die für diese Methode erforderlichen Parameter übergeben, damit der Schritt einem Pipelinegraphen hinzugefügt werden kann, der den Workflow darstellt. |
create_node
Erstellen Sie einen Knoten aus dem AdlaStep-Schritt, und fügen Sie ihn dem angegebenen Graphen hinzu.
Diese Methode ist nicht für die direkte Nutzung vorgesehen. Wenn eine Pipeline mit diesem Schritt instanziiert wird, werden von Azure ML automatisch die für diese Methode erforderlichen Parameter übergeben, damit der Schritt einem Pipelinegraphen hinzugefügt werden kann, der den Workflow darstellt.
create_node(graph, default_datastore, context)
Parameter
Name | Beschreibung |
---|---|
graph
Erforderlich
|
Das Graphobjekt. |
default_datastore
Erforderlich
|
Der Standarddatenspeicher. |
context
Erforderlich
|
<xref:azureml.pipeline.core._GraphContext>
Der Graphkontext. |
Gibt zurück
Typ | Beschreibung |
---|---|
Das Knotenobjekt. |