Freigeben über


Transformieren von Daten durch Ausführen eines Synapse-Notebooks

GILT FÜR: Azure Data Factory Azure Synapse Analytics

Tipp

Testen Sie Data Factory in Microsoft Fabric, eine All-in-One-Analyselösung für Unternehmen. Microsoft Fabric deckt alle Aufgaben ab, von der Datenverschiebung bis hin zu Data Science, Echtzeitanalysen, Business Intelligence und Berichterstellung. Erfahren Sie, wie Sie kostenlos eine neue Testversion starten!

Die Azure Synapse-Notebook-Aktivität in einer Pipeline führt ein Synapse-Notebook in Ihrem Azure Synapse Analytics-Arbeitsbereich aus. Dieser Artikel baut auf dem Artikel zu Datentransformationsaktivitäten auf, der eine allgemeine Übersicht über die Datentransformation und die unterstützten Transformationsaktivitäten bietet.

Sie können eine Azure Synapse Analytics-Notebook-Aktivität direkt über die Benutzeroberfläche von Azure Data Factory Studio erstellen. Eine schrittweise Anleitung zum Erstellen einer Synapse-Notebook-Aktivität mithilfe der Benutzeroberfläche finden Sie im Folgenden.

Hinzufügen einer Notebook-Aktivität für Azure Synapse zu einer Pipeline mit Benutzeroberfläche

Führen Sie die folgenden Schritte aus, um eine Notebook-Aktivität für Azure Synapse in einer Pipeline zu verwenden:

Allgemeine Einstellungen

  1. Suchen Sie im Bereich „Pipeline-Aktivitäten“ nach Notebook und ziehen Sie eine Notebook-Aktivität unter Synapse auf die Pipeline-Canvas.
  2. Wählen Sie die neue Notebook-Aktivität im Canvas aus, wenn sie noch nicht ausgewählt ist.
  3. Geben Sie in den allgemeinen Einstellungen als Name „Beispiel“ ein.
  4. Optional können Sie auch eine Beschreibung angeben.
  5. Timeout: Der maximale Zeitraum für das Ausführen einer Aktivität. Der Standardwert ist 12 Stunden, und die maximal zulässige Zeit beträgt 7 Tage. Das Format ist „D.HH:MM:SS“.
  6. Wiederholung: Die maximale Anzahl der Wiederholungsversuche.
  7. Wiederholungsintervall (Sek.): Die Anzahl von Sekunden zwischen den einzelnen Wiederholungsversuchen.
  8. Sichere Ausgabe: Wenn diese Option aktiviert ist, werden Ausgaben der Aktivität nicht bei der Protokollierung erfasst.
  9. Sichere Eingabe: Wenn diese Option aktiviert ist, werden Eingaben der Aktivität nicht bei der Protokollierung erfasst.

Azure Synapse Analytics-Einstellungen (Artefakte)

Wählen Sie die Registerkarte Azure Synapse Analytics (Artefakte) aus, um einen neuen verknüpften Azure Synapse Analytics-Dienst auszuwählen oder zu erstellen, der die Notebook-Aktivität ausführt.

Screenshot: Registerkarte „Verknüpfter Dienst“ für eine Notebook-Aktivität.

Registerkarte "Einstellungen"

  1. Wählen Sie die neue Synapse-Notebook-Aktivität im Canvas aus, falls sie nicht bereits ausgewählt ist.

  2. Klicken Sie auf die Registerkarte Einstellungen.

  3. Erweitern Sie die Notebook-Liste. Sie können ein vorhandenes Notebook in der verknüpften Azure Synapse Analytics (Artefakte) auswählen.

  4. Klicken Sie auf die Schaltfläche „Öffnen“, um die Seite des verknüpften Diensts zu öffnen, auf der sich das ausgewählte Notebook befindet.

Hinweis

Wenn die Ressourcen-ID des Arbeitsbereichs im verknüpften Dienst leer ist, wird die Schaltfläche „Öffnen“ deaktiviert.

Screenshot: Schaltfläche „Öffnen“ ist deaktiviert.

  1. Wählen Sie die Registerkarte Einstellungen aus, und wählen Sie das Notebook sowie optionale Basisparameter aus, die an das Notebook übergeben werden sollen.

    Screenshot: Registerkarte „Einstellungen“ für eine Notebook-Aktivität.

  2. (Optional) Sie können Informationen zum Synapse-Notebook eingeben. Wenn die folgenden Einstellungen leer sind, werden die Einstellungen des Synapse-Notebooks selbst zum Ausführen verwendet; wenn die folgenden Einstellungen nicht leer sind, ersetzen diese Einstellungen die Einstellungen des Synapse-Notebooks selbst.

    Eigenschaft BESCHREIBUNG
    Spark-Pool Verweis auf den Spark-Pool. Sie können den Apache Spark-Pool aus der Liste auswählen.
    „Executor size“ (Executorgröße) Die Anzahl von Kernen und die Menge an Arbeitsspeicher, die im angegebenen Apache Spark-Pool für die Sitzung zur Verwendung durch Executors zugeordnet ist. Für dynamische Inhalte sind die gültigen Werte Small/Medium/Large/XLarge/XXLarge.
    Executors dynamisch zuordnen Diese Einstellung entspricht der dynamischen Zuordnungseigenschaft in der Spark-Konfiguration für die Executorzuteilung der Spark-Anwendung.
    Min. Executors Dies ist die min. Anzahl von Executors, die im angegebenen Spark-Pool für den Auftrag zugeordnet werden sollen.
    Max. Executors Dies ist die max. Anzahl von Executors, die im angegebenen Spark-Pool für den Auftrag zugeordnet werden sollen.
    „Driver size“ (Treibergröße) Die Anzahl von Kernen und die Menge an Arbeitsspeicher, die für Treiber im angegebenen Apache Spark-Pool für den Auftrag verwendet werden sollen.

Azure Synapse Analytics-Notebook-Aktivitätsdefinition

Hier sehen Sie die JSON-Beispieldefinition einer Azure Synapse Analytics-Notebook-Aktivität:

{
    "activities": [
            {
                "name": "demo",
                "description": "description",
                "type": "SynapseNotebook",
                "dependsOn": [],
                "policy": {
                    "timeout": "7.00:00:00",
                    "retry": 0,
                    "retryIntervalInSeconds": 30,
                    "secureOutput": false,
                    "secureInput": false
                },
                "userProperties": [
                    {
                        "name": "testproperties",
                        "value": "test123"
                    }
                ],
                "typeProperties": {
                    "notebook": {
                        "referenceName": {
                            "value": "Notebookname",
                            "type": "Expression"
                        },
                        "type": "NotebookReference"
                    },
                    "parameters": {
                        "test": {
                            "value": "testvalue",
                            "type": "string"
                        }
                    },
                    "snapshot": true,
                    "sparkPool": {
                        "referenceName": {
                            "value": "SampleSpark",
                            "type": "Expression"
                        },
                        "type": "BigDataPoolReference"
                    }
                },
                "linkedServiceName": {
                    "referenceName": "AzureSynapseArtifacts1",
                    "type": "LinkedServiceReference"
                }
            }
        ]
    }

Aktivitätseigenschaften von Azure Synapse Analytics-Notebook

Die folgende Tabelle beschreibt die JSON-Eigenschaften, die in der JSON-Definition verwendet werden:

Eigenschaft Beschreibung Erforderlich
name Der Name der Aktivität in der Pipeline. Ja
description Ein Text, der beschreibt, was mit der Aktivität ausgeführt wird. Nein
type Für Azure Synapse Analytics-Notebook-Aktivität lautet der Aktivitätstyp SynapseNotebook. Ja
Notebook Der Name des Notebooks, das im Azure Synapse Analytics ausgeführt werden soll. Ja
sparkPool Der für die Ausführung von Azure Synapse Analytics-Notebook erforderliche Spark-Pool. Nein
parameter Der für die Ausführung von Azure Synapse Analytics-Notebook erforderliche Parameter. Weitere Informationen finden Sie unter Transformieren von Daten durch Ausführen eines Synapse-Notebooks Nein

Festlegen einer Parameterzelle

Azure Data Factory sucht nach der Parameterzelle und verwendet deren Werte als Standardwerte für die Parameter, die zur Ausführungszeit übergeben werden. Die Ausführungs-Engine fügt eine neue Zelle mit Eingabeparametern unter der Parameterzelle hinzu, um die Standardwerte zu überschreiben. Informationen finden Sie unter Transformieren von Daten durch Ausführen eines Synapse-Notebooks.

Lesen des Ausgabewerts einer Synapse-Notebookzelle

Sie können den Ausgabewert der Notebook-Zelle in der Aktivität lesen. Für diesen Bereich können Sie sich auf Transformieren von Daten durch Ausführen eines Synapse-Notebooks beziehen.

Ausführen eines weiteren Synapse-Notebooks

Sie können in einer Synapse-Notebookaktivität auf andere Notebooks verweisen, indem Sie %run magic oder die Notebook-Hilfsprogramme mssparkutils aufrufen. Beide unterstützen geschachtelte Funktionsaufrufe. Berücksichtigen Sie je nach Szenario die folgenden wichtigen Unterschiede zwischen diesen beiden Methoden:

  • %run magic kopiert alle Zellen aus dem Notebook, auf das verwiesen wird, in die Zelle %run und teilt den Variablenkontext. Wenn notebook1 über %run notebook2 auf notebook2 verweist und notebook2 die Funktion mssparkutils.notebook.exit aufruft, wird die Zellenausführung in notebook1 beendet. Sie sollten %run magic verwenden, wenn Sie eine Notebookdatei einschließen möchten.
  • Die Notebook-Hilfsprogramme mssparkutils rufen das Notebook, auf das verwiesen wird, als Methode oder Funktion auf. Der Variablenkontext wird nicht geteilt. Wenn notebook1 über mssparkutils.notebook.run("notebook2") auf notebook2 verweist und notebook2 die Funktion mssparkutils.notebook.exit aufruft, wird die Zellenausführung in notebook1 fortgesetzt. Sie sollten die Notebook-Hilfsprogramme mssparkutils verwenden, wenn Sie ein Notebook importieren möchten.

Siehe Ausführungsverlauf der Azure Synapse Analytics-Notebook-Aktivität

Unter Pipelineausführungen auf der Registerkarte Überwachen werden die ausgelösten Pipelines aufgeführt. Öffnen Sie die Pipeline, die Notebookaktivitäten enthält, um den Ausführungsverlauf anzuzeigen.

Screenshot: Eingabe und Ausgabe für eine Notebook-Aktivität.

Für „Notebook-Momentaufnahme öffnen“ wird dieses Feature derzeit nicht unterstützt.

Wählen Sie die Schaltfläche Eingabe oder Ausgabe aus, um die Eingaben oder Ausgaben der Notebookaktivität anzuzeigen. Wenn in Ihrer Pipeline ein Benutzerfehler auftritt, können Sie Ausgabe auswählen. Im Feld Ergebnis ist eine ausführliche Rückverfolgung des Benutzerfehlers vorhanden.

Screenshot: Ausgabe eines Benutzerfehlers für eine Notebook-Aktivität.