Was sind Datenflüsse in Azure Synapse Analytics?
Datenflüsse sind visuell entworfene Datentransformationen in Azure Synapse Analytics. Mit Datenflüssen können Data Engineers eine Datentransformationslogik entwickeln, ohne Code schreiben zu müssen. Die daraus resultierenden Datenflüsse werden als Aktivitäten in Azure Synapse Analytics-Pipelines ausgeführt, die erweiterte Apache Spark-Cluster verwenden. Datenflussaktivitäten können mithilfe vorhandener Azure Synapse Analytics-Funktionen für Planung, Steuerung, Flows und Überwachung operationalisiert werden.
Datenflüsse bieten eine vollständig visuelle Darstellung, ohne dass Sie eine einzige Codezeile schreiben müssen. Ihre Datenflüsse werden in von Synapse verwalteten Ausführungsclustern für die erweiterte Datenverarbeitung ausgeführt. Azure Synapse Analytics verarbeitet die gesamte Codeübersetzung, Pfadoptimierung und Ausführung Ihrer Datenflussaufträge.
Erste Schritte
Datenflüsse werden aus dem Bereich Entwickeln in Synapse Studio erstellt. Um einen Datenfluss zu erstellen, wählen Sie das Pluszeichen neben Entwickeln und dann die Option Datenfluss aus.
Mit dieser Aktion gelangen Sie zur Datenflusscanvas, auf der Sie Ihre Transformationslogik erstellen können. Wählen Sie Quelle hinzufügen aus, um mit der Konfiguration Ihrer Quelltransformation zu beginnen. Weitere Informationen finden Sie im Artikel zur Quelltransformation.
Erstellen von Datenflüssen
Ein Datenfluss verfügt über eine einzigartige Canvas, über die sich die Transformationslogik ganz einfach erstellen lässt. Die Datenflusscanvas ist in drei Bereiche unterteilt: die obere Leiste, das Diagramm und den Konfigurationsbereich.
Graph
Das Diagramm zeigt den Transformationsdatenstrom. Es zeigt die Herkunft der Quelldaten beim Fließen in eine oder mehrere Senken. Wählen Sie die Option Quelle hinzufügen aus, um eine neue Quelle hinzuzufügen. Wählen Sie zum Hinzufügen einer neuen Transformation unten rechts in einer vorhandenen Transformation das Pluszeichen aus. Informieren Sie sich über das Verwalten des Datenflussdiagramms.
Konfigurationsbereich
Im Konfigurationsbereich werden die spezifischen Einstellungen für die derzeit ausgewählte Transformation angezeigt. Wenn keine Transformation ausgewählt ist, wird der Datenfluss angezeigt. In der allgemeinen Datenflusskonfiguration können Sie Parameter über die Registerkarte Parameter hinzufügen. Weitere Informationen finden Sie unter Datenflussparameter.
Jede Transformation enthält mindestens vier Registerkarten für die Konfiguration.
Transformationseinstellungen
Die erste Registerkarte im Konfigurationsbereich jeder Transformation enthält die Einstellungen, die für diese Transformation spezifisch sind. Weitere Informationen finden Sie auf der Dokumentationsseite für diese Transformation.
Optimieren
Die Registerkarte Optimieren enthält Einstellungen zum Konfigurieren von Partitionierungsschemas. Weitere Informationen zum Optimieren Ihrer Datenflüsse finden Sie in der Anleitung zur Leistung des Zuordnungsdatenflusses.
Überprüfen
Die Registerkarte Überprüfen bietet einen Einblick in die Metadaten des Datenstroms, den Sie transformieren. Sie können die Spaltenanzahl, geänderte Spalten, hinzugefügte Spalten, Datentypen, die Spaltensortierung und Spaltenverweise sehen. Überprüfen ist eine schreibgeschützte Ansicht Ihrer Metadaten. Der Debugmodus muss nicht aktiviert sein, um die Metadaten im Bereich Überprüfen anzeigen zu können.
Wenn Sie die Form Ihrer Daten durch Transformationen ändern, wird der Fluss der Metadatenänderungen im Bereich Überprüfen angezeigt. Falls in Ihrer Quelltransformation kein definiertes Schema vorhanden ist, werden im Bereich Überprüfen keine Metadaten angezeigt. Fehlende Metadaten kommen in Schemaabweichungsszenarien häufiger vor.
Datenvorschau
Bei aktiviertem Debugmodus können Sie auf der Registerkarte Datenvorschau eine interaktive Momentaufnahme der Daten bei jeder Transformation anzeigen. Weitere Informationen finden Sie unter Datenvorschau im Debugmodus.
Obere Leiste
Die obere Leiste enthält Aktionen, die sich auf den gesamten Datenfluss auswirken, z. B. Überprüfungen und Debugeinstellungen. Sie können auch den zugrunde liegenden JSON-Code und das Datenflussskript Ihrer Transformationslogik anzeigen.
Verfügbare Transformationen
Unter Zuordnungsdatenfluss – Übersicht über Transformationen finden Sie eine Liste der verfügbaren Transformationen.
Datenflussaktivität
Datenflüsse werden innerhalb von Azure Synapse Analytics-Pipelines mithilfe der Datenflussaktivität operationalisiert. Der Benutzer muss lediglich angeben, welche Integration Runtime verwendet werden soll, und Parameterwerte übergeben. Weitere Informationen finden Sie unter Azure Integration Runtime.
Debugmodus
Im Debugmodus können Sie die Ergebnisse jedes Transformationsschritts interaktiv anzeigen, während Sie Datenflüsse erstellen und debuggen. Die Debugsitzung kann sowohl beim Erstellen der Datenflusslogik als auch beim Ausführen von Debugläufen für die Pipeline mit Datenflussaktivitäten ausgeführt werden. Weitere Informationen finden Sie in der Dokumentation zum Debugmodus.
Überwachen von Datenflüssen
Datenflüsse lassen sich in vorhandene Azure Synapse Analytics-Überwachungsfunktionen integrieren. Informationen zum Verständnis der Ausgabe der Datenflussüberwachung finden Sie unter Überwachen von Zuordnungsdatenflüssen.
Das Azure Synapse Analytics-Team hat eine Anleitung zur Leistungsoptimierung erstellt, mit deren Hilfe Sie die Ausführungszeit Ihrer Datenflüsse nach dem Erstellen der Geschäftslogik optimieren können.
Zugehöriger Inhalt
- Informieren Sie sich über die Erstellung einer Quelltransformation.
- Informieren Sie sich darüber, wie Sie Ihre Datenflüsse im Debugmodus erstellen.