Grundlegendes zu Dataflows Gen2 in Microsoft Fabric
In unserem Szenario müssen Sie ein Semantikmodell entwickeln, das die Daten standardisieren und Zugriff für das Unternehmen ermöglichen kann. Mithilfe von Dataflows Gen2 können Sie eine Verbindung mit den verschiedenen Datenquellen herstellen und dann die Daten aufbereiten und transformieren. Sie können die Daten direkt in Ihr Lakehouse senden oder eine Datenpipeline für andere Ziele verwenden.
Was ist ein Dataflow?
Dataflows sind eine Art cloudbasiertes ETL-Tool (Extrahieren, Transformieren und Laden) zum Erstellen und Ausführen skalierbarer Datentransformationsprozesse.
Dataflows Gen2 ermöglicht es Ihnen, Daten aus verschiedenen Quellen zu extrahieren, sie mit einer Vielzahl von Transformationsoperationen umzuwandeln und in ein Ziel zu laden. Die Verwendung von Power Query Online bietet auch eine grafische Benutzeroberfläche für die Durchführung dieser Aufgaben.
Grundsätzlich umfasst ein Datenfluss alle Transformationen, um die Datenaufbereitungszeit zu verkürzen. Er kann dann in eine neue Tabelle geladen, in eine Datenpipeline eingeschlossen oder von Datenanalysten als Datenquelle verwendet werden.
Verwenden von Dataflows Gen2
In der Regel verbringen technische Fachkräfte für Daten viel Zeit damit, Daten zu extrahieren, umzuwandeln und in ein verwendbares Format für Downstreamanalysen zu laden. Das Ziel von Dataflows Gen2 besteht darin, eine einfache, wiederverwendbare Methode zum Ausführen von ETL-Aufgaben mit Power Query Online bereitzustellen.
Wenn Sie nur eine Datenpipeline verwenden, kopieren Sie die Daten, und verwenden Sie dann Ihre bevorzugte Programmiersprache, um die Daten zu extrahieren, zu transformieren und zu laden. Alternativ können Sie zuerst einen Dataflow Gen2 erstellen, um die Daten zu extrahieren und zu transformieren. Sie können die Daten auch in ein Lakehouse und andere Ziele laden. Jetzt kann das Unternehmen das kuratierte Semantikmodell problemlos nutzen.
Das Hinzufügen eines Datenziels zu Ihrem Dataflow ist optional, und der Dataflow behält alle Transformationsschritte bei. Um andere Aufgaben auszuführen oder Daten nach der Transformation in ein anderes Ziel zu laden, erstellen Sie eine Datenpipeline, und fügen Sie der Orchestrierung die Dataflow Gen2-Aktivität hinzu.
Eine andere Möglichkeit wäre die Verwendung einer Datenpipeline und einer Dataflow Gen2-Instanz für den ELT-Prozess (Extrahieren, Laden und Transformieren). Für diesen Auftrag verwenden Sie eine Pipeline, um die Daten zu extrahieren und in Ihr bevorzugtes Ziel zu laden, z. B. ein Lakehouse. Anschließend erstellen Sie einen Dataflow Gen2, um eine Verbindung mit Lakehouse-Daten herzustellen und Daten zu bereinigen und zu transformieren. In diesem Fall bieten Sie den Dataflow als kuratiertes Dataset für Data Analysts zur Erstellung von Berichten an.
Dataflows können auch horizontal partitioniert werden. Nachdem Sie einen globalen Dataflow erstellt haben, können Data Analysts Dataflows verwenden, um spezielle Semantikmodelle für bestimmte Anforderungen zu erstellen.
Mit Dataflows können Sie eine wiederverwendbare ETL-Logik einsetzen, die verhindert, dass Sie weitere Verbindungen mit Ihrer Datenquelle herstellen müssen. Datenflüsse bieten eine Vielzahl von Transformationen und können manuell, nach einem Aktualisierungszeitplan oder als Teil einer Datenpipelineorchestrierung ausgeführt werden.
Tipp
Machen Sie den Datenfluss auffindbar, damit Datenanalysten auch über Power BI Desktop eine Verbindung mit dem Datenfluss herstellen können. Dies verringert den Aufwand der Datenaufbereitung für die Berichtentwicklung.
Vorteile und Einschränkungen
Es gibt mehr als eine Möglichkeit, ETL- oder ELT-Daten in Microsoft Fabric zu verwenden. Wägen Sie die Vorteile und Einschränkungen bei der Verwendung von Dataflows Gen2 ab.
Vorteile:
- Erweitern Sie Daten mit konsistenten Daten, z. B. einer Standarddatums-Dimensionstabelle.
- Ermöglichen Sie Self-Service-Benutzer*innen den separaten Zugriff auf eine Teilmenge des Data Warehouse.
- Optimieren Sie die Leistung mit Dataflows, die das einmalige Extrahieren von Daten zur Wiederverwendung ermöglichen, wodurch die Datenaktualisierungszeit für langsamere Quellen reduziert wird.
- Vereinfachen Sie die Komplexität der Datenquellen, indem Sie Dataflows nur für größere Analystengruppen verfügbar machen.
- Stellen Sie die Konsistenz und Qualität der Daten sicher, indem Sie Benutzer*innen das Bereinigen und Transformieren von Daten ermöglichen, bevor sie an ein Ziel geladen werden.
- Vereinfachen Sie die Datenintegration, indem Sie eine Low-Code-Schnittstelle bereitstellen, die Daten aus verschiedenen Quellen erfasst.
Einschränkungen:
- Datenflüsse sind kein Ersatz für ein Data Warehouse.
- Sicherheit auf Zeilenebene wird nicht unterstützt.
- Der Fabric-Kapazitätsarbeitsbereich ist erforderlich.