Freigeben über


Entwickeln von Lösungen mit Dataflows

Power BI-Dataflows sind eine auf das Unternehmen fokussierte Lösung für die Datenaufbereitung, mit der sich ein Datenökosystem verwirklichen lässt, das sofort für die Nutzung, Wiederverwendung und Integration zur Verfügung steht. Dieser Artikel zeigt einige gängige Szenarien sowie Links zu Artikeln und anderen Informationen, die Ihnen helfen, Dataflows zu verstehen und deren Potenziale vollständig auszuschöpfen.

Erhalten von Zugriff auf Premium-Features von Dataflows

In Premium-Kapazitäten enthaltene Power BI-Dataflows bieten zahlreiche wichtige Funktionen, mit denen Sie eine noch höhere Skalierung und Leistung für Ihre Dataflows erzielen können, z. B.:

  • Erweitertes Compute, das die ETL-Leistung beschleunigt und DirectQuery-Funktionen bereitstellt
  • Inkrementelle Aktualisierung, mit der Sie ausschließlich die Daten aus einer Quelle laden können, die sich geändert haben
  • Verknüpfte Entitäten, die Sie zum Verweisen auf andere Dataflows verwenden können
  • Berechnete Entitäten, mit denen Sie Dataflows zu Bausteinen zusammensetzen können, die weitere Geschäftslogik enthalten.

Aus diesen Gründen empfehlen wir, Dataflows nach Möglichkeit in einer Premium-Kapazität zu verwenden. Dataflows können in Kombination mit einer Power BI Pro Lizenz für einfache Anwendungsfälle im kleinen Maßstab verwendet werden.

Lösung

Zugriff auf diese Premium Features von Dataflows erhalten Sie über die beiden folgenden Möglichkeiten:

  • Ordnen Sie einem bestimmten Arbeitsbereich eine Premium-Kapazität zu, und verwenden Sie Ihre eigene Pro Lizenz, um hier Dataflows zu erstellen.
  • Verwenden Sie Ihre eigene Premium-Einzelbenutzerlizenz (Premium Per User, PPU). Dies erfordert allerdings, dass andere Mitglieder dieses Arbeitsbereichs ebenfalls über eine PPU-Lizenz verfügen.

Sie können keine PPU-Dataflows (oder andere Inhalte) außerhalb der PPU-Umgebung nutzen (bspw. in Premium- oder anderen SKUs oder Lizenzen).

Bei Premium-Kapazitäten benötigen Ihre Nutzer von Dataflows in Power BI Desktop keine expliziten Lizenzen, um Dataflows in Power BI zu nutzen und zu veröffentlichen. Um sie jedoch in einem Arbeitsbereich zu veröffentlichen oder ein resultierendes Semantikmodell zu teilen, benötigen Sie mindestens eine Pro-Lizenz.

Bei Einzelbenutzerlizenzen muss jeder Benutzer, der PPU-Inhalte erstellt oder nutzt, über eine Einzelbenutzerlizenz (PPU-Lizenz) verfügen. Diese Anforderung unterscheidet sich vom Rest von Power BI insofern, als Sie alle Personen mit PPU explizit lizenzieren müssen. Sie können Free-, Pro- oder sogar Premium-Kapazitäten nicht mit PPU-Inhalten mischen, es sei denn, Sie migrieren den Arbeitsbereich auf eine Premium-Kapazität.

Die Auswahl des Modells hängt in der Regel von der Größe und den Zielen Ihrer Organisation ab. Es gelten jedoch die folgenden Richtlinien:

Teamtyp Premium-Kapazitätslizenz Premium-Einzelbenutzerlizenz
> 5.000 Benutzer
< 5.000 Benutzer

Bei kleinen Teams kann PPU die Lücke zwischen Free-, Pro- und Premium-Kapazitätslizenzen schließen. Wenn Ihre Anforderungen ein größeres Team betreffen, ist die Verwendung einer Premium-Kapazität für Benutzer, die über Pro-Lizenzen verfügen, der beste Ansatz.

Erstellen von Benutzer-Dataflows mit angewandter Sicherheit

Stellen Sie sich vor, Sie müssen nutzbare Dataflows erstellen, wobei aber folgende Sicherheitsanforderungen gelten:

Diagramm, das das Szenario beschreibt.

In diesem Szenario gibt es wahrscheinlich zwei Arten von Arbeitsbereichen:

  • Back-End-Arbeitsbereiche, in denen Sie Dataflows entwickeln und die Geschäftslogik aufbauen

  • Benutzer-Arbeitsbereiche, in denen Sie einen Teil der Dataflows oder Tabellen einer bestimmten Benutzergruppe zur Verfügung stellen möchten:

    • Der Benutzer-Arbeitsbereich enthält verknüpfte Tabellen, die auf die Dataflows im Back-End-Arbeitsbereich verweisen
    • Benutzer haben Viewer-Zugriff auf den Consumer-Arbeitsbereich aber keinen Zugriff auf den Back-End-Arbeitsbereich
    • Wenn ein Benutzer Power BI Desktop für den Zugriff auf einen Dataflow im Benutzerarbeitsbereich verwendet, kann er den Dataflow sehen. Da der Dataflow im Navigator jedoch leer dargestellt wird, werden die verknüpften Tabellen nicht angezeigt.

Grundlegendes zu verknüpften Tabellen

Verknüpfte Tabellen sind lediglich Zeiger, die auf die ursprünglichen Dataflowtabellen verweisen und die Berechtigung der Quelle erben. Ließe Power BI zu, dass die verknüpfte Tabelle die Zielberechtigung verwendet, könnte jeder Benutzer die Quellberechtigung umgehen, indem er im Ziel eine verknüpfte Tabelle erstellt, die auf die Quelle verweist.

Lösung: Verwenden von berechneten Tabellen

Wenn Sie Zugriff auf Power BI Premium haben, können Sie im Ziel eine berechnete Tabelle erstellen, die auf die verknüpfte Tabelle verweist und eine Kopie der Daten aus der verknüpften Tabelle enthält. Spalten können über Projektionen, Zeilen über Filter entfernt werden. Der Benutzer mit der Berechtigung für den Zielarbeitsbereich kann über diese Tabelle auf die Daten zugreifen.

Darüber hinaus zeigt die Datenherkunft privilegierten Personen den referenzierten Arbeitsbereich an und ermöglicht den Benutzern so einen Rückbezug, mit dem sie den übergeordneten Dataflow vollständig verstehen können. Für Benutzer, die nicht privilegiert sind, wird der Datenschutz weiterhin beachtet. Es wird lediglich der Name des Arbeitsbereichs angezeigt.

Diese Konfiguration wird im folgenden Diagramm veranschaulicht: Auf der linken Seite befindet sich das Architekturmuster. Auf der rechten sehen Sie ein Beispiel, das Umsatzdaten nach Region aufgeteilt und geschützt darstellt.

Diagramm, das beschreibt, wie verknüpfte Tabellen und Dataflows verwendet werden.

Verkürzen der Aktualisierungszeiten für Dataflows

Stellen Sie sich vor, Sie verfügen über einen umfangreichen Dataflow, aber Sie möchten auf dessen Grundlage Semantikmodelle erstellen und die Zeit verkürzen, die für die Aktualisierung erforderlich ist. In der Regel dauert es lange, bis Aktualisierungen von der Datenquelle über Dataflows bis hin zum Semantikmodell abgeschlossen sind. Lange Aktualisierungszeiten sind schwierig zu verwalten oder zu warten.

Lösung: Verwenden Sie Tabellen mit aktivierter Ladefunktion, und konfigurieren Sie diese explizit für referenzierte Tabellen. Deaktivieren Sie das Laden nicht.

Power BI unterstützt eine einfache Orchestrierung von Dataflows. Näheres dazu finden Sie unter Verstehen und Optimieren der Dataflow-Aktualisierung. Zum Nutzen der Orchestrierung müssen nachgelagerte Dataflows explizit mit der Option Laden aktivieren konfiguriert sein.

Das Deaktivieren des Ladevorgangs empfiehlt sich in der Regel nur, wenn der Mehraufwand für das Laden weiterer Abfragen den Nutzen der Entität mit der Sie entwickeln, übersteigt.

Die Deaktivierung des Ladevorgangs führt zwar dazu, dass Power BI die entsprechende Abfrage nicht auswertet, wenn sie als Bestandteil verwendet wird, d. h. in anderen Datenflüssen auf sie verwiesen wird. Es bewirkt aber auch, dass Power BI sie nicht als vorhandene Tabelle behandelt, für die wir einen Zeiger bereitstellen und Faltungs- und Abfrageoptimierungen vornehmen können. Das Ausführen von Transformationen wie Join oder Merge stellt dann lediglich ein Join oder Merge von zwei Datenquellenabfragen dar. Solche Vorgänge können sich negativ auf die Leistung auswirken, da Power BI die bereits berechnete Logik vollständig neu laden und dann zusätzliche Logiken anwenden muss.

Um die Abfrageverarbeitung Ihres Dataflows zu vereinfachen und sicherzustellen, dass Engine-Optimierungen durchgeführt werden, aktivieren Sie die Ladefunktion und stellen Sie sicher, dass für die Compute-Engine in Power BI Premium Dataflows die Standardeinstellung Optimiert aktiviert ist.

Das Aktivieren der Ladefunktion ermöglicht es Ihnen außerdem, die vollständige Ansicht der Herkunft beizubehalten, da Power BI einen Dataflow, für den das Laden deaktiviert wurde, als neues Element betrachtet. Wenn die Herkunft für Sie von Bedeutung ist, deaktivieren Sie das Laden nicht für Entitäten oder Dataflows, die mit anderen Dataflows verknüpft sind.

Verringern der Aktualisierungszeiten für Semantikmodelle

Stellen Sie sich vor, Sie verfügen über einen umfangreichen Dataflow, aber Sie möchten auf dessen Grundlage Semantikmodelle erstellen und den Orchestrierungsaufwand verringern. Der Abschluss von Aktualisierungen von der Datenquelle über Dataflows bis hin zu Semantikmodellen nimmt viel Zeit in Anspruch, wodurch die Latenz erhöht wird.

Lösung: Verwenden von DirectQuery-Dataflows

DirectQuery kann immer dann verwendet werden, wenn die ECE-Einstellung (Enhanced Compute Engine) eines Arbeitsbereichs explizit auf Ein festgelegt ist. Diese Einstellung ist nützlich, wenn Ihre Daten nicht direkt in ein Power BI-Modell geladen werden müssen. Wenn Sie die ECE zum ersten Mal auf Ein festlegen, treten die Änderungen, die DirectQuery ermöglichen, während der nächsten Aktualisierung auf. Sie müssen sie aktualisieren, wenn Sie sie aktivieren, damit Änderungen sofort vorgenommen werden. Aktualisierungen erfolgen beim ersten Laden des Dataflows möglicherweise langsamer, da Power BI die Daten sowohl in den Speicher als auch in eine verwaltete SQL-Engine schreibt.

Zusammenfassend lässt sich festhalten, dass die Verwendung von DirectQuery bei Dataflows die folgenden Verbesserungen an den Power BI- und Dataflowprozessen ermöglicht:

  • Vermeiden separater Aktualisierungszeitpläne: DirectQuery stellt eine direkte Verbindung mit einem Dataflow her, daher muss kein importiertes Semantikmodell erstellt werden. Die Verwendung von DirectQuery mit Ihren Dataflows hat zur Folge, dass Sie keine separaten Aktualisierungszeitpläne für den Dataflow und das Semantikmodell benötigen, um sicherzustellen, dass die Daten synchronisiert werden.
  • Filtern von Daten: DirectQuery eignet sich für die Arbeit an einer gefilterten Datenansicht in einem Dataflow. Wenn Sie Daten filtern und solcherart nur mit einer kleineren Teilmenge der Daten in Ihrem Dataflow arbeiten, können Sie DirectQuery (und die ECE) verwenden, um Dataflowdaten zu filtern und mit der benötigten gefilterten Teilmenge zu arbeiten.

Im Allgemeinen führt die Verwendung von DirectQuery dazu, dass Sie im Vergleich zum Importmodus eine schnellere Berichtsleistung zugunsten aktuellerer Daten in Ihrem Semantikmodell aufgeben. Sie sollten diesen Ansatz nur in diesen Fällen in Erwägung ziehen:

  • Ihr Anwendungsfall erfordert Daten mit geringer Latenz, die aus Ihrem Dataflow stammen
  • Der Umfang der Daten im Dataflow ist groß
  • Ein Import wäre zu zeitaufwändig
  • Sie sind bereit, zugunsten aktueller Daten auf die Leistung einer Cachelösung zu verzichten.

Lösung: Verwenden des Dataflow Connectors für die Aktivierung von Query Folding und inkrementeller Aktualisierung für den Import

Der vereinheitlichte Dataflow-Konnektor kann die Zeit für die Auswertung von Schritten, die für berechnete Entitäten ausgeführt werden (z. B. Join-, Distinct-, Filter- und Group-By-Vorgänge), erheblich verkürzen. Es gibt zwei spezifische Vorteile:

  • Nachgelagerte Benutzer, die in Power BI Desktop eine Verbindung mit dem Dataflows-Konnektor herstellen, können in Dokumenterstellungsszenarien von einer besseren Leistung profitieren, da der neue Konnektor Query Folding (Abfragefaltung) unterstützt.
  • Aktualisierungsvorgänge von Semantikmodellen können nun auch die ECE zur Faltung nutzen, was bedeutet, dass selbst inkrementelle Aktualisierungen von einem Semantikmodell auf einen Dataflow gefaltet werden können. Diese Funktion verbessert die Aktualisierungsleistung und bietet die Chance, die Latenz zwischen Aktualisierungszyklen zu verringern.

Wenn Sie dieses Feature für alle Premium-Dataflows aktivieren möchten, achten Sie darauf, dass die Compute-Engine explizit auf Ein festgelegt ist. Verwenden Sie anschließend den Dataflows-Konnektor in Power BI Desktop. Sie müssen die im August 2021 veröffentlichte Version von Power BI Desktop (oder neuer) verwenden, um dieses Feature nutzen zu können.

Zum Verwenden dieses Features für bestehende Lösungen müssen Sie über ein Premium- oder Premium-Einzelbenutzerabonnement verfügen. Möglicherweise müssen Sie darüber hinaus auch Änderungen an Ihrem Dataflow vornehmen, wie unter Verwenden der erweiterten Compute-Engine beschrieben. Sie müssen alle vorhandenen Power Query-Abfragen so aktualisieren, dass sie den neuen Connector verwenden, indem Sie PowerBI.Dataflows im Abschnitt Source durch PowerPlatform.Dataflows ersetzen.

Komplexe Dataflow-Erstellung in Power Query

Stellen Sie sich vor, Sie verfügen über einen Dataflow, der Millionen von Datenzeilen enthält, aber Sie möchten daraus komplexe Geschäftslogiken und -transformationen erstellen. Sie möchten die bewährten Methoden für die Arbeit mit großen Dataflows befolgen. Darüber hinaus sind Sie darauf angewiesen, dass die Dataflowvorschau schnell arbeitet. Allerdings sehen Sie sich mit Dutzenden von Spalten und Millionen von Datenzeilen konfrontiert.

Lösung: Verwenden der Schemaansicht

Sie können die Schemaansicht verwenden, die dafür konzipiert wurde, Ihren Arbeitsablauf bei der Arbeit an Vorgängen auf Schemaebene zu optimieren, indem die Spalteninformationen Ihrer Abfrage in den Mittelpunkt gestellt werden. Die Schemaansicht bietet kontextbezogene Interaktionen zum Formen Ihrer Datenstruktur. Die Schemaansicht bietet darüber hinaus Vorgänge mit geringer Latenz, da für sie nur die Spaltenmetadaten berechnet werden müssen, nicht die vollständigen Datenergebnisse.

Arbeiten mit größeren Datenquellen

Stellen Sie sich vor, Sie führen eine Abfrage auf dem Quellsystem aus, aber Sie wollen weder den direkten Zugriff auf das System ermöglichen noch den Zugriff demokratisieren. Sie planen, dies in einem Dataflow umzusetzen.

Lösung 1: Verwenden einer Ansicht für die Abfrage oder Optimieren der Abfrage

Am besten verwenden Sie eine optimierte Datenquelle und Abfrage. Oftmals arbeitet die Datenquelle am besten mit den für sie bestimmten Abfragen. Power Query unterstützt Abfragefaltungsfunktionen, um diese Workloads zu delegieren. Power BI stellt darüber hinaus in Power Query Online Schrittfaltungsindikatoren zur Verfügung. Weitere Informationen zu den Indikatortypen finden Sie in der Dokumentation zu Schrittfaltungs-Indikatoren.

Lösung 2: Verwenden von nativen Abfragen

Sie können auch die M-Funktion Value.NativeQuery() verwenden. Sie legen im dritten Parameter EnableFolding=true fest. Native Query ist auf dieser Website für den Postgres-Connector dokumentiert. Es funktioniert auch mit dem SQL Server-Connector.

Lösung 3: Aufteilen des Dataflows in Erfassungs- und Nutzungsdataflows, um die ECE und verknüpfte Entitäten zu nutzen.

Mittels der Aufteilung eines Dataflows in Erfassungs- und Nutzungsdatenflüsse können Sie sich die Vorteile von ECE und verknüpfter Entitäten zunutze machen. Weitere Informationen zu diesem und anderen Mustern finden Sie in der Dokumentation zu bewährten Methoden.

Sicherstellen, dass Kunden nach Möglichkeit Dataflows verwenden

Stellen Sie sich vor, Sie verfügen über zahlreiche Dataflows, die allgemeine Zwecke erfüllen z. B. angepasste Dimensionen wie Kunden, Datentabellen, Produkte, geografische Regionen. Dataflows stehen im Power BI-Menüband bereits zur Verfügung. Im Idealfall möchten Sie, dass Kunden in erster Linie die von Ihnen erstellten Datenflüsse verwenden.

Lösung: Verwenden von Endorsements, um Dataflows zu zertifizieren und zu bewerben

Weitere Informationen zur Funktionsweise von Endorsement finden Sie im Artikel: Endorsement: Bewerben und Zertifizieren von Power BI Inhalten.

Programmierbarkeit und Automatisierung in Power BI Dataflows

Stellen Sie sich vor, Ihre Geschäfte erfordern es, dass Importe, Exporte oder Aktualisierungen sowie weitere Orchestrierungen und Aktionen außerhalb von Power BI automatisiert werden. Die folgende Tabelle zeigt die Möglichkeiten auf, die Sie zu diesem Zweck nutzen können:

Typ Mechanismus
Verwenden der PowerAutomate-Vorlagen Kein Code
Verwenden von Automatisierungsskripts in PowerShell Automatisierungsskripts
Erstellen einer eigenen Geschäftslogik mithilfe der APIs REST-API

Weitere Informationen zur Aktualisierung finden Sie unter Verstehen und Optimieren der Dataflow-Aktualisierung.

Sicherstellung des Schutzes von nachgelagerten Datenressourcen

Mithilfe von Vertraulichkeitsbezeichnungen können Sie für nachgelagerte Elemente, die mit Ihren Dataflows verbunden sind, eine Datenklassifizierung vornehmen und sämtliche Regeln anwenden, die Sie konfiguriert haben. Weitere Informationen zu Vertraulichkeitsbezeichnungen finden Sie unter Vertraulichkeitsbezeichnungen in Power BI. Unter Nachgelagerte Vererbung der Vertraulichkeitsbezeichnung in Power BI können Sie sich mit dem Thema Vererbung vertraut machen.

Multi-Geo-Unterstützung

Viele Kunden müssen heutzutage Anforderungen an Datenhoheit und -residenz erfüllen. Mit Hilfe einer manuellen Konfiguration können Sie Ihren Dataflow-Arbeitsbereich "Multi-Geo" machen.

Dataflows unterstützen Multi-Geo,wenn sie das Feature Bring-Your-Own-Storage-Account (Nutzen des eigenen Speicherkontos) verwenden. Dieses Feature ist unter Konfigurieren der Verwendung von Azure Data Lake Gen 2 für Dataflowspeicher beschrieben. Der Arbeitsbereich muss für diese Funktion vor dem Anfügen leer sein. Mit dieser speziellen Konfiguration können Sie Dataflowdaten in bestimmten geografischen Regionen Ihrer Wahl speichern.

Sicherstellen, dass Sie Datenressourcen hinter einem virtuellen Netzwerk schützen

Viele Kunden müssen Ihre Datenressourcen heutzutage hinter einem privaten Endpunkt schützen. Verwenden Sie dazu virtuelle Netzwerke und ein Gateway, und stellen Sie so die Compliance sicher. Die folgende Tabelle erläutert die aktuelle Unterstützung für virtuelle Netzwerke und wie Sie bei der Nutzung von Dataflows vorgehen müssen, um für Compliance zu sorgen und Ihre Datenressourcen zu schützen:

Szenario Status
Lesen von Datenquellen in virtuellen Netzwerken über ein lokales Gateway. Unterstützt über ein lokales Gateway
Schreiben Sie Daten mithilfe eines lokalen Gateways in ein Vertraulichkeitsbezeichnungskonto hinter einem virtuellen Netzwerk. Noch nicht unterstützt

In den folgenden Artikeln finden Sie weitere Informationen zu Dataflows und Power BI: