Freigeben über


Schnelle Kopie in Dataflows Gen2

Dieser Artikel beschreibt die Schnellkopierfunktion in Dataflows Gen2 für Data Factory in Microsoft Fabric. Dataflows helfen beim Einlesen und Umwandeln von Daten. Mit der Einführung von Dataflow Scale Out mit SQL DW Compute können Sie Ihre Daten in großem Umfang umwandeln. Ihre Daten müssen jedoch zuerst aufgenommen werden. Mit der Einführung von Fast Copy können Sie Terabytes von Daten mit der einfachen Erfahrung von Datenflüssen aufnehmen, aber mit dem skalierbaren Back-End der Pipeline Copy-Aktivität.

Nach der Aktivierung dieser Funktion schalten Dataflows automatisch auf das Back-End um, wenn die Datengröße einen bestimmten Schwellenwert überschreitet, ohne dass bei der Erstellung der Datenflüsse etwas geändert werden muss. Nach der Aktualisierung eines Datenflusses können Sie in der Aktualisierungshistorie überprüfen, ob während des Laufs eine Schnellkopie verwendet wurde, indem Sie sich den dort angezeigten Enginetyp ansehen.

Wenn die Option Schnellkopie anfordern aktiviert ist, wird die Dataflow-Aktualisierung abgebrochen, wenn die Schnellkopie nicht verwendet wird. Dies hilft Ihnen zu vermeiden, auf ein Aktualisierungstimeout zu warten, um fortzufahren. Dieses Verhalten kann auch bei einer Debugsitzung hilfreich sein, um das Dataflow-Verhalten mit Ihren Daten zu testen, während die Wartezeit reduziert wird. Mithilfe der Schnellkopieanzeigen im Abfrageschrittbereich können Sie ganz einfach überprüfen, ob Ihre Abfrage mit schneller Kopie ausgeführt werden kann.

Screenshot, der zeigt, wo der Schnellkopieindikator im Abfrageschrittbereich angezeigt wird.

Voraussetzungen

  • Sie müssen über eine Fabric-Kapazität verfügen.
  • Bei Dateidaten handelt es sich um Dateien im .csv- oder Parquet-Format mit einer Größe von mindestens 100 MB, die in einem Azure Data Lake Storage (ADLS) Gen2 oder einem Blob-Storage-Konto gespeichert sind.
  • Für Datenbanken, einschließlich Azure SQL DB und PostgreSQL, sind 5 Millionen Zeilen oder mehr Daten in der Datenquelle enthalten.

Hinweis

Sie können den Schwellenwert umgehen, um die Schnellkopie zu erzwingen, indem Sie die Einstellung „Schnellkopie erforderlich“ auswählen.

Connector-Unterstützung

Schnelle Kopie wird derzeit für die folgenden Dataflow Gen2-Connectors unterstützt:

  • ADLS Gen2
  • Blob Storage
  • Azure SQL-Datenbank
  • Lakehouse
  • PostgreSQL
  • Lokale SQL Server-Instanz
  • Warehouse
  • Oracle
  • Snowflake

Die Kopieraktivität unterstützt nur einige Transformationen beim Herstellen einer Verbindung mit einer Dateiquelle:

  • Dateien kombinieren
  • Spalten auswählen
  • Datentypen ändern
  • Umbenennen einer Spalte
  • Entfernen einer Spalte

Sie können weiterhin andere Transformationen anwenden, indem Sie die Schritte der Aufnahme und Transformation in separate Abfragen aufteilen. Die erste Abfrage ruft die Daten tatsächlich ab und die zweite Abfrage verweist auf ihre Ergebnisse, so dass DW compute verwendet werden kann. Bei SQL-Quellen wird jede Transformation unterstützt, die Teil der nativen Abfrage ist.

Wenn Sie die Abfrage direkt in ein Ausgabeziel laden, werden derzeit nur Lakehouse-Ziele unterstützt. Wenn Sie eine andere Ausgabedestination verwenden möchten, können Sie die Abfrage zuerst erstellen und später darauf verweisen.

So verwenden Sie die Schnellkopie

  1. Navigieren Sie zum entsprechenden Fabric-Endpunkt.

  2. Navigieren Sie zu einem Premium-Arbeitsbereich und erstellen Sie einen Datenfluss Gen2.

  3. Wählen Sie auf der Registerkarte Start des neuen Datenflusses Optionen:

    Screenshot, der zeigt, wo die Optionen für Dataflows Gen2 auf der Registerkarte Home auszuwählen sind.

  4. Wählen Sie dann im Dialogfeld Optionen die Registerkarte Skalieren und aktivieren Sie das Kontrollkästchen Verwendung von Schnellkopie-Verbindungen zulassen, um die Schnellkopie zu aktivieren. Schließen Sie dann das Dialogfeld Optionen.

    Der Screenshot zeigt, wo die Schnellkopie auf der Registerkarte „Skalieren“ des Dialogs „Optionen“ aktiviert werden kann.

  5. Wählen Sie Daten abrufen und dann die Quelle ADLS Gen2 aus und geben Sie die Details für Ihren Container ein.

  6. Verwenden Sie die Funktion Datei kombinieren.

    Der Screenshot zeigt das Datenfenster des Vorschauordners mit der hervorgehobenen Option „Kombinieren“.

  7. Um ein schnelles Kopieren zu gewährleisten, sollten Sie nur die Transformationen anwenden, die im Abschnitt über die Unterstützung von Connectors in diesem Artikel aufgeführt sind. Wenn Sie weitere Transformationen anwenden müssen, stellen Sie die Daten zunächst bereit und verweisen später auf die Abfrage. Andere Transformationen an der referenzierten Abfrage vornehmen.

  8. (Optional) Sie können die Option Schnellkopie anfordern für die Abfrage einstellen, indem Sie mit der rechten Maustaste auf die Abfrage klicken, um diese Option auszuwählen und zu aktivieren.

    Screenshot zeigt, wo die Option Schnellkopie anfordern im Rechtsklickmenü für eine Abfrage ausgewählt werden kann.

  9. (Optional) Derzeit können Sie nur ein Lakehouse als Ausgabeziel konfigurieren. Für jedes andere Ziel stellen Sie die Abfrage bereit und referenzieren sie später in einer anderen Abfrage, in der Sie die Ausgabe in eine beliebige Quelle vornehmen können.

  10. Prüfen Sie die Schnellkopie-Indikatoren, um festzustellen, ob Ihre Abfrage mit Schnellkopie ausgeführt werden kann. Wenn ja, zeigt der Engine-Typ CopyActivity an.

    Screenshot mit den Aktualisierungsdetails, der anzeigt, dass die Pipeline CopyActivity Engine verwendet wurde.

  11. Veröffentlichen Sie den Dataflow.

  12. Prüfen Sie nach Abschluss der Aktualisierung, ob die Schnellkopie verwendet wurde.

So teilen Sie Ihre Abfrage auf, um eine Schnellkopie zu nutzen

Um eine optimale Leistung bei der Verarbeitung großer Datenmengen mit Dataflow Gen2 zu erzielen, verwenden Sie die Funktion "Schnellkopie", um zuerst Daten in das Staging aufzunehmen und sie dann in großem Maßstab mit SQL DW-Compute zu transformieren. Dieser Ansatz verbessert die End-to-End-Leistung erheblich.

Um dies zu implementieren, können Sie mithilfe von Schnellkopie-Indikatoren die Abfrage in zwei Teile aufteilen: die Datenaufnahme für das Staging und die groß angelegte Transformation mit SQL DW-Berechnungsleistung. Es wird empfohlen, soweit wie möglich die Auswertung einer Abfrage an Schnellkopie zu übergeben, das zur Aufnahme Ihrer Daten verwendet werden kann. Wenn Schnellkopie-Indikatoren erkennen, dass die übrigen Schritte nicht von Schnellkopie ausgeführt werden können, können Sie den Rest der Abfrage bei aktiviertem Staging teilen.

Schrittdiagnoseindikatoren

Indikator Symbol Beschreibung
Dieser Schritt wird mit Schnellkopie bewertet werden Der Indikator "Schnellkopie" teilt Ihnen mit, dass die Abfrage bis zu diesem Schritt "Schnellkopie" unterstützt.
Dieser Schritt wird nicht durch Fast Copy unterstützt. Der Indikator "Schnelle Kopie" zeigt, dass dieser Schritt keine Schnellkopie unterstützt.
Ein oder mehrere Schritte in Ihrer Abfrage werden von schneller Abfrage nicht unterstützt Der Indikator "Fast Copy" zeigt, dass einige Schritte in dieser Abfrage Fast Copy unterstützen, während andere dies nicht tun. Um die Abfrage zu optimieren, teilen Sie die Abfrage auf in: gelbe Schritte (möglicherweise von Fast Copy unterstützt) und rote Schritte (nicht unterstützt).

Schrittweise Anleitung

Nach Abschluss Ihrer Datentransformationslogik in Dataflow Gen2 bewertet der Schnellkopie-Indikator jeden Schritt, um festzustellen, wie viele Schritte Schnellkopie nutzen können, um die Leistung zu verbessern.

Im folgenden Beispiel wird der letzte Schritt rot angezeigt, was zeigt, dass der Schritt mit Group By von Fast Copy nicht unterstützt wird. Alle vorherigen Schritte, die gelb markiert sind, können potenziell jedoch von Fast Copy unterstützt werden.

Screenshot mit der ersten Abfrage.

Wenn Sie Ihre Dataflow Gen2 in diesem Moment direkt veröffentlichen und ausführen, wird die Schnellkopie-Engine nicht genutzt, um Ihre Daten zu laden, wie im untenstehenden Bild angegeben:

Screenshot mit dem Ergebnis ohne schnelles Kopieren aktiviert.

Um die Schnellkopie-Engine zu verwenden und die Leistung Ihres Dataflow Gen2 zu verbessern, können Sie Ihre Abfrage in zwei Teile unterteilen: Datenaufnahme in das Staging und umfangreiche Transformation mit SQL DW-Compute, wie folgt:

  1. Entfernen Sie die Transformationen (rot), die von Fast Copy nicht unterstützt werden, zusammen mit dem Ziel (sofern definiert).

  2. Der Indikator "Fast Copy" zeigt jetzt für die verbleibenden Schritte grün an, was bedeutet, dass Ihre erste Abfrage Fast Copy nutzen kann, um die Leistung zu verbessern.

    Wählen Sie "Aktion" für Ihre erste Abfrage aus und aktivieren Sie dann "Staging" und "Referenz".

    Screenshot, der die zweite Abfrage zeigt.

  3. In einer neuen Abfrage, auf die verwiesen wird, wurde die Transformation "Gruppieren nach" und das Ziel (falls zutreffend) gelesen.

    Screenshot mit der dritten Abfrage.

  4. Veröffentlichen und aktualisieren Sie Ihren Dataflow Gen2. Nun werden zwei Abfragen in Ihrem Dataflow Gen2 angezeigt, und die Gesamtdauer wird deutlich reduziert.

    • Die erste Abfrage erfasst Daten mithilfe von Schnellkopie in staging.

    • Die zweite Abfrage führt große Transformationen mithilfe der SQL DW-Berechnung aus.

      Screenshot mit dem Ergebnis der Abfrage.

    Die erste Abfrage:

    Screenshot mit dem Ergebnis der Erfassung.

    Die zweite Abfrage:

    Screenshot mit dem Ergebnis der Transformation.

Bekannte Einschränkungen

  1. Für die Unterstützung von Fast Copy ist ein lokales Datengateway, Version 3000.214.2 oder höher, erforderlich.
  2. Das VNet-Gateway wird nicht unterstützt.
  3. Das Schreiben von Daten in eine vorhandene Tabelle in Lakehouse wird nicht unterstützt.
  4. Festes Schema wird nicht unterstützt.