Schnelle Kopie in Dataflows Gen2
Dieser Artikel beschreibt die Schnellkopierfunktion in Dataflows Gen2 für Data Factory in Microsoft Fabric. Dataflows helfen beim Einlesen und Umwandeln von Daten. Mit der Einführung von Dataflow Scale Out mit SQL DW Compute können Sie Ihre Daten in großem Umfang umwandeln. Ihre Daten müssen jedoch zuerst aufgenommen werden. Mit der Einführung von Fast Copy können Sie Terabytes von Daten mit der einfachen Erfahrung von Datenflüssen aufnehmen, aber mit dem skalierbaren Back-End der Pipeline Copy-Aktivität.
Nach der Aktivierung dieser Funktion schalten Dataflows automatisch auf das Back-End um, wenn die Datengröße einen bestimmten Schwellenwert überschreitet, ohne dass bei der Erstellung der Datenflüsse etwas geändert werden muss. Nach der Aktualisierung eines Datenflusses können Sie in der Aktualisierungshistorie überprüfen, ob während des Laufs eine Schnellkopie verwendet wurde, indem Sie sich den dort angezeigten Enginetyp ansehen.
Wenn die Option Schnellkopie anfordern aktiviert ist, wird die Dataflow-Aktualisierung abgebrochen, wenn die Schnellkopie nicht verwendet wird. Dies hilft Ihnen zu vermeiden, auf ein Aktualisierungstimeout zu warten, um fortzufahren. Dieses Verhalten kann auch bei einer Debugsitzung hilfreich sein, um das Dataflow-Verhalten mit Ihren Daten zu testen, während die Wartezeit reduziert wird. Mithilfe der Schnellkopieanzeigen im Abfrageschrittbereich können Sie ganz einfach überprüfen, ob Ihre Abfrage mit schneller Kopie ausgeführt werden kann.
Voraussetzungen
- Sie müssen über eine Fabric-Kapazität verfügen.
- Bei Dateidaten handelt es sich um Dateien im .csv- oder Parquet-Format mit einer Größe von mindestens 100 MB, die in einem Azure Data Lake Storage (ADLS) Gen2 oder einem Blob-Storage-Konto gespeichert sind.
- Für Datenbanken, einschließlich Azure SQL DB und PostgreSQL, sind 5 Millionen Zeilen oder mehr Daten in der Datenquelle enthalten.
Hinweis
Sie können den Schwellenwert umgehen, um die Schnellkopie zu erzwingen, indem Sie die Einstellung „Schnellkopie erforderlich“ auswählen.
Connector-Unterstützung
Schnelle Kopie wird derzeit für die folgenden Dataflow Gen2-Connectors unterstützt:
- ADLS Gen2
- Blob Storage
- Azure SQL-Datenbank
- Lakehouse
- PostgreSQL
- Lokale SQL Server-Instanz
- Warehouse
- Oracle
- Snowflake
Die Kopieraktivität unterstützt nur einige Transformationen beim Herstellen einer Verbindung mit einer Dateiquelle:
- Dateien kombinieren
- Spalten auswählen
- Datentypen ändern
- Umbenennen einer Spalte
- Entfernen einer Spalte
Sie können weiterhin andere Transformationen anwenden, indem Sie die Schritte der Aufnahme und Transformation in separate Abfragen aufteilen. Die erste Abfrage ruft die Daten tatsächlich ab und die zweite Abfrage verweist auf ihre Ergebnisse, so dass DW compute verwendet werden kann. Bei SQL-Quellen wird jede Transformation unterstützt, die Teil der nativen Abfrage ist.
Wenn Sie die Abfrage direkt in ein Ausgabeziel laden, werden derzeit nur Lakehouse-Ziele unterstützt. Wenn Sie eine andere Ausgabedestination verwenden möchten, können Sie die Abfrage zuerst erstellen und später darauf verweisen.
So verwenden Sie die Schnellkopie
Navigieren Sie zum entsprechenden Fabric-Endpunkt.
Navigieren Sie zu einem Premium-Arbeitsbereich und erstellen Sie einen Datenfluss Gen2.
Wählen Sie auf der Registerkarte Start des neuen Datenflusses Optionen:
Wählen Sie dann im Dialogfeld Optionen die Registerkarte Skalieren und aktivieren Sie das Kontrollkästchen Verwendung von Schnellkopie-Verbindungen zulassen, um die Schnellkopie zu aktivieren. Schließen Sie dann das Dialogfeld Optionen.
Wählen Sie Daten abrufen und dann die Quelle ADLS Gen2 aus und geben Sie die Details für Ihren Container ein.
Verwenden Sie die Funktion Datei kombinieren.
Um ein schnelles Kopieren zu gewährleisten, sollten Sie nur die Transformationen anwenden, die im Abschnitt über die Unterstützung von Connectors in diesem Artikel aufgeführt sind. Wenn Sie weitere Transformationen anwenden müssen, stellen Sie die Daten zunächst bereit und verweisen später auf die Abfrage. Andere Transformationen an der referenzierten Abfrage vornehmen.
(Optional) Sie können die Option Schnellkopie anfordern für die Abfrage einstellen, indem Sie mit der rechten Maustaste auf die Abfrage klicken, um diese Option auszuwählen und zu aktivieren.
(Optional) Derzeit können Sie nur ein Lakehouse als Ausgabeziel konfigurieren. Für jedes andere Ziel stellen Sie die Abfrage bereit und referenzieren sie später in einer anderen Abfrage, in der Sie die Ausgabe in eine beliebige Quelle vornehmen können.
Prüfen Sie die Schnellkopie-Indikatoren, um festzustellen, ob Ihre Abfrage mit Schnellkopie ausgeführt werden kann. Wenn ja, zeigt der Engine-Typ CopyActivity an.
Veröffentlichen Sie den Dataflow.
Prüfen Sie nach Abschluss der Aktualisierung, ob die Schnellkopie verwendet wurde.
So teilen Sie Ihre Abfrage auf, um eine Schnellkopie zu nutzen
Um eine optimale Leistung bei der Verarbeitung großer Datenmengen mit Dataflow Gen2 zu erzielen, verwenden Sie die Funktion "Schnellkopie", um zuerst Daten in das Staging aufzunehmen und sie dann in großem Maßstab mit SQL DW-Compute zu transformieren. Dieser Ansatz verbessert die End-to-End-Leistung erheblich.
Um dies zu implementieren, können Sie mithilfe von Schnellkopie-Indikatoren die Abfrage in zwei Teile aufteilen: die Datenaufnahme für das Staging und die groß angelegte Transformation mit SQL DW-Berechnungsleistung. Es wird empfohlen, soweit wie möglich die Auswertung einer Abfrage an Schnellkopie zu übergeben, das zur Aufnahme Ihrer Daten verwendet werden kann. Wenn Schnellkopie-Indikatoren erkennen, dass die übrigen Schritte nicht von Schnellkopie ausgeführt werden können, können Sie den Rest der Abfrage bei aktiviertem Staging teilen.
Schrittdiagnoseindikatoren
Indikator | Symbol | Beschreibung |
---|---|---|
Dieser Schritt wird mit Schnellkopie bewertet werden | ![]() |
Der Indikator "Schnellkopie" teilt Ihnen mit, dass die Abfrage bis zu diesem Schritt "Schnellkopie" unterstützt. |
Dieser Schritt wird nicht durch Fast Copy unterstützt. | ![]() |
Der Indikator "Schnelle Kopie" zeigt, dass dieser Schritt keine Schnellkopie unterstützt. |
Ein oder mehrere Schritte in Ihrer Abfrage werden von schneller Abfrage nicht unterstützt | ![]() |
Der Indikator "Fast Copy" zeigt, dass einige Schritte in dieser Abfrage Fast Copy unterstützen, während andere dies nicht tun. Um die Abfrage zu optimieren, teilen Sie die Abfrage auf in: gelbe Schritte (möglicherweise von Fast Copy unterstützt) und rote Schritte (nicht unterstützt). |
Schrittweise Anleitung
Nach Abschluss Ihrer Datentransformationslogik in Dataflow Gen2 bewertet der Schnellkopie-Indikator jeden Schritt, um festzustellen, wie viele Schritte Schnellkopie nutzen können, um die Leistung zu verbessern.
Im folgenden Beispiel wird der letzte Schritt rot angezeigt, was zeigt, dass der Schritt mit Group By von Fast Copy nicht unterstützt wird. Alle vorherigen Schritte, die gelb markiert sind, können potenziell jedoch von Fast Copy unterstützt werden.
Wenn Sie Ihre Dataflow Gen2 in diesem Moment direkt veröffentlichen und ausführen, wird die Schnellkopie-Engine nicht genutzt, um Ihre Daten zu laden, wie im untenstehenden Bild angegeben:
Um die Schnellkopie-Engine zu verwenden und die Leistung Ihres Dataflow Gen2 zu verbessern, können Sie Ihre Abfrage in zwei Teile unterteilen: Datenaufnahme in das Staging und umfangreiche Transformation mit SQL DW-Compute, wie folgt:
Entfernen Sie die Transformationen (rot), die von Fast Copy nicht unterstützt werden, zusammen mit dem Ziel (sofern definiert).
Der Indikator "Fast Copy" zeigt jetzt für die verbleibenden Schritte grün an, was bedeutet, dass Ihre erste Abfrage Fast Copy nutzen kann, um die Leistung zu verbessern.
Wählen Sie "Aktion" für Ihre erste Abfrage aus und aktivieren Sie dann "Staging" und "Referenz".
In einer neuen Abfrage, auf die verwiesen wird, wurde die Transformation "Gruppieren nach" und das Ziel (falls zutreffend) gelesen.
Veröffentlichen und aktualisieren Sie Ihren Dataflow Gen2. Nun werden zwei Abfragen in Ihrem Dataflow Gen2 angezeigt, und die Gesamtdauer wird deutlich reduziert.
Die erste Abfrage erfasst Daten mithilfe von Schnellkopie in staging.
Die zweite Abfrage führt große Transformationen mithilfe der SQL DW-Berechnung aus.
Die erste Abfrage:
Die zweite Abfrage:
Bekannte Einschränkungen
- Für die Unterstützung von Fast Copy ist ein lokales Datengateway, Version 3000.214.2 oder höher, erforderlich.
- Das VNet-Gateway wird nicht unterstützt.
- Das Schreiben von Daten in eine vorhandene Tabelle in Lakehouse wird nicht unterstützt.
- Festes Schema wird nicht unterstützt.