Microsoft Fabric-Entscheidungsleitfaden: Kopieren von Aktivitäten, Datenflüssen oder Spark

Artikel
01/31/2025

Verwenden Sie dieses Referenzhandbuch und die Beispielszenarien, um zu entscheiden, ob Sie eine Kopieraktivität, einen Datenfluss oder Spark für Ihre Microsoft Fabric-Workloads benötigen.

Kopieren von Aktivitäts-, Datenfluss- und Spark-Eigenschaften

	Pipeline-Copy-Aktivität	Dataflow Gen 2	Spark
Anwendungsfall	Data Lake- und Data Warehouse-Migration, Datenaufnahme, Lightweight-Transformation	Datenaufnahme, Datentransformation, Data Wrangling, Datenprofilerstellung	Datenaufnahme, Datentransformation, Datenverarbeitung Datenprofilerstellung
Primäre Entwicklerpersona-	Datentechniker, Datenintegrator	Datentechniker, Datenintegrator, Wirtschaftsanalytiker	Datentechniker, Datenwissenschaftler Datenentwickler
Primäre Entwicklerkenntnisse	ETL, SQL, JSON	ETL, M, SQL	Spark (Scala, Python, Spark SQL, R)
Geschriebener Code	Kein Code, wenig Code	Kein Code, wenig Code	Code
Datenvolumen	Niedrig bis hoch	Niedrig bis hoch	Niedrig bis hoch
Entwicklungsschnittstelle	Zauberer Leinwand	Power Query	Notebook, Spark-Auftragsdefinition
Quellen	30+ Verbinder	150+ Verbinder	Hunderte von Spark-Bibliotheken
Reiseziele	mehr als 18 Connectors	Lakehouse, Azure SQL-Datenbank, Azure Data Explorer, Azure Synapse-Analyse	Hunderte von Spark-Bibliotheken
Transformationskomplexität	Niedrig: Lightweight: Typkonvertierung, Spaltenzuordnung, Dateien zusammenführen/teilen, Hierarchie vereinfachen	Niedrig bis hoch: 300+ Transformationsfunktionen	Niedrig bis hoch: Unterstützung für systemeigene Spark- und Open-Source-Bibliotheken

Sehen Sie sich die folgenden drei Szenarien an, um Hilfe bei der Auswahl der Verwendung ihrer Daten in Fabric zu erfahren.

Szenario1

Leo, ein Dateningenieur, muss ein großes Datenvolumen aus externen Systemen sowohl lokal als auch in der Cloud aufnehmen. Zu diesen externen Systemen gehören Datenbanken, Dateisysteme und APIs. Leo möchte keinen Code für jeden Verbinder- oder Datenbewegungsvorgang schreiben und verwalten. Er möchte den Best Practices der Medaillon-Ebenen mit Bronze, Silber und Gold folgen. Leo hat keine Erfahrung mit Spark, daher bevorzugt er die Drag and Drop UI so viel wie möglich, mit minimaler Codierung. Und er möchte die Daten auch termingerecht verarbeiten.

Der erste Schritt besteht darin, die Rohdaten aus Azure-Datenressourcen und verschiedenen Drittanbieterquellen (z. B. Snowflake Web, REST, AWS S3, GCS usw.) in das Bronzeschichtseehaus zu integrieren. Er möchte ein konsolidiertes Daten-Lakehouse, damit alle Daten aus verschiedenen geschäftsbereichsspezifischen, lokalen On-Premises- und Cloud-Quellen an einem zentralen Ort liegen. Leo überprüft die Optionen und wählt die Pipeline-Copy-Aktivität als geeignete Wahl für seine rohe binäre Kopie aus. Dieses Muster gilt sowohl für die historische als auch für die inkrementelle Datenaktualisierung. Mit der Copy-Aktivität kann Leo Daten der Ebene „Gold“ ohne Code in ein Data Warehouse laden, wenn dies erforderlich ist, und Pipelines bieten eine umfassende Datenerfassung, wodurch Daten im Petabyte-Maßstab verschoben werden können. Die Copy-Aktivität ist die beste Wahl für Low-Code und No-Code, um Petabytes an Daten aus verschiedenen Quellen in Lakehouses und Warehouses zu verschieben, entweder ad-hoc oder über einen Zeitplan.

Szenario2

Mary ist technische Fachkraft für Daten mit fundierten Kenntnissen über die Anforderungen an die analysebasierte Berichterstattung in branchenspezifischen Analysen. Ein Upstreamteam hat erfolgreich eine Lösung implementiert, um die Verlaufsdaten und inkrementellen Daten mehrerer Branchenanwendungen in ein gemeinsames Lakehouse zu migrieren. Mary wurde beauftragt, die Daten zu bereinigen, Geschäftslogik anzuwenden und in mehrere Ziele (z. B. Azure SQL DB, ADX und ein Lakehouse) zu laden, um sie für ihre jeweiligen Berichterstellungsteams vorzubereiten.

Mary ist ein erfahrener Power Query-Benutzer, und das Datenvolumen befindet sich im niedrigen bis mittleren Bereich, um die gewünschte Leistung zu erzielen. Dataflows stellen No-Code- oder Low-Code-Schnittstellen zum Aufnehmen von Daten aus Hunderten von Datenquellen bereit. Mit Datenflüssen können Sie Daten mithilfe von 300+ Datentransformationsoptionen transformieren und die Ergebnisse in mehrere Ziele schreiben, mit einer benutzerfreundlichen, hochgradig visuellen Benutzeroberfläche. Mary überprüft die Optionen und entscheidet, dass es sinnvoll ist, Dataflow Gen 2 als bevorzugte Transformationsoption zu verwenden.

Szenario3

Adam ist ein Dateningenieur, der für ein großes Einzelhandelsunternehmen arbeitet, das ein Seehaus verwendet, um seine Kundendaten zu speichern und zu analysieren. Als Teil seiner Aufgabe ist Adam für das Erstellen und Verwalten der Datenpipelines verantwortlich, die Daten in das Lakehouse extrahieren, transformieren und laden. Eine der geschäftlichen Anforderungen des Unternehmens besteht darin, Analysen zur Kundenüberprüfung durchzuführen, um Einblicke in die Erfahrungen ihrer Kunden zu gewinnen und ihre Dienste zu verbessern.

Adam entscheidet, die beste Option besteht darin, Spark zum Erstellen der Extrakt- und Transformationslogik zu verwenden. Spark bietet eine verteilte Computerplattform, die große Datenmengen parallel verarbeiten kann. Er schreibt eine Spark-Anwendung mit Python oder Scala, die strukturierte, halbstrukturierte und unstrukturierte Daten aus OneLake für Kundenrezensionen und Feedback liest. Die Anwendung bereinigt, transformiert und schreibt Daten in Delta-Tabellen im Lakehouse. Die Daten können dann für nachgeschaltete Analysen verwendet werden.

Freigeben über

Microsoft Fabric-Entscheidungsleitfaden: Kopieren von Aktivitäten, Datenflüssen oder Spark

Kopieren von Aktivitäts-, Datenfluss- und Spark-Eigenschaften

Szenario1

Szenario2

Szenario3

Feedback

Zusätzliche Ressourcen

Freigeben über

Microsoft Fabric-Entscheidungsleitfaden: Kopieren von Aktivitäten, Datenflüssen oder Spark

Kopieren von Aktivitäts-, Datenfluss- und Spark-Eigenschaften

Szenario1

Szenario2

Szenario3

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen