Freigeben über


Microsoft Fabric-Entscheidungsleitfaden: Kopieren von Aktivitäten, Datenflüssen oder Spark

Verwenden Sie dieses Referenzhandbuch und die Beispielszenarien, um zu entscheiden, ob Sie eine Kopieraktivität, einen Datenfluss oder Spark für Ihre Microsoft Fabric-Workloads benötigen.

Kopieren von Aktivitäts-, Datenfluss- und Spark-Eigenschaften

Pipeline-Copy-Aktivität Dataflow Gen 2 Spark
Anwendungsfall Data Lake- und Data Warehouse-Migration,
Datenaufnahme,
Lightweight-Transformation
Datenaufnahme,
Datentransformation,
Data Wrangling,
Datenprofilerstellung
Datenaufnahme,
Datentransformation,
Datenverarbeitung
Datenprofilerstellung
Primäre Entwicklerpersona- Datentechniker,
Datenintegrator
Datentechniker,
Datenintegrator,
Wirtschaftsanalytiker
Datentechniker,
Datenwissenschaftler
Datenentwickler
Primäre Entwicklerkenntnisse ETL,
SQL,
JSON
ETL,
M,
SQL
Spark (Scala, Python, Spark SQL, R)
Geschriebener Code Kein Code,
wenig Code
Kein Code,
wenig Code
Code
Datenvolumen Niedrig bis hoch Niedrig bis hoch Niedrig bis hoch
Entwicklungsschnittstelle Zauberer
Leinwand
Power Query Notebook,
Spark-Auftragsdefinition
Quellen 30+ Verbinder 150+ Verbinder Hunderte von Spark-Bibliotheken
Reiseziele mehr als 18 Connectors Lakehouse,
Azure SQL-Datenbank,
Azure Data Explorer,
Azure Synapse-Analyse
Hunderte von Spark-Bibliotheken
Transformationskomplexität Niedrig:
Lightweight: Typkonvertierung, Spaltenzuordnung, Dateien zusammenführen/teilen, Hierarchie vereinfachen
Niedrig bis hoch:
300+ Transformationsfunktionen
Niedrig bis hoch:
Unterstützung für systemeigene Spark- und Open-Source-Bibliotheken

Sehen Sie sich die folgenden drei Szenarien an, um Hilfe bei der Auswahl der Verwendung ihrer Daten in Fabric zu erfahren.

Szenario1

Leo, ein Dateningenieur, muss ein großes Datenvolumen aus externen Systemen sowohl lokal als auch in der Cloud aufnehmen. Zu diesen externen Systemen gehören Datenbanken, Dateisysteme und APIs. Leo möchte keinen Code für jeden Verbinder- oder Datenbewegungsvorgang schreiben und verwalten. Er möchte den Best Practices der Medaillon-Ebenen mit Bronze, Silber und Gold folgen. Leo hat keine Erfahrung mit Spark, daher bevorzugt er die Drag and Drop UI so viel wie möglich, mit minimaler Codierung. Und er möchte die Daten auch termingerecht verarbeiten.

Der erste Schritt besteht darin, die Rohdaten aus Azure-Datenressourcen und verschiedenen Drittanbieterquellen (z. B. Snowflake Web, REST, AWS S3, GCS usw.) in das Bronzeschichtseehaus zu integrieren. Er möchte ein konsolidiertes Daten-Lakehouse, damit alle Daten aus verschiedenen geschäftsbereichsspezifischen, lokalen On-Premises- und Cloud-Quellen an einem zentralen Ort liegen. Leo überprüft die Optionen und wählt die Pipeline-Copy-Aktivität als geeignete Wahl für seine rohe binäre Kopie aus. Dieses Muster gilt sowohl für die historische als auch für die inkrementelle Datenaktualisierung. Mit der Copy-Aktivität kann Leo Daten der Ebene „Gold“ ohne Code in ein Data Warehouse laden, wenn dies erforderlich ist, und Pipelines bieten eine umfassende Datenerfassung, wodurch Daten im Petabyte-Maßstab verschoben werden können. Die Copy-Aktivität ist die beste Wahl für Low-Code und No-Code, um Petabytes an Daten aus verschiedenen Quellen in Lakehouses und Warehouses zu verschieben, entweder ad-hoc oder über einen Zeitplan.

Szenario2

Mary ist technische Fachkraft für Daten mit fundierten Kenntnissen über die Anforderungen an die analysebasierte Berichterstattung in branchenspezifischen Analysen. Ein Upstreamteam hat erfolgreich eine Lösung implementiert, um die Verlaufsdaten und inkrementellen Daten mehrerer Branchenanwendungen in ein gemeinsames Lakehouse zu migrieren. Mary wurde beauftragt, die Daten zu bereinigen, Geschäftslogik anzuwenden und in mehrere Ziele (z. B. Azure SQL DB, ADX und ein Lakehouse) zu laden, um sie für ihre jeweiligen Berichterstellungsteams vorzubereiten.

Mary ist ein erfahrener Power Query-Benutzer, und das Datenvolumen befindet sich im niedrigen bis mittleren Bereich, um die gewünschte Leistung zu erzielen. Dataflows stellen No-Code- oder Low-Code-Schnittstellen zum Aufnehmen von Daten aus Hunderten von Datenquellen bereit. Mit Datenflüssen können Sie Daten mithilfe von 300+ Datentransformationsoptionen transformieren und die Ergebnisse in mehrere Ziele schreiben, mit einer benutzerfreundlichen, hochgradig visuellen Benutzeroberfläche. Mary überprüft die Optionen und entscheidet, dass es sinnvoll ist, Dataflow Gen 2 als bevorzugte Transformationsoption zu verwenden.

Szenario3

Adam ist ein Dateningenieur, der für ein großes Einzelhandelsunternehmen arbeitet, das ein Seehaus verwendet, um seine Kundendaten zu speichern und zu analysieren. Als Teil seiner Aufgabe ist Adam für das Erstellen und Verwalten der Datenpipelines verantwortlich, die Daten in das Lakehouse extrahieren, transformieren und laden. Eine der geschäftlichen Anforderungen des Unternehmens besteht darin, Analysen zur Kundenüberprüfung durchzuführen, um Einblicke in die Erfahrungen ihrer Kunden zu gewinnen und ihre Dienste zu verbessern.

Adam entscheidet, die beste Option besteht darin, Spark zum Erstellen der Extrakt- und Transformationslogik zu verwenden. Spark bietet eine verteilte Computerplattform, die große Datenmengen parallel verarbeiten kann. Er schreibt eine Spark-Anwendung mit Python oder Scala, die strukturierte, halbstrukturierte und unstrukturierte Daten aus OneLake für Kundenrezensionen und Feedback liest. Die Anwendung bereinigt, transformiert und schreibt Daten in Delta-Tabellen im Lakehouse. Die Daten können dann für nachgeschaltete Analysen verwendet werden.