Microsoft Fabric-Entscheidungsleitfaden: Auswählen eines Datenspeichers

Artikel
01/31/2025

Verwenden Sie dieses Referenzhandbuch und die Beispielszenarien, die Ihnen bei der Auswahl eines Datenspeichers für Ihre Microsoft Fabric-Workloads helfen.

Datenspeichereigenschaften

Verwenden Sie diese Informationen, um Fabric-Datenspeicher wie Lager, Lakehouse, Eventhouse, SQL-Datenbank und Power BI-Datenmart zu vergleichen, basierend auf Datenvolume, Typ, Entwicklerpersona, Fähigkeiten, Vorgängen und anderen Funktionen. Diese Vergleiche sind in den folgenden beiden Tabellen angeordnet:

Tabelle 1 von 2	Lakehouse	Lager	Eventhouse
Datenvolumen	Unbegrenzt	Unbegrenzt	Unbegrenzt
Datentyp	Unstrukturiert Teilweise strukturiert, Strukturiert	Strukturiert, Teilweise strukturiert (JSON)	Unstrukturiert Teilweise strukturiert, Strukturiert
Primäre Entwicklerpersona-	Dateningenieur, Datenwissenschaftler	Data Warehouse-Entwickler, Datenarchitekt, Dateningenieur, Datenbankentwickler	App-Entwickler, Datenwissenschaftler, Datentechniker
Primäre Entwicklungskompetenz	Spark (Scala, PySpark, Spark SQL, R)	SQL	Kein Code, KQL, SQL
Daten organisiert nach	Ordner und Dateien, Datenbanken und Tabellen	Datenbanken, Schemas und Tabellen	Datenbanken, Schemas und Tabellen
Lesevorgänge	Spark, T-SQL	T-SQL, Spark*	KQL, T-SQL, Spark
Schreibvorgänge	Spark (Scala, PySpark, Spark SQL, R)	T-SQL	KQL, Spark, Connector-Ökosystem
Transaktionen mit mehreren Tabellen	Nein	Ja	Ja, für die Erfassung mit mehreren Tabellen
Primäre Entwicklungsschnittstelle	Spark-Notizbücher, Spark-Auftragsdefinitionen	SQL-Skripts	KQL Queryset, KQL-Datenbank
Sicherheit	RLS, CLS**, Tabellenebene (T-SQL), keine für Spark	Objektebene, RLS, CLS, DDL/DML, dynamische Datenformatierung	RLS
Zugreifen auf Daten über Verknüpfungen	Ja	Ja, über den SQL-Analyseendpunkt	Ja
Kann eine Ursprungsquelle für Abkürzungen sein	Ja (Dateien und Tabellen)	Ja (Tabellen)	Ja
Elementübergreifende Abfragen	Ja	Ja	Ja
Erweiterte Analysen	Schnittstelle für umfangreiche Datenverarbeitung, integrierte Datenparallelität und Fehlertoleranz	Schnittstelle für umfangreiche Datenverarbeitung, integrierte Datenparallelität und Fehlertoleranz	Systemeigene Elemente der Zeitreihe, vollständige georäumliche und Abfragefunktionen
Erweiterte Formatierungsunterstützung	Tabellen, die mithilfe von PARQUET, CSV, AVRO, JSON und jedem kompatiblen Apache Hive-Dateiformat definiert sind	Tabellen, die mithilfe von PARQUET, CSV, AVRO, JSON und jedem kompatiblen Apache Hive-Dateiformat definiert sind	Vollständige Indizierung für Freitext und halbstrukturierte Daten wie JSON
Verzögerung bei der Aufnahme	Sofort verfügbar für Abfragen	Sofort verfügbar für Abfragen	Erfassung in Warteschlangen, Streamingerfassung mit einer Latenz von einigen Sekunden

* Spark unterstützt das Lesen von Tabellen mithilfe von Tastenkombinationen, unterstützt den Zugriff auf Ansichten, gespeicherte Prozeduren, Funktionen usw. noch nicht.

Tabelle 2 von 2	Fabric SQL-Datenbank	Power BI Datamart
Datenvolumen	4 TB	Bis zu 100 GB
Datentyp	Strukturiert, Teilweise strukturiert, unstrukturiert	Strukturiert
Primäre Entwicklerpersona-	KI-Entwickler, App-Entwickler, Datenbankentwickler, DB-Administrator	Wissenschaftliche Fachkraft für Daten, Data Analyst
Primäre Entwicklungskompetenz	SQL	Kein Code, SQL
Daten geordnet nach	Datenbanken, Schemas, Tabellen	Datenbank, Tabellen, Abfragen
Lesevorgänge	T-SQL	Spark, T-SQL
Schreibvorgänge	T-SQL	Datenflüsse, T-SQL
Transaktionen mit mehreren Tabellen	Ja, vollständige ACID-Konformität	Nein
Primäre Entwicklungsschnittstelle	SQL-Skripts	Power BI
Sicherheit	Objektebene, RLS, CLS, DDL/DML, dynamische Datenmaske	Integrierter RLS-Editor
Zugreifen auf Daten über Verknüpfungen	Ja	Nein
Kann eine Abkürzungsquelle sein	Ja (Tabellen)	Nein
Elementübergreifende Abfragen	Ja	Nein
Erweiterte Analysen	T-SQL-Analysefunktionen, Daten, die in Delta-Parkett in OneLake für Analysen repliziert wurden	Schnittstelle für die Datenverarbeitung mit automatisierter Leistungsoptimierung
Erweiterte Formatierungsunterstützung	Tabellenunterstützung für OLTP, JSON, Vektor, Graph, XML, spatial, key-value	Tabellen, die mithilfe von PARQUET, CSV, AVRO, JSON und jedem kompatiblen Apache Hive-Dateiformat definiert sind
Erfassungslatenz	Sofort verfügbar für Abfragen	Sofort verfügbar für Abfragen

** Sicherheit auf Spaltenebene, die über einen SQL-Analyseendpunkt über T-SQL im Lakehouse verfügbar ist.

Drehbücher

Überprüfen Sie diese Szenarien, um Hilfe bei der Auswahl eines Datenspeichers in Fabric zu erfahren.

Szenario 1

Susan, ein professioneller Entwickler, ist neu bei Microsoft Fabric. Sie sind bereit, mit der Reinigung, Modellierung und Analyse von Daten zu beginnen, müssen aber entscheiden, ein Data Warehouse oder ein Seehaus zu erstellen. Nach Überprüfung der Details in der vorherigen Tabelle sind die wichtigsten Entscheidungspunkte die verfügbaren Fähigkeiten und die Notwendigkeit von Transaktionen mit mehreren Tabellen.

Susan hat viele Jahre damit verbracht, Data Warehouses auf relationalen Datenbankmodulen zu erstellen und ist mit DER SQL-Syntax und -Funktionalität vertraut. Denken Sie an das größere Team, die primären Verbraucher dieser Daten sind auch mit SQL- und SQL-Analysetools vertraut. Susan entscheidet sich, ein Fabric Warehousezu verwenden, das es dem Team ermöglicht, hauptsächlich mit T-SQL zu interagieren, während alle Spark-Benutzer in der Organisation auf die Daten zugreifen können.

Susan erstellt ein neues Data Warehouse und interagiert mit T-SQL genau wie ihre anderen SQL Server-Datenbanken. Die meisten der vorhandenen T-SQL-Code, den sie zum Erstellen ihres Warehouses auf SQL Server geschrieben hat, arbeitet am Fabric Data Warehouse und erleichtert den Übergang. Wenn sie sich dafür entscheidet, kann sie sogar dieselben Tools wie SQL Server Management Studio verwenden, die mit ihren anderen Datenbanken arbeiten. Mit dem SQL-Editor im Fabric-Portal schreiben Susan und andere Teammitglieder Analyseabfragen, die auf andere Data Warehouses und Delta-Tabellen in Lakehouses verweisen, indem sie einfach dreiteilige Namen verwenden, um datenbankübergreifende Abfragen auszuführen.

Szenario 2

Rob, ein Datentechniker, muss mehrere Terabyte Daten in Fabric speichern und modellieren. Das Team verfügt über eine Mischung aus PySpark- und T-SQL-Fähigkeiten. Die meisten Mitglieder des Teams, das T-SQL-Abfragen ausführt, sind Nutzer und müssen daher keine INSERT-, UPDATE- oder DELETE-Anweisungen schreiben. Die restlichen Entwickler arbeiten bequem in Notizbüchern, und da die Daten in Delta gespeichert sind, können sie mit einer ähnlichen SQL-Syntax interagieren.

Rob beschließt, ein Lakehouse zu verwenden. Auf diese Weise kann das Datentechnikteam die vielfältigen Fähigkeiten für die Daten nutzen, während die Teammitglieder mit umfassenden T-SQL-Kenntnissen die Daten verwenden können.

Szenario 3

Ash, ein Bürgerentwickler, ist ein Power BI-Entwickler. Sie sind mit Excel, Power BI und Office vertraut. Sie müssen ein Datenprodukt für eine Geschäftseinheit erstellen. Sie wissen, dass sie nicht ganz über die Fähigkeiten verfügen, ein Data Warehouse oder ein Lakehouse zu erstellen, und diese scheinen zu viel für ihre Bedürfnisse und ihr Datenvolumen zu sein. Sie überprüfen die Details in der vorherigen Tabelle und sehen, dass die wichtigsten Entscheidungspunkte ihre eigenen Fähigkeiten und ihre Notwendigkeit für einen Self-Service, keine Codefunktion und Datenvolumen unter 100 GB sind.

Ash arbeitet mit Geschäftsanalysten zusammen, die mit Power BI und Microsoft Office vertraut sind und wissen, dass sie bereits über ein Premium-Kapazitätsabonnement verfügen. Wenn sie über ihr größeres Team nachdenken, erkennen sie, dass die primären Verbraucher dieser Daten Analysten sind, die mit No-Code- und SQL-Analysetools vertraut sind. Ash entscheidet sich für Data Marts in Power BI, mit denen das Team unter Verwendung einer No-Code-Umgebung das Produkt schnell entwickeln kann. Abfragen können über Power BI und T-SQL ausgeführt werden, während alle Spark-Benutzer in der Organisation auch auf die Daten zugreifen können.

Szenario 4

Daisy ist eine erfahrene Business Analystin, die Power BI nutzt, um Engpässe in der Lieferkette für eine große globale Einzelhandelskette zu analysieren. Sie müssen eine skalierbare Datenlösung erstellen, die Milliarden von Datenzeilen verarbeiten kann und zum Erstellen von Dashboards und Berichten verwendet werden kann, die zum Treffen von Geschäftsentscheidungen verwendet werden können. Die Daten stammen aus Anlagen, Lieferanten, Versandfirmen und anderen Quellen in verschiedenen strukturierten, halbstrukturierten und unstrukturierten Formaten.

Daisy entscheidet sich, Eventhouse aufgrund seiner Skalierbarkeit, schnellen Reaktionszeiten, erweiterten Analysefunktionen, einschließlich Zeitreihenanalysen und Geospatialfunktionen, sowie des schnellen Modus für direkte Abfragen in Power BI zu verwenden. Abfragen können mithilfe von Power BI und KQL ausgeführt werden, um zwischen aktuellen und vorherigen Zeiträumen zu vergleichen, neue Probleme schnell zu identifizieren oder geo-räumliche Analysen von Land- und Seerouten bereitzustellen.

Szenario 5

Kirby ist ein Anwendungsarchitekt, der in der Entwicklung von .NET-Anwendungen für Betriebsdaten erfahren hat. Sie benötigen eine hohe Parallelitätsdatenbank mit vollständiger ACID-Transaktionscompliance und stark erzwungenen Fremdschlüsseln für relationale Integrität. Kirby möchte den Vorteil der automatischen Leistungsoptimierung nutzen, um die tägliche Datenbankverwaltung zu vereinfachen.

Kirby entscheidet sich für eine SQL-Datenbank in Fabricmit demselben SQL-Datenbankmodul wie Azure SQL Database. SQL-Datenbanken in Fabric werden automatisch skaliert, um den Bedarf während des gesamten Arbeitstags zu erfüllen. Sie verfügen über die volle Funktionalität von Transaktionstabellen und die Flexibilität der Transaktionsisolationsstufen von serialisierbar bis zum Lesen von zugesicherten Momentaufnahmen. SQL-Datenbank in Fabric erstellt und löscht nicht gruppierte Indizes automatisch basierend auf starken Signalen von im Laufe der Zeit beobachteten Ausführungsplänen.

In Kirbys Szenario müssen Daten aus der operativen Anwendung mit anderen Daten in Fabric verknüpft werden: in Spark, in einem Lager und aus Echtzeitereignissen in einem Eventhouse. Jede Fabric-Datenbank enthält einen SQL-Analyseendpunkt, sodass daten über Spark oder mit Power BI-Abfragen im DirectLake-Modus in Echtzeit aufgerufen werden können. Diese Berichterstellungslösungen entlasten die primäre operative Datenbank vom Aufwand analytischer Workloads und vermeiden Denormalisierung. Kirby verfügt auch über vorhandene Betriebsdaten in anderen SQL-Datenbanken und muss diese Daten ohne Transformation importieren. Um vorhandene Betriebsdaten ohne Datentypkonvertierung zu importieren, erstellt Kirby Datenpipelinen mit Fabric Data Factory, um Daten in die Fabric SQL-Datenbank zu importieren.

Freigeben über

Microsoft Fabric-Entscheidungsleitfaden: Auswählen eines Datenspeichers

Datenspeichereigenschaften

Drehbücher

Szenario 1

Szenario 2

Szenario 3

Szenario 4

Szenario 5

Feedback

Zusätzliche Ressourcen

Freigeben über

Microsoft Fabric-Entscheidungsleitfaden: Auswählen eines Datenspeichers

Datenspeichereigenschaften

Drehbücher

Szenario 1

Szenario 2

Szenario 3

Szenario 4

Szenario 5

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen