Greenfield-Lakehouse in Microsoft Fabric

Microsoft Fabric

Power BI

Diese Beispielworkload veranschaulicht eine Greenfield-Lösung zum Erstellen einer skalierbaren Datenplattform unter Verwendung von Microsoft Fabric und des Lakehouse-Entwurfsparadigmas. Fabric ist eine Plattform, die Datenspeicherung, -verarbeitung und -analyse integriert. Ein Greenfield-Lakehouse bietet einen guten Ausgangspunkt für die Gestaltung eines effizienten, zukunftssicheren Datenökosystems.

Aufbau

Diagramm: Greenfield-Lösung zum Erstellen einer stabilen, skalierbaren Datenplattform unter Verwendung des Lakehouse-Entwurfsparadigmas in Microsoft Fabric

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

Dieser Entwurf spiegelt die Lambda-Architektur wider, die die Datenverarbeitung auf zwei Ebenen aufteilt:

Eine Stapelverarbeitungsebene mit hohem Volumen, die regelmäßig verarbeitet wird, um historische Analysen zu erstellen
Eine latenzarme Datenstromverarbeitungsebene mit hohem Durchsatz für Echtzeitanalysen

Der Datenstromverarbeitungspfad erfasst und verarbeitet Daten in Quasi-Echtzeit und eignet sich somit perfekt für Dashboards und Anomalieerkennung. Der Batchverarbeitungspfad verarbeitet das gesamte Dataset, um Datenkonsistenz zu gewährleisten und komplexe historische Analysen zu ermöglichen. Dieser zweigleisige Ansatz bietet sowohl Echtzeiterkenntnisse als auch zuverlässige Aufzeichnungen zur späteren Erkundung.

Kalter Pfad: Batchanalyse

Data Warehouses, die auf relationaler SQL-Semantik basieren, sind der konventionelle Ansatz für die Analyse historischer Daten. Dieses Muster hat sich jedoch im Laufe der Zeit weiterentwickelt, und aktuell sind Lakehouses der Branchenstandard für die Batchdatenanalyse. Ein Lakehouse basiert auf Open-Source-Dateiformaten und kann im Gegensatz zu herkömmlichen Data Warehouses für alle Arten von Daten verwendet werden – ob strukturiert, halbstrukturiert oder unstrukturiert. Die Computeebene in einem Lakehouse basiert in der Regel auf dem Apache Spark-Framework. Dieses Framework bietet verteiltes Computing sowie eine hohe Leistung und ist deshalb die bevorzugte Engine für die Big Data-Verarbeitung. Fabric bietet eine native Lakehouse-Erfahrung, die auf dem Delta Lake-Dateiformat (Open Source) und einer verwalteten Spark-Runtime basiert.

Bei einer Lakehouse-Implementierung wird in der Regel die Medallion-Architektur verwendet. In dieser Architektur enthält die Bronze-Ebene die Rohdaten, die Silber-Ebene enthält die validierten und deduplizierten Daten, und die Gold-Ebene enthält stark verfeinerte Daten, die zur Unterstützung geschäftsorientierter Anwendungsfälle geeignet sind. Dieser Ansatz funktioniert in allen Organisationen und Branchen. Es ist ein allgemeiner Ansatz, den Sie an Ihre Anforderungen anpassen können. Diese Architektur zeigt, wie Sie ein Lakehouse unter Verwendung nativer Fabric-Komponenten erstellen.

Datenerfassung per Data Factory

(Siehe Schritt 1 im Diagramm.)

Das Feature Azure Data Factory in Fabric stellt die Funktionen des Azure Data Factory-Diensts (ein weit verbreiteter Datenintegrationsdienst) bereit. Der Data Factory-Dienst bietet zwar in erster Linie Orchestrierungsfunktionen über Pipelines, das Feature in Fabric bietet neben Pipelines jedoch auch Dataflows.

Mit Datenpipelines können Sie sofort einsatzbereite, umfassende Datenorchestrierungsfunktionen anwenden, um flexible Datenworkflows zu erstellen, die Ihre Unternehmensanforderungen erfüllen.
Dataflows ermöglichen die Verwendung von mehr als 300 Transformationen im Dataflows-Designer. Mit diesen Transformationen können Sie Daten über eine grafischen Benutzeroberfläche transformieren, die mit der grafischen Benutzeroberfläche in Power Query vergleichbar ist. Zu diesen Transformationen gehören auch intelligente KI-basierte Datentransformationen. Dataflows können zudem Daten in native Datenspeicher in Fabric schreiben. Hierzu zählen beispielsweise Lakehouse-, Warehouse-, Azure SQL- und Kusto-Datenbanken.

Abhängig von Ihren Anforderungen können Sie entweder eine oder beide dieser Funktionen verwenden, um ein umfassendes metadatengesteuertes Erfassungsframework zu erstellen. Sie können Daten aus verschiedenen Quellsystemen nach einem definierten Zeitplan oder mithilfe von Ereignistriggern integrieren.

Datentransformationen

(Siehe Schritt 2 im Diagramm.)

Für die Datenaufbereitung und -transformation gibt es zwei Ansätze. Wenn Sie eine Code-First-Erfahrung bevorzugen, können Sie Spark-Notebooks verwenden. Wenn Sie eine Erfahrung mit wenig oder keinem Code bevorzugen, können Sie Dataflows verwenden.

Fabric-Notebooks sind ein wichtiges Tool für die Entwicklung von Apache Spark-Aufträgen. Sie bieten eine webbasierte interaktive Oberfläche, die Datentechniker zum Schreiben von Code verwenden. Außerdem bieten sie umfangreiche Visualisierungen und ermöglichen die Verwendung von Markdowntext. Technische Fachkräfte für Daten schreiben Code für die Datenerfassung, -aufbereitung und -transformation. Wissenschaftliche Fachkräfte für Daten verwenden Notebooks zum Erstellen von Machine Learning-Lösungen – also beispielsweise zum Erstellen von Experimenten und Modellen und zum Nachverfolgen und Bereitstellen von Modellen.

Jeder Arbeitsbereich in Fabric verfügt über einen Spark-Starterpool, der für Spark-Standardaufträge verwendet wird. Starterpools bieten eine schnelle Initialisierung von Apache Spark-Sitzungen (in der Regel innerhalb von fünf bis zehn Sekunden) ganz ohne manuelle Einrichtung. Außerdem können Sie Apache Spark-Pools flexibel an Ihre Datentechnikanforderungen anpassen. Sie können die Größe der Knoten festlegen, die automatische Skalierung nutzen und Executors dynamisch basierend auf Ihren Spark-Auftragsanforderungen zuordnen. Für Anpassungen der Spark-Runtime können Sie Umgebungen verwenden. In einer Umgebung können Sie Computeeigenschaften konfigurieren, verschiedene Runtimes auswählen und Bibliothekspaketabhängigkeiten basierend auf Ihren Workloadanforderungen einrichten.

Dataflows ermöglichen es Ihnen, Daten aus verschiedenen Quellen zu extrahieren, sie mithilfe einer Vielzahl von Vorgängen zu transformieren und ggf. in ein Ziel zu laden. In der Regel verbringen technische Fachkräfte für Daten viel Zeit damit, Daten zu extrahieren, umzuwandeln und in ein verwendbares Format für Downstreamanalysen zu laden. Dataflow Gen2 bietet eine einfache, wiederverwendbare Möglichkeit zum Ausführen von ETL-Aufgaben (Extrahieren, Transformieren, Laden) mithilfe visueller Hinweise in Power Query Online. Der Dataflow bewahrt alle Transformationsschritte. Wenn Sie nach der Transformation andere Aufgaben ausführen oder Daten an ein anderes Ziel laden möchten, erstellen Sie eine Datenpipeline, und fügen Sie der Pipeline-Orchestrierung die Dataflow Gen2-Aktivität hinzu.

Heißer Pfad: Echtzeitanalysen

Die Datenverarbeitung in Echtzeit ist unverzichtbar für Unternehmen, die agil bleiben, schnell fundierte Entscheidungen treffen und unmittelbare Erkenntnisse nutzen möchten, um den Betrieb und die Kundenerfahrung zu verbessern. In Fabric wird diese Funktion durch den Real-Time Intelligence-Dienst bereitgestellt. Er umfasst mehrere gebündelte Fabric-Features, auf die über den Echtzeithub zugegriffen werden kann. Der Echtzeithub bietet einen zentralen Ort zum Streamen von Daten in Bewegung innerhalb Ihrer Organisation.

Real-Time Intelligence in Fabric ermöglicht Analysen und Datenvisualisierungen für ereignisgesteuerte Szenarien, Streamingdaten und Datenprotokolle. Der Dienst verknüpft zeitbasierte Daten aus verschiedenen Quellen unter Verwendung eines Katalogs mit Connectors, für die kein Code geschrieben werden muss, und bietet eine End-to-End-Lösung für Datenerfassung, Transformation, Speicherung, Analyse, Visualisierung, Nachverfolgung, KI und Echtzeitaktionen. Der Dienstname enthält zwar den Begriff „Real-Time“ (Echtzeit), Ihre Daten müssen jedoch nicht mit hoher Geschwindigkeit und hohem Volumen gestreamt werden. Real-Time Intelligence bietet ereignisgesteuerte Lösungen (im Gegensatz zu zeitplangesteuerten Lösungen).

Echtzeiterfassung

(Siehe Schritt 3 im Diagramm.)

Ereignisdatenströme sind ein Fabric-Feature, das die Verwendung einer codefreien Methode ermöglicht, um Echtzeitereignisse aus verschiedenen Quellen zu erfassen und an verschiedene Ziele zu senden. Das Feature ermöglicht Datenfilterung, Transformation, Aggregation und inhaltsbasiertes Routing. Außerdem kann es dazu verwendet werden, neue Datenströme auf der Grundlage bereits vorhandener Datenströme zu erstellen und sie über den Echtzeithub in der gesamten Organisation freizugeben. Eventstreams unterstützen mehrere Datenquellen und Datenziele. Sie können ein breites Spektrum von Connectors für externe Quellen wie Apache Kafka-Cluster, datenbankbezogene Change Data Capture-Feeds, AWS-Streamingquellen (Kinesis) und Google (GCP Pub/Sub) verwenden.

Sie erstellen einen Eventstream, fügen ihm Ereignisdatenquellen und optional Transformationen hinzu, um die Ereignisdaten zu transformieren, und leiten die Daten dann an unterstützte Ziele weiter. Fabric Lakehouse ist eines der unterstützten Ziele, sodass Sie Ihre Echtzeitereignisse transformieren können, bevor Sie sie in Ihrem Lakehouse erfassen. Echtzeitereignisse werden in das Delta Lake-Format konvertiert und dann in den angegebenen Lakehouse-Tabellen gespeichert. Dieses Muster ermöglicht Data Warehousing-Szenarien und historische Analysen Ihrer hochdynamischen Daten.

Echtzeitanalysen

(Siehe Schritt 4 im Diagramm.)

Wenn Sie Real-Time Intelligence in Fabric verwenden, gibt es je nach Anwendungsfall zwei typische Wege zum Streamen von Daten: Reflexelemente und Eventhouses.

Ein Reflex ist ein Fabric-Element, mit dem Sie unmittelbar auf das Auftreten einer Datenbedingung reagieren können. Diese Reaktion kann eine einfache Warnmeldung per E-Mail oder Microsoft Teams sein oder das Aufrufen einer benutzerdefinierten Aktion durch Auslösen eines Power Automate-Flows umfassen. Über Reflexe kann auch ein beliebiges Fabric-Element ausgelöst werden. Viele einblickbezogenen Anwendungsfälle werden von Reflexen unterstützt. Ein Beispiel dafür ist die Reaktion auf Streamingdaten, wenn diese in Eventstreams eintreffen.

Ein Eventhouse ist eine Sammlung mit mindestens einer KQL-Datenbank (Kusto Query Language; Kusto-Abfragesprache). KQL-Datenbanken sind für zeitbasierte Streamingereignisse strukturierter, halbstrukturierter und unstrukturierter Daten konzipiert. Daten werden basierend auf der Erfassungszeit automatisch indiziert und partitioniert, wodurch schnelle und komplexe analytische Abfragefunktionen zur Verfügung stehen – und das bereits, während die Datenströme empfangen werden. In Eventhouses gespeicherte Daten können in OneLake für die Verwendung durch andere Fabric-Prozesse verfügbar gemacht werden. Sie können diese Daten abfragen, indem Sie verschiedene codebasierte Optionen oder Optionen mit wenig oder keinem Code in Fabric verwenden – einschließlich nativer KQL und T-SQL im KQL-Queryset.

Echtzeitdashboards bieten unmittelbare Erkenntnisse aus Daten, die an Ihre Eventhouses gestreamt werden. Sie können einem Dashboard verschiedene Arten von visuellen Elementen wie Diagramme und Graphen hinzufügen und sie an Ihre Anforderungen anpassen. Echtzeitdashboards sind speziell für die schnelle Identifizierung von Trends und Anomalien in Hochgeschwindigkeitsdaten konzipiert, die bei einem Eventhouse eingehen. Sie unterscheiden sich von Power BI-Dashboards, die für Enterprise BI-Berichterstellungsworkloads geeignet sind.

Datenbereitstellung

(Siehe Schritt 5 im Diagramm.)

Für die Nutzung von Daten aus Fabric-Lakehouses und -Eventhouses stehen verschiedene Low-Code- und Pro-Code-Optionen zur Verfügung.

SQL-Analyseendpunkt

Für jedes Lakehouse in Fabric wird automatisch ein SQL-Analyseendpunkt generiert. SQL-Analyseendpunkte sind schreibgeschützt. Wenn Sie Daten ändern möchten, müssen Sie in den Lakehouse-Modus wechseln und Spark verwenden. Sie können den SQL-Analyseendpunkt direkt im Fabric-Portal verwenden, um Daten abzufragen, indem Sie vom Lakehouse-Modus zum SQL-Modus des Lakehouse wechseln. Alternativ können Sie die SQL-Verbindungszeichenfolge eines Lakehouse verwenden, um eine Verbindung unter Verwendung von Clienttools wie Power BI, Excel und SQL Server Management Studio herzustellen. Diese Option eignet sich für Daten- und Geschäftsanalysten in einem Datenteam.

Spark-Notebooks

Notebooks sind eine beliebte Methode für die Interaktion mit Lakehouse-Daten. Fabric bietet eine webbasierte interaktive Oberfläche, die Fachkräfte für Daten zum Schreiben von Code verwenden können. Diese Fachkräfte können umfangreiche Visualisierungen und Markdowntext anwenden. Technische Fachkräfte für Daten schreiben Code für die Datenerfassung, -aufbereitung und -transformation. Wissenschaftliche Fachkräfte für Daten verwenden Notebooks für die Datenerkundung, zum Erstellen von Machine Learning-Experimenten und -Modellen sowie zum Nachverfolgen und Bereitstellen von Modellen. Diese Option eignet sich für professionelle technische und wissenschaftliche Fachkräfte für Daten.

Power BI

Jedes Lakehouse in Fabric verfügt über ein vorgefertigtes Standardsemantikmodell. Es wird automatisch erstellt, wenn Sie ein Lakehouse einrichten und Daten in das Lakehouse laden. Diese Modelle erben Geschäftslogik vom Lakehouse, um die Erstellung von Power BI-Berichten und -Dashboards direkt innerhalb der Lakehouse-Umgebung zu vereinfachen. Sie können auch benutzerdefinierte Semantikmodelle auf der Grundlage spezifischer Geschäftsanforderungen für Lakehouse-Tabellen erstellen. Wenn Sie Power BI-Berichte für ein Lakehouse erstellen, können Sie den Direct Lake-Modus verwenden, um keine Daten separat importieren zu müssen. In diesem Modus können Sie In-Memory-Leistung für Ihre Berichte erzielen, ohne dass Ihre Daten das Lakehouse verlassen müssen.

Benutzerdefinierte APIs

Fabric bietet eine umfassende API-Oberfläche für alle zugehörigen Elemente. OneLake bietet offenen Zugriff auf alle Fabric-Elemente über Azure Data Lake Storage-APIs und -SDKs. Sie können über beliebige APIs, SDKs oder Tools, die mit Data Lake Storage kompatibel sind, auf Ihre Daten in OneLake zugreifen, indem Sie stattdessen einfach einen OneLake-URI verwenden. Sie können Daten mithilfe des Azure Storage-Explorers in ein Lakehouse hochladen oder eine Deltatabelle über eine Verknüpfung aus Azure Databricks lesen. OneLake unterstützt auch den Azure Blob Filesystem (ABFS)-Treiber für eine größere Kompatibilität mit Data Lake Storage und Azure Blob Storage. Um Streamingdaten in nachgeschalteten Apps zu nutzen, können Sie Eventstream-Daten an einen benutzerdefinierten API-Endpunkt pushen. Diese Streamingausgabe von Fabric können Sie dann mithilfe von Azure Event Hubs oder unter Verwendung des AMQP- oder Kafka-Protokolls nutzen.

Power Automate

Power Automate ist eine Low-Code-Anwendungsplattform, mit der Sie repetitive Aufgaben automatisieren und Ihre Daten auch ändern können. Das Reflexelement in Fabric unterstützt Power Automate-Flows als Ziel. Diese Integration macht zahlreiche Anwendungsfälle möglich und gibt Ihnen die Möglichkeit, nachgeschaltete Aktionen mithilfe verschiedenster Connectors auszulösen (sowohl für Microsoft-Systeme als auch für Microsoft-fremde Systeme).

Komponenten

In dieser Lösung werden die folgenden Komponenten verwendet:

Fabric: Eine cloudbasierte, für Unternehmen konzipierte End-to-End-Datenanalyseplattform. Sie bietet eine einheitliche Umgebung für verschiedene Datenaufgaben wie Datenerfassung, Transformation, Analyse und Visualisierung.
- OneLake: Der zentrale Hub für alle Ihre Daten in Fabric. Er ist als offener Data Lake konzipiert, was bedeutet, dass Daten unabhängig von der Struktur in ihrem nativen Format gespeichert werden können.
- Data Factory: Ein cloudbasierter ETL- und Orchestrierungsdienst für automatisierte Datenverschiebungen und -transformationen. Er ermöglicht es Ihnen, Datenverschiebungen und -transformationen im großen Stil über verschiedene Datenquellen hinweg zu automatisieren.
- Datentechnik: Tools für die Sammlung, Speicherung, Verarbeitung und Analyse großer Datenmengen.
- Data Science: Tools für die Durchführung umfassender Data Science-Workflows zur Anreicherung von Daten und zur Gewinnung geschäftlicher Erkenntnisse.
- Real-Time Intelligence: Ein Dienst, der Erfassungs- und Verarbeitungsfunktionen für Datenströme bereitstellt. Er ermöglicht es Ihnen, Erkenntnisse aus kontinuierlich fließenden Daten zu gewinnen, um die Entscheidungsfindung auf der Grundlage von Echtzeittrends und Anomalien zu beschleunigen.
- Copilot: Ein Tool, mit dem Sie Daten analysieren und Erkenntnisse generieren sowie Visualisierungen und Berichte in Fabric und Power BI mithilfe natürlicher Sprache erstellen können.
Power BI: Ein Business Intelligence-Tool für die Erstellung interaktiver Dashboards und Berichte, um Daten zu visualisieren und Erkenntnisse zu gewinnen.

Alternativen

Fabric bietet zwar eine ganze Reihe zuverlässiger Tools, abhängig von Ihren spezifischen Anforderungen können Sie jedoch ggf. von erweiterten Funktionen profitieren, die von alternativen Diensten im Azure-Ökosystem bereitgestellt werden.

Azure Databricks kann die nativen Datentechnikfunktionen von Fabric ersetzen oder ergänzen. Durch die Bereitstellung einer cloudbasierten Apache Spark-Umgebung bietet Azure Databricks eine Alternative für die Verarbeitung großer Datenmengen. Zudem bietet Azure Databricks allgemeine Governance für alle Ihre Datenressourcen und -funktionen, um wichtige Anwendungsfälle wie Data Science, Datentechnik, maschinelles Lernen, KI und SQL-basierte Analysen zu ermöglichen.
Azure Machine Learning kann die nativen Data Science-Tools von Fabric ersetzen oder ergänzen. Machine Learning geht über die Modellexperimente und Verwaltungsfunktionen in Fabric hinaus und bietet zusätzliche Funktionen, mit denen Sie Modelle für Anwendungsfälle mit Onlinerückschlüssen hosten, Modelle auf Drift überwachen und benutzerdefinierte generative KI-Anwendungen erstellen können.

Szenariodetails

Diese Architektur eignet sich für folgende Szenarien:

Organisationen, die ganz neu und ohne Einschränkungen durch Legacysysteme beginnen
Organisationen, die Datenvolumes mit einer Größe zwischen 0,5 TB und 1,5 TB erwarten
Organisationen, die ein einfaches und optimiertes Muster mit einem ausgewogenen Verhältnis zwischen Kosten, Komplexität und Leistung bevorzugen
Organisationen, die eine einfache, kostengünstige und leistungsstarke Datenplattform benötigen, die die Anforderungen in puncto Berichterstellung, Analyse und maschinelles Lernen erfüllt
Organisationen, die Daten aus mehreren Quellen integrieren möchten, um eine einheitliche Ansicht zu erhalten

Diese Lösung wird für Folgendes nicht empfohlen:

Teams, die mit SQL-Datenbanken oder relationalen Datenbanken vertraut sind, aber nur über eingeschränkte Apache Spark-Kenntnisse verfügen
Organisationen, die von einem älteren System oder Data Warehouse zu einer modernen Plattform migrieren

Überlegungen

Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Zuverlässigkeit

Zuverlässigkeit stellt sicher, dass Ihre Anwendung die Verpflichtungen erfüllen kann, die Sie an Ihre Kunden vornehmen. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Zuverlässigkeit.

Fabric repliziert Ressourcen automatisch und ohne erforderliche Konfiguration über Verfügbarkeitszonen hinweg. So ist beispielsweise während eines zonenweiten Ausfalls keine Aktion erforderlich, um eine Zone wiederherzustellen. In unterstützten Regionen kann Fabric automatisch selbstheilen und neu ausgleichen, um eine gesunde Zone zu nutzen.

Sicherheit

Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Sicherheit.

Sie können Fabric verwenden, um Ihre Sicherheitseinstellungen entsprechend Ihren sich ändernden Bedürfnissen und Anforderungen zu verwalten, zu steuern und zu überwachen. Hier finden Sie einige wichtige Sicherheitsempfehlungen für die Verwendung von Fabric:

Authentifizierung Konfigurieren Sie einmaliges Anmelden (Single Sign-On, SSO) in Microsoft Entra ID, um Zugriff über verschiedene Geräte und an verschiedenen Standorten zu ermöglichen.
Rollenbasierte Zugriffssteuerung (RBAC). Implementieren Sie eine arbeitsbereichsbasierte Zugriffssteuerung, um zu steuern, wer auf bestimmte Datasets zugreifen und mit ihnen interagieren kann.
Netzwerksicherheit. Verwenden Sie die Fabric-Netzwerksicherheitskontrollen für ein- und ausgehenden Datenverkehr, wenn Sie eine Verbindung mit Daten oder Diensten innerhalb oder außerhalb Ihres Netzwerks herstellen. Zu den wichtigsten Features gehören bedingter Zugriff, private Verbindungen, Zugriff auf vertrauenswürdige Arbeitsbereiche und verwaltete private Endpunkte.
Überwachungsprotokolle: Verwenden Sie die detaillierten Überwachungsprotokolle, die von Fabric bereitgestellt werden, um Benutzeraktivitäten nachzuverfolgen und Verantwortlichkeit auf der gesamten Plattform sicherzustellen.

Weitere Informationen finden Sie unter Sicherheit in Microsoft Fabric.

Kostenoptimierung

Bei der Kostenoptimierung geht es um Möglichkeiten, unnötige Ausgaben zu reduzieren und die betriebliche Effizienz zu verbessern. Weitere Informationen finden Sie unter Prüfliste für die Überprüfung der Kostenoptimierung.

Fabric bietet Kapazitätsreservierungen für eine bestimmte Anzahl von Kapazitätseinheiten (Capacity Units, CUs). Kapazitätsreservierungen können zur Senkung Ihrer Kosten beitragen, wenn Sie eine Reservierung für Ihre Fabric-Kapazitätsauslastung für ein Jahr abschließen.

Um die Auslastung Ihrer Fabric-Kapazität zu maximieren, sollten Sie die folgenden Empfehlungen berücksichtigen:

Dimensionieren Sie Ihre F-SKUs richtig. Zur Bestimmung der richtigen Kapazitätsgröße können Sie vor dem Kauf einer reservierten F-SKU-Instanz Testkapazitäten oder F-SKUs mit nutzungsbasierter Bezahlung bereitstellen und die tatsächlich benötigte Kapazitätsgröße ermitteln. Es empfiehlt sich, einen bereichsbezogenen Machbarkeitsnachweis mit einer repräsentativen Workload zu erstellen, die CU-Nutzung zu überwachen und dann mittels Extrapolation die CU-Nutzung für die Produktion abzuschätzen. Fabric bietet eine nahtlose Skalierung. Sie können mit einer konservativen Kapazitätsgröße beginnen und bei Bedarf hochskalieren.
Überwachen Sie Nutzungsmuster. Verfolgen Sie Ihre Nutzung regelmäßig nach, und analysieren Sie sie, um Zeiten mit hoher und niedriger Auslastung zu identifizieren. So wissen Sie, wann Ihre Ressourcen am intensivsten genutzt werden, und können nicht kritische Vorgänge außerhalb von Spitzenzeiten planen, um Spitzen bei der CU-Nutzung zu vermeiden.
Optimieren Sie Abfragen und Workloads. Stellen Sie sicher, dass Ihre Abfragen und Workloads optimiert sind, um unnötige Computenutzung zu reduzieren. Optimieren Sie DAX-Abfragen, Python-Code und andere Vorgänge.
Verwenden Sie Bursting und Glättung. Verwenden Sie die Bursting- und Glättungsfeatures von Fabric, um CPU-intensive Aktivitäten ohne Verwendung einer höheren SKU zu verarbeiten. Dies kann Ihnen dabei helfen, Kosten zu managen und gleichzeitig die Leistung zu wahren. Weitere Informationen finden Sie unter Auswerten und Optimieren der Microsoft Fabric-Kapazität.
Richten Sie Warnungen und Benachrichtigungen ein. Konfigurieren Sie proaktive Warnungen, damit Kapazitätsadministratoren hohe Computenutzung überwachen und verwalten können. Dadurch können sie rechtzeitig Maßnahmen ergreifen, um ausufernde Kosten zu vermeiden.
Implementieren Sie eine Workloadverwaltung. Planen Sie zeitintensive Aufträge gestaffelt basierend auf der Ressourcenverfügbarkeit und den Systemanforderungen, um die Kapazitätsauslastung zu optimieren. Weitere Informationen finden Sie unter Verwaltung von Arbeitsauslastungen.

Berücksichtigen Sie außerdem die folgenden Überlegungen:

Die Preise für Data Lake Storage hängen von der Datenmenge ab, die Sie speichern, und von der Häufigkeit, mit der Sie die Daten verwenden. Die Beispielpreise umfassen 1 TB gespeicherte Daten und andere transaktionsbezogene Annahmen. Das 1 TB bezieht sich auf die Größe des Data Lake und nicht auf die ursprüngliche Größe der Legacy-Datenbank.
Die Preise für Fabric basieren auf dem Kapazitätspreis der F-SKU von Fabric oder auf dem Premium-Preis pro Benutzer. Serverlose Kapazitäten beanspruchen CPU- und Arbeitsspeicherressourcen aus der erworbenen dedizierten Kapazität.
Die Abrechnung von Event Hubs basiert auf der Ebene, den bereitgestellten Durchsatzeinheiten und dem empfangenen eingehenden Datenverkehr. Im Beispiel wird eine Durchsatzeinheit im Standard-Tarif von mehr als einer Million Ereignisse für einen Monat angenommen.

Optimaler Betrieb

„Optimaler Betrieb“ deckt die Betriebsprozesse ab, die für die Bereitstellung einer Anwendung und deren Ausführung in der Produktion sorgen. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung des optimalen Betriebs.

Fabric bietet zahlreiche Komponenten, die Sie bei der Verwaltung Ihrer Datenplattform unterstützen. Jede dieser Komponenten unterstützt individuelle Vorgänge, die Sie sich in der Microsoft Fabric-Kapazitätsmetriken-App ansehen können. Verwenden Sie die Fabric-Kapazitätsmetriken-App, um Ihren Kapazitätsverbrauch zu überwachen und fundierte Entscheidungen hinsichtlich der Nutzung Ihrer Kapazitätsressourcen zu treffen.

Effiziente Leistung

Die Leistungseffizienz ist die Fähigkeit Ihrer Arbeitsauslastung, die anforderungen, die die Benutzer auf effiziente Weise an sie stellen, zu erfüllen. Weitere Informationen finden Sie unter Erstellen einer Checkliste zur Überprüfung der Leistungseffizienz.

Fabric bietet mehrere Features zur komponentenübergreifenden Leistungsoptimierung. Diese Tools und Methoden können Ihnen dabei helfen, Computeressourcen effektiv zu verwalten, Überlastungen zu vermeiden und fundierte Entscheidungen hinsichtlich der Skalierung und Optimierung von Workloads zu treffen.

Hier finden Sie einige wichtige Funktionen für die Leistungseffizienz in Fabric:

Bursting und Glättung, um sicherzustellen, dass CPU-intensive Aktivitäten schnell abgeschlossen werden, ohne dass dafür eine höhere SKU erforderlich ist. Diese Aktivitäten können zu einem beliebigen Zeitpunkt geplant werden.
Drosselung, um Vorgänge im Falle einer anhaltenden CPU-Auslastung, die über dem SKU-Grenzwert liegt, zu verzögern oder abzulehnen.
Fabric-Kapazitätsmetriken-App, um die Kapazitätsauslastung zu visualisieren, die Leistung von Artefakten zu optimieren und Elemente mit hohem Computebedarf zu optimieren. Die App unterscheidet für gezielte Optimierungen zwischen interaktiven Vorgängen (z. B. DAX-Abfragen) und Hintergrundvorgängen (z. B. Semantikmodellaktualisierungen).

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Amit Chandra | Cloud Solution Architect
Nicholas Moore | Cloud Solution Architect

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Freigeben über

Greenfield-Lakehouse in Microsoft Fabric

Aufbau

Datenfluss

Kalter Pfad: Batchanalyse

Datenerfassung per Data Factory

Datentransformationen

Heißer Pfad: Echtzeitanalysen

Echtzeiterfassung

Echtzeitanalysen

Datenbereitstellung

SQL-Analyseendpunkt

Spark-Notebooks

Power BI

Benutzerdefinierte APIs

Power Automate

Komponenten

Alternativen

Szenariodetails

Überlegungen

Zuverlässigkeit

Sicherheit

Kostenoptimierung

Optimaler Betrieb

Effiziente Leistung

Beitragende

Nächste Schritte

Feedback

Zusätzliche Ressourcen

Freigeben über

Greenfield-Lakehouse in Microsoft Fabric

Aufbau

Datenfluss

Kalter Pfad: Batchanalyse

Datenerfassung per Data Factory

Datentransformationen

Heißer Pfad: Echtzeitanalysen

Echtzeiterfassung

Echtzeitanalysen

Datenbereitstellung

SQL-Analyseendpunkt

Spark-Notebooks

Power BI

Benutzerdefinierte APIs

Power Automate

Komponenten

Alternativen

Szenariodetails

Überlegungen

Zuverlässigkeit

Sicherheit

Kostenoptimierung

Optimaler Betrieb

Effiziente Leistung

Beitragende

Nächste Schritte

Zugehörige Ressourcen

Feedback

Zusätzliche Ressourcen