Bearbeiten

Teilen über


Moderne Datenplattform für kleine und mittlere Unternehmen, die Microsoft Fabric und Azure Databricks verwenden

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory

Lösungsideen

In diesem Artikel wird eine Lösungsidee beschrieben. Ihr Cloudarchitekt kann diese Anleitung verwenden, um die Hauptkomponenten für eine typische Implementierung dieser Architektur zu visualisieren. Verwenden Sie diesen Artikel als Ausgangspunkt, um eine gut durchdachte Lösung zu entwerfen, die den spezifischen Anforderungen Ihrer Workload entspricht.

In diesem Artikel wird beschrieben, wie kleine und mittlere Unternehmen (SMBs) vorhandene Investitionen in Azure Databricks mit einer vollständig verwalteten Software as a Service (SaaS)-Datenplattform wie Microsoft Fabric kombinieren können. SaaS-Datenplattformen sind End-to-End-Datenanalyselösungen, die problemlos in Tools wie Azure Machine Learning, Azure AI Services, Power Platform, Microsoft Dynamics 365 und andere Microsoft-Technologien integriert werden können.

Vereinfachte Architektur

Diagramm, das eine vereinfachte Architektur für kleine und mittlere Unternehmen zeigt.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Die Interoperabilität zwischen Azure Databricks und Microsoft Fabric bietet eine robuste Lösung, die die Datenfragmentierung minimiert, während die Analysefunktionen verbessert werden.

Microsoft Fabric stellt einen offenen und geregelten Datensee bereit, der als der zugrunde liegende SaaS-Speicher bezeichnet wird. OneLake verwendet das Delta-Parkettformat, das das gleiche Format wie Azure Databricks verwendet. Um auf Ihre Azure Databricks-Daten aus OneLake zuzugreifen, können Sie OneLake-Verknüpfungen in Fabric verwenden oder den Azure Databricks Unity Catalog in Fabric spiegeln. Mit dieser Integration können Sie Ihre Azure Databricks-Analysesysteme durch generative KI auf OneLake erweitern.

Sie können auch den direkten Seemodus in Power BI auf Ihren Azure Databricks-Daten in OneLake verwenden. Der Direkte Seemodus vereinfacht die Bereitstellungsschicht und verbessert die Berichtsleistung. OneLake unterstützt APIs für Azure Data Lake Storage und speichert alle tabellarischen Daten im Delta-Parkettformat.

Daher können Azure Databricks-Notizbücher OneLake-Endpunkte verwenden, um auf die gespeicherten Daten zuzugreifen. Die Oberfläche ist identisch mit dem Zugriff auf die Daten über ein Microsoft Fabric Warehouse. Mit dieser Integration können Sie Fabric oder Azure Databricks verwenden, ohne Ihre Daten neu zu gestalten.

Architektur

Diagramm, das eine SMB-Architektur zeigt.

Laden Sie eine Visio-Datei dieser Architektur herunter.

Datenfluss

  1. Azure Data Factory: Verwenden Sie vorhandene Azure Data Factory-Pipelines, um strukturierte und unstrukturierte Daten aus Quellsystemen aufzunehmen und im vorhandenen Datensee zu landen.

  2. Microsoft Dynamics 365: Sie können Microsoft Dynamics 365-Datenquellen verwenden, um zentrale BI-Dashboards auf erweiterten Datasets mithilfe von Azure Synapse Link oder Microsoft Fabric Link zu erstellen. Bringen Sie die zusammengeführten, verarbeiteten Daten zur weiteren Analyse wieder in Microsoft Dynamics 365 und Power BI.

  3. Streamingdatenaufnahme: Streamingdaten können über Azure Event Hubs oder Azure IoT Hubs aufgenommen werden, je nach den Protokollen, die zum Senden dieser Nachrichten verwendet werden.

  4. Kalten Pfad: Sie können die Streamingdaten in den zentralen Datensee für weitere Analysen, Speicherung und Berichterstellung mithilfe von Azure Databricks übertragen. Diese Daten können dann mit anderen Datenquellen für die Batchanalyse vereinheitlicht werden.

  5. Hot path: Streamingdaten können in Echtzeit und Echtzeit-Dashboards mithilfe von Microsoft Fabric Real-Time Intelligence erstellt werden.

  6. Azure Databricks: Die vorhandenen Azure Databricks-Notizbücher können dann wie gewohnt verwendet werden, um Datenbereinigung, Vereinheitlichung und Analysen durchzuführen. Erwägen Sie die Verwendung von Medallion-Architektur, z. B.:

    • Bronze, das Rohdaten enthält.

    • Silber, das gereinigte, gefilterte Daten enthält.

    • Gold, das aggregierte Daten speichert, die für Geschäftsanalysen nützlich sind.

  7. Golden data or a data warehouse: For the golden data or a data warehouse, continue to use Azure Databricks SQL or create a mirroring the Azure Databricks Unity Catalog in Microsoft Fabric. Erstellen Sie auf einfache Weise Dashboards basierend auf der serverlosen Analyse von Daten in Fabric Lakehouses, ohne dass eine Einrichtung erforderlich ist, indem Sie die Power BI-Semantikmodelle verwenden, die automatisch für alle Fabric Lakehouses erstellt werden. Fabric Data Warehouse kann auch als goldene Schicht verwendet werden, wenn analytische Anforderungen eine schnellere Berechnung erfordern.

Tools, die für Governance, Zusammenarbeit, Sicherheit, Leistung und Kostenüberwachung verwendet werden, umfassen:

  • Entdecken und Steuern

    • Microsoft Purview bietet Datenermittlungsdienste, vertrauliche Datenklassifizierung und Governance-Einblicke in die gesamte Datenstruktur.

    • Unity Catalog bietet zentrale Zugriffssteuerungs-, Überwachungs-, Linien- und Datenermittlungsfunktionen in Azure Databricks-Arbeitsbereichen.

  • Azure DevOps bietet kontinuierliche Integration und kontinuierliche Bereitstellung und andere integrierte Versionssteuerungsfeatures.

  • Azure Key Vault verwaltet geheime Schlüssel, Schlüssel und Zertifikate.

  • Die Microsoft Entra-ID stellt einmaliges Anmelden für Azure Databricks-Benutzer bereit. Azure Databricks unterstützt die automatisierte Benutzerbereitstellung mit Microsoft Entra-ID für:

    • Neue Benutzer erstellen.

    • Weisen Sie jedem Benutzer eine Zugriffsebene zu.

    • Entfernen Sie Benutzer, und verweigern Sie ihnen den Zugriff.

  • Azure Monitor sammelt und analysiert Azure-Ressourcentelemetrie. Dieser Dienst maximiert die Leistung und Zuverlässigkeit, indem Probleme proaktiv identifiziert werden.

  • Microsoft Cost Management bietet Finanzgovernancedienste für Azure-Workloads.

Komponenten

  • Data Lake Storage ist ein skalierbarer Datenspeicherdienst, der für strukturierte und unstrukturierte Daten entwickelt wurde. In dieser Architektur dient Data Lake Storage als zugrunde liegende Infrastruktur für den Delta Lake. Es ist die primäre Speicherebene für rohe und verarbeitete Daten, die eine effiziente Datenaufnahme, Speicherung und Abruf für Analyse- und Machine Learning-Workloads ermöglicht.

  • Azure Data Factory ist ein cloudbasierter Datenintegrationsdienst, der Datenbewegungen und Transformationen koordiniert und automatisiert. Azure Data Factory wird verwendet, um Datenpipelinen zu erstellen, zu planen und zu koordinieren, die Daten über verschiedene Datenspeicher und Dienste hinweg verschieben und transformieren. Sie trägt dazu bei, einen nahtlosen Datenfluss und eine nahtlose Integration zu gewährleisten.

  • Event Hubs ist ein Echtzeitdatenaufnahmedienst, der Millionen von Ereignissen pro Sekunde aus einer beliebigen Quelle verarbeiten kann. In dieser Architektur erfasst und streamt Event Hubs große Datenmengen aus verschiedenen Quellen, um Echtzeitanalysen und ereignisgesteuerte Verarbeitung zu ermöglichen.

  • Azure IoT Hub ist ein verwalteter Dienst, der die Sicherheit und zuverlässige Kommunikation zwischen IoT-Geräten und der Cloud verbessert. Azure IoT Hub erleichtert die Erfassung, Verarbeitung und Analyse von Telemetriedaten von IoT-Geräten, um Echtzeiteinblicke bereitzustellen und die Remoteüberwachung zu ermöglichen.

  • Microsoft Dataverse ist eine skalierbare Datenplattform, mit der Organisationen Daten sicher speichern und verwalten können, die von Geschäftsanwendungen verwendet werden. In dieser Architektur wird als potenzielle Datenquelle verwiesen.

    • Azure Synapse Link verbindet Dynamics-Anwendungen mit Azure Synapse Analytics oder Data Lake Storage. In dieser Architektur wird es verwendet, um Daten in nahezu Echtzeit von Dataverse in Data Lake Storage zu kopieren.

    • Microsoft Fabric Link verbindet Dynamics-Anwendungen mit Microsoft Fabric. In dieser Architektur wird es verwendet, um Daten von Dataverse in Microsoft Fabric in nahezu Echtzeit zu replizieren.

  • Azure Databricks ist eine Apache Spark-basierte Analyseplattform. Azure Databricks wird für Big Data Processing, Machine Learning und Data Engineering-Aufgaben verwendet. Diese Plattform bietet einen Kollaborativen Arbeitsbereich für Data Scientists und Ingenieure.

    • Delta Lake ist eine Open-Source-Speicherebene, die ACID-Transaktionen an Apache Spark und Big Data-Workloads bringt. Delta Lake wird verwendet, um diese Funktionalität für den Datenspeicher bereitzustellen.

    • Azure Databricks SQL ist ein SQL-basierter Analysedienst, mit dem Benutzer SQL-Abfragen für Daten ausführen können, die in Azure Databricks gespeichert sind. In dieser Architektur bietet Azure Databricks SQL eine leistungsstarke SQL-Schnittstelle zum Abfragen und Analysieren von Daten, die interaktive und Ad-hoc-Analysen ermöglichen.

    • KI und Machine Learning umfassen eine Reihe von Technologien und Diensten, die die Entwicklung, Bereitstellung und Verwaltung von Machine Learning-Modellen ermöglichen. KI- und Machine Learning-Dienste werden verwendet, um Predictive Models zu erstellen, zu trainieren und bereitzustellen. Diese Funktion ermöglicht die datengesteuerte Entscheidungsfindung.

    • Unity Catalog ist eine Data Governance-Lösung, die zentrale Zugriffssteuerung, Überwachung, Linien und Datenermittlungsfunktionen in Databricks-Arbeitsbereichen bereitstellt. Unity Catalog trägt dazu bei, die Datengovernance und -sicherheit zu gewährleisten, indem differenzierte Zugriffskontrollen, Überwachung und Datenlinienverfolgung bereitgestellt werden.

  • Medallion Lakehouse-Architektur ist ein Datenarchitekturmuster, das Daten in Bronze-, Silber- und Goldschichten für eine effiziente Datenverarbeitung und -analyse organisiert. Dieses Architekturmuster wird hier mithilfe von Data Lake Storage, Delta Lake und Azure Databricks implementiert, die skalierbare und effiziente Datenverarbeitung und -analyse ermöglicht.

  • Microsoft Fabric ist eine umfassende Datenplattform, die verschiedene Datendienste und Tools integriert, um eine nahtlose Datenverwaltung und Analyseerfahrung zu ermöglichen. Microsoft Fabric verbindet und integriert Daten aus mehreren Quellen, wodurch umfassende Datenanalysen und Erkenntnisse in der gesamten Organisation ermöglicht werden.

    • Real-Time Intelligence ist eine Datenverarbeitungsfunktion, mit der Organisationen Daten in Echtzeit aufnehmen, verarbeiten und analysieren können. Real-Time Intelligence verarbeitet Streamingdaten aus verschiedenen Quellen. Sie bietet Einblicke in Echtzeit und ermöglicht automatisierte Aktionen basierend auf Datenmustern.

    • OneLake-Verknüpfungen eine direkte Verknüpfung zwischen OneLake und einer anderen Datenquelle erstellen. OneLake-Verknüpfungen werden verwendet, um den Datenzugriff und die Datenverwaltung zu optimieren, was eine einheitliche Ansicht von Daten in der gesamten Organisation bietet.

  • Power BI ist ein Business Analytics-Dienst, der interaktive Visualisierungen und Business Intelligence-Funktionen bereitstellt. Es verfügt über eine einfache Benutzeroberfläche für Benutzer, um eigene interaktive Berichte und Dashboards zu erstellen. Mit diesen Tools können Datenvisualisierung und Einblicke für Geschäftsbenutzer ermöglicht werden.

  • Microsoft Purview ist ein einheitlicher Datengovernancedienst, der Organisationen dabei hilft, ihre Daten in verschiedenen Quellen zu verwalten und zu steuern. Microsoft Purview bietet Datenkatalog-, Liniennachverfolgungs- und Datengovernancefunktionen. Diese Features tragen dazu bei, die Datenkonformität und -sicherheit in der gesamten Organisation sicherzustellen.

  • Microsoft Entra ID ist eine cloudbasierte Identitäts- und Zugriffsverwaltungslösung, die sichere Anmeldungen und den Zugriff auf Ressourcen wie Microsoft 365, Azure und andere SaaS-Anwendungen gewährleistet. In dieser Architektur bietet Die Microsoft Entra-ID eine sichere Identitäts- und Zugriffsverwaltung für Azure-Ressourcen. Dieses Feature ermöglicht sichere Anmeldungen, verwaltet Benutzeridentitäten und stellt sicher, dass der Zugriff auf Daten und Ressourcen autorisiert ist.

  • Microsoft Cost Management ist eine Suite von FinOps-Tools, mit denen Organisationen Microsoft Cloud-Kosten analysieren, überwachen und optimieren können. Diese Tools bieten Finanzgovernance über Azure-Ressourcen in dieser Architektur.

  • Key Vault ist ein Clouddienst, der geheime Schlüssel speichert und verwaltet, z. B. API-Schlüssel, Kennwörter, Zertifikate und kryptografische Schlüssel. Dieser Dienst ermöglicht Benutzern und Anwendungen den sicheren Zugriff auf diese geheimen Schlüssel. Wenn Sie Ihre Schlüssel und geheimen Schlüssel in Key Vault speichern, können Sie sie an einem zentralen Ort verwalten. In dieser Architektur können Azure Databricks geheime Schlüssel aus Key Vault abrufen, um Data Lake Storage zu authentifizieren und darauf zuzugreifen. Dieser Prozess trägt dazu bei, eine sichere und nahtlose Integration zwischen diesen Diensten zu gewährleisten.

  • Azure Monitor ist ein umfassender Überwachungsdienst, der vollstapelbasierte Observierbarkeit für Anwendungen, Infrastruktur und Netzwerke bietet. Azure Monitor ermöglicht Es Benutzern, Telemetriedaten aus ihren Azure- und lokalen Umgebungen zu sammeln, zu analysieren und zu reagieren, um Probleme proaktiv zu identifizieren und Leistung und Zuverlässigkeit zu maximieren.

  • Azure DevOps ist eine Reihe von Entwicklungstools, die eine zusammenarbeitende Kultur und optimierte Prozesse unterstützen. Diese Tools ermöglichen Entwicklern, Projektmanagern und Mitwirkenden, Software effizienter zu entwickeln. Azure DevOps bietet integrierte Features wie Azure Boards, Azure Repos, Azure Pipelines, Azure Test Plans und Azure Artifacts. Sie können über einen Webbrowser oder einen integrierten Entwicklungsumgebungsclient auf diese Features zugreifen.

  • GitHub ist ein cloudbasierter Git-Repository-Hostingdienst, der die Versionssteuerung und Zusammenarbeit für Entwickler vereinfacht. Es ermöglicht Einzelpersonen und Teams, ihren Code zu speichern und zu verwalten, Änderungen nachzuverfolgen und mit Git an Projekten zusammenzuarbeiten. Die benutzerfreundliche GitHub-Schnittstelle macht Git für Coder aller Qualifikationsstufen zugänglich. Sie können Azure DevOps und GitHub zusammen verwenden, um DevOps-Praktiken zu implementieren. Diese Methoden erzwingen Automatisierung und Compliance in Ihrer Workloadentwicklungs- und Bereitstellungspipeline für Azure Data Factory, Azure Databricks und Microsoft Fabric.

Alternativen

Dienstalternativen in dieser Architektur

  • Batchaufnahme

  • Microsoft Dynamics 365-Aufnahme-

  • Streamingdatenaufnahme

    • Die Entscheidung zwischen Azure IoT und Event Hubs hängt von der Quelle der Streamingdaten ab, ob klonen und bidirektionale Kommunikation mit den Berichtsgeräten erforderlich ist und welche Protokolle erforderlich sind. Weitere Informationen finden Sie unter Vergleichen von IoT Hub und Event Hubs.
  • Lakehouse

    • Microsoft Fabric Lakehouse ist eine einheitliche Datenarchitekturplattform zum Verwalten und Analysieren strukturierter und unstrukturierter Daten in einem offenen Format, das in erster Linie Delta-Parkettdateien verwendet. Es unterstützt zwei Speichertypen. Diese Speichertypen sind verwaltete Tabellen wie CSV, Parkett oder Delta und nicht verwaltete Dateien. Verwaltete Tabellen werden automatisch erkannt. Nicht verwaltete Dateien erfordern eine explizite Tabellenerstellung. Die Plattform ermöglicht Datentransformationen über Spark- oder SQL-Endpunkte und lässt sich nahtlos in andere Microsoft Fabric-Komponenten integrieren. Diese nahtlose Integration ermöglicht die Datenfreigabe ohne Duplizierung. Dieses Konzept richtet sich an die allgemeine Medallion-Architektur, die in Analyseworkloads verwendet wird. Weitere Informationen finden Sie unter Lakehouse in Microsoft Fabric.
  • Echtzeitanalysen

    • Azure Databricks-

      • Wenn Sie über eine vorhandene Azure Databricks-Lösung verfügen, sollten Sie strukturiertes Streaming weiterhin für Echtzeitanalysen verwenden. Weitere Informationen finden Sie unter Streaming auf Databricks.
    • Microsoft Fabric

      • Wenn Sie andere Azure-Dienste in der Vergangenheit für Echtzeitanalysen verwendet haben oder über keine vorhandene Echtzeitanalyselösung verfügen, lesen Sie Fabric Real-Time Intelligence im Vergleich zu Azure Streaming Solutions.

      • Das strukturierte Streaming von Microsoft Fabric verwendet Spark Structured Streaming zum Verarbeiten und Aufnehmen von Livedatenstreams als fortlaufend angefügte Tabellen. Strukturiertes Streaming unterstützt verschiedene Dateiquellen wie CSV, JSON, ORC, Parkett und Messaging-Dienste wie Kafka und Event Hubs. Dieser Ansatz stellt eine skalierbare und fehlertolerante Datenstromverarbeitung sicher, wodurch Produktionsumgebungen mit hohem Durchsatz optimiert werden. Weitere Informationen finden Sie unter Microsoft Fabric Spark Structured Streaming.

  • Data Engineering-

  • Data Warehouse- oder Goldschicht-

  • Data Science-

    • Verwenden Sie entweder Microsoft Fabric oder Azure Databricks für Data Science-Funktionen. Weitere Informationen zum Microsoft Fabric Data Science-Angebot finden Sie unter Was ist Data Science in Microsoft Fabric?. Weitere Informationen zum Azure Databricks-Angebot finden Sie unter KI und maschinelles Lernen auf Databricks.

    • Microsoft Fabric Data Science unterscheidet sich von Machine Learning. Machine Learning bietet eine umfassende Lösung für die Verwaltung von Workflows und die Bereitstellung von Machine Learning-Modellen. Microsoft Fabric Data Science ist auf ein Analyse- und Berichterstellungsszenario zugeschnitten.

  • Power BI-

    • Azure Databricks, integriert in Power BI, ermöglicht eine nahtlose Datenverarbeitung und -visualisierung. Weitere Informationen finden Sie unter Verbinden von Power BI mit Azure Databricks.

    • Durch Spiegelung des Azure Databricks Unity-Katalogs in Fabric können Sie direkt über die Fabric-Workload auf Daten zugreifen, die von Azure Databricks Unity Catalog verwaltet werden. Weitere Informationen finden Sie unter Mirroring Azure Databricks Unity Catalog.

    • Erstellen Sie eine Verknüpfung aus dem Data Lake Storage mit Delta Lake zu einem Microsoft Fabric One Lake. Weitere Informationen finden Sie unter Integrieren von Databricks Unity Catalog in OneLake. Sie können diese Daten aus Power BI mithilfe des Direct Lake-Modus abfragen, ohne Daten in den Power BI-Dienst zu kopieren. Weitere Informationen finden Sie unter Direct Lake Mode.

Szenariodetails

Kleine und mittlere Unternehmen mit einer vorhandenen Azure Databricks-Umgebung und optional eine Lakehouse-Architektur können von diesem Muster profitieren. Sie verwenden derzeit ein Azure-Extrakt, -Transformations-, Ladetool wie Azure Data Factory und dienen Berichten in Power BI. Möglicherweise verfügen sie jedoch auch über mehrere Datenquellen, die unterschiedliche proprietäre Datenformate auf demselben Datensee verwenden, was zu Datenduplizierung und Bedenken hinsichtlich der Anbietersperrung führt. Diese Situation kann die Datenverwaltung erschweren und die Abhängigkeit von bestimmten Anbietern erhöhen. Sie benötigen möglicherweise auch up-to-Datum und nahezu Echtzeitberichte für Entscheidungsfindung und sind daran interessiert, KI-Tools in ihrer gesamten Umgebung zu übernehmen.

Microsoft Fabric ist eine offene, einheitliche und verwaltete SaaS-Foundation, mit der Sie Folgendes verwenden können:

  • Verwenden Sie OneLake, um Daten an einem einzigen Ort zu speichern, zu verwalten und zu analysieren, ohne Bedenken hinsichtlich der Anbietersperre zu haben.

  • Innovationen schneller mit Integrationen in Microsoft 365-Apps.

  • Erhalten Sie schnelle Einblicke mit den Vorteilen des Power BI Direct Lake-Modus.

  • Profitieren Sie von Copilots in jeder Microsoft Fabric-Erfahrung.

  • Beschleunigen Sie die Analyse, indem Sie KI-Modelle auf einer einzigen Grundlage entwickeln.

  • Halten Sie Daten ohne Bewegung an Ort und Stelle, wodurch die Zeit reduziert wird, die Datenwissenschaftler benötigen, um Wert bereitzustellen.

Beitragende

Dieser Artikel wird von Microsoft verwaltet. Sie wurde ursprünglich von den folgenden Mitwirkenden verfasst.

Hauptautoren:

Um nicht öffentliche LinkedIn-Profile anzuzeigen, melden Sie sich bei LinkedIn an.

Nächste Schritte