Freigeben über


Microsoft Purview- und CluedIn-Integration für master-Datenverwaltung (MDM)

Diese CluedIn-Architektur bietet Unternehmen Metriken zur Qualität der erfassten Daten, erkennt modifiziert Daten intelligent und bereitet sie für die Bereinigung durch Data Engineers und Data Stewards vor. Proprietäre Machine Learning-Algorithmen für Fuzzylogik helfen Geschäftsbenutzern und Kuratoren, Daten zu kennzeichnen und dem System beizubringen, Probleme mit der Datenqualität im Laufe der Zeit zu identifizieren, zu korrigieren und zu verhindern.

Architektur

Diagramm, das die Architekturstruktur und den Datenfluss von CluedIn zeigt.

Datenfluss

Die CluedIn-Lösung besteht aus verschiedenen Funktionsebenen, die in einem Kubernetes-Cluster in Azure Kubernetes Service (AKS) ausgeführt werden. Eine Kombination aus .NET Core-Microserviceanwendungen verarbeitet unterschiedliche Funktionen wie Datenerfassung, Streamingdatenverarbeitung, Warteschlangen und Benutzeroberfläche.

  1. Die CluedIn-Durchforstungsebene erfasst Daten aus Kundencloudquellen wie Azure SQL DB, Azure Cosmos DB, PostgreSQL und Salesforce-Datenbanken über Azure Data Factory Connectors.

    CluedIn übernimmt auch Eingaben von lokalen zugänglichen Systemen wie SAP, Oracle, IBM und Hadoop oder kann lokale Agents verwenden, um nicht öffentliche Daten zu durchforsten.

  2. Der Enterprise Service Bus stellt eine Verbindung über die Ports 5672 und 15672 für Administratorendpunkte her. Crawler senden Daten an den Bus, und die Verarbeitungsebene nutzt Daten vom Bus über Port 5672.

  3. Die Transaktionsprotokollebene übernimmt Ergebnisse aus der Verarbeitungsebene.

  4. Auf der Persistenzebene nutzen Datenbanken Daten aus dem Transaktionsprotokoll und speichern sie, um letztliche Konsistenz in den verschiedenen Datenspeichern zu gewährleisten. Alle Speicher werden im Hochverfügbarkeitsmodus (Ha) ausgeführt.

    Im Gegensatz zur Datenvirtualisierung erfasst die CluedIn-Persistenzebene Teile der Quelldaten und behält die höchste Genauigkeitsversion der Daten und deren Struktur bei. Diese hohe Genauigkeit bedeutet, dass CluedIn Data Fabric Geschäftsanforderungen für Daten in jedem Format oder Modell verarbeiten kann.

  5. Die Datenstraktionsebene stellt über die Ports für jeden Speicher eine Verbindung mit den verschiedenen Datenspeichern her.

  6. Der Datenzugriff erfolgt über GraphQL-, REST- und WebSockets-Aufrufe über Port 443. GraphQL und REST ein Pullmodell verwenden, und WebSockets verwendet ein Pushmodell.

    CluedIn schützt den Datenzugriff durch Drosselung und Verhinderung von Cross-Site Request Forgery (CSRF).

  7. Die CluedIn ASP.NET Core Webanwendung kommuniziert über eine Kombination aus REST- und GraphQL-Aufrufen über Port 443.

    Die gesamte Kommunikation vom Browser in die Anwendung verwendet eine Reihe von Eingangsdefinitionen, die nur eine einzige öffentliche IP-Adresse erfordern. In einer Produktionsumgebung erfolgt die gesamte Kommunikation über SSL (Secure Socket Layer).

  8. Die CluedIn-Anwendung stellt bereinigte, verarbeitete Daten für Analysedienste wie Power BI und Azure Synapse Analytics bereit, um Erkenntnisse zu gewinnen. Das System sichert und speichert alle Daten in SQL- oder Redis-Datenbanken.

Komponenten

CluedIn wird auf Azure Kubernetes Service (AKS) ausgeführt, einem hochverfügbaren, sicheren und vollständig verwalteten Kubernetes-Dienst zum Bereitstellen und Verwalten von Containeranwendungen. AKS bietet serverloses Kubernetes, integrierte CI/CD und Sicherheit und Governance auf Unternehmensniveau.

CluedIn verwendet und unterstützt viele Datenbankquellen und Dienste, einschließlich:

  • Azure SQL Database, einem verwalteten relationalen Clouddatenbankdienst, der immer auf dem neuesten Stand ist und Ressourcen bei Bedarf automatisch skalieren kann.
  • Azure SQL Managed Instance für eine umfassende SQL Server-Engine-Kompatibilität mit vorhandenen SQL Server-Anwendungen. SQL Managed Instance bietet lokale Datenbankinfrastrukturen mit Azure-Cloudvorteilen wie elastischer Skalierung, einheitlicher Verwaltung und einem Cloudabrechnungsmodell.
  • Azure Cosmos DB, eine vollständig verwaltete, nicht relationale serverlose NoSQL-Datenbank für die moderne App-Entwicklung.
  • Azure Data Lake, ein skalierbarer Datenspeicher- und Analysedienst.
  • Azure Data Factory, eine vollständig verwaltete, serverlose Datenintegrationslösung zum Erfassen, Vorbereiten und Transformieren von Daten im großen Stil. CluedIn verwendet über 90 integrierte Data Factory-Connectors, um Daten aus Quellen wie Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow und allen Azure-Datendiensten abzurufen.

CluedIn stellt verarbeitete, kontrollierte Daten für viele Analyse-Apps und Dienste bereit, einschließlich:

  • Azure Databricks, ein schneller, einfacher und kollaborativer Apache Spark-basierter Analysedienst.
  • Azure Synapse Analytics, einem unbegrenzten Analysedienst, der Data Warehousing und Big Data-Analysen für Unternehmen vereint.
  • Log Analytics ist ein Azure-Portal Tool zum Bearbeiten, Ausführen und Analysieren von Abfragen aus Azure Monitor-Protokolldaten.
  • Azure Cognitive Services, eine umfassende Familie von KI-Diensten und kognitiven APIs zum Erstellen intelligenter Apps.
  • Power BI, ein Microsoft Business Analytics-Dienst, der interaktive Visualisierungen und Business Intelligence mit einer einfach zu verwendenden Benutzeroberfläche zum Erstellen von Berichten kombiniert.

Szenarioinformationen

Moderne Unternehmen basieren auf vielen Prozessen und Projekten auf Daten, aber die Rohdaten müssen für den Verbrauch vorbereitet werden. Datenanwendungsfälle von der erweiterten Analyse bis hin zum maschinellen Lernen erfordern alle ähnliche Datenaufbereitungsprozesse und -aufmerksamkeit.

  1. Datenprojekte beginnen mit der Datenermittlung, um zu bestimmen, wo sich Daten befinden und welche Systeme verwendet werden.
  2. Bei der Datenintegration werden dann mehrere Datenquellen zu einem einheitlichen oder verbundenen Dataset zusammengeführt.
  3. Der nächste Schritt besteht darin, die Daten zu normalisieren, zu standardisieren, zu harmonisieren und sauber, damit Maschinen sie einheitlich, konsistent und mit hoher Genauigkeit verarbeiten können.
  4. Schließlich müssen die Daten für geschäftliche Anforderungen einfach und leicht verfügbar gemacht werden.

Während dieser Prozesse muss die Governance die Datenkontrolle und den Schutz der Privatsphäre mit klarem Besitz, vollständiger Rückverfolgbarkeit und einem Überwachungspfad für Die Herkunft, Verarbeitung und Verwendung von Daten sicherstellen.

Die CluedIn-Plattform kapselt diese Datenverwaltungsprozesse und -säulen in einer kohärenten, konsistenten End-to-End-Master-Datenverwaltung-Lösung (MDM). CluedIn verwendet eine Datenintegrationstechnik namens Letztliche Konnektivität , die bessere Ergebnisse als klassische ETL-Modelle (Extrahieren, Transformieren, Laden) oder Extrahieren, Laden, Transformieren (ELT) liefert. Bei der letztlichen Konnektivität werden GraphQL Abfragen verwendet, um Daten aus vielen isolierten Datenquellen nahtlos zu kombinieren.

Bei der letztlichen Konnektivität werden Daten beim Eintritt oder Laden in andere Systeme nicht verknüpft oder gemischt. Stattdessen lädt CluedIn die Daten unverändert und markiert Datensätze mithilfe von Metadaten. Schließlich führen Datensätze mit den gleichen Tags zusammen oder erstellen eine Beziehung im Graphen.

Diese ausgereifte Datenzusammenführungstechnik bietet eine Grundlage für datengesteuerte Lösungen. CluedIn Data Fabric integriert Daten in eine Pipeline, die Daten bereinigt, vorbereitet, modelliert, steuert, anreichert, dedupliziert und katalogisiert, um sie für geschäftliche Zwecke leicht verfügbar und zugänglich zu machen.

CluedIn bietet Unternehmen Metriken zur Qualität der erfassten Daten, erkennt modifiziert Daten intelligent und bereitet sie für die Bereinigung durch Data Engineers und Data Stewards vor. Proprietäre Machine Learning-Algorithmen für Fuzzylogik helfen Geschäftsbenutzern und Kuratoren, Daten zu kennzeichnen und dem System beizubringen, Probleme mit der Datenqualität im Laufe der Zeit zu identifizieren, zu korrigieren und zu verhindern.

CluedIn umfasst Governance auf Unternehmensniveau, um sicherzustellen, dass Sie Ihre Daten sicher und sicher verwenden können. CluedIn kann bereinigte, kontrollierte Daten direkt an Analysesysteme wie Power BI, Azure Databricks, Azure Synapse Analytics oder Azure Cognitive Services streamen, um sie für den Rest des Unternehmens leicht verfügbar zu machen. Die native Unterstützung für die automatische Skalierung nutzt die Leistungsfähigkeit von Azure, um eine skalierbare Umgebung für die größten Datenworkloads bereitzustellen.

Mögliche Anwendungsfälle

Erstellen einer einzelnen Datenansicht

  • Aufgrund der semantischen Modellierung von CluedIn ist es im Vergleich zu herkömmlichen Ansätzen einfacher, eine einzelne Ansicht Ihrer Masterdaten zu erstellen. Die Kunden von CluedIn verwenden CluedIn, um eine verbundene, historische und qualitativ hochwertige Ansicht ihrer wichtigsten Geschäftsdaten zu erstellen. CluedIn unterstützt nicht nur das Mastering klassischer Masterdomänen wie Personen, Unternehmen, Anbieter und Produkte – es unterstützt eine endlose Anzahl verschiedener Domänen sowie unstrukturierte Domänen wie Dateien, E-Mails, Ereignisse und mehr. Wenn Sie ein zentralisiertes Repository mit master Daten benötigen, das sauber, angereichert, kontrolliert, qualitätsgeschützt und katalogisiert ist, eignet sich CluedIn gut für Ihre Anwendungsfälle.

Ein Data Fabric

  • CluedIn ist ein Gartner Cool Vendor im Jahr 2020, aufgrund seiner Fähigkeit, Daten aus 10er, 100er und 1000er verschiedener und komplexer Datenquellen in einem einheitlichen Datenhub zu orchestrieren. Wenn Sie Daten aus vielen verschiedenen Datenquellen problemlos wrangeln müssen, kann CluedIn als Data Fabric verwendet werden, um dies zu erreichen. Dadurch kann eine Streaminginfrastruktur für Ihre Daten bereitgestellt werden, die auch proaktiv sauber und master kann, wenn sie an Downstreamconsumer übertragen werden.

Komplexes Zusammenführen und Verknüpfen von master Daten

  • Der einzigartige Datenmodellierungsansatz von CluedIn verwendet eine Graphdatenbank, mit der komplexe Daten zusammengeführt und mit Einfachheit verknüpft werden können. Im Gegensatz zu herkömmlichen Ansätzen fügt CluedIn zur Lösung dieser Herausforderung weitere Machine Learning- und Graphanalysen hinzu, um Datensätze mit hoher Genauigkeit zusammenzuführen, abzugleichen und zu verknüpfen.

Überlegungen

Diese Überlegungen implementieren die Säulen des Azure Well-Architected Frameworks. Hierbei handelt es sich um eine Reihe von Leitprinzipien, die zur Verbesserung der Qualität einer Workload verwendet werden können. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.

Zuverlässigkeit

Zuverlässigkeit stellt sicher, dass Ihre Anwendung die Verpflichtungen erfüllt, die Sie Ihren Kunden gegenüber eingehen. Weitere Informationen finden Sie unter Übersicht über die Zuverlässigkeitssäule.

  • CluedIn führt automatische tägliche Datenbanksicherungen durch und speichert diese standardmäßig 30 Tage lang. Die gesamte Plattform basiert auf redundanten, fehlertoleranten Stapeln, die Sicherungen für alle Subsysteme verwalten. Überwachungssysteme rund um die Uhr stellen sicher, dass die Dienste so unhaltbar wie möglich sind. CluedIn folgt branchenüblicher Methoden für Infrastrukturredundanz.

  • CluedIn wird nur eine Darstellung Ihrer Daten angezeigt und gespeichert, nicht die ursprüngliche Version. Wenn CluedIn destruktive Datenangriffe erkennt, kann es die CluedIn-Daten vorübergehend von Ihren Servern löschen. Sobald der Angriff nachlässt, erfasst CluedIn die Daten, um in den ursprünglichen Zustand zurückzukehren.

  • Alle Datenspeicher werden im Hochverfügbarkeitsmodus ausgeführt.

Skalierbarkeit

  • CluedIn wird in Docker-Containern ausgeführt und verwendet Kubernetes zum Hosten und Orchestrieren der verschiedenen Teile der Anwendung. Diese Architektur bedeutet, dass CluedIn in elastischen Umgebungen gut funktioniert und automatisch auf erforderliche Größen und Infrastruktur skaliert werden kann.

  • Die native Unterstützung für die automatische Skalierung wendet die Leistungsfähigkeit von Azure an, um eine skalierbare Umgebung für die größten Datenworkloads bereitzustellen.

  • Die schemalose Graphmodellierung leitet automatisch ein Datenmodell aus den Quelldaten ab. Neue Datenquellen stellen automatisch eine Verbindung mit allen anderen Datenquellen her, anstatt explizit integriert werden zu müssen. Die Anzahl der Datenquellen kann unbegrenzt skaliert werden, ohne die Integrationskomplexität zu erhöhen.

Sicherheit

Sicherheit bietet Sicherheit vor absichtlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Sicherheitssäule.

  • CluedIn-Sicherheit gewährt Berechtigungen und steuert den Zugriff auf verschiedene Dienste über Azure RBAC, mit Azure Key Vault-Sicherheitsschlüsselsteuerung und Azure Monitor-Zugriffsnachverfolgung und -protokollierung.

  • Zusätzlich zu authentifizierten Benutzerkonten unterstützt CluedIn auch einmaliges Anmelden (Single Sign-On, SSO) und Identitätsframeworks. Anforderungen an die CluedIn-Anwendung verwenden verschlüsselte Zugriffstoken, die keine Korrelation mit der Benutzeridentität haben.

  • CluedIn verwaltet gespeicherte Datendarstellungen hinter mehreren Firewall- und Proxyebenen und authentifiziert sie mit einem Satz eindeutiger Schlüssel.

  • CluedIn speichert alle quellbasierten Daten mit 256-Bit-AES-Verschlüsselung, die stärker oder gleich der Verschlüsselungsebene der unterstützten Datenquellen ist.

  • Drosselung und CSRF-Verhinderung schützen den Datenzugriff.

DevOps

  • CluedIn verwendet CI/CD-Pipelines (Continuous Integration und Continuous Delivery) von Azure Pipelines , um Bereitstellungen und parallele Updates für die AKS-Umgebung zu verarbeiten.

  • CluedIn unterstützt Komponenten-, Integrations- und Funktionstests, um sicherzustellen, dass Daten wie erwartet transformiert werden. Virtualisierte Verarbeitungspipelines können im Arbeitsspeicher für Sandboxtests ausgeführt werden. Assertionen auf Produktionsniveau können beim Debuggen und Nachverfolgen von Datenproblemen helfen.

  • Für Test- und Produktionsumgebungen stellt CluedIn ein Helm-Paket-Manager-Diagramm bereit, um CluedIn schnell in einem Kubernetes-Cluster zu installieren. Vollständig skriptbasierte Datenbereitstellungsprozesse unterstützen Setup, Test und Rollout.

Kostenoptimierung

Bei der Kostenoptimierung geht es darum, nach Möglichkeiten zu suchen, unnötige Ausgaben zu reduzieren und die betriebliche Effizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule "Kostenoptimierung".

Die Preise für CluedIn sind offen und transparent. Die Preise finden Sie auf ihrer Website.

Azure-Größenanpassung und Starten einer Testversion

Sie können eine 7-tägige Testversion von CluedIn auf der Website starten, die Ihnen auch dabei helfen kann, Ihre Azure-Hostingkosten mit vordefinierten Azure-Schätzungen für Umgebungen unterschiedlicher Größe einzuschätzen.

Bereitstellen dieses Szenarios

  • Informationen zum Bereitstellen von CluedIn zu Entwicklungs- und Evaluierungszwecken mithilfe von Docker finden Sie unter CluedIn mit Docker.

  • Informationen zum schnellen Installieren von CluedIn in einem Kubernetes-Cluster finden Sie unter CluedIn mit Kubernetes. Das Helm-Diagramm installiert den CluedIn-Server, die Website und andere erforderliche Dienste wie Speicher und Warteschlangen.

Nächste Schritte