Integrazione di Microsoft Purview e CluedIn per la gestione dei dati master (MDM)
Questa architettura cluedIn fornisce alle aziende metriche sulla qualità dei dati inseriti, rilevando in modo intelligente i dati sporchi e preparandoli per la pulizia da parte di ingegneri dei dati e amministratori dei dati. Gli algoritmi di Machine Learning per la logica fuzzy proprietari aiutano gli utenti aziendali e i curatori a etichettare i dati e a insegnare al sistema a identificare, correggere e prevenire problemi di qualità dei dati nel tempo.
Architettura
Flusso
La soluzione CluedIn è costituita da vari livelli funzionali eseguiti in un cluster Kubernetes in servizio Azure Kubernetes (servizio Azure Kubernetes). Una combinazione di applicazioni di microservizi .NET Core gestisce funzioni distinte, ad esempio l'inserimento dei dati, l'elaborazione dei dati in streaming, l'accodamento e l'interfaccia utente.
Il livello di ricerca per indicizzazione CluedIn inserisce dati da origini cloud dei clienti come Azure SQL DB, Azure Cosmos DB, PostgreSQL e Salesforce tramite connettori Azure Data Factory.
CluedIn accetta anche l'input da sistemi accessibili locali come SAP, Oracle, IBM e Hadoop oppure può usare agenti locali per eseguire la ricerca per indicizzazione di dati non pubblici.
Il bus di servizio aziendale si connette tramite le porte 5672 e 15672 per gli endpoint di amministrazione. I crawler inviano dati al bus e il livello di elaborazione utilizza i dati del bus sulla porta 5672.
Il livello del log delle transazioni ottiene i risultati dal livello di elaborazione.
Nel livello di persistenza, i database utilizzano i dati del log delle transazioni e lo salvano in modo permanente per garantire la coerenza finale tra i diversi archivi dati. Tutti gli archivi vengono eseguiti in modalità a disponibilità elevata.
A differenza della virtualizzazione dei dati, il livello di persistenza CluedIn inserisce parti dei dati di origine e mantiene la versione più fedele dei dati e la relativa struttura. Questa alta fedeltà significa che CluedIn Data Fabric può soddisfare le richieste aziendali di dati in qualsiasi formato o modello.
Il livello di astrazione dei dati si connette ai diversi archivi dati tramite le porte per ogni archivio.
L'accesso ai dati avviene tramite chiamate GraphQL, REST e WebSocket sulla porta 443. GraphQL e REST usano un modello pull e WebSocket usa un modello push.
CluedIn protegge l'accesso ai dati tramite la limitazione delle richieste e la prevenzione della falsificazione delle richieste tra siti (CSRF).
L'applicazione Web CluedIn ASP.NET Core comunica tramite una combinazione di chiamate REST e GraphQL sulla porta 443.
Tutte le comunicazioni dal browser all'applicazione usano un set di definizioni in ingresso, che richiedono un solo indirizzo IP pubblico. In un ambiente di produzione, tutte le comunicazioni si verificano tramite SSL (Secure Socket Layer).
L'applicazione CluedIn fornisce dati puliti ed elaborati a servizi di analisi come Power BI e Azure Synapse Analytics per la generazione di informazioni dettagliate. Il sistema esegue il backup e archivia tutti i dati nei database SQL o Redis.
Componenti
CluedIn viene eseguito in servizio Azure Kubernetes ,un servizio Kubernetes a disponibilità elevata, sicuro e completamente gestito per la distribuzione e la gestione di applicazioni in contenitori. Il servizio Azure Kubernetes offre Kubernetes serverless, ci/CD integrato e sicurezza e governance di livello aziendale.
CluedIn usa e supporta molte origini e servizi di database, tra cui:
- Azure SQL Database, un servizio di database cloud relazionale gestito sempre aggiornato e in grado di ridimensionare automaticamente le risorse su richiesta.
- Istanza gestita di SQL di Azure, per un'ampia compatibilità del motore SQL Server con le applicazioni SQL Server esistenti. Istanza gestita di SQL offre infrastrutture di database locali con vantaggi cloud di Azure, ad esempio scalabilità elastica, gestione unificata e un modello di fatturazione cloud.
- Azure Cosmos DB, un database serverless NoSQL completamente gestito e non relazionale per lo sviluppo di app moderne.
- Azure Data Lake, un servizio di analisi e archiviazione dati scalabile.
- Azure Data Factory, una soluzione di integrazione dei dati serverless completamente gestita per l'inserimento, la preparazione e la trasformazione dei dati su larga scala. CluedIn usa oltre 90 connettori predefiniti di Data Factory per acquisire dati da origini come Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow e tutti i servizi dati di Azure.
CluedIn fornisce dati elaborati e regolamentati a molte app e servizi di analisi, tra cui:
- Azure Databricks, un servizio di analisi basato su Apache Spark rapido, semplice e collaborativo.
- Azure Synapse Analytics, un servizio di analisi senza limiti che riunisce data warehousing aziendale e analisi dei Big Data.
- Log Analytics, uno strumento portale di Azure per modificare, eseguire e analizzare le query dai dati di log di Monitoraggio di Azure.
- Servizi cognitivi di Azure, una famiglia completa di servizi di intelligenza artificiale e API cognitive per la creazione di app intelligenti.
- Power BI, un servizio di analisi aziendale Microsoft che combina visualizzazioni interattive e business intelligence con un'interfaccia di creazione di report facile da usare.
Dettagli dello scenario
Le aziende aziendali moderne basano molti processi e progetti sui dati, ma i dati non elaborati devono essere preparati per il consumo. I casi d'uso dei dati dall'analisi avanzata all'apprendimento automatico richiedono tutti processi di preparazione dei dati e attenzione simili.
- I progetti di dati iniziano con l'individuazione dei dati, per determinare dove sono i dati e quali sistemi usano.
- L'integrazione dei dati riunisce quindi più origini dati in un set di dati unificato o connesso.
- Il passaggio successivo consiste nel normalizzare, standardizzare, armonizzare e pulire i dati in modo che i computer possano elaborarli in modo uniforme, coerente e ad alta fedeltà.
- Infine, i dati devono essere resi facilmente e facilmente disponibili per le esigenze aziendali.
Durante questi processi, la governance deve garantire il controllo dei dati e la protezione della privacy con proprietà chiara, tracciabilità completa e un audit trail delle origini, dell'elaborazione e dell'uso dei dati.
La piattaforma CluedIn incapsula questi processi e pilastri di gestione dei dati in una soluzione master Gestione dati (MDM) coerente e coerente. CluedIn usa una tecnica di integrazione dei dati denominata connettività finale che produce risultati migliori rispetto ai modelli ELT (Extract, Transform, Load) o Extract, Load, Transform (ELT) classici. La connettività finale usa query GraphQL per fondere facilmente i dati da molte origini dati siloed.
Con la connettività finale, i dati non vengono uniti o combinati all'ingresso o al caricamento in altri sistemi. CluedIn carica invece i dati così come sono e contrassegna i record usando i metadati. Infine, i record con gli stessi tag uniscono o creano una relazione nel grafico.
Questa sofisticata tecnica di unione dei dati costituisce una base per soluzioni basate sui dati. CluedIn Data Fabric integra i dati in una pipeline che pulisce, prepara, modella, governa, arricchisce, deduplicazione e cataloga i dati per renderli facilmente disponibili e accessibili per gli usi aziendali.
CluedIn fornisce alle aziende metriche sulla qualità dei dati inseriti, rilevando in modo intelligente i dati sporchi e preparandoli per la pulizia da parte di ingegneri dei dati e amministratori dei dati. Gli algoritmi di Machine Learning per la logica fuzzy proprietari aiutano gli utenti aziendali e i curatori a etichettare i dati e a insegnare al sistema a identificare, correggere e prevenire problemi di qualità dei dati nel tempo.
CluedIn include la governance di livello aziendale, per garantire che sia possibile usare i dati in modo sicuro e sicuro. CluedIn può trasmettere i dati puliti e regolamentati direttamente a sistemi di analisi come Power BI, Azure Databricks, Azure Synapse Analytics o Servizi cognitivi di Azure per renderli facilmente disponibili per il resto dell'azienda. Il supporto nativo per la scalabilità automatica usa la potenza di Azure per fornire un ambiente scalabile per i carichi di lavoro di dati più grandi.
Casi d'uso potenziali
Creazione di una singola visualizzazione dei dati
- Grazie alla modellazione semantica di CluedIn, la creazione di una singola visualizzazione dei dati master risulta più semplice rispetto agli approcci tradizionali. I clienti di CluedIn usano CluedIn per creare una visualizzazione connessa, cronologica e di alta qualità dei dati aziendali più critici. CluedIn non supporta solo la masterizzazione di domini master classici come Persone, aziende, fornitori e prodotti, ma supporta un numero infinito di domini diversi, nonché domini non strutturati come file, posta elettronica, eventi e altro ancora. Se è necessario un repository centralizzato di dati master puliti, arricchiti, regolamentati, controllati dalla qualità e catalogati, CluedIn è ideale per i casi d'uso.
Un'infrastruttura dati
- CluedIn è un cool vendor di Gartner nel 2020, grazie alla sua capacità di orchestrare i dati tra anni 10, 100 e 1000 di origini dati diverse e complesse in un hub dati unificato. Se è necessario gestire facilmente i dati da molte origini dati diverse, CluedIn può essere usato come infrastruttura dati per ottenere questo risultato. In questo modo è possibile fornire un'infrastruttura di streaming per i dati che può anche pulire e gestire in modo proattivo i dati mentre vengono trasmessi ai consumer downstream.
Unione e collegamento sofisticati dei dati master
- L'approccio di modellazione dei dati univoco di CluedIn usa un database a grafo, che consente di unire e collegare dati complessi con semplicità. A differenza degli approcci tradizionali, per risolvere questa sfida, CluedIn aggiunge più machine learning e analisi del grafo per unire, confrontare e collegare record con una precisione elevata.
Considerazioni
Queste considerazioni implementano i pilastri di Azure Well-Architected Framework, un set di principi guida che possono essere usati per migliorare la qualità di un carico di lavoro. Per altre informazioni, vedere Microsoft Azure Well-Architected Framework.
Affidabilità
L'affidabilità garantisce che l'applicazione possa soddisfare gli impegni assunti con i clienti. Per altre informazioni, vedere Panoramica del pilastro dell'affidabilità.
CluedIn accetta i backup giornalieri automatici del database e li mantiene nell'archiviazione a lungo termine per 30 giorni per impostazione predefinita. L'intera piattaforma è basata su stack ridondanti e a tolleranza di errore che mantengono i backup per tutti i sottosistemi. I sistemi di monitoraggio 24 ore su 24 assicurano che i servizi siano il più possibile intasati. CluedIn segue le procedure standard del settore per la ridondanza dell'infrastruttura.
CluedIn visualizza e archivia solo una rappresentazione dei dati, non la versione originale. Se CluedIn rileva un'intrusione distruttiva nei dati, può cancellare temporaneamente i dati CluedIn dai server. Quando l'intrusione si attenua, CluedIn recupera i dati per tornare allo stato originale.
Tutti gli archivi dati vengono eseguiti in modalità a disponibilità elevata.
Scalabilità
CluedIn viene eseguito in contenitori Docker e usa Kubernetes per ospitare e orchestrare le diverse parti dell'applicazione. Questa architettura significa che CluedIn funziona bene in ambienti elastici e può essere ridimensionata automaticamente in base alle dimensioni e all'infrastruttura necessarie.
Il supporto nativo per la scalabilità automatica applica la potenza di Azure per fornire un ambiente scalabile per i carichi di lavoro dati più grandi.
La modellazione di grafi senza schema deduce automaticamente un modello di dati dai dati di origine. Le nuove origini dati si connettono automaticamente a tutte le altre origini dati, anziché essere integrate in modo esplicito. Il numero di origini dati può essere ridimensionato all'infinito senza aumentare la complessità dell'integrazione.
Sicurezza
La sicurezza fornisce garanzie contro attacchi intenzionali e l'uso improprio di dati e sistemi preziosi. Per altre informazioni, vedere Panoramica del pilastro della sicurezza.
La sicurezza cluedIn concede autorizzazioni e controlla l'accesso a diversi servizi tramite controllo degli accessi in base al ruolo di Azure, con il controllo delle chiavi di sicurezza di Azure Key Vault e il rilevamento e la registrazione degli accessi di Monitoraggio di Azure.
Oltre agli account utente autenticati, CluedIn supporta anche l'accesso Single Sign-On (SSO) e i framework di identità. Le richieste all'applicazione CluedIn usano token di accesso crittografati che non hanno alcuna correlazione con l'identità dell'utente.
CluedIn gestisce le rappresentazioni dei dati archiviate dietro più livelli firewall e proxy e le autentica con un set di chiavi univoche.
CluedIn archivia tutti i dati di origine con crittografia AES a 256 bit, che è più avanzata o uguale al livello di crittografia delle origini dati supportate.
La limitazione e la prevenzione csrf proteggono l'accesso ai dati.
DevOps
CluedIn usa l'integrazione continua di Azure Pipelines e le pipeline di recapito continuo (CI/CD) per gestire le distribuzioni e gli aggiornamenti in sequenza nell'ambiente del servizio Azure Kubernetes.
CluedIn supporta test di unità, integrazione e funzionalità per garantire che i dati vengano trasformati come previsto. Le pipeline di elaborazione virtualizzate possono essere eseguite in memoria per il test sandbox. Le asserzioni di livello di produzione consentono di eseguire il debug e tenere traccia dei problemi relativi ai dati.
Per gli ambienti di test e produzione, CluedIn fornisce un grafico di Gestione pacchetti Helm per installare rapidamente CluedIn in un cluster Kubernetes. I processi di distribuzione dei dati con script completi supportano l'installazione, il test e l'implementazione.
Ottimizzazione dei costi
L'ottimizzazione dei costi consiste nell'esaminare i modi per ridurre le spese non necessarie e migliorare l'efficienza operativa. Per altre informazioni, vedere Panoramica del pilastro di ottimizzazione dei costi.
I prezzi per CluedIn sono aperti e trasparenti. È possibile visualizzare i prezzi sul proprio sito Web.
Ridimensionamento di Azure e avvio di una versione di valutazione
È possibile avviare una versione di valutazione di 7 giorni di CluedIn nel proprio sito Web, che consente anche di definire l'ambito dei costi di hosting di Azure con stime predefinite di Azure per ambienti di dimensioni diverse.
Distribuire questo scenario
Per distribuire CluedIn a scopo di sviluppo e valutazione con Docker, vedere CluedIn con Docker.
Per installare rapidamente CluedIn in un cluster Kubernetes, vedere CluedIn con Kubernetes. Il grafico Helm installa il server CluedIn, il sito Web e altri servizi necessari, ad esempio l'archiviazione e le code.
Passaggi successivi
- Per altre informazioni su CluedIn, vedere il sito Web CluedIn.
- Per la documentazione di CluedIn, vedere la documentazione di CluedIn.