Piattaforma dati moderna per piccole e medie imprese che usano Microsoft Fabric e Azure Databricks

Azure Data Lake
Azure Databricks
Microsoft Fabric
Dynamics 365
Azure Data Factory

idee per soluzione

Questo articolo descrive un'idea di soluzione. L'architetto cloud può usare queste linee guida per visualizzare i componenti principali per un'implementazione tipica di questa architettura. Usare questo articolo come punto di partenza per progettare una soluzione ben progettata in linea con i requisiti specifici del carico di lavoro.

Questo articolo descrive in che modo le piccole e medie imprese (PMI) possono combinare gli investimenti esistenti in Azure Databricks con una piattaforma dati SaaS (Software as a Service) completamente gestita, ad esempio Microsoft Fabric. Le piattaforme dati SaaS sono soluzioni di analisi dei dati end-to-end che si integrano facilmente con strumenti come Azure Machine Learning, Servizi di intelligenza artificiale di Azure, Power Platform, Microsoft Dynamics 365 e altre tecnologie Microsoft.

Architettura semplificata

Diagramma che illustra un'architettura semplificata per le piccole e medie imprese.

Scaricare un file di Visio di questa architettura.

L'interoperabilità tra Azure Databricks e Microsoft Fabric offre una soluzione affidabile che riduce al minimo la frammentazione dei dati migliorando al contempo le funzionalità analitiche.

Microsoft Fabric offre un data lake aperto e regolamentato, denominato OneLake, come risorsa di archiviazione SaaS sottostante. OneLake usa il formato Delta Parquet, che corrisponde allo stesso formato usato da Azure Databricks. Per accedere ai dati di Azure Databricks da OneLake, è possibile usare collegamenti OneLake in Fabric o eseguire il mirroring del catalogo Unity di Azure Databricks in Fabric. Questa integrazione consente di aumentare i sistemi di analisi di Azure Databricks con intelligenza artificiale generativa oltre a OneLake.

È anche possibile usare la modalità Direct Lake in Power BI nei dati di Azure Databricks in OneLake. La modalità Direct Lake semplifica il livello di gestione e migliora le prestazioni del report. OneLake supporta le API per Azure Data Lake Storage e archivia tutti i dati tabulari in formato Delta Parquet.

Di conseguenza, i notebook di Azure Databricks possono usare endpoint OneLake per accedere ai dati archiviati. L'esperienza è identica all'accesso ai dati tramite un warehouse di Microsoft Fabric. Questa integrazione consente di usare Fabric o Azure Databricks senza modificare i dati.

Architettura

Diagramma che mostra un'architettura SMB.

Scaricare un file di Visio di questa architettura.

Flusso

  1. Azure Data Factory: Usare pipeline di Azure Data Factory esistenti per inserire dati strutturati e non strutturati dai sistemi di origine e inserirli nel data lake esistente.

  2. Microsoft Dynamics 365: È possibile usare le origini dati di Microsoft Dynamics 365 per creare dashboard bi centralizzati in set di dati aumentati usando Collegamento ad Azure Synapse o Collegamento a Microsoft Fabric. Riportare i dati fusi ed elaborati in Microsoft Dynamics 365 e Power BI per un'ulteriore analisi.

  3. L'inserimento di dati in streaming: i dati di streaming possono essere inseriti tramite Hub eventi di Azure o hub IoT di Azure, a seconda dei protocolli usati per inviare questi messaggi.

  4. percorso ad accesso sporadico: È possibile inserire i dati di streaming nel data lake centralizzato per ulteriori analisi, archiviazione e creazione di report usando Azure Databricks. Questi dati possono quindi essere unificati con altre origini dati per l'analisi batch.

  5. percorso critico: è possibile analizzare dati di streaming in tempo reale e in tempo reale tramite Microsoft Fabric Real-Time Intelligence.

  6. Azure Databricks: I notebook di Azure Databricks esistenti possono quindi essere usati per eseguire la pulizia, l'unificazione e le analisi dei dati come di consueto. Prendere in considerazione l'uso dell'architettura medallion, ad esempio:

    • Bronze, che contiene dati non elaborati.

    • Silver, che contiene dati puliti e filtrati.

    • Gold, che archivia i dati aggregati utili per l'analisi aziendale.

  7. Dati golden o data warehouse: Per i dati di riferimento o un data warehouse, continuare a usare Azure Databricks SQL o creare un mirroring del catalogo Unity di Azure Databricks in Microsoft Fabric. Creare facilmente dashboard basati sull'analisi serverless dei dati nei lakehouse di Fabric senza alcuna configurazione necessaria usando i modelli semantici di Power BI creati automaticamente per tutti i lakehouse di Fabric. Il data warehouse di Fabric può essere usato anche come livello d'oro se i requisiti analitici richiedono un calcolo più rapido.

Gli strumenti usati per la governance, la collaborazione, la sicurezza, le prestazioni e il monitoraggio dei costi includono:

  • Individuare e gestire

    • Microsoft Purview offre servizi di individuazione dei dati, classificazione dei dati sensibili e informazioni dettagliate sulla governance nel patrimonio di dati.

    • Unity Catalog offre funzionalità centralizzate di controllo di accesso, controllo, derivazione e individuazione dei dati nelle aree di lavoro di Azure Databricks.

  • Azure DevOps offre l'integrazione continua e la distribuzione continua e altre funzionalità di controllo della versione integrate.

  • Azure Key Vault gestisce segreti, chiavi e certificati.

  • Microsoft Entra ID fornisce l'accesso Single Sign-On per gli utenti di Azure Databricks. Azure Databricks supporta il provisioning utenti automatizzato con Microsoft Entra ID per:

    • Creare nuovi utenti.

    • Assegnare a ogni utente un livello di accesso.

    • Rimuovere gli utenti e negare loro l'accesso.

  • Monitoraggio di Azure raccoglie e analizza i dati di telemetria delle risorse di Azure. Questo servizio ottimizza le prestazioni e l'affidabilità identificando in modo proattivo i problemi.

  • Gestione costi Microsoft offre servizi di governance finanziaria per i carichi di lavoro di Azure.

Componenti

  • Data Lake Storage è un servizio di archiviazione dati scalabile progettato per dati strutturati e non strutturati. In questa architettura Data Lake Storage funge da infrastruttura sottostante per Delta Lake. Si tratta del livello di archiviazione principale per i dati non elaborati ed elaborati, che consente un efficiente inserimento, archiviazione e recupero dei dati per carichi di lavoro di analisi e Machine Learning.

  • azure Data Factory è un servizio di integrazione dei dati basato sul cloud che orchestra e automatizza lo spostamento e la trasformazione dei dati. Azure Data Factory viene usato per creare, pianificare e orchestrare pipeline di dati che spostano e trasformano i dati in vari archivi dati e servizi. Consente di garantire un flusso di dati e un'integrazione semplici.

  • Hub eventi è un servizio di inserimento dati in tempo reale in grado di elaborare milioni di eventi al secondo da qualsiasi origine. In questa architettura Hub eventi acquisisce e trasmette grandi volumi di dati da varie origini per abilitare l'analisi in tempo reale e l'elaborazione guidata dagli eventi.

  • l'hub IoT di Azure è un servizio gestito che migliora la sicurezza e la comunicazione affidabile tra i dispositivi IoT e il cloud. L'hub IoT di Azure facilita l'inserimento, l'elaborazione e l'analisi dei dati di telemetria dai dispositivi IoT per fornire informazioni dettagliate in tempo reale e abilitare il monitoraggio remoto.

  • Microsoft Dataverse è una piattaforma dati scalabile che le organizzazioni possono usare per archiviare e gestire in modo sicuro i dati usati da applicazioni aziendali. In questa architettura viene fatto riferimento come origine dati potenziale.

    • collegamento ad Azure Synapse connette le applicazioni Dynamics con Azure Synapse Analytics o Data Lake Storage. In questa architettura viene usata per copiare i dati quasi in tempo reale da Dataverse a Data Lake Storage.

    • Collegamento a Microsoft Fabric connette le applicazioni Dynamics a Microsoft Fabric. In questa architettura viene usata per replicare i dati da Dataverse a Microsoft Fabric quasi in tempo reale.

  • azure Databricks è una piattaforma di analisi basata su Apache Spark. Azure Databricks viene usato per l'elaborazione, l'apprendimento automatico e le attività di progettazione dei dati di Big Data. Questa piattaforma offre un'area di lavoro collaborativa per data scientist e ingegneri.

    • Delta Lake è un livello di archiviazione open source che porta le transazioni ACID ai carichi di lavoro apache Spark e Big Data. Delta Lake viene usato per fornire questa funzionalità all'archiviazione data lake.

    • azure Databricks SQL è un servizio di analisi basato su SQL che consente agli utenti di eseguire query SQL sui dati archiviati in Azure Databricks. In questa architettura, Azure Databricks SQL offre un'interfaccia SQL potente per eseguire query e analizzare i dati, che consente l'analisi interattiva e ad hoc.

    • intelligenza artificiale e Machine Learning includono una gamma di tecnologie e servizi che consentono lo sviluppo, la distribuzione e la gestione dei modelli di Machine Learning. I servizi di intelligenza artificiale e Machine Learning vengono usati per compilare, eseguire il training e distribuire modelli predittivi. Questa funzionalità consente di prendere decisioni basate sui dati.

    • Catalogo Unity è una soluzione di governance dei dati che offre funzionalità centralizzate di controllo degli accessi, controllo, derivazione e individuazione dei dati nelle aree di lavoro di Databricks. Unity Catalog consente di garantire la governance e la sicurezza dei dati fornendo controlli di accesso, controllo e rilevamento della derivazione dei dati con granularità fine.

  • 'architettura di medallion lakehouse è un modello di architettura dei dati che organizza i dati in livelli bronze, silver e gold per un'efficiente elaborazione e analisi dei dati. Questo modello di architettura viene implementato qui usando Data Lake Storage, Delta Lake e Azure Databricks, che consente l'elaborazione e l'analisi dei dati scalabili ed efficienti.

  • Microsoft Fabric è una piattaforma dati completa che integra vari servizi dati e strumenti per offrire un'esperienza di analisi e gestione dei dati senza problemi. Microsoft Fabric si connette e integra i dati da più origini, che consentono l'analisi completa dei dati e le informazioni dettagliate nell'organizzazione.

    • Real-Time intelligence è una funzionalità di elaborazione dati che consente alle organizzazioni di inserire, elaborare e analizzare i dati in tempo reale. Real-Time Intelligence elabora i dati in streaming da varie origini. Fornisce informazioni dettagliate in tempo reale e consente azioni automatizzate basate su modelli di dati.

    • collegamenti a OneLake creare un collegamento sul posto tra OneLake e un'altra origine dati. I collegamenti OneLake vengono usati per semplificare l'accesso ai dati e la gestione, che offre una visualizzazione unificata dei dati nell'intera organizzazione.

  • Power BI è un servizio di analisi aziendale che offre visualizzazioni interattive e funzionalità di business intelligence. Ha un'interfaccia semplice per gli utenti per creare report e dashboard interattivi personalizzati. Questi strumenti consentono la visualizzazione dei dati e le informazioni dettagliate per gli utenti aziendali.

  • Microsoft Purview è un servizio unificato di governance dei dati che consente alle organizzazioni di gestire e gestire i dati in varie origini. Microsoft Purview offre funzionalità di catalogo dati, rilevamento della derivazione e governance dei dati. Queste funzionalità consentono di garantire la conformità e la sicurezza dei dati all'interno dell'organizzazione.

  • microsoft Entra ID è una soluzione di gestione delle identità e degli accessi basata sul cloud che consente di garantire accessi sicuri e l'accesso alle risorse come Microsoft 365, Azure e altre applicazioni SaaS. In questa architettura, Microsoft Entra ID offre una gestione sicura delle identità e degli accessi per le risorse di Azure. Questa funzionalità consente accessi sicuri, gestisce le identità utente e garantisce che l'accesso ai dati e alle risorse sia autorizzato.

  • Microsoft Cost Management è una suite di strumenti FinOps che le organizzazioni possono usare per analizzare, monitorare e ottimizzare i costi di Microsoft Cloud. Questi strumenti forniscono la governance finanziaria sulle risorse di Azure in questa architettura.

  • Key Vault è un servizio cloud che archivia e gestisce segreti, ad esempio chiavi API, password, certificati e chiavi crittografiche. Questo servizio consente agli utenti e alle applicazioni di accedere a questi segreti in modo sicuro. Quando si archiviano le chiavi e i segreti in Key Vault, è possibile gestirli in un'unica posizione. In questa architettura Azure Databricks può recuperare segreti da Key Vault per autenticare e accedere a Data Lake Storage. Questo processo consente di garantire un'integrazione sicura e trasparente tra questi servizi.

  • monitoraggio di Azure è un servizio di monitoraggio completo che offre l'osservabilità completa dello stack per applicazioni, infrastruttura e reti. Monitoraggio di Azure consente agli utenti di raccogliere, analizzare e agire sui dati di telemetria dai propri ambienti Azure e locali per identificare in modo proattivo i problemi e ottimizzare le prestazioni e l'affidabilità.

  • azure DevOps è un set di strumenti di sviluppo che supportano una cultura collaborativa e processi semplificati. Questi strumenti consentono agli sviluppatori, ai project manager e ai collaboratori di sviluppare software in modo più efficiente. Azure DevOps offre funzionalità integrate come Azure Boards, Azure Repos, Azure Pipelines, Piani di test di Azure e Azure Artifacts. È possibile accedere a queste funzionalità tramite un Web browser o un client dell'ambiente di sviluppo integrato.

  • GitHub è un servizio di hosting di repository Git basato sul cloud che semplifica il controllo della versione e la collaborazione per gli sviluppatori. Consente a singoli utenti e team di archiviare e gestire il codice, tenere traccia delle modifiche e collaborare ai progetti usando Git. L'interfaccia GitHub intuitiva rende Git accessibile ai coder di tutti i livelli di competenza. È possibile usare Azure DevOps e GitHub insieme per implementare le procedure DevOps. Queste procedure applicano l'automazione e la conformità nelle pipeline di sviluppo e distribuzione del carico di lavoro per Azure Data Factory, Azure Databricks e Microsoft Fabric.

Alternative

Alternative di servizio all'interno di questa architettura

  • di inserimento batch

  • di inserimento di Microsoft Dynamics 365

  • di inserimento dei dati in streaming

    • La decisione tra Azure IoT e Hub eventi dipende dall'origine dei dati di streaming, dal fatto che sia necessaria la clonazione e la comunicazione bidirezionale con i dispositivi di report e i protocolli necessari. Per altre informazioni, vedere Confrontare hub IoT e Hub eventi.
  • Lakehouse

    • Microsoft Fabric Lakehouse è una piattaforma unificata per l'architettura dei dati per la gestione e l'analisi di dati strutturati e non strutturati in un formato aperto che usa principalmente file Delta Parquet. Supporta due tipi di archiviazione. Questi tipi di archiviazione sono tabelle gestite come CSV, Parquet o Delta e file non gestiti. Le tabelle gestite vengono riconosciute automaticamente. I file non gestiti richiedono la creazione esplicita della tabella. La piattaforma abilita le trasformazioni dei dati tramite endpoint Spark o SQL e si integra perfettamente con altri componenti di Microsoft Fabric. Questa perfetta integrazione consente la condivisione dei dati senza duplicazione. Questo concetto è allineato all'architettura comune delle medaglie che viene usata nei carichi di lavoro analitici. Per altre informazioni, vedere Lakehouse in Microsoft Fabric.
  • di analisi in tempo reale

    • azure Databricks

      • Se si dispone di una soluzione Azure Databricks esistente, è possibile continuare a usare Structured Streaming per l'analisi in tempo reale. Per altre informazioni, vedere Streaming in Databricks.
    • Microsoft Fabric

      • Se in passato sono stati usati altri servizi di Azure per l'analisi in tempo reale o non si dispone di una soluzione di analisi in tempo reale esistente, vedere Fabric Real-time Intelligence vs Azure Streaming Solutions.

      • Lo streaming strutturato di Microsoft Fabric usa Spark Structured Streaming per elaborare e inserire flussi di dati live come tabelle aggiunte continuamente. Lo streaming strutturato supporta varie origini file, ad esempio CSV, JSON, ORC, Parquet e servizi di messaggistica come Kafka e Hub eventi. Questo approccio garantisce l'elaborazione di flussi scalabili e a tolleranza di errore, che ottimizza gli ambienti di produzione a velocità effettiva elevata. Per altre informazioni, vedere Microsoft Fabric Spark Structured Streaming.

  • di ingegneria dei dati

  • data warehouse o di livello oro

  • data science

    • Usare Microsoft Fabric o Azure Databricks per le funzionalità di data science. Per altre informazioni sull'offerta di data science di Microsoft Fabric, vedere Che cos'è l'analisi scientifica dei dati in Microsoft Fabric?. Per altre informazioni sull'offerta Azure Databricks, vedere intelligenza artificiale e Machine Learning in Databricks.

    • Microsoft Fabric Data Science differisce da Machine Learning. Machine Learning offre una soluzione completa per la gestione dei flussi di lavoro e la distribuzione di modelli di Machine Learning. L'analisi scientifica dei dati di Microsoft Fabric è personalizzata in base a uno scenario di analisi e creazione di report.

  • di Power BI

    • Azure Databricks, integrato con Power BI, consente l'elaborazione e la visualizzazione dei dati senza problemi. Per altre informazioni, vedere Connettere Power BI ad Azure Databricks.

    • Eseguendo il mirroring del catalogo Unity di Azure Databricks in Fabric, è possibile accedere ai dati gestiti da Azure Databricks Unity Catalog direttamente dal carico di lavoro Fabric. Per altre informazioni, vedere Mirroring di Azure Databricks Unity Catalog.

    • Creare un collegamento da Data Lake Storage con Delta Lake in microsoft Fabric One Lake. Per altre informazioni, vedere Integrare Databricks Unity Catalog con OneLake. È possibile eseguire query su questi dati da Power BI usando la modalità Direct Lake senza copiare dati nel servizio Power BI. Per altre informazioni, vedere Modalità Direct Lake.

Dettagli dello scenario

Le piccole e medie imprese con un ambiente Azure Databricks esistente e, facoltativamente, un'architettura lakehouse possono trarre vantaggio da questo modello. Attualmente usano uno strumento di estrazione, trasformazione e caricamento di Azure, ad esempio Azure Data Factory e gestire i report in Power BI. Tuttavia, potrebbero anche avere più origini dati che usano formati di dati proprietari diversi nello stesso data lake, che comporta la duplicazione dei dati e le preoccupazioni relative al blocco del fornitore. Questa situazione può complicare la gestione dei dati e aumentare la dipendenza da fornitori specifici. Potrebbero anche richiedere up-tola creazione di report quasi in tempo reale per il processo decisionale e l'adozione di strumenti di intelligenza artificiale nel proprio ambiente.

Microsoft Fabric è una base SaaS aperta, unificata e regolamentata che è possibile usare per:

  • Usare OneLake per archiviare, gestire e analizzare i dati in un'unica posizione senza preoccuparsi del blocco del fornitore.

  • Innovare più velocemente con le integrazioni con le app di Microsoft 365.

  • Ottenere informazioni rapide con i vantaggi della modalità Direct Lake di Power BI.

  • Sfruttare i vantaggi offerti dai Copilot in ogni esperienza di Microsoft Fabric.

  • Accelerare l'analisi sviluppando modelli di intelligenza artificiale su una singola base.

  • Mantenere i dati sul posto senza spostamento, riducendo così il tempo necessario per fornire valore ai data scientist.

Contributori

Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai collaboratori seguenti.

Autori principali:

Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.

Passaggi successivi

  • data lake di