Scegliere una tecnologia di elaborazione batch in Azure
Le soluzioni Big Data spesso sono costituite da attività di elaborazione batch discrete che contribuiscono alla soluzione di elaborazione dei dati complessiva. È possibile usare l'elaborazione batch per i carichi di lavoro che non richiedono l'accesso immediato alle informazioni dettagliate. L'elaborazione batch può integrare i requisiti di elaborazione in tempo reale. È anche possibile usare l'elaborazione batch per bilanciare la complessità e ridurre i costi per l'implementazione complessiva.
Il requisito fondamentale dei motori di elaborazione batch consiste nell'aumentare le istanze dei calcoli per gestire un volume elevato di dati. A differenza dell'elaborazione in tempo reale, l'elaborazione batch ha latenze o il tempo tra l'inserimento dei dati e il calcolo di un risultato, di minuti o ore.
Scegliere una tecnologia per l'elaborazione batch
Microsoft offre diversi servizi che è possibile usare per eseguire l'elaborazione batch.
Microsoft Fabric
Microsoft Fabric è una piattaforma dati e analisi all-in-one per le organizzazioni. Si tratta di un'offerta software come servizio che semplifica il provisioning, la gestione e la governance di una soluzione di analisi end-to-end. Fabric gestisce lo spostamento, l'elaborazione, l'inserimento, la trasformazione e la creazione di report. Le funzionalità di infrastruttura usate per l'elaborazione batch includono progettazione dei dati, data warehouse, lakehouse ed elaborazione di Apache Spark. Azure Data Factory in Fabric supporta anche lakehouse. Per semplificare e accelerare lo sviluppo, è possibile abilitare copilot guidato dall'intelligenza artificiale.
Linguaggi: R, Python, Java, Scala e SQL
Sicurezza: rete virtuale gestita e controllo degli accessi in base al ruolo (RBAC) di OneLake
Archiviazione primaria: OneLake, con scelte rapide e opzioni di mirroring
Spark: un pool di avvio preidratato e un pool di Spark personalizzato con dimensioni predefinite dei nodi
Azure Synapse Analytics
Azure Synapse Analytics è un servizio di analisi aziendale che riunisce tecnologie SQL e Spark in un unico costrutto di un'area di lavoro. Azure Synapse Analytics semplifica la sicurezza, la governance e la gestione. Ogni area di lavoro include pipeline di dati integrate che è possibile usare per creare flussi di lavoro end-to-end. È anche possibile effettuare il provisioning di un pool SQL dedicato per l'analisi su larga scala, un endpoint SQL serverless che è possibile usare per eseguire direttamente query sul lake e un runtime Spark per l'elaborazione dei dati distribuita.
Linguaggi: Python, Java, Scala e SQL
Sicurezza: rete virtuale gestita, controllo degli accessi in base al ruolo e controllo di accesso e elenchi di controllo di accesso alle risorse di archiviazione in Azure Data Lake Storage
Archiviazione primaria: Data Lake Storage e si integra anche con altre origini
Spark: configurazione di Spark personalizzata con dimensioni predefinite dei nodi
Azure Databricks
Azure Databricks è una piattaforma di analisi basata su Spark. Offre funzionalità Spark avanzate e premium basate su Spark open source. Azure Databricks è un servizio Microsoft che si integra con il resto dei servizi di Azure. Offre configurazioni aggiuntive per le distribuzioni di cluster Spark. Unity Catalog semplifica la governance degli oggetti Spark di Azure Databricks.
Linguaggi: R, Python, Java, Scala e Spark SQL.
Sicurezza: autenticazione utente con MICROSOFT Entra ID.
Archiviazione primaria: integrazione predefinita con Archiviazione BLOB di Azure, Data Lake Storage, Azure Synapse Analytics e altri servizi. Per altre informazioni, vedere Origini dati.
Altri vantaggi includono:
Notebook basati sul Web per la collaborazione e l'esplorazione dei dati.
Tempi di avvio rapidi del cluster, terminazione automatica e scalabilità automatica.
Supporto per i cluster abilitati per GPU.
Criteri di scelta principali
Per scegliere la tecnologia per l'elaborazione batch, considerare le domande seguenti:
Si vuole un servizio gestito o si vogliono gestire i propri server?
Si desidera creare la logica di elaborazione batch in modo dichiarativo o imperativo?
Si esegue l'elaborazione batch in burst? In caso affermativo, prendere in considerazione le opzioni che consentono di terminare automaticamente un cluster o che dispongono di modelli di prezzi per ogni processo batch.
È necessario eseguire query sugli archivi dati relazionali durante l'elaborazione batch, ad esempio per cercare dati di riferimento? In caso affermativo, prendere in considerazione le opzioni che consentono di eseguire query su archivi relazionali esterni.
Matrice delle funzionalità
Le tabelle seguenti riepilogano le differenze principali nelle funzionalità tra i servizi.
Funzionalità generali
Funzionalità | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Software come un servizio | Sì1 | No | No |
Servizio gestito | No | Sì | Sì |
Archivio dati relazionale | Sì | Sì | Sì |
Modello di determinazione prezzi | Unità di capacità | Ora del pool SQL o del cluster | Unità di Azure Databricks 2 e ora del cluster |
[1] Capacità dell'infrastruttura assegnata.
[2] Un'unità di Azure Databricks è la funzionalità di elaborazione all'ora.
Altre funzionalità
Funzionalità | Fabric | Azure Synapse Analytics | Azure Databricks |
---|---|---|---|
Scalabilità automatica | No | No | Sì |
Granularità della scalabilità orizzontale | SKU per infrastruttura | Per cluster o per pool SQL | Per cluster |
Memorizzazione nella cache dei dati in memoria | No | Sì | Sì |
Query da archivi relazionali esterni | Sì | No | Sì |
Autenticazione | Microsoft Entra ID | SQL o Microsoft Entra ID | Microsoft Entra ID |
Controllo | Sì | Sì | Sì |
Sicurezza a livello di riga | Sì | Sì 1 | Sì |
Supporto dei firewall | Sì | Sì | Sì |
Maschera dati dinamica | Sì | Sì | Sì |
[1] Solo predicati filtro. Per altre informazioni, vedere Sicurezza a livello di riga.
Collaboratori
Questo articolo viene gestito da Microsoft. Originariamente è stato scritto dai seguenti contributori.
Autori principali:
- Zoiner Tejada | CEO e architetto
- Pratima Valavala | Principal Solutions Architect
Per visualizzare i profili LinkedIn non pubblici, accedere a LinkedIn.
Passaggi successivi
- Che cos'è Fabric?
- Guida alle decisioni relative all'infrastruttura
- Training: Introduzione ad Azure Synapse Analytics
- Che cos'è Azure HDInsight?
- Informazioni su Azure Databricks